RL0：基础数学知识

1.无偏估计

在统计学中，无偏估计指的是一个估计量的期望值等于其真实值，即 E[θ̂] = θ 在强化学习的状态估计里面，无偏估计即为我们估计到的V(s)与其真实值相同的情况

2.梯度

recall：对于一个多元函数，其梯度是一个向量，为该函数对于每一个变量求偏导数的结果，即为 $\nabla f(x_1, x_2, \dots, x_n) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)$

3.悔值

对于一个强化学习进行的若干动作来说，其（累计）的悔值即为：$R(T) = \sum_{t=1}^{T} \left( \text{损失}(\text{最优动作}) - \text{损失}(\text{选择的动作}) \right)$ 也就是说，即为累计的你的决策和理想的最优动作的差距，也就是你在过程中犯的“错误”的累计

4.（对数）极大似然估计：

首先回忆一下极大似然估计（MLE）： alt text 也就是说，对于某个与参数组合θ有关的概率分布，采样到了一组数值x₁, x₂, …, x_n，那么，我们的目标是找到使得观测到这组x_i的概率最大的参数θ，也就是说确定观测到这组数据最合理的参数θ。对数极大似然估计也就是在碰到连乘的形式的时候，将其转化为对数方便求导计算

5.张量

张量是对于向量矩阵的一个扩充定义；一维张量是向量，二维是矩阵，张量可以表示三位及以上的数据。

强化学习

RL0：基础数学知识

http://example.com/2025/08/06/RL0/

作者

zrw

发布于

2025年8月6日

许可协议

RL2：Value estimation 上一篇

RL1：强化学习基本概念，马尔科夫决策过程，DP 下一篇

RL0：基础数学知识

RL0： 基础数学知识

1.无偏估计

2.梯度

3.悔值

4.（对数）极大似然估计：

5.张量

RL0：基础数学知识