RL0:基础数学知识
RL0: 基础数学知识
1.无偏估计
在统计学中,无偏估计指的是一个估计量的期望值等于其真实值,即 E[θ̂] = θ 在强化学习的状态估计里面,无偏估计即为我们估计到的V(s)与其真实值相同的情况
2.梯度
recall:对于一个多元函数,其梯度是一个向量,为该函数对于每一个变量求偏导数的结果,即为 $\nabla f(x_1, x_2, \dots, x_n) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)$
3.悔值
对于一个强化学习进行的若干动作来说,其(累计)的悔值即为:$R(T) = \sum_{t=1}^{T} \left( \text{损失}(\text{最优动作}) - \text{损失}(\text{选择的动作}) \right)$ 也就是说,即为累计的你的决策和理想的最优动作的差距,也就是你在过程中犯的“错误”的累计
4.(对数)极大似然估计:
首先回忆一下极大似然估计(MLE): 也就是说,对于某个与参数组合θ有关的概率分布,采样到了一组数值x1, x2, …, xn,那么,我们的目标是找到使得观测到这组xi的概率最大的参数θ,也就是说确定观测到这组数据最合理的参数θ。对数极大似然估计也就是在碰到连乘的形式的时候,将其转化为对数方便求导计算
5.张量
张量是对于向量 矩阵的一个扩充定义;一维张量是向量,二维是矩阵,张量可以表示三位及以上的数据。
RL0:基础数学知识
http://example.com/2025/08/06/RL0/