RL0
RL0: 基础数学知识
1.无偏估计
在统计学中,无偏估计指的是一个估计量的期望值等于其真实值,即 E[θ̂] = θ 在强化学习的状态估计里面,无偏估计即为我们估计到的V(s)与其真实值相同的情况
2.梯度
recall:对于一个多元函数,其梯度是一个向量,为该函数对于每一个变量求偏导数的结果,即为 $\nabla f(x_1, x_2, \dots, x_n) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)$
RL0
http://example.com/2025/08/06/RL0/