RL0

RL0: 基础数学知识

1.无偏估计

在统计学中,无偏估计指的是一个估计量的期望值等于其真实值,即 E[θ̂] = θ 在强化学习的状态估计里面,无偏估计即为我们估计到的V(s)与其真实值相同的情况

2.梯度

recall:对于一个多元函数,其梯度是一个向量,为该函数对于每一个变量求偏导数的结果,即为 $\nabla f(x_1, x_2, \dots, x_n) = \left( \frac{\partial f}{\partial x_1}, \frac{\partial f}{\partial x_2}, \dots, \frac{\partial f}{\partial x_n} \right)$


RL0
http://example.com/2025/08/06/RL0/
作者
zrw
发布于
2025年8月6日
许可协议