RL home

About RL

暂定用来记录一些之前的笔记和后面自学的强化学习相关的内容。

References

1.王树森 深度强化学习
2. 多智能体强化学习短学期ppt 3. Spinning Up(这是有用的学习资料)

对于整个RL的结构总结一下:我们强化学习的最终目标是要求出一个agent采取的最优策略,那么有两个大方向:优化价值函数优化策略。优化价值函数相当于我们先找到在每一个状态下进行什么样的动作可以取得最好的奖励Q*,接着让我们的智能体贪心地向着这个目标前进就可以了。因此,基于价值函数的方法一般得到的都是确定性的策略,即使偶尔采用ϵ − greedy方法,但大方向就是得到确定性的策略。 然而,在现实中面临更复杂的问题时,我们往往需要的是随机策略;同时,对于动作空间和状态空间非离散的情况,此时采用之前的迭代得到最大价值的方法也行不通了,此时解决这类问题就需要基于策略梯度的方法了。两种路径各有各的优点,需要结合具体的问题进行分析。 这样的关系,可以简单用下图总结:alt text


RL home
http://example.com/2025/08/05/RL-notes/
作者
zrw
发布于
2025年8月5日
许可协议