RL3:深度学习&DQN RL3: 深度学习&DQN 这个部分的笔记主要介绍一些深度学习的基础内容,以及其与强化学习结合的DQN方法的例子。由于深度学习不是这个部分的重点,就简单梳理一下框架,具体的各个算法和函数背后的原理就罗列一下,不去深入学习了() 1. 深度学习基础 1.1 神经元&神经网络,神经网络训练 在神经网络中,“神经元”是其中最基本的 2025-08-13 强化学习 #强化学习,笔记,深度学习,DQN,神经网络
RL2:Value estimation RL2: Value estimation 在RL1中,介绍了MDP和基于其建模的动态规划方法。然而,这种方法十分依赖于对于整个环境和模型的充分了解;而在更多的无法明确地给出状态转移和奖励函数的情况下,我们就会更加依赖于直接从获得的数据中学习相应的价值与策略。 >在这种情况下,智能体只能和环境进行交互,通过采样到的数据来学习,这类学习方法统称为无模型的强化学习(m 2025-08-07 强化学习 #强化学习 #笔记 #蒙特卡洛 #时序差分 #资格迹 #Q-learning #SARSA
RL0 RL0: 基础数学知识 1.无偏估计 在统计学中,无偏估计指的是一个估计量的期望值等于其真实值,即 E[θ̂] = θ 在强化学习的状态估计里面,无偏估计即为我们估计到的V(s)与其真实值相同的情况 2.梯度 recall:对于一个多元函数,其梯度是一个向量,为该函数对于每一个变量求偏导数的结果,即为 $\nabla f(x_1, x_2, \dots, x_n) = \left( \fr 2025-08-06 强化学习
RL1:强化学习基本概念,马尔科夫决策过程,DP # RL1:强化学习基本概念,马尔科夫决策过程,DP 1. 基本定义 强化学习是机器学习的一个分支,专注于让智能体(Agent)通过与环境的交互学习最优策略,以最大化累积奖励。其核心思想是试错学习(Trial-and-Error),类似于人类或动物通过经验改进行为的过程。 强化学习的主体为智能体(agent),即为对环境做出感知、决策、行动的对象 (e.g. 玩游戏时的角色& 2025-08-05 强化学习 #强化学习 #笔记 #马尔科夫决策过程 #动态规划
RL home About RL 暂定用来记录一些之前的笔记和后面自学的强化学习相关的内容。 References 1.王树森 深度强化学习 2. 多智能体强化学习短学期ppt 目录 RL1:强化学习基本概念,马尔科夫决策过程,DP RL2:Value estimation RL3:深度学习&DQN 2025-08-05 强化学习 #强化学习 #笔记
hexo 常用命令&指南 Quick Start Create a new post 1$ hexo new "My New Post" More info: Writing Run server 1$ hexo server More info: Server Generate static files 1$ hexo generate More info: Generating 2025-08-04