定位强化学习最底层数学框架所有强化学习问题几乎都可以抽象成 MDP用来描述智能体在不确定环境里连续做决策、最大化长期收益的全过程。一、前置马尔可夫性质MDP 的灵魂1. 定义未来只由当前决定和过去无关公式简写大白话我下一步去哪只看现在在哪不记得之前走过什么路无记忆性。二、MDP 完整 5 大核心要素必背标准五元组(S,A,P,R,γ)1. S状态空间 State智能体所有能处于的环境状态集合例子迷宫里的每个格子、游戏画面、机器人位置2. A动作空间 Action智能体所有能执行的动作例子上下左右、开火、前进、左转3. P状态转移概率 TransitionP(s|s,a)含义当前在状态 s执行动作 a跳到下一个状态 s 的概率代表环境随机性同样动作不一定到同一个地方4. R即时奖励 RewardR(s,a,s)做完动作立刻拿到的瞬时分数正向奖励加分吃到食物、到达终点负奖励扣分撞墙、掉坑5. γ折扣因子 Discount factor范围{01}作用压低未来奖励权重越接近 1越看重长远收益越接近 0只看眼前即时奖励三、MDP 完整交互流程时序过程时刻 t智能体观测当前状态 s_t智能体根据策略选择动作 a_t环境依据转移概率 P 给出下一个状态 s_{t1}智能体获得即时奖励 r_t进入 t1 时刻重复循环直到终止四、核心关键概念强化学习必考1. 策略 Policy策略 智能体的做事规则确定性策略pi(s)a同一个状态永远选同一个动作随机性策略pi(a|s)状态 s 下选动作 a 的概率MDP 最终目标找到最优策略2. 折扣总回报 Return从 t 时刻往后所有奖励总和带折扣不是只看当下奖励是未来所有收益总和3. 状态值函数 V(s)含义从状态s出发遵循当前策略能拿到的期望长期总回报用来评判这个状态好不好、值不值得待4. 动作值函数 Q(s,a)含义在状态s下执行动作a后续能拿到的期望长期总回报用来评判在这个状态选这个动作好不好深度学习里最常用DQN 就是拟合 Q 值五、MDP 核心公式贝尔曼方程Bellman1. 状态值函数贝尔曼期望方程通俗翻译当前状态的价值 立刻拿到的奖励 下一个状态价值打折扣后的期望值2. 动作值函数贝尔曼方程3. 最优贝尔曼方程去掉策略直接取最大收益含义每个状态都选最优动作得到全局最大价值六、MDP 分类完全可观测 MDP智能体能看清全部环境状态 绝大多数强化学习场景部分可观测 POMDP只能看到局部信息看不到全局难度更高七、MDP 常用求解方法动态规划 DP已知环境模型 P、R策略迭代值迭代蒙特卡洛 MC靠采样轨迹算均值时序差分 TD最实用TD0、TDλ深度强化学习未知环境拟合 Q/VDQN、PPO、A3C 全部基于 MDP八、生活化极简例子秒懂例子上班通勤 MDP状态 S在家、在路上、到公司动作 A坐地铁、打车、走路转移 P雨天打车容易堵车转移概率变了奖励 R准时到 10迟到 - 20花钱 - 5折扣 γ更在意今天上班不在意一周后策略晴天地铁雨天打车值函数 V (在家)评估从家里出发整体好不好整个通勤过程就是标准马尔可夫决策过程九、总结一句话马尔可夫决策过程 MDP 满足无记忆性的环境 智能体动作选择 即时奖励 长期收益折算是一切序列决策、强化学习问题的统一数学模型。