马尔可夫决策过程

张

张建站

2026/5/19 14:42:22

10分钟阅读

定位强化学习最底层数学框架所有强化学习问题几乎都可以抽象成 MDP用来描述智能体在不确定环境里连续做决策、最大化长期收益的全过程。一、前置马尔可夫性质MDP 的灵魂1. 定义未来只由当前决定和过去无关公式简写大白话我下一步去哪只看现在在哪不记得之前走过什么路无记忆性。二、MDP 完整 5 大核心要素必背标准五元组(S,A,P,R,γ)1. S状态空间 State智能体所有能处于的环境状态集合例子迷宫里的每个格子、游戏画面、机器人位置2. A动作空间 Action智能体所有能执行的动作例子上下左右、开火、前进、左转3. P状态转移概率 TransitionP(s|s,a)含义当前在状态 s执行动作 a跳到下一个状态 s 的概率代表环境随机性同样动作不一定到同一个地方4. R即时奖励 RewardR(s,a,s)做完动作立刻拿到的瞬时分数正向奖励加分吃到食物、到达终点负奖励扣分撞墙、掉坑5. γ折扣因子 Discount factor范围{01}作用压低未来奖励权重越接近 1越看重长远收益越接近 0只看眼前即时奖励三、MDP 完整交互流程时序过程时刻 t智能体观测当前状态 s_t智能体根据策略选择动作 a_t环境依据转移概率 P 给出下一个状态 s_{t1}智能体获得即时奖励 r_t进入 t1 时刻重复循环直到终止四、核心关键概念强化学习必考1. 策略 Policy策略智能体的做事规则确定性策略pi(s)a同一个状态永远选同一个动作随机性策略pi(a|s)状态 s 下选动作 a 的概率MDP 最终目标找到最优策略2. 折扣总回报 Return从 t 时刻往后所有奖励总和带折扣不是只看当下奖励是未来所有收益总和3. 状态值函数 V(s)含义从状态s出发遵循当前策略能拿到的期望长期总回报用来评判这个状态好不好、值不值得待4. 动作值函数 Q(s,a)含义在状态s下执行动作a后续能拿到的期望长期总回报用来评判在这个状态选这个动作好不好深度学习里最常用DQN 就是拟合 Q 值五、MDP 核心公式贝尔曼方程Bellman1. 状态值函数贝尔曼期望方程通俗翻译当前状态的价值立刻拿到的奖励下一个状态价值打折扣后的期望值2. 动作值函数贝尔曼方程3. 最优贝尔曼方程去掉策略直接取最大收益含义每个状态都选最优动作得到全局最大价值六、MDP 分类完全可观测 MDP智能体能看清全部环境状态绝大多数强化学习场景部分可观测 POMDP只能看到局部信息看不到全局难度更高七、MDP 常用求解方法动态规划 DP已知环境模型 P、R策略迭代值迭代蒙特卡洛 MC靠采样轨迹算均值时序差分 TD最实用TD0、TDλ深度强化学习未知环境拟合 Q/VDQN、PPO、A3C 全部基于 MDP八、生活化极简例子秒懂例子上班通勤 MDP状态 S在家、在路上、到公司动作 A坐地铁、打车、走路转移 P雨天打车容易堵车转移概率变了奖励 R准时到 10迟到 - 20花钱 - 5折扣 γ更在意今天上班不在意一周后策略晴天地铁雨天打车值函数 V (在家)评估从家里出发整体好不好整个通勤过程就是标准马尔可夫决策过程九、总结一句话马尔可夫决策过程 MDP 满足无记忆性的环境智能体动作选择即时奖励长期收益折算是一切序列决策、强化学习问题的统一数学模型。

Linux内核调试核心：printk日志机制详解与实战技巧

1. 内核调试基石：printk的深度解析与实战在Linux内核开发的日常里，调试是绕不开的坎。没有图形化的调试器，没有方便的断点跟踪，我们靠什么来窥探内核这个庞然大物内部的运行状态？答案往往简单而直接： pri…...

2026/5/19 14:40:38 阅读更多 →

完全掌握Path of Building：从装备制作小白到大师的终极指南

完全掌握Path of Building：从装备制作小白到大师的终极指南【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/gh_mirrors/pat/PathOfBuilding 你是否曾在《流放之路》中花费数百个混沌石&#xff0…...

2026/5/19 14:39:41 阅读更多 →

1040 - Too many connections

摘要：MySQL 1040错误（too many connections）表明数据库连接数已达上限，通常由连接未及时释放或配置不合理导致。本文从临时恢复、永久配置、应用优化三个层面提供系统性解决方案。快速恢复服务查看当前连接状态 -- 查询最大连接数…...

2026/5/19 14:38:04 阅读更多 →

Windows隐藏COM端口清理指南：解决端口号膨胀问题

1. 项目概述：为什么你的COM端口号会“膨胀”到两位数？如果你是一位长期在Windows系统下进行嵌入式开发、单片机调试，或者经常使用USB转串口工具的朋友，大概率遇到过这个令人头疼的现象：设备管理器里的COM端口号&#x…...

2026/5/18 8:51:59 阅读更多 →

Playnite完整指南：高效统一你的跨平台游戏库管理体验

Playnite完整指南：高效统一你的跨平台游戏库管理体验【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: http…...

2026/5/18 8:52:11 阅读更多 →