ML：从状态到策略——强化学习的最小闭环

张

张建站

2026/5/12 20:25:05

10分钟阅读

强化学习Reinforcement LearningRL关注的不是从已有答案中学习映射关系也不是从无标签数据中发现结构而是让智能体在环境中不断行动、获得反馈并逐步改进行为策略。在监督学习中模型通常从 X 和 y 中学习输入到目标的映射在无监督学习中模型通常从 X 中发现数据内部结构。强化学习面对的问题则不同智能体并不知道每一步最正确的动作是什么它只能通过与环境交互依据奖励信号不断修正自己的行为方式。因此强化学习的最小闭环可以概括为状态观察 → 动作选择 → 环境反馈 → 价值更新 → 策略改进图 1强化学习的最小闭环示意图这条路径构成了强化学习最基础的学习过程。它的核心不在于一次性得到正确答案而在于智能体在当前状态下选择动作环境根据动作返回奖励和新状态智能体再根据反馈更新对动作价值的判断并在后续决策中改进策略。在这个闭环中最重要的概念包括状态State、动作Action、奖励Reward、策略Policy和价值Value。它们共同构成强化学习区别于监督学习和无监督学习的基本结构。一、最小闭环的基本内涵这里所说的“最小”不是指问题简单而是指在不引入复杂算法和深度网络的前提下保留强化学习任务必须具备的核心结构。一个最小强化学习闭环通常包括• 智能体观察当前状态 s• 根据策略选择动作 a• 环境返回奖励 r 和下一个状态 s′• 智能体根据反馈更新价值判断• 策略根据新的价值判断逐步改进与监督学习相比强化学习最大的差异在于它通常没有现成的“标准答案动作”。智能体并不是直接学习“某个输入应该对应哪个标签”而是在一次次尝试中判断哪些动作会带来更好的长期结果。“闭环”强调这些环节之间的连续关系• 当前状态决定可选择的动作• 动作会改变环境状态• 环境反馈奖励信号• 奖励影响价值估计• 价值估计进一步影响后续策略如果智能体只是执行动作而没有根据奖励修正行为就不能构成真正的强化学习过程。二、强化学习最小闭环的核心流程1、状态观察智能体获得当前状态强化学习中的状态State表示智能体在某一时刻能够观察到的环境信息通常记为 s。图 2强化学习中的智能体与环境交互例如• 在迷宫任务中状态可以是智能体当前所在的位置• 在游戏任务中状态可以是当前画面、分数和角色位置• 在机器人控制中状态可以是关节角度、速度和传感器读数• 在推荐系统中状态可以是用户当前的浏览行为和历史偏好状态不是随意记录的信息而是智能体做决策的基础。状态表示越合理智能体越有可能学习到有效策略状态信息不足或噪声过多都会增加学习难度。在最小闭环中状态观察可以概括为智能体观察当前环境状态 s其中s 表示智能体在当前时刻所依据的环境信息。2、动作选择根据策略决定下一步行为动作Action表示智能体在某个状态下可以执行的行为通常记为 a。例如• 在迷宫中动作可以是“上、下、左、右”• 在游戏中动作可以是“移动、跳跃、攻击、防御”• 在机器人控制中动作可以是某个关节的转动方向或力矩• 在推荐系统中动作可以是向用户推荐某个内容动作选择通常由策略Policy决定。策略描述的是在状态 s 下智能体应该如何选择动作 a。策略通常记为其中• π 表示策略• s 表示当前状态• a 表示可选动作• π(a | s) 表示在状态 s 下选择动作 a 的概率在最简单的情况下策略可以直接选择当前看来价值最高的动作但在学习过程中智能体也需要保留一定探索空间尝试那些尚未充分验证的动作。3、环境反馈动作带来奖励和新状态强化学习的关键在于交互。智能体执行动作后环境会返回两个重要信息• 奖励 r• 下一个状态 s′这一过程可以表示为s, a → r, s′其中• s 表示当前状态• a 表示智能体执行的动作• r 表示环境返回的即时奖励• s′ 表示动作执行后的下一个状态奖励Reward是环境对动作结果的反馈。奖励可以为正也可以为负• 到达目标位置获得正奖励• 撞到障碍物获得负奖励• 每走一步可能获得很小的惩罚• 完成任务获得较大的终点奖励需要注意的是奖励并不一定等同于最终目标。某一步奖励较高不代表整条路径最优某一步看似收益不高也可能为后续更大收益铺路。因此强化学习关注的不只是即时奖励而是长期回报。4、价值更新根据反馈修正判断在强化学习中智能体需要判断在某个状态下采取某个动作长期来看是否值得。这种判断通常由价值函数或动作价值函数表示。图 3价值更新的基本思想在 Q 学习Q-Learning中常用 Q(s, a) 表示状态 s 下执行动作 a 的价值。可以理解为Q(s, a) 表示在状态 s 下选择动作 a 的长期价值估计。如果某个动作之后带来了较好的奖励并且进入的新状态也有较好的后续机会那么这个动作的 Q 值应当提高反之如果动作导致负面结果Q 值就应当降低。Q 学习中常见的更新公式为其中• Q(s, a) 表示当前状态 s 下动作 a 的旧价值估计• α 表示学习率控制每次更新的幅度• r 表示当前动作获得的即时奖励• γ 表示折扣因子控制未来奖励的重要程度• s′ 表示下一个状态• a′ 表示下一个状态中的可选动作• max Q(s′, a′) 表示下一个状态中最优动作的价值估计• r γ max Q(s′, a′) 表示当前动作带来的目标价值• [r γ max Q(s′, a′) − Q(s, a)] 表示新旧价值之间的差距这个公式体现了强化学习的核心思想当前动作的价值不只由当前奖励决定还要考虑它把智能体带到了怎样的未来状态。5、策略改进让后续动作选择更合理价值更新之后智能体对不同动作的判断发生变化。策略也应随之改进。图 4Q 表与策略改进在 Q 学习中常见做法是选择 Q 值最大的动作a argmax Q(s, a)其中• s 表示当前状态• a 表示可选动作• argmax 表示选择使 Q(s, a) 最大的动作这意味着如果智能体已经认为某个动作在当前状态下长期价值更高那么后续就更倾向于选择这个动作。不过在学习早期如果智能体总是选择当前 Q 值最大的动作可能会过早陷入局部选择。因为某些动作尚未被充分尝试它们的真实价值还没有被发现。因此强化学习通常需要在“探索”和“利用”之间取得平衡。6、探索与利用既要尝试也要使用经验强化学习中的探索Exploration与利用Exploitation是一个基本矛盾。• 探索尝试不确定的动作以发现更好的可能性• 利用选择当前已知价值较高的动作以获得更稳定的收益如果只利用智能体可能永远不会发现更优策略如果只探索智能体又难以稳定获得高回报。图 5探索与利用常见的简单策略是 ε-greedy 策略• 以 ε 的概率随机选择动作• 以 1 − ε 的概率选择当前 Q 值最大的动作其中• ε 表示探索概率• ε 越大随机探索越多• ε 越小越倾向于利用已有经验在训练早期可以使用较高的 ε让智能体充分探索随着训练进行可以逐渐降低 ε让智能体更多利用已经学到的策略。7、回合与长期回报强化学习关注连续决策强化学习任务通常不是一次动作就结束而是由一系列状态、动作和奖励组成。图 6回合与长期回报一次完整交互过程通常称为一个回合Episode。例如在迷宫任务中从起点出发到到达终点或失败结束就是一个回合。一个回合可以表示为s₀ → a₀ → r₁ → s₁ → a₁ → r₂ → s₂ → ... → 终止状态强化学习关注的是整个过程中的长期回报而不仅是单步奖励。长期回报可以简化理解为G r₁ γr₂ γ²r₃ ...其中• G 表示长期回报• r₁、r₂、r₃ 表示不同时间步获得的奖励• γ 表示折扣因子• γ 越接近 1未来奖励越重要• γ 越接近 0当前奖励越重要因此强化学习的本质不是“当前哪一步奖励最高”而是“怎样的行为策略能带来更好的长期结果”。三、Python 示例一个最小 Q 学习闭环下面用一个极简网格任务演示强化学习的最小闭环。智能体从位置 0 出发希望移动到目标位置 4。每次可以选择向左或向右移动到达目标位置时获得奖励。这个示例不依赖复杂强化学习库而是直接用 NumPy 构造 Q 表便于观察强化学习的基本过程。import numpy as np # 数值计算import random # 随机数探索用 # 1. 定义环境n_states 5 # 状态0, 1, 2, 3, 4actions [0, 1] # 动作0向左1向右goal_state 4 # 目标状态最右 # 2. 初始化 Q 表全零Q np.zeros((n_states, len(actions))) # 行状态列动作 # 3. 设置超参数alpha 0.1 # 学习率gamma 0.9 # 折扣因子epsilon 0.2 # ε-greedy探索概率n_episodes 200 # 训练回合数 # 4. 定义环境反馈函数def step(state, action): if action 0: # 向左 next_state max(0, state - 1) else: # 向右 next_state min(goal_state, state 1) reward 1 if next_state goal_state else 0 # 到达目标奖励1否则0 done next_state goal_state # 到达目标则回合结束 return next_state, reward, done # 5. Q 学习训练for episode in range(n_episodes): state 0 # 每个回合从起点0开始 done False while not done: # ε-greedy 动作选择 if random.random() epsilon: action random.choice(actions) # 探索随机动作 else: action np.argmax(Q[state]) # 利用当前Q值最大的动作 # 执行动作与环境交互 next_state, reward, done step(state, action) # Q值更新贝尔曼方程 best_next_value np.max(Q[next_state]) Q[state, action] Q[state, action] alpha * ( reward gamma * best_next_value - Q[state, action] ) # 状态转移 state next_state print(训练后的 Q 表)print(Q) print(每个状态下的最优动作)print(np.argmax(Q, axis1)) # 输出每个状态选择的最优动作0或1这段代码对应的最小闭环如下• 状态观察智能体获得当前位置 state• 动作选择使用 ε-greedy 策略选择动作 action• 环境反馈step 函数返回 next_state、reward、done• 价值更新根据 Q 学习公式更新 Q[state, action]• 策略改进Q 表变化后后续动作选择随之改变训练完成后Q 表中的数值表示在不同状态下选择不同行动的长期价值估计。通过 np.argmax(Q, axis1)可以得到每个状态下当前认为最优的动作。由于 Q 表初始值相同np.argmax 在并列时会返回第一个动作因此训练结果会受到随机探索影响。实际示例中可以适当增加训练回合数或在并列动作中随机选择一个最大 Q 值动作。在上面的例子中状态只有 5 个动作只有 2 个因此 Q 表是一个二维数组。Q 的形状为其中• 每一行对应一个状态• 每一列对应一个动作• 每个元素 Q(s, a) 表示在状态 s 下执行动作 a 的价值估计例如• Q[2, 0] 表示在状态 2 下选择“向左”的价值• Q[2, 1] 表示在状态 2 下选择“向右”的价值如果目标在右侧那么经过多轮训练后状态 0、1、2、3 通常会更倾向于选择“向右”。这说明智能体已经通过奖励反馈学到向右移动更有可能接近目标并获得长期收益。需要注意的是Q 表不是环境直接给出的答案而是智能体通过多次交互逐步估计出来的结果。四、强化学习结果的判断方式强化学习没有简单的“预测是否正确”这一判断方式。它更关注策略在环境中的长期表现。常见判断方式包括1、累计奖励是否提高如果训练逐渐有效智能体在每个回合中获得的累计奖励通常会提高。累计奖励越高通常说明策略越能完成任务目标。回合累计奖励一个回合中所有奖励之和2、完成任务所需步数是否减少在迷宫、导航、路径规划等任务中智能体如果学到了更好的策略通常会用更少的步数到达目标。3、策略是否稳定如果训练后智能体在相同状态下能够稳定选择合理动作说明策略具有一定稳定性。反之如果动作选择高度随机可能说明学习尚未收敛。4、是否兼顾长期收益强化学习不能只看即时奖励还要观察长期效果。有些动作短期收益较高但会导致后续失败有些动作短期收益不明显却能带来更好的长期回报。5、是否具有可解释的行为路径在简单任务中可以直接观察智能体的行动轨迹。例如在网格任务中若智能体逐步学会向目标移动就说明策略已经具备较清晰的行为逻辑。五、最小闭环的作用1、明确强化学习的基本逻辑强化学习容易被误解为“让模型自己试错”。更准确地说强化学习是一个有结构的交互学习过程。最小闭环可以帮助我们明确• s 是智能体观察到的状态• a 是智能体选择的动作• r 是环境返回的奖励• s′ 是动作导致的新状态• Q(s, a) 是动作价值估计• 策略根据价值估计逐步改进因此强化学习不是随机尝试的堆积而是通过奖励反馈不断修正行为策略的过程。2、为复杂强化学习算法奠定基础更复杂的强化学习算法会进一步加入• 更大的状态空间• 连续动作空间• 深度神经网络• 经验回放• 目标网络• 策略梯度• Actor-Critic 结构• 多智能体环境但这些方法都建立在最小闭环之上。无论是 Q 学习、DQN、策略梯度还是 Actor-Critic本质上都离不开状态观察 → 动作选择 → 环境反馈 → 价值更新或策略更新 → 行为改进先理解这个闭环再学习具体算法才能把强化学习看作一套连续决策机制而不是一组孤立公式。小结强化学习的最小闭环包括观察状态、选择动作、获得奖励、更新价值并改进策略。它不同于监督学习的 X 到 y 映射也不同于无监督学习的结构发现而是通过智能体与环境的持续交互学习能够带来更高长期回报的行为方式。“点赞有美意赞赏是鼓励”