LLM之RL推理型大模型强化学习方法全景综述—GRPO{去掉 critic用组内相对优势做稳定训练降低内存成本} → DAPO{解耦优势与策略优化强调 token 级聚合、非对称 clipping 与动态采样} → CISPO{只裁剪重要性权重而不硬删梯度保留有效信息并提升稳定性} → DPPO{以策略分布偏离度替代 ratio 约束更准确刻画 trust region} → MaxRL{把 RL 与 MLE 连接起来面向 passk 与多样性优化} → 未来方向{更高样本效率、更强信用分配、更少偏差、更强泛化与更大规模可复现性}导读这篇文章系统梳理了推理型大模型强化学习在近两年中的关键演进路径重点围绕“如何让模型更稳定、更高效、更少依赖 critic、并更好地利用序列级奖励信号”展开。文章并不是简单罗列算法而是沿着 REINFORCE、PPO 到 GRPO、DAPO、CISPO、DPPO、MaxRL 再到 ScaleRL 的脉络逐步揭示不同方法是在修正什么问题、牺牲了什么代价、又在哪些训练细节上真正带来了收益。读这篇文章最重要的是抓住它的主线推理型 LLM 的 RL 训练正在从“复杂 critic 驱动”走向“更轻量、更分层、更关注 token/prompt 级信号与工程规模效应”的阶段。2026年3月15日主题是 2024—2026 年间推理型 LLM 强化学习方法的演进脉络。从系统性上看文章呈现出一种非常清晰的技术迭代逻辑早期方法主要解决“能不能训、稳不稳”的问题因此依赖 PPO、baseline、clipping 和 KL 约束随后 GRPO、RLOO 将重心转向去 critic 和组内相对比较以降低成本并提升可扩展性接着 Dr. GRPO、DAPO、CISPO、DPPO 进一步修正长度偏置、梯度屏蔽、trust region 定义不准等训练偏差MaxRL 则从目标函数层面重新连接 RL 与 MLE把 passk 和多样性纳入考量最后 ScaleRL 说明真正决定大规模效果的往往不仅是算法形式更是异步训练、数值精度、样本过滤、聚合方式和资源调度这些工程与训练策略的联合优化。整体来说这篇文章给出的不是单点答案而是一张“推理型 LLM 强化学习方法论地图”。它不是在罗列名词而是在描绘推理型 LLM 的 RL 训练如何从“PPO critic 严格 clipping”逐步演化到“更少 critic、更细粒度聚合、更合理的 trust region、更重视计算分配与规模效应”。可以把全文压缩成四个大判断第一critic 大概率不是当前 LLM RL 的核心瓶颈。GRPO、RLOO、MaxRL、ScaleRL 都指向同一个趋势简单 baseline 往往已经足够value model 的内存成本不太划算。第二loss aggregation 不是细枝末节而是决定偏差的重要来源。Dr. GRPO 和 DAPO 说明sequence-level reward 如果用错聚合方式会悄悄扭曲长度偏好和 token 级学习信号。第三trust region 仍未定论。PPO 的 ratio clipping 很强但未必是 LLM 推理训练里的最终答案DAPO、CISPO、DPPO 都在尝试重新定义“该约束什么、该放开什么”。第四真正的大规模性能来自方法与工程的共同体。异步训练、FP32 logits、prompt-level averaging、过滤无信号 prompt、控制正样本重采样这些细节可能直接影响最终性能上限。因此这篇文章的深层结论是RL for reasoning LLM 已经进入“方法足够多、但如何组合与落地更重要”的阶段。下一轮突破很可能不只是一个新 loss而是更好的信用分配、更高的样本效率、面向困难问题的信号提取以及更可靠的规模化实验结论。目录推理型大模型强化学习方法全景综述—GRPO{去掉 critic用组内相对优势做稳定训练降低内存成本} → DAPO{解耦优势与策略优化强调 token 级聚合、非对称 clipping 与动态采样} → CISPO{只裁剪重要性权重而不硬删梯度保留有效信息并提升稳定性} → DPPO{以策略分布偏离度替代 ratio 约束更准确刻画 trust region} → MaxRL{把 RL 与 MLE 连接起来面向 passk 与多样性优化} → 未来方向{更高样本效率、更强信用分配、更少偏差、更强泛化与更大规模可复现性}一、Brief RL Introduction核心要点经验技巧二、REINFORCE核心要点经验技巧三、PPO核心要点经验技巧四、GRPO核心要点经验技巧五、RLOO核心要点经验技巧六、Dr. GRPO核心要点经验技巧七、DAPO核心要点经验技巧八、CISPO核心要点经验技巧九、MaxRL核心要点经验技巧十、DPPO核心要点经验技巧十一、ScaleRL核心要点经验技巧十二、Summary文章总结部分核心要点经验技巧十三、Open Problems开放问题核心要点经验技巧推理型大模型强化学习方法全景综述—GRPO{去掉 critic用组内相对优势做稳定训练降低内存成本} → DAPO{解耦优势与策略优化强调 token 级聚合、非对称 clipping 与动态采样} → CISPO{只裁剪重要性权重而不硬删梯度保留有效信息并提升稳定性} → DPPO{以策略分布偏离度替代 ratio 约束更准确刻画 trust region} → MaxRL{把 RL 与 MLE 连接起来面向 passk 与多样性优化} → 未来方向{更高样本效率、更强信用分配、更少偏差、更强泛化与更大规模可复现性}地址论文地址https://aweers.de/blog/2026/rl-for-llms/时间2026年03月15日作者Alexander Weers一、Brief RL Introduction这一章先用标准强化学习的基本定义打底再把 RL 的抽象框架映射到 LLM 训练场景LLM 本质上是“给定 prompt 采样 response再由一个标量 reward 评价”的策略优化问题。文章强调在语言模型里很多时候只对整段回答给最终奖励而不是逐 token 打分这使得很多传统 RL 设定需要做简化。核心要点标准 RL 的核心是状态、动作、转移、奖励四件事目标是最大化折扣回报。value function 和 advantage 的作用是衡量“某个状态/动作比预期好多少”。到 LLM 场景后通常变成从数据集采样 prompt x模型采样回答 y用 reward r(x,y) 评估整个回答。语言模型里常常只有最终答案能被可靠打分因此 token 级奖励往往不现实整回答 reward 更常见。经验技巧研究 LLM-RL 时先把问题理解为“整段输出的策略优化”比纠结经典 RL 的每一步状态转移更有帮助。由于奖励常是序列级的后续所有算法改进几乎都在解决“如何更稳、更省、更少偏差地把序列级 reward 变成训练信号”。这是后文各方法共同主线。二、REINFORCEREINFORCE 是最基础的 policy gradient 方法也是后面所有方法的思想源头。文章把它解释成一种“加权版的 SFT”不是学习人工给定的答案而是对模型自己采样出来的答案根据 reward 做强化或惩罚。核心要点REINFORCE 的目标就是最大化期望 reward。它的梯度形式非常直观对“采样答案的 log 概率”乘以 reward。和 SFT 的区别在于SFT 学的是“真实答案 y∗”REINFORCE 学的是“自己采样出来的答案 y”并由 reward 决定强化或抑制。REINFORCE 的主要缺点是方差大训练信号容易波动。为降低方差引入 baseline b(x) 不改变期望梯度但能显著降噪r−b 就是最简单的 advantage。经验技巧如果你要判断一个 RL 变体是否“真有创新”先看它到底是在改 reward、baseline、采样策略还是在改梯度估计很多方法本质上都还在 REINFORCE 框架里。只要 reward 稀疏、采样昂贵baseline 设计就特别重要因为它直接决定训练稳定性。三、PPOPPO 是第一代 RLHF 的主力方法。文章把它概括为“带重要性采样修正和 trust region 约束的 policy gradient”核心价值是稳定和样本效率但代价是组件复杂、内存开销大。核心要点PPO 的关键是重要性采样比率 ρt用来修正“生成 rollout 的策略”和“当前训练策略”不一致的问题。clipping 的作用是限制策略更新不要离 rollout 策略太远本质上是 trust region 的近似。clipping 不只是改目标值更重要的是会在超出范围时让梯度为零从而停止这部分更新。PPO 通常还配合 GAE而这需要额外的 value model。在 RLHF 里PPO 常加 KL 正则避免策略偏离参考模型太远但在 reasoning RL 中KL 往往更弱甚至被省略。完整 PPO 往往需要四大组件训练策略、rollout 策略、reference 策略、value model。经验技巧PPO 的“稳”来自约束而不是激进更新理解 clipping 的 mask 语义比死记公式更重要。如果显存紧张PPO 的 value model 往往是最重的负担之一这也是后续方法普遍追求“去 critic”的原因。对 LLM 推理任务KL 和 trust region 的具体设定并没有一劳永逸的标准后面的 DAPO、CISPO、DPPO 都是在重写这件事。四、GRPOGRPO 是 reasoning LLM 时代非常关键的一步它去掉了 PPO 的 value model改用“同一 prompt 下多个回答之间的相对比较”作为 baseline。这样做显著降低了内存成本也让大规模 RL for reasoning 更容易落地。核心要点对同一个 prompt 采样一组回答先算每个回答 reward再用组内均值和标准差标准化成 advantage。组内标准化让 reward 变成“相对于同 prompt 的其他回答有多好”而不是绝对分数。除以标准差可以缓解不同任务 reward 尺度不一致的问题。GRPO 的更大贡献不只是公式而是“去掉 critic”节省了大量内存。经验技巧对 sparse reward 场景组内比较往往比绝对奖励更有信息量因为它天然形成了 prompt-relative 的学习信号。如果任务能一次采样多个候选GRPO 是很自然的选择它把“基线”变成了“同组其他样本”。但组内标准差归一化并不总是无害后面的 Dr. GRPO 正是专门来修这个问题的。五、RLOORLOOREINFORCE Leave-One-Out和 GRPO 有相似目标但路线不同它用“其余样本的平均 reward”做 baseline回到更纯粹的 REINFORCE 风格同时取消 PPO 式 clipping。核心要点每个回答的 advantage 自己的 reward − 其余 K−1 个回答的平均 reward。这个 baseline 是无偏的也不需要 learned value model。和 GRPO 不同RLOO 不做组内标准差归一化。更重要的是它直接去掉了 PPO 式 clipping更新更像原始 REINFORCE。作者认为 clipping 在他们实验里激活比例很低因此可能不是必需的。经验技巧如果你觉得 PPO 的 clipping 太保守RLOO 给出了一条思路先把 baseline 做对再思考 clipping 是否真的必要。但后续工作并不完全认同“clipping 不重要”这说明 trust region 仍是该领域的争议焦点。六、Dr. GRPODr. GRPO 的核心观点是GRPO 某些看似“无害”的归一化操作其实会系统性偏置训练信号尤其会鼓励模型生成更长的回答。它试图把这些偏差从机制上消掉。核心要点标准 GRPO 里token loss 的聚合方式会让固定序列级 reward 被平均分摊到整个序列。结果是长回答在正确时得到更弱的正向强化错误时得到更弱的惩罚这会诱导模型变得更啰嗦。Dr. GRPO 的修正方法是不用“先除以序列长度、再除以 batch size”的方式而是用固定常数最大 token 数来归一化。它还去掉了 reward 的标准差归一化只保留 ri −μG。文章强调问题不在于 GRPO“坏了”而在于这些归一化并不是真正中性的。经验技巧训练长链推理模型时别把“长度变化”简单看成能力提升有时它只是 loss 聚合方式带来的偏置。任何把序列级 reward 分配到 token 的方法都应该认真检查“长度归一化是否隐含偏置”。七、DAPODAPODecoupled Advantage Policy Optimization是在 GRPO 基础上做的更系统的修补版提出四项改进token 级聚合、非对称 clipping、过长回答的柔性惩罚、动态采样。它的目标是让学习信号更合理、更高效。核心要点第一项改进从 sample-level averaging 转向 token-level aggregation避免序列长度影响训练信号。第二项改进对 clipping 做非对称处理因为对低概率 tokenPPO 的对称 clipping 太保守会压制稀有但有用的推理分支。第三项改进加入 overlong reward shaping对接近长度上限的回答先轻罚超长再重罚避免“截断失败”的噪声。第四项改进动态采样直到同一 prompt 的采样结果出现正负混合保证每个 prompt 都产生梯度。经验技巧DAPO 的本质是“把两个常见偏差拆开修”长度偏差和剪裁偏差。如果你的任务里“少数低概率 token 决定推理转向”对称 clipping 很可能过于保守。动态采样能提高步效率但可能拉长墙钟时间因为某些 hard batch 需要更多生成。八、CISPOCISPO 进一步质疑 PPO 式 mask它认为真正该做的是“剪掉不稳定的权重”而不是把超界 token 的梯度整块删掉。换句话说它试图保留信息同时减少方差。核心要点PPO 的问题之一是一旦 token 超出 clip 范围梯度就被完全屏蔽。这对某些低概率但关键的推理转折词如 “However”, “Recheck”, “Wait”, “Aha”尤其不利。CISPO 只 clip importance-sampling weight并对该权重做 stop-gradient而不是硬删整条更新。文章还提到实践里主要调 upper clippinglower clipping 往往几乎不 सक्रिय。实验中CISPO 相比 DAPO 取得了更好的 step-efficiency约有 2 倍提升。经验技巧如果你希望保留 trust region 的“稳”但又不想把高信息 token 的梯度直接抹掉CISPO 是比硬 mask 更柔和的折中方案。它适合那些“关键 token 变化幅度大、但这些变化本身很有学习价值”的推理任务。九、MaxRLMaxRL 从一个很不同的角度切入它不只盯着 pass1而是认为最大似然训练本身隐含了对不同 passk 目标的混合。于是它构造了一个介于 RL 和 MLE 之间的目标族。核心要点传统 RL 往往优化 pass1但这不一定最适合推理任务。MaxRL 通过公式说明最大似然的梯度可以视为一个无限 harmonic mixture 的 passk 梯度而标准 RL 只保留了最前面的那一部分。它定义了一个按计算量截断的目标族T1 时退化为标准 RLT→∞ 时逼近最大似然。其无偏估计器非常简单只对成功轨迹做平均。当某个 prompt 的成功率 r^ 很低但不为零时成功样本会被强烈强调因此它更聚焦 hard prompts。实验上MaxRL 改善 passk并更好地保持输出多样性。经验技巧如果你的目标不是单次命中而是“多样候选里更高的整体覆盖率”MaxRL 的目标函数视角很有启发。它提醒我们RL 的目标函数不一定只该围绕 pass1 定义推理任务常常还关心 passk 和 test-time scaling。十、DPPODPPO 重新讨论了 trust region它认为 PPO 里用 sampled-token ratio 来衡量策略变化可能不是最好的“真实偏离”度量尤其对于低概率 token 来说。核心要点PPO 的 ratio clipping 可能无法准确反映整个策略分布的真实变化。在训练/推理框架不一致时低概率 token 的 ratio 甚至可能剧烈波动导致数值不稳定。DPPO 用估计的 policy divergence如 TV 或 KL替代 ratio 作为 trust region 约束。由于计算完整词表的 divergence 太贵实践中可用 binary 或 top-K 近似。文章指出真正引发不稳定的通常只是极少量更新阻断这些更新就足以稳定训练。经验技巧DPPO 的启发是对 LLM 来说trust region 也许应该从“token ratio”转向“分布偏离度”。如果系统里存在推理与训练 kernel 的数值差异单靠 ratio 可能会被误导divergence 视角更稳。十一、ScaleRLScaleRL 不是单一新算法而是用大规模消融实验回答当算力真正上去后哪些设计才真的重要。它的价值在于把“早期提升速度”和“最终上限”分开看。核心要点文章提到其做了 40 万 GPU 小时以上的消融并用 sigmoid 曲线拟合性能-算力关系。异步 RL 优于常见的“先生成、再更新”循环因为它减少 idle time提高 compute efficiency。在 loss type 上CISPO 和 GSPO 的渐近表现优于 DAPOCISPO 因鲁棒性更强而成为默认选项。用 FP32 计算 LM head 可以显著减少生成和训练 kernel 的数值不一致问题。在 loss aggregation 上prompt-level averaging 优于 sample averaging。对于没有学习信号的 promptScaleRL 选择直接过滤而不是继续补采样。若一个 prompt 已经超过 90% 正确它会被排除出后续 epoch以追求更高的最终上限。经验技巧ScaleRL 最重要的启示是不要只看单个 checkpoint必须同时看“起速”和“上限”。大规模 RL 的性能差异往往来自实现细节异步、数值精度、aggregation 方式、样本过滤策略这些都可能比“换一个漂亮公式”更关键。十二、SummaryMethodCore baseline / advantageClipping / trust regionMaskingLoss aggregationMain takeawayREINFORCEEMA or batch-mean rewardNoneNoneSample averageEstablishes policy gradients with a simple baseline-free / weak-baseline setup.PPOGAE with criticSymmetric IS clipping, Msym(A^t,ρt,0.2)M_\text{sym}(\hat{A}_t,\rho_t,0.2)Msym​(A^t​,ρt​,0.2)YesSample averageStable and more sample-efficient, but requires a critic and more memory.GRPO(r−μG)/σG(r-\mu_G)/\sigma_G(r−μG​)/σG​Symmetric IS clipping, Msym(A^t,ρt,0.2)M_\text{sym}(\hat{A}_t,\rho_t,0.2)Msym​(A^t​,ρt​,0.2)YesLength-normalizedMore memory-efficient because it removes the critic and uses group-relative advantages.RLOOLeave-one-out meanNoneNoneSample averageReduces variance without a critic, while returning to a REINFORCE-style update.Dr. GRPOr−μGr-\mu_Gr−μG​Symmetric IS clipping, Msym(A^t,ρt,0.2)M_\text{sym}(\hat{A}_t,\rho_t,0.2)Msym​(A^t​,ρt​,0.2)YesToken averageRemoves length bias and standard-deviation weighting to make token-level learning signals cleaner.DAPO(r−μG)/σG(r-\mu_G)/\sigma_G(r−μG​)/σG​Asymmetric IS clipping, Masym(A^t,ρt,0.2,0.28)M_\text{asym}(\hat{A}_t,\rho_t,0.2,0.28)Masym​(A^t​,ρt​,0.2,0.28)YesToken averageGives low-probability tokens more room to grow and improves step efficiency.CISPO(r−μG)/σG(r-\mu_G)/\sigma_G(r−μG​)/σG​ within groupUpper-bound ISNoToken averageClips importance weights rather than masking gradients, so useful signal is preserved.DPPO(r−μ)/σ(r-\mu)/\sigma(r−μ)/σ within groupSymmetric DV trust region, Mdiv(A^t,υt,0.15)M_\text{div}(\hat{A}_t,\upsilon_t,0.15)Mdiv​(A^t​,υt​,0.15)YesSample averageReplaces ratio-based trust regions with divergence-based ones to better fit the LLM setting.MaxRL(ri−r^)/(N⋅r^)(r_i-\hat r)/(N\cdot \hat r)(ri​−r^)/(N⋅r^), with r^K/N\hat rK/Nr^K/NNoneNoneSample averageInterpolates between RL and MLE, improving passk and preserving diversity.ScaleRL(r−μB)/σB(r-\mu_B)/\sigma_B(r−μB​)/σB​Upper-bound ISNonePrompt averageUses large-scale ablations to validate scaling laws and shows prompt-level averaging works best.文章在总结里把所有方法放在同一张比较表中围绕五个维度baseline/advantage、clipping、masking、loss aggregation、improvements。整体结论是RL for LLM 已经从“PPO 时代的复杂 critic-based 方案”逐渐走向“critic-free、token-aware、prompt-aware、trust-region 更精细、算力分配更讲究”的路线。核心要点REINFORCE 是起点PPO 带来稳定性与样本效率GRPO 让 critic 退场RLOO 进一步简化Dr. GRPO、DAPO、CISPO 则在长度偏置、clip 机制、梯度流上持续修补。MaxRL 把 RL 与 MLE 连接起来强调 passk 和高成功率下的学习分布。DPPO 把 trust region 从 ratio 重新定义为 divergence。ScaleRL 则说明真正决定最终效果的还包括异步执行、FP32 logits、prompt-level averaging 等工程与训练策略。经验技巧目前最强的经验趋势是去 critic、做 token/prompt-aware 聚合、把 trust region 处理得更软或更原则化并更明确地管理 curriculum 与算力。这个领域的进步越来越像“方法 实现 规模”的联合优化而不是单纯靠一个损失函数就解决问题。十三、Open Problems最后一章把焦点从“已有方法”转向“尚未解决的根问题”。文章认为RL for LLM 现在不缺可用算法真正难的是效率、鲁棒性、泛化性以及如何知道哪些经验改进能够跨模型、跨任务、跨规模迁移。核心要点Credit assignment当前 outcome-based 方法往往把同一个 reward 施加给整段回答效率并不高。Sample efficiency多数方法仍依赖每个 prompt 多次 rollout常见 8 到 64 次成本很高。Very hard problems如果模型从来采不出正确答案就没有梯度可学curriculum 只能缓解不能根治。Extension beyond math and code当前进展主要来自可自动验证的数学和代码任务推广到 noisy、delayed、subjective 或多轮交互任务仍很难。Empirical reliability很多证据仍然窄、贵、难复现一个方法可能改变的是早期速度也可能改变最终上限两者不能混为一谈。经验技巧未来研究很可能不再是“有没有算法”的问题而是“怎样把信号更有效地给到真正关键的 token / prompt / trajectory”。如果一个方法只在特定模型、特定 verifier、特定算力预算下有效就需要谨慎看待它的普适性。