点击下方卡片关注“自动驾驶之心”公众号戳我-领取自动驾驶近30个方向学习路线作者 | Hao Gao等编辑 | 自动驾驶之心本文只做学术分享如有侵权联系删文自动驾驶前沿信息获取→自动驾驶之心知识星球去年自动驾驶之心就听说有团队基于地平线的 RAD 在做落地闭环强化学习训练框架而且已经基本验证可行。然后这两天地平线和华科团队发布了RAD-2并且做了实车验证所以第一时间给大家解读一下。一句话总结RAD-2高维、连续、强约束的驾驶轨迹到底该怎么做稳定的闭环强化学习。先把背景说清楚。闭环 RL不是今天开始才重要。在模块化时代强化学习更多出现在轨迹优化和策略refine的阶段。Planner先给出一条轨迹再用 reward 去处理 corner case去强迫系统在安全、效率、舒适之间做下平衡。但那时的优化对象还相对低维或者至少不是端到端策略本身。到了端到端时代逻辑开始发生变化。因为轨迹不再是后处理出来的它就是模型直接学出来的而一旦是模型直接学出来的开环和闭环训练之间的错位就会被放大得很明显。RAD-2 在论文里也直接指出纯模仿训练的扩散式规划器虽然能建模多模态轨迹分布但仍然会遭遇随机不稳定、没有负反馈、以及开环训练与真实闭环交互不匹配的问题。这也是为什么这两年行业对开环端到端越来越谨慎。不是说开环没价值只是想表达开环不是最终的训练阶段。相信大家还记得李志琦的那篇《开环端到端自动驾驶从入门到放弃》直接点破开环训练的弊端做不了量产就是做不了。真实驾驶中也不是一次性输出一条轨迹就结束而是每一步动作都会当做下一帧输入再去做优化。自动驾驶系统里最solid的恰恰就是反馈。没有反馈就很难真正处理一条固定错误轨迹在后续时间里如何继续恶化。大家都知道闭环 RL 重要不等于大家都能把它做出来。真正难的地方有两个。第一个难点是动作空间太高维。自动驾驶不是输出一个离散 token它输出的是连续、时序耦合且物理约束的未来轨迹。把一个稀疏标量 reward直接整合到整段高维轨迹上很容易梯度发散、信用分配失真。第二个难点是闭环训练壁垒高。CARLA 有Sim2Real的问题3DGS 重建更真实但 pipiline 太重latent world model 很灵活但长时 rollout 里容易慢、容易漂。RAD-2 想解决的正是这两个卡脖子的地方。如果您对地平线最新的技术进展感兴趣也欢迎加入「自动驾驶之心知识星球」结合我们分享过的工作闭环RL的发展路线会更清楚。RAD 的核心是 3DGS 数字孪生闭环 RL它证明了端到端驾驶策略确实可以在重建出来的真实世界副本里做大规模试错DreamerAD 走的是 latent world model 路线把视频生成模型的潜变量拿来做高频 RL主打的是效率DiffusionDriveV2 则把 RL 约束输入到截断扩散Planner内部重点解决多模态生成里的 mode collapse 和轨迹质量问题。几条线都在说明一件事闭环 RL 的重点在于如何设计 RL、靠什么环境来放大规模、又如何稳住训练的问题说清楚。RAD-2 的路子是这样“生成 判别 轻量闭环环境”三件套来做闭环强化学习训练。论文标题RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework论文链接https://arxiv.org/abs/2604.15308RAD-2 的做法1扩散式 GeneratorRAD-2 的生成器先把当前观测编码成场景表征。地图 token、动态体 token、导航 token 和 BEV 特征一起融合成统一的场景 embedding再条件化到 DiT 风格的轨迹生成器里。论文里的基本形式是随后生成器从噪声开始迭代去噪得到 (M) 条候选未来轨迹这里的公式其实在表达先用扩散模型把“未来可能怎么开”这件事建模出来。它承担的是 mode coverage不是最终决策。2RL-based Discriminator判别器接收同一场景表征再拿每条候选轨迹去做 trajectory-scene interaction。它最后输出一个标量分数这一步看起来像 reranking但和传统开环 trajectory scoring 的差别非常大。传统很多 scoring 方法还是在日志里打分RAD-2 的判别器是在闭环 rollout 后得到长期的价值。也就是说它学的不是“这条轨迹像不像人类”而是“这条轨迹在后续交互里会不会更安全、更顺、更高效”。3混合策略让生成和打分组成一套联合策略论文把最终联合策略写成这个公式背后的直觉很简单Generator 决定你“看见多少种可能性”Discriminator 决定你“从里面挑哪一种”。一个负责上限多样性一个负责实际的输出二者共同优化。4BEV-Warp很适合大规模闭环训练RAD-2 没有继续走3DGS的方法而是提出了 BEV-Warp在BEV空间里根据 ego 车辆和日志参考轨迹之间的相对位姿把下一时刻的 BEV 特征 warp 出来在特征层级做闭环避免生成未来图像的耗时阶段目前业内基本形成共识了。5TC-GRPO这一步在魔改 GRPORAD-2 的做法是轨迹复用。一旦在时刻 (t) 选定一条最优轨迹就连续执行一个固定 horizon 的控制而不是下一帧立刻又重新采样。这让一段 reward 能更稳定地对应到一组连贯决策上。定义了两个序列级 reward。一个是安全性用 TTCTime-to-Collision来衡量最坏风险另一个是效率用 Ego Progress 去约束车速不要太慢也不要太激进随后在同一起始状态下生成一组 rollout用组内标准化的 advantage 来做 TC-GRPO可以理解成结合了物理约束的 GRPO 升级版。6On-policy Generator Optimization之前的判别器在学习“哪条轨迹价值更高”OGO 学习的则是“怎么让生成器以后更常生成这些高价值的轨迹”。RAD-2 把闭环反馈转成更结构化的 longitudinal 优化信号有碰撞风险就偏向减速没有风险但进度落后就偏向加速。最后把这些优化后的轨迹片段组成 (D_{opt})再去微调生成器实验结果整体上相比RAD有很明显的提升。论文里面消融实验做了很多建议大家看下原文。写在最后这篇工作整体看下来工程上值得做一下尝试。实现上不是特别难并且地平线已经做了实车验证。过去大家谈闭环 RL更多是在讲方向正确今天看 RAD、DreamerAD、DiffusionDriveV2再到 RAD-2行业的技术发展可以说到了深水区。从更长的时间看自动驾驶闭环 RL 大概率会沿着三个方向继续发展。一是环境继续升级从 3DGS、BEV-Warp 走向更高保真但更高效的世界模型二是优化对象继续分层不同模块各自设计最优反馈粗暴塞进一个 loss 的时代渐行渐远三是后训练范式继续强化闭环经验、自主探索、真实运营反馈会越来越像一个闭环的链路。以上。自动驾驶之心求点赞求分享求喜欢