报告主题NeurIPS/ACL/ICLR顶会洞察可扩展强化学习的三条边界报告日期05月9日周六 14:30-15:30报告要点强化学习正在重塑大模型能力边界——OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型借助大规模 RL 刷新推理天花板但核心问题始终是RL 的 Scaling 边界究竟在哪里智源Talk 358期邀请了清华大学何秉翔线上分享围绕三条核心边界展开Recipe 复杂度是否必然指数增长无监督 RLVR 在模型超越人类专家后还能走多远On-Policy Distillation 的密集 token 级监督是否存在隐性代价清华团队三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD 分别给出系统性回答为大规模 RL 的未来发展提供了重要理论支撑。欢迎大家一起讨论交流。论文地址JustRLhttps://arxiv.org/abs/2512.16649v1Unsupervised RLVRhttps://arxiv.org/abs/2603.08660v1Rethinking OPDhttps://arxiv.org/abs/2604.13016v1议题详情强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问RL 究竟能 scale 到哪里通往可扩展强化学习的路上有三个绕不开的问题。第一当社区在trick 军备竞赛里越陷越深RL recipe 真的必须越来越复杂吗第二当人工标注的成本指数级增长、模型逼近甚至超越人类专家无监督 RLVR 能带我们走多远第三相比稀疏的结果奖励On-Policy Distillation 提供的密集 token 级监督看似是免费的午餐但这顿午餐真的没有代价吗清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD分别给出了系统性的回答。报告嘉宾何秉翔清华大学博士生导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文谷歌学术引用量超1800次。电脑端观看地址第八届智源大会 相约6月12日-13日