智源TALK｜NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界

张

张建站

2026/5/1 3:13:59

10分钟阅读

智源TALK｜NeurIPS/ACL/ICLR顶会洞察：可扩展强化学习的三条边界

报告主题NeurIPS/ACL/ICLR顶会洞察可扩展强化学习的三条边界报告日期05月9日周六 14:30-15:30报告要点强化学习正在重塑大模型能力边界——OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型借助大规模 RL 刷新推理天花板但核心问题始终是RL 的 Scaling 边界究竟在哪里智源Talk 358期邀请了清华大学何秉翔线上分享围绕三条核心边界展开Recipe 复杂度是否必然指数增长无监督 RLVR 在模型超越人类专家后还能走多远On-Policy Distillation 的密集 token 级监督是否存在隐性代价清华团队三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD 分别给出系统性回答为大规模 RL 的未来发展提供了重要理论支撑。欢迎大家一起讨论交流。论文地址JustRLhttps://arxiv.org/abs/2512.16649v1Unsupervised RLVRhttps://arxiv.org/abs/2603.08660v1Rethinking OPDhttps://arxiv.org/abs/2604.13016v1议题详情强化学习正在重塑大模型能力的边界。OpenAI o3、DeepSeek-R1、Gemini 3 等顶尖模型都在用大规模 RL 刷新推理的天花板。但所有人都在追问RL 究竟能 scale 到哪里通往可扩展强化学习的路上有三个绕不开的问题。第一当社区在trick 军备竞赛里越陷越深RL recipe 真的必须越来越复杂吗第二当人工标注的成本指数级增长、模型逼近甚至超越人类专家无监督 RLVR 能带我们走多远第三相比稀疏的结果奖励On-Policy Distillation 提供的密集 token 级监督看似是免费的午餐但这顿午餐真的没有代价吗清华团队的三项最新工作 JustRL、Unsupervised RLVR、Rethinking OPD分别给出了系统性的回答。报告嘉宾何秉翔清华大学博士生导师为清华大学刘知远教授。研究方向为大模型对齐与强化学习曾在 ACL、ICLR、NeurIPS 等人工智能国际顶级会议发表论文谷歌学术引用量超1800次。电脑端观看地址第八届智源大会相约6月12日-13日

收藏！Web安全隐形杀手——逻辑漏洞程序员_小白必学安全攻防知识

收藏！Web安全隐形杀手——逻辑漏洞程序员/小白必学安全攻防知识本文系统讲解Web安全逻辑漏洞，剖析其成为安全新战场的原因，详解验证、会话管理、权限控制、业务逻辑四大类漏洞的攻击原理，结合真实案例演示攻击流程，…...

2026/5/1 3:12:58 阅读更多 →

智源TALK｜多模态效率提升至19倍，视频理解前沿进展，伯克利MIT英伟达

报告主题：伯克利&MIT&英伟达：通过自回归眼动实现高效可扩展的视频理解报告日期：05月12日（周二） 10:30-11:30报告要点：多模态大语言模型在视频理解上进展显著，但处理长时长高分辨率视频时…...

2026/5/1 3:12:23 阅读更多 →

Android 13 SystemUI锁屏布局修改实战：从keyguard_clock_switch.xml到LockIconView.java的保姆级调整指南

Android 13 SystemUI锁屏布局深度定制：从XML到Java的完整工作流当手机厂商的UI设计师递来一份全新的锁屏视觉稿时，作为系统定制开发者的你该如何快速实现？本文将带你深入Android 13的SystemUI核心，通过真实项目场景还原从布局定位…...

2026/5/1 3:07:00 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/30 11:20:20 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/30 11:20:21 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/29 14:47:33 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/30 11:20:20 阅读更多 →