DeepSeek-R1 的成功证明深度扩展Depth Scaling在复杂逻辑推理中具有巨大潜力。但当任务从“深推理”转向“广信息”——如汇总全球头部科技公司多维财务数据——单一大模型往往受限于多轮检索带来的上下文干扰与串行效率瓶颈。论文WideSeek-R1: Exploring Width ScalingforBroad Information Seeking via Multi-Agent Reinforcement Learning链接https://arxiv.org/abs/2602.04634代码https://github.com/RLinf/RLinf/tree/main/examples/agent/wideseek_r1为此清华大学与Infinigence AI的研究团队提出了“广度扩展”Width Scaling这一互补范式。基于 Lead-agent-Subagent 的分层多智能体架构WideSeek-R1 通过多智能体强化学习实现端到端训练具备灵活调度与高效并发能力。实验结果显示4B 参数的 WideSeek-R1 在⼴度搜索任务上的表现不仅看⻬ 671B 参数的 DeepSeek-R1 单智能体更⼤幅超越了同参数规模的基线模型。3月24日周二晚8点青稞Talk 第115期RLinf开发者、中国科学技术大学少年班本科生徐哲轩将直播分享《WideSeek-R1通过多智能体 RL 探索大模型的广度扩展》。分享嘉宾直博清华大学电子系导师汪玉教授RLinf开发者研究方向强化学习多智能体。主题提纲从 Depth Scaling 到 Width ScalingWideSeek-R1通过多智能体 RL 探索大模型的广度扩展1、从 DeepSeek-R1 看深度扩展的极限2、“广度扩展”新的 Scaling Law 范式3、WideSeek-R1基于MARL的分层多智能体架构4、未AMA Ask Me Anything直播时间3月24日周二20:00 - 21:00如何观看Talk 将在青稞社区【视频号青稞 AI、Bilibili青稞 AI】上进行进行直播欢迎预约观看Bilibili 直播间https://live.bilibili.com/32145701