论文入选CVPR 2026,首个超400万具身问答对大规模数据集EQA-Decision来了
让AI在真实环境中不仅“看懂”世界还能“做出”决策——这是具身智能的终极目标之一。然而现有的具身问答数据集和基准普遍“偏科”有的聚焦空间理解有的侧重过程推理几乎没有哪一个能同时覆盖场景理解、空间推理、任务动态推理和实时决策这四个维度。北京大学副教授穆亚东及北京大学、星源智团队给出了答案并提出了一套名为EQA-Decision的大规模数据集与RoboDecision训练框架。首次将具身问答从静态感知扩展到动态决策构建了覆盖四大推理模块、超过四百万问答对的大规模数据集并设计了从监督微调到思维链再到强化学习的三阶段训练方法让模型真正学会“先想后做、看图决策”。该方案论文《Extending Embodied Question Answering from Perception to Decision》已被全球计算机视觉顶会CVPR 2026录用为具身智能前沿研究提供了新思路。EQA-Decision超400万问答对覆盖四大推理维度EQA-Decision数据集规模相当可观超过400万对多模态问答数据涵盖模拟环境、图像问答、第一人称视频和真实机器人轨迹四大来源。数据被系统性地分为四个核心推理模块。静态场景构建关注基本的场景理解任务包括物体存在性、状态、计数和位置。空间理解该模块的空间推理从三个互补视角探索深度与方向、定位与指代、行动可能性。任务动态推理捕捉具身任务中的时间和因果关系子任务规划、状态跟踪和进度估计。即时决策该模块专注于建模机器人在动态具身环境中的实时决策过程。其中任务动态推理和即时决策是此前数据集完全没有覆盖的任务类型。这意味着EQA-Decision第一次让模型不仅要“看懂”当前状态还要推演任务进程、预测最优动作。RoboDecision三阶段训练把“看懂”变成“做对”有了数据集还需要一个能充分利用它的模型。团队提出的RoboDecision以Qwen3-VL-8B为基座设计了一套三阶段渐进式训练 pipeline。第一阶段SFT监督微调。在EQA-Decision的四个模块上均匀采样数据用LoRA微调语言层和融合层注入具身领域知识。第二阶段CoT-SFT思维链监督微调。从中抽取约10%的数据用Gemini-2.5-Pro生成思维链标注包含推理过程和最终答案再专门微调。这一步让模型学会“先想后答”形成显式的多步推理能力。第三阶段GRPO强化学习微调。这是最关键的一步。团队设计了一个混合奖励函数推理奖励用E5-large计算模型生成的推理链与参考思维链的相似度鼓励因果一致的空间和时间推理。答案奖励对自由回答用语义相似度对结构化输出坐标、深度等用规则评分。视觉一致性奖励用OpenCLIP对齐生成的推理与视觉观察确保模型不是靠文本先验瞎猜而是真正“看图说话”。三个奖励协同作用迫使模型从“文本驱动的应答器”转变为“感知驱动的决策者”。实验结果RoboDecision-8B全面领先超越GPT-5团队构建了一个包含2118条样本的EQA-Decision Benchmark覆盖六类任务。结果非常清晰RoboDecision-8B以68.06的整体得分大幅领先。对比Qwen3-VL-8B-Instruct48.84提升了近20个点对比RoboBrain-7B-2.037.32更是接近翻倍。在指代定位任务上RoboDecision得分68.12而Qwen3-VL-8B-Thinking只有23.14。差距悬殊的核心原因正是视觉一致性奖励强制模型把推理锚定在图像像素上。在即时决策任务上RoboDecision得分69.93比最强基线GPT-5的62.25高出7.7个点。EQA-Decision Benchmark 综合成绩对比RoboDecision 与 Qwen3-VL-8B-Instruct 在六类任务上的差异此外团队还在RoboVQA、ERQA、Where2Place三个外部基准上验证了泛化能力RoboDecision在所有任务上均超过通用模型和具身专用模型。结语总之EQA-Decision和RoboDecision把具身问答从“静态体检”升级为“动态实战”。通过系统性地覆盖场景、空间、时间、决策四个维度并设计能够显式优化感知-决策链路的训练方法这项工作为具身智能提供了一个更贴近真实需求的研究范式和数据集。未来这类“从感知到决策”的统一数据集和训练框架很可能会成为具身智能研究的标配。毕竟一个只会看不会做的AI永远无法真正走进物理世界。