来源ScienceAI 本文约3000字建议阅读5分钟人工智能正在改变科学家发现新材料的方式。医学多模态大模型正在从静态影像走向动态临床场景。手术、内镜、介入操作和临床教学视频不同于单张影像它们记录的是连续发生的诊疗过程动作、器械、组织暴露、风险事件和关键步骤都沿时间轴展开。这类长视频的难点不在于视频更长而在于证据更稀疏。一个决定模型判断的视觉线索可能只在几十分钟视频中的几秒内出现一旦固定抽帧没有覆盖到关键片段模型即便生成了流畅解释也很难证明自己的答案来自真实证据。这正是临床 AI 走向真实应用时必须解决的问题医学视频模型不能只是给出一个看似合理的答案更需要回答「证据在哪里」。如果答案无法回到具体时间窗口、关键帧和视觉观察本身它就很难用于质控、教学复盘、术后评估或高风险场景中的人机协同。为此上海创智学院 LeapQuest 团队联合上海交通大学、上海交通大学医学院附属瑞金医院、复旦大学、上海人工智能实验室、清华大学和香港中文大学提出 MedScope。该工作把临床长视频推理从「看过视频后回答」推进到「主动查证证据后回答」核心目标是让模型不仅答对还要从正确证据中答对。论文链接https://arxiv.org/abs/2602.13332代码链接https://github.com/SII-WenjieLisjtu/MedScopeTextual CoT 与 Visual CoT前者主要生成文字推理后者把推理过程接入视频工具使模型能够反复定位、观察和验证关键证据。范式突破Think with Videos让模型带着问题回看视频MedScope 的核心不是让模型写出更长的 Chain-of-Thought而是让模型真正具备与视频交互的能力。其提出的 Think with Videos 范式将一次性视频问答拆解为多轮过程模型先形成假设判断还缺少什么证据随后调用工具回看候选片段或关键帧再根据新的视觉观察修正判断。MedScope 总体框架模型在思考、工具调用和视觉观察之间循环将长视频理解重构为 coarse-to-fine 的证据查证过程。一句话理解突破MedScope 的核心不是让模型「更会描述视频」而是让模型学会在长视频中主动查证先提出证据需求再调用工具定位片段最后基于视觉观察生成可复核答案。这带来一个关键变化模型不再只是被动接受预采样帧而是学会在推理过程中主动决定「下一步该看哪里」。这种能力将大模型的语义推理、视频时间轴上的证据检索以及最终答案生成连接为一个闭环更接近临床专家处理长流程视频时「先扫全局、再看局部、最后确认细节」的工作方式。方法一Coarse-to-Fine Tool Calling把长视频拆成可验证的证据路径在工具设计上MedScope 没有引入复杂的外部专家系统而是选择两个最基础也最关键的操作沿时间轴截取局部视频以及在指定时间点查看关键帧。通过 Coarse-to-Fine Tool Calling模型可以先粗定位候选区间再进入局部片段进行细粒度查证。这套工具机制的突破不在于「看更多帧」而在于「带着问题去看帧」。模型每一次工具调用都服务于当前推理的不确定性是为了确认某个操作是否发生还是为了判断组织是否暴露或者为了核实风险事件是否出现。最终答案不再只是文本结果而是一条可追踪的证据链。方法二ClinVideoSuite让训练数据从「问答对」升级为「证据对齐样本」要让模型学会主动找证据仅靠视频 - 答案对是不够的。模型必须知道答案依赖哪段视频、证据出现在什么时间窗口、需要经过怎样的工具调用才能找到它。围绕这一目标研究团队构建了 ClinVideoSuite一个面向 evidence-centric training 和 grounded evaluation 的临床视频数据套件。ClinVideoSuite 的核心价值不只是数据规模而是重构了训练信号。团队通过多层过滤剔除凭常识即可回答、仅看全局摘要即可回答或内部不一致的问题并进一步通过多模态确认确保保留的问题确实依赖视频片段本身。由此问题、答案和证据窗口被绑定在一起。模型学习的不再只是「如何生成答案」还包括「应该到哪里找证据」「怎样通过观察修正推理」「何时证据已经足以支撑结论」。这为医学视频智能体提供了比传统视频问答更高密度、更可审计的监督信号。ClinVideoSuite 数据构建流程从视频采样、密集描述、证据驱动 QA 到 Visual CoT 轨迹生成为工具增强推理提供训练底座。方法三GA-GRPO把「找对证据」写进强化学习目标在医学场景中只奖励最终答案正确远远不够。一个模型可能因为语言先验而猜中答案也可能基于错误片段给出正确结论如果训练只看结果模型就可能学到「猜中即可」而不是「必须基于正确证据」。MedScope 提出的 Grounding-Aware Group Relative Policy OptimizationGA-GRPO正是为解决这一问题而设计。它将奖励从答案层扩展到证据层由答案正确性、格式规范性和 evidence reward 共同构成对于 crop_video 工具还进一步引入 IoU bonus鼓励模型预测的时间窗口与真实证据窗口更加重合。为什么这一步关键临床场景不能只奖励「答对」还必须奖励「证据对齐」。GA-GRPO 将工具调用、时间定位和最终答案纳入同一学习闭环使模型学会从正确证据中答对。这使 MedScope 的训练目标从单一准确率优化转向「答案 — 工具 — 证据」的联合优化。模型不仅被鼓励答对也被鼓励调用正确工具、定位正确时间段并把最终判断建立在可复核的视觉证据上。实验结果不仅开放模型领先更实现「答对并找对」论文在 SVU-31K 与 ClinVideo-Eval 等基准上对 MedScope 进行系统评估覆盖完整视频描述、细粒度视频理解、时间推理、感知推理、Temporal Grounding 和 grounded VQA 等任务。结果显示MedScope-7B-RL 在开放模型中取得领先整体表现并在跨域临床视频评估中保持良好泛化。MedScope 在 full/fine-grained video understanding 与 grounded VQA 任务上的性能对比体现其在长视频理解与证据定位上的联合优势。更重要的是MedScope 的提升不只是「回答更准」。在 Temporal Grounding 和 grounded VQA 中模型需要同时给出答案并定位证据这比普通问答更接近临床可审计需求。消融实验也表明Visual CoT 冷启动、evidence reward 和 IoU bonus 缺一不可去掉证据奖励后即便答案看似正确时间定位能力也会下降。奖励设计消融去除 evidence reward 或 IoU bonus 后模型对关键时间窗口的定位能力下降说明证据对齐奖励是方法提升的重要来源。影响力医学视频智能体的下一步是把推理交还给证据MedScope 的意义不止是刷新若干基准指标而在于提出了一种面向临床视频智能体的新能力定义模型不应只会理解视频内容还应能主动提出证据需求、调用工具回看视频、定位关键片段并把推理依据呈现给人类专家复核。这种能力对于未来医学 AI 的落地尤为关键。无论是手术培训、术后复盘、医疗质控、机器人辅助手术还是实时决策支持模型的可信度都不能只依赖「它答对了」。更重要的是它必须知道自己在哪里看到了证据、为什么这些证据足以支撑结论。MedScope 将医学视频推理从结果生成推进到证据查证也为可审计、可交互、可部署的临床视频智能体提供了方法基础。作者团队简介第一作者李文杰为上海创智学院 LeapQuest 团队负责人上海创智学院、上海交通大学、上海交通大学医学院附属瑞金医院联合培养在读博士生主要研究方向为 Visual Reasoning、Multimodal Large Language Models 与 Medical AI Agents共同第一作者张钰杰为上海创智学院、复旦大学联合培养博士生主要研究方向为 Vision-Language Model Reasoning、Reinforcement Learning 与 Large Language Models。LeapQuest 团队目前在读博士 16 人致力于以医学智能体驱动医疗场景效率跃迁。编辑文婧关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU