1. Motivation当前 Multimodal Large Language Models 在视频理解任务上取得了很大进展例如动作识别、视频问答、事件理解等。但是很多现有 benchmark 其实并不真正要求模型持续理解整个视频。很多问题可以通过看几个关键帧找到某个显著事件观察最后一帧依赖常识或答案先验来得到答案。然而人类理解视频时并不是只看离散帧而是会持续追踪视频中的状态变化。例如看篮球比赛时我们会持续记分看 shell game 时我们会一直记住球在哪个杯子下面看键盘输入时我们会把每次按键组成完整字符串看魔方转动时我们会追踪某个小块最后去了哪里。这种能力被论文称为Visual State Tracking即视觉状态追踪。VSTAT 的目标就是评估 MLLM 是否真的能在连续视频流中追踪实体、事件和状态而不是只做静态图像理解或短片段理解。2. Related Work论文主要讨论了三类相关工作。2.1 Video MLLM现有多模态大模型已经可以处理视频输入并在很多视频理解任务上表现不错例如视频问答、动作识别、长视频理解等。但这些任务不一定需要模型持续追踪状态。模型可能只需要抓住几个关键画面就能回答。2.2 Video Understanding Benchmarks已有 benchmark 覆盖了很多方向例如general video understandingtemporal reasoningevent recognitionlong video understandingspatial reasoning。但是真正系统评估 visual state tracking 的 benchmark 仍然较少。已有一些工作关注类似能力比如 shell game 或 cube counting但通常任务种类比较单一主要是合成环境缺少真实世界复杂场景。2.3 World ModelsVSTAT 和 world model 也有一定联系。World model 通常需要预测未来状态而 VSTAT 关注的是从视频中追踪已经发生的状态变化。区别在于world model 通常假设 action 或 state 表示比较明确VSTAT 中的 action 是隐含在视频事件里的模型需要自己从视觉流中识别事件并更新状态。3. Benchmark 构建VSTAT 是一个视频问答 benchmark输入是视频和问题输出是答案。数据规模834 video clips1,500 questions视频来源包括 Blender 合成视频、作者自录视频和 YouTube 真实视频。VSTAT 的核心设计原则是问题不能通过单帧、少量关键帧或最终状态直接回答必须跟踪整个视频过程。例如“书一共翻了多少页”“最后球在哪个杯子下面”“键盘输入的单词是什么”“哪些按钮没有被按”“哪个球从释放到落下用时最长”“某个魔方块最后到了哪里”这些任务都要求模型持续观察事件并维护内部状态。4. Taxonomy论文设计了两个 taxonomy用来描述任务难度。4.1 State ComplexityState complexity 描述模型需要维护什么样的状态。它包含两个维度。Element TypeCount需要累加计数。例如翻了几页、进了几球、按了几次按钮。Location需要追踪位置。例如球在哪个杯子下面魔方块最终在哪个位置。Attribute需要追踪属性。例如键盘输入字符、摩斯电码、图案类别等。StructureAtomic只需要维护一个单一状态。例如总页数、最终位置。Sequence需要维护有序序列。例如键盘输入的字符顺序。Set需要维护无序集合。例如哪些按钮被按过哪些球员碰过球。Dict需要维护实体到数值或属性的映射。例如每个球员投中几次每个杯子里有什么。4.2 Perceptual ComplexityPerceptual complexity 描述视频感知为什么难。主要包括Occlusion目标被遮挡例如 shell game。Camera Motion镜头移动导致空间参考系变化例如篮球、carousel。Homogeneity多个物体长得很像例如魔方、Lego。Symbolic Decoding需要把连续视觉模式转成符号例如键盘输入、摩斯电码。Multi-entity Attribution多个实体同时行动需要判断事件属于谁例如排球、篮球。Event Ambiguity类似动作导致不同状态结果例如拧螺丝、按键是否真的按下。这个 taxonomy 的价值在于它不仅告诉我们模型答错了还能分析模型在什么类型的状态和感知挑战下更容易失败。5. Evaluation Setup论文评估了多种 MLLM包括Gemini-3.1 ProGemini-3.0 FlashQwen3VLInternVLLLaVA-OVMolmo2Cambrian-SMiMo-VL 等。同时也评估了一些 agentic framework包括video agentClaude CodeCodex。评估指标包括MCQ 的 accuracynumerical question 的 mean relative accuracyoverall average score。论文还设置了两个 chance-level baselineRandom Chance随机猜。Frequency Chance总是猜最常见答案。这个 baseline 用来判断模型是否真的理解视频而不是利用答案分布偏置。6. Main Results虽然 VSTAT 提出了 state complexity 和 perceptual complexity 两套 taxonomy但主实验结果主要按照 state element 和 state structure 展开。Perceptual complexity 更多用于描述数据集多样性和解释模型失败原因并没有像 state complexity 一样提供完整的模型性能 breakdown。一个比较可惜的点是论文没有系统展示不同 perceptual challenges 下的模型性能例如 occlusion、camera motion、homogeneity、symbolic decoding 等场景下模型分别下降多少。考虑到论文强调 visual perception 是主要瓶颈这类分桶结果会更直接地揭示哪些视觉挑战最影响当前 MLLM 的 visual state tracking 能力。实验结果显示当前 MLLM 远低于人类Human performance 约 90.5%最强模型 Gemini-3.1 Pro 也只有约 44%很多开源模型甚至低于 frequency baseline。现有模型只比答案先验略好说明它们并没有真正掌握 visual state tracking。增加 thinking 并不一定有效论文发现更高 thinking level 有时还会降低表现。原因可能是模型在高感知复杂度任务中更容易基于错误观察进行过度推理导致 hallucination。模型失败主要不是因为推理能力弱而是视觉感知能力弱当作者把视频中的事件手动转写成文本后模型几乎可以完美解题。但给视频输入时模型表现接近随机。这说明模型会在文字里追踪状态但无法可靠地从视频中识别出需要追踪的事件。7. Failure Analysis论文总结了三类主要失败模式。7.1 Event Recognition模型没有正确识别视频中发生了什么事件。例如 shell game 中明明是 center 和 right cup 交换模型却说成 left 和 right 交换。这是最主要的错误来源。7.2 Entity Association模型无法稳定关联同一个实体。例如排球比赛里同一个球员多次触球但模型每次都认为是不同球员。这种错误在多个实体外观相似、镜头移动、遮挡严重时尤其常见。7.3 State Update模型识别到了事件也知道当前状态但没有正确更新状态。例如模型知道目标杯子在 center也识别到 center 和 right 交换但最后仍然认为目标还在 center。这类错误更接近 reasoning / state transition 错误但论文发现它不是主要错误来源。8. Agentic Framework 结果论文还测试了 video agent 和 coding agent 是否能解决 VSTAT。结果显示AVP 没有明显提升Claude Code 和 Codex 也不能可靠解决coding agent 往往花费大量时间和 token但仍然会因为视频感知错误而答错。这说明只靠 agentic search、写代码、抽帧分析并不能自动解决 visual state tracking 问题。根本瓶颈仍然在视频感知能力而不是工具调用能力。9. ConclusionVSTAT 提出了一个专门评估视觉状态追踪能力的视频 benchmark。它强调模型必须持续观察视频、识别事件、关联实体并不断更新内部状态。论文的核心结论是当前 MLLM 在普通视频 benchmark 上表现不错但在 visual state tracking 上仍然很弱模型失败主要来自视觉感知而不是文本推理thinking 和 agentic framework 不能自然解决这个问题未来需要更强的视频感知和连续状态建模能力。一句话总结VSTAT 证明了当前 MLLM 还不擅长从连续视频流中追踪动态状态。它们会推理但看不准、跟不住、更新不好。