这项由美国伊利诺伊大学厄巴纳-香槟分校PLAN Lab团队完成的研究以预印本形式于2026年4月9日公开发布论文编号为arXiv:2604.08503研究名称为Phantom: Physics-Infused Video Generation via Joint Modeling of Visual and Latent Physical DynamicsPhantom通过视觉与潜在物理动力学联合建模的物理注入式视频生成。你有没有用过AI生成视频然后看着生成结果忍不住皱眉头——一个皮球从高处落下撞到地面后居然像被施了定身咒一样瞬间停住不动或者一个空杯子还没开始倒水杯底就莫名其妙地冒出了液体这类问题不是个例而是当前几乎所有主流AI视频生成系统都存在的通病。这些系统在好看这件事上已经做得相当不错但在合理这件事上却像一个从未见过真实世界的人——它们不懂物理。伊利诺伊大学厄巴纳-香槟分校的研究团队注意到这个问题并提出了一个核心疑问AI视频模型看了海量真实世界的视频为什么还是学不会物理常识答案令人深思。研究团队的判断是仅仅看更多视频这件事本身根本解决不了这个问题。就像一个小孩光是盯着别人打乒乓球看却从来没有机会在脑子里去思考球为什么会弹起来那他永远也搞不清楚弹跳背后的规律。现有AI模型的训练方式本质上就是这种只看不想的模式。于是这支团队提出了一个新方案叫做Phantom直译过来是幽灵。这个名字颇有意味——它指的是一种隐藏在视频背后、肉眼看不见却真实存在的东西物理规律本身。Phantom的核心思路是既然物理规律是隐形的那就专门造一个感知隐形信息的通道让模型在生成画面的同时同步预测画面背后的物理状态。这项研究的意义在于它给AI视频生成装上了一个真正能感受物理的内部机制而不是靠堆砌数据或者在外部打补丁。一、AI视频为什么总在耍赖要理解Phantom解决了什么问题先得搞清楚现有AI视频系统是怎么工作的以及它们在哪里出了毛病。现在主流的AI视频生成系统本质上是在做一件事给定前一帧画面预测下一帧画面长什么样。这个过程不断重复就构成了一段视频。这种方法听起来很合理但它有一个致命的隐患——它只关心画面看起来像什么而不关心画面里的东西应该怎么运动。用一个比喻来说明假设你要画一个故事画面里有一个人把杯子推下桌子杯子应该掉落、撞击地面、可能碎裂或弹跳。一个只看画的AI学徒会学会画出杯子在高处和杯子在低处这两种状态但它不理解为什么杯子会从高处到低处也不明白这个过程中动量、重力、弹性是怎么起作用的。于是当它遇到一个新场景——比如让一个橡皮球从高处落下并弹跳——它可能会画出球落地后直接消失、或者停在地面上纹丝不动的画面因为这两种结果在视觉上对它来说都是可以接受的。已有研究证明单纯扩大模型规模或者增加训练数据量并不能解决这个问题。模型展现出来的更多是对训练数据的模仿和记忆而非对物理规律的真正理解。遇到训练数据里没怎么出现过的场景它就会露馅。这就是为什么Phantom的研究团队认为必须换一种根本不同的思路。二、Phantom的核心思路给AI装一个物理感知器Phantom的设计哲学可以用一个关于乐队的比喻来理解。传统AI视频生成系统就像一支只有视觉演奏者的乐队他们负责画面的色彩、光影、动态——演奏得很好听但整支乐队缺少一个节拍指挥所以演奏出来的音乐时常会在关键地方乱了节奏因为没人在统一管理什么时候该怎么运动这件事。Phantom的做法是给这支乐队增加一个新的声部——物理演奏者专门负责追踪和预测场景背后的物理状态然后让这两个声部互相配合、互相校正演奏出一首视觉和物理都协调统一的乐曲。具体来说Phantom建立在一个已有的强大视频生成系统Wan2.2-TI2V-5B之上这个系统本身已经能生成相当高质量的视频画面。Phantom没有推翻这个系统重来而是给它并排增加了一条新的物理轨道。这条物理轨道专门处理视频里隐藏的物理信息——不是直接用牛顿定律来计算轨迹而是用一种更灵活的方式通过一个预训练好的视频理解模型叫做V-JEPA2把视频帧转化为一种能够反映物理特征的抽象表示。V-JEPA2本身是一个用海量自然视频自学成才的模型它在学习过程中自然而然地发展出了对物体会不会消失、碰撞会怎么发生、重力会让东西怎么运动这类直觉物理概念的理解。研究团队把这个模型提取出来的特征称为物理感知嵌入——可以理解为一种把物理状态压缩成数字密码的方式用来代表当前场景里物体的物理状态。Phantom接收一段观察到的视频帧通过两条并行的通道同时处理它一条是原有的视觉通道负责提取画面的外观信息另一条是新加的物理通道负责用V-JEPA2提取对应的物理状态信息。两条通道各自独立运作但同时通过一种叫做双向交叉注意力的机制紧密联系在一起——视觉通道会去参考物理通道的状态物理通道也会反过来参考视觉通道的信息两者不断相互校准确保生成的画面既好看又合理。三、双轨并行视觉与物理如何互相倾听把双向交叉注意力这个词翻译成日常语言可以这样理解Phantom的两条轨道就像两个合作侦探在同时调查同一个案件。视觉侦探负责描述案发现场的外观——颜色、形状、位置物理侦探负责推断现场里发生了什么物理事件——谁碰了谁、速度是多少、弹力如何。两人会定期碰头交换情报视觉侦探会根据物理侦探的推断来调整自己对现场的描述物理侦探也会根据视觉侦探提供的图像证据来修正自己的推断。最终两人共同得出一个既在视觉上可信、又在物理上合理的结论。在技术层面这两条轨道在模型内部每经过一个计算层都会进行一次信息交换视觉轨道的当前状态会被用来更新物理轨道的状态物理轨道的当前状态也会被用来更新视觉轨道的状态。这种交换用数学公式来表达就是分别用对方的信息来计算自己的查询-键-值注意力——视觉轨道用自己的内容去查询物理轨道物理轨道用自己的内容去查询视觉轨道两边都在不断地问对方你那边现在是什么情况然后各自根据回答调整自己的状态。研究团队特别指出这种设计比另一种可能的做法——直接把视觉信息和物理信息混在一起处理——要更有效。把两种信息混在一起往往会导致模型把视觉特征和物理特征搅成一锅粥反而两样都没法准确追踪。保持两条独立轨道、只在关键节点交换信息才能让每条轨道都专注做好自己的事情同时又不会忽视对方的存在。四、训练策略冻结优势只练短板Phantom的训练方式也相当有意思体现了一种务实的工程哲学。既然原有的视觉生成系统Wan2.2已经做得很好了那就把它的参数全部冻结——也就是训练期间不去改变它保留它已有的强大能力。只有新加入的物理轨道和两条轨道之间的交叉注意力层才会在训练中被更新和优化。这个策略的好处显而易见不需要从头训练整个庞大的视频生成系统节省了大量计算资源同时也避免了因为物理训练信号干扰到已有的视觉生成能力导致原本好的东西被破坏掉。训练过程中Phantom同时学习两个目标预测未来视频帧的视觉内容以及预测未来帧对应的物理状态表示。为了让这两个目标都被合理照顾到研究团队还设计了一个特别的循环权重调度策略。问题在于物理轨道产生的训练信号往往比视觉轨道强得多如果不加控制物理训练信号就会压过视觉信号导致整个训练过程不稳定。于是研究团队把物理损失的权重初始设为零然后慢慢增大一旦物理轨道的梯度范数超过一个设定阈值就把权重重置回零重新开始这个循环。就像给一个新乐手循序渐进地增加演奏难度而不是一上来就让他挑战最难的曲子否则整个乐队的节奏都会乱掉。训练数据来自OpenVidHD-0.4M数据集这是一个包含约40万条高质量视频-文字对的数据集。研究团队特别提到这个数据集本身并不是专门针对物理场景设计的而是涵盖各种日常视觉内容。这意味着Phantom不是靠死记硬背物理场景来获得物理理解能力的而是真正从通用视觉经验中提炼出物理感知能力。训练使用了4块NVIDIA H200 GPU模型训练了两轮使用AdamW优化器学习率设为4e-5权重衰减为1e-3采用余弦学习率衰减策略并有5%的预热比例。五、不只是视频生成Phantom还能接受物理控制信号除了主要的视频生成功能研究团队还探索了一个更有趣的应用方向基于力的物理控制。设想一个静态图片比如一辆停在沙滩上的玩具小汽车。你想让AI把这张图片变成一段视频显示小汽车被一个向左的推力推动后的运动过程。这就需要AI不仅能生成视频还能理解并响应具体的物理控制指令——在坐标(x, y)施加大小为F、方向为θ度的力生成随后发生的运动。Phantom处理这类任务的方式是把力的信息转换成一段短视频一种可视化的力场表示然后用V-JEPA2对这段力场视频进行编码得到对应的物理状态表示再喂给物理轨道。与此同时视觉轨道接收的是原始图像和正常的场景描述文字而物理轨道接收的是力场信息和对应的物理描述文字比如在坐标位置施加大小为X的向左的力。两条轨道各司其职最终生成一段符合力学规律的运动视频。在Force-Prompting数据集上进行了大约1100步的微调之后Phantom就能生成随外力方向合理运动的视频——向左推就向左动向右推就向右动挂在树上的玩具马被力施加后会来回摆动小火车沿铁轨方向运动。这个扩展应用证明Phantom的物理轨道不只是一个被动的观察者而是一个能够主动响应物理控制信号的感知与生成系统。六、测试结果物理合理性大幅提升视觉质量丝毫不减研究团队用三个专门针对物理合理性的测试基准来检验Phantom分别是VideoPhy、VideoPhy-2和Physics-IQ同时还用VBench-2这个综合视频质量评测工具来评估整体表现。在VideoPhy基准测试中这个测试关注生成视频是否符合物理常识覆盖多种材料类型和物理交互场景。Phantom相比基础模型Wan2.2-TI2V物理常识得分提升了50.4%达到了所有对比方法中的最高分37.9分语义贴合度也提升了14.5%。这个提升幅度是非常显著的相当于原来每100个物理场景里只有25个能被正确表现现在变成了接近38个。在更具挑战性的VideoPhy-2基准测试上该测试专注于包含人类交互的动作场景情况更加复杂多变。Phantom在语义贴合度上提升了13.1%物理常识得分提升了2.6%。虽然物理常识的提升幅度相对较小但这个基准测试本身难度更高能有所提升已经说明问题。Physics-IQ基准测试最为特殊它用真实世界拍摄的视频作为参考评测模型生成的视频与真实物理过程的吻合程度。测试分为两种设定单帧条件只给模型看第一帧让它预测后续和多帧条件给模型看一段初始片段让它预测后续。在单帧条件下Phantom的整体Physics-IQ得分相比基础模型提升了33.9%具体来看空间重叠度提升了49.4%加权空间重叠度提升了37.3%预测误差降低了11.1%。在多帧条件下Phantom也展现出了竞争力尽管原始的Wan2.2-TI2V模型本身并不支持多帧输入。在综合质量评测VBench-2上Phantom在整体得分上比基础模型高出0.5%并在多个维度上取得了改善人体真实性提升2.7%物理合理性提升6.0%可控性提升9.4%常识符合度提升1.4%。细粒度指标方面人体解剖结构准确性提升3.3%人体服装真实性提升4.9%画面构图质量提升11.7%人类互动场景的表现提升高达25.9%多视角一致性提升99.2%空间关系动态变化捕捉提升31.4%运动顺序合理性提升15.7%力学表现提升2.3%。唯一有所下降的维度是创意性中的多样性分项从64.67降到了45.95。研究团队对此给出了一个合理解释物理上不合理的视频往往包含各种随机、奇怪的变化这些变化在多样性评测中可能反而会被当成丰富多样来打高分Phantom生成的视频更加遵循物理规律行为更加一致和可预期自然在这个维度上的表现会偏低。这更像是一个评测指标本身的局限性而不是Phantom真正的缺陷。七、与竞争对手的对比各有千秋但物理理解独树一帜研究团队与多个对比方案进行了比较涵盖通用视频生成模型和专门针对物理合理性设计的方法。通用视频生成模型方面对比了CogVideoX-5B、HunyuanVideo、Wan2.2-TI2V-5B等。这些模型本身都没有专门为物理合理性设计任何机制Phantom在物理类测试上全面超越它们。专门针对物理的方法方面研究团队对比了三种有代表性的做法。PhyT2V的思路是利用大型语言模型对提示词进行反复迭代优化通过链式思维推理来让现有视频生成模型输出更符合物理的结果它不需要重新训练视频生成模型但每次生成视频都需要额外进行多轮语言模型推理增加了推理时间和成本另外它只是优化了说明而没有让模型真正具备物理理解能力。WISA的做法是把物理类别和属性信息嵌入到生成过程中通过专门的物理专家注意力机制和物理分类器来引导生成。VideoREPA则是通过让视频扩散模型的隐藏状态与视频基础模型的表示对齐来注入物理理解。Phantom在VideoPhy的物理常识得分37.9上超过了所有这些专门方法包括PhyT2V37分和WISA33分也远超VideoREPA22.4分。特别值得注意的是VideoREPA是建立在比Wan2.2更强大的CogVideoX-5B上的即便如此Phantom仍然在物理合理性上取得了更大的提升幅度。在编码器选择上研究团队还做了一个对比实验把V-JEPA2换成VideoMAEv2另一种视频理解模型来作为物理状态编码器其他设置不变。结果显示使用V-JEPA2的版本在所有指标上都优于使用VideoMAEv2的版本这验证了V-JEPA2确实比VideoMAEv2更擅长捕捉物理相关特征从而为物理轨道提供更有价值的输入。八、用眼睛看得出来的改善几个典型案例论文中呈现的定性对比即肉眼能看出来的对比同样说明了很多问题。第一个场景是气球从大变小。基础模型Wan2.2-TI2V的处理方式是让气球逐渐移远视觉上看起来越来越小但实际上是相机距离的变化而非气球本身在缩小更糟糕的是气球的颜色到最后还无端端地从原色变成了红色。Phantom则生成了一个真正在缩小的气球颜色保持一致体积变化自然渐进。第二个场景是用咖啡壶倒咖啡。Wan2.2-TI2V生成的杯子上有盖子但倒咖啡的动作却无视盖子的存在直接继续造成了明显的逻辑矛盾。Phantom生成的是一个没有盖子的杯子倒咖啡的过程合乎常理地进行。第三个场景是橡皮球落地弹跳。这正是开头提到的案例。Wan2.2-TI2V让球在接触地面后直接停住完全忽视了弹性和动量守恒Phantom则让球在着地后产生了合理的弹跳速度逐渐衰减符合现实中橡皮球的行为。第四个场景是把液体倒入杯子中。在图像条件下给定一个初始帧Wan2.2-TI2V让液体在倒入动作发生之前就莫名出现在杯底违背了时间顺序Phantom则保持杯子为空直到液体真正被倒入时才开始出现。第五个场景是海滩上的大肥皂泡。Wan2.2-TI2V生成的泡泡像半刚性物体一样漂移缺乏肥皂泡应有的轻盈和变形特性Phantom生成的泡泡会拉伸、摆动在风中自然飘动更真实地反映了薄膜材料的物理特性。第六个场景是高黏度蓝色液体倒入碗中。Wan2.2-TI2V在后半段让液体看起来像是落入了一个无底洞失去了堆积和折叠的效果Phantom则生成了液体层层叠加、缓慢流动、形成折叠波纹的画面这正是高黏度流体的典型行为。这些对比不只是视觉上的美化而是物理合理性上的本质提升说明Phantom确实在某种程度上学会了这些物理行为背后的规律而不仅仅是在复制表面的视觉样式。说到底Phantom这项研究告诉我们一件很有启发性的事AI系统要真正理解世界光靠多看是不够的还需要多想——或者更准确地说需要在架构上给它专门配备一个负责想物理的模块让它在生成画面的同时同步追踪画面背后的物理逻辑。这个思路的价值不只是让皮球弹得更真实更深远的意义在于它迈出了让AI从视觉模仿者向物理理解者转变的重要一步。当然这项研究也有它自己的局限。目前Phantom的物理理解依赖V-JEPA2这个编码器所能捕捉的物理特征而V-JEPA2本身也有它能力边界训练数据OpenVidHD-0.4M虽然质量不错但并非专门为物理场景设计这意味着某些较为特殊的物理场景可能仍然是盲区。此外目前的多样性评测指标下降也提示我们现有的评测体系可能还需要进一步完善才能更准确地衡量物理合理性与生成多样性之间的平衡。不过这些都是可以持续改进的方向。Phantom作为一种将物理推理内化到视频生成模型本身的尝试已经证明了这条路线的可行性和有效性。对物理合理的AI视频生成感兴趣的读者可以通过arXiv编号2604.08503找到完整的论文原文PLAN Lab的项目主页也提供了更多可视化案例供参考。QAQ1Phantom模型是如何让AI理解物理规律的APhantom在原有视频生成系统旁边并行增加了一条物理轨道这条轨道专门利用V-JEPA2编码器提取视频帧里隐含的物理状态信息比如物体的运动趋势、碰撞方式等。这两条轨道通过双向交叉注意力机制定期互相交换信息让视觉生成和物理推断相互校正。训练时模型同步学习预测未来画面的视觉内容和对应的物理状态而不是只学画面像什么。Q2Phantom和其他让AI视频更符合物理的方法有什么区别A现有的物理增强方法大多在模型外部动手脚比如用语言模型反复优化提示词、接入物理模拟器、或者对齐模型与外部特征等这些方法要么增加了推理成本要么没有真正改变模型内部的推理方式。Phantom的不同在于它把物理推理直接集成到了视频生成模型的内部架构里让模型在生成每一帧画面时都同步追踪物理状态不需要外部辅助推理时也不用额外步骤。Q3Phantom训练需要大量专门的物理视频数据吗A不需要。Phantom使用的训练数据集OpenVidHD-0.4M是一个通用的高质量视频文字数据集并不是专门针对物理场景收集的。这说明Phantom并不是靠死记硬背物理场景来获得物理理解能力而是从通用视觉经验中通过物理轨道的联合训练机制提炼出了对物理规律的感知能力。