智源TALK｜多模态效率提升至19倍，视频理解前沿进展，伯克利MIT英伟达

张

张建站

2026/5/1 3:12:23

10分钟阅读

报告主题伯克利MIT英伟达通过自回归眼动实现高效可扩展的视频理解报告日期05月12日周二 10:30-11:30报告要点多模态大语言模型在视频理解上进展显著但处理长时长高分辨率视频时仍面临效率瓶颈现有模型对所有像素一视同仁忽略海量时空冗余。智源Talk359期邀请了 Physical Intelligence 史百丰线上分享《Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing》。提出AutoGaze轻量级模块采用自回归眼动方式主动移除冗余视觉 patch可将 token 数减少 4 至 100 倍、推理速度最高提升 19 倍使模型首次支持 1000 帧 4K 视频理解并推出首个高分辨率长视频问答基准 HLVid。欢迎讨论交流。论文地址https://arxiv.org/abs/2603.12254v1议题详情多模态大语言模型MLLMs在通用视频理解方面取得了显著进展但在处理长时长、高分辨率视频时仍面临效率瓶颈现有视觉TransformerViT和MLLM通常对所有像素一视同仁地进行计算忽略了视频中大量存在的时空冗余信息。为此我们提出 AutoGaze一个轻量级模块可在输入送入ViT或MLLM之前主动移除冗余视觉patch。AutoGaze 通过下一词预测与强化学习进行训练采用自回归眼动autoregressive gazing方式在用户指定的重建误差阈值下动态选择最少量的多尺度patch以尽可能完整地重建视频内容在保留关键信息的同时大幅减少冗余计算实验结果表明AutoGaze 可将视觉token数量减少 4倍至100倍并使ViT与MLLM推理速度提升最高 19倍从而支持模型处理 1000帧、4K分辨率的超长视频并在多个视频基准测试中取得领先表现例如在 VideoMME 上达到 67.0%。此外我们还提出了首个高分辨率长视频问答基准 HLVid包含时长5分钟、4K分辨率的视频结合 AutoGaze 扩展后的MLLM相较基线提升 10.1%并超过此前最佳模型 4.5%。报告嘉宾史百丰博士在 Physical Intelligence 担任 Member of Technical Staff主要从事基础计算机视觉与机器人模型的研究。他于 2026 年在加州大学伯克利分校获得博士学位师从 Trevor Darrell 教授。在计算机视觉、机器学习与机器人学习领域的 CVPR、ICCV、ECCV、ICLR、ICML、NeurIPS、CoRL 等顶级会议上发表论文近 20 篇并多次被评为口头报告/亮点论文。电脑端观看地址第八届智源大会相约6月12日-13日

Android 13 SystemUI锁屏布局修改实战：从keyguard_clock_switch.xml到LockIconView.java的保姆级调整指南

Android 13 SystemUI锁屏布局深度定制：从XML到Java的完整工作流当手机厂商的UI设计师递来一份全新的锁屏视觉稿时，作为系统定制开发者的你该如何快速实现？本文将带你深入Android 13的SystemUI核心，通过真实项目场景还原从布局定位…...

2026/5/1 3:07:00 阅读更多 →

S32K148项目实战：从点灯到OTA，用S32KDS和SDK 3.0.0构建可维护的汽车电子Demo

S32K148实战：构建模块化汽车电子开发框架的工程化实践在汽车电子领域，NXP的S32K系列MCU凭借其出色的实时性和功能安全特性，正成为越来越多ECU设计的首选。对于已经掌握基础点灯操作的工程师而言，如何将S32K148的开发能力提升到产…...

2026/5/1 3:03:01 阅读更多 →

OpenH264编译踩坑全记录：从WSL Ubuntu到Android NDK r12b的保姆级避坑指南

OpenH264编译实战：WSL Ubuntu与Android NDK r12b的深度适配指南当我们需要在Android平台上实现高效的H.264编解码时，OpenH264往往成为首选方案。不同于常规的使用教程，本文将聚焦于如何在Windows Subsystem for Linux (WSL)环境下&#xff…...

2026/5/1 3:02:54 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/30 11:20:20 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/30 11:20:21 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/29 14:47:33 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/30 11:20:20 阅读更多 →