LeCun和文心同发现：原生多模态是个偏科生

张

张建站

2026/6/23 2:34:32

10分钟阅读

创新点本文核心创新在于彻底摒弃基于预训练语言模型微调的范式采用从 0 开始的统一多模态预训练方案基于 Transfusion 框架将文本自回归预测与视觉流匹配扩散目标融合。揭示视觉与语言的缩放不对称性并给出架构解法通过 IsoFLOP 分析发现视觉远比语言更依赖数据而混合专家MoE架构可自适应实现模态专家分化。方法本文采用从零开始受控预训练的实验思路基于Transfusion统一框架将文本的自回归下一词预测任务与视觉的流匹配扩散任务结合在包含纯文本、视频、图文配对数据以及动作条件视频的多元混合数据上进行端到端训练全程保持计算预算与超参数一致以控制变量通过模块化消融实验分别拆解视觉表征、数据配比、模型架构与缩放规律的影响同时采用IsoFLOP分析方法推导视觉与语言的缩放定律借助固定计算预算下的参数与数据量扫点确定最优配比并通过导航世界模型NWM的零样本规划与轨迹误差指标评估世界建模能力结合文本困惑度、图像生成质量、VQA准确率等多维度指标完成全面评测最终通过对MoE专家路由行为的量化分析揭示模态专业化的涌现规律。统一多模态预训练整体框架与研究维度总览本图整体分为上下两部分上半部分清晰展示了模型的统一架构采用单一解码器 - only Transformer 作为主干同时处理文本与视觉两类信号文本侧通过分词器做自回归下一词预测视觉侧经由视觉编码器得到表征并采用流匹配 / 扩散做下一视觉状态预测两套任务目标在统一框架内联合优化下半部分则提炼出全文的五大核心研究维度分别是视觉表征、数据组合、世界建模、架构设计与缩放规律直观呈现本文从模型结构到训练机制、再到关键实验变量的完整研究脉络既体现了以 Transfusion 为基础的文本 - 视觉一体化建模思路也清晰说明全文围绕这一统一架构系统探究视觉表征选型、多模态数据协同、世界建模能力涌现、MoE 架构设计以及视觉 - 语言缩放不对称性等核心问题是理解整篇论文研究范式与实验逻辑的总纲图示。多模态预训练四类训练数据示例本图直观展示了本文统一多模态预训练所使用的四类核心训练数据样本清晰呈现模型学习的信号来源。第一类为纯文本数据取自大规模网页文本用于维持语言建模能力第二类为图文配对数据包含图像与对应的描述性文本是建立视觉与语言对齐关系的关键第三类为动作数据以文本形式表示导航位移、旋转等连续动作用于支撑世界建模与具身预测任务第四类为纯视频数据以逐帧形式输入提供无标注的真实世界时空动态信息。这四类数据共同构成多样化训练组合支撑模型同时习得语言理解、视觉生成与理解、跨模态对齐以及物理世界预测等综合能力也对应后文数据协同、世界建模等核心实验的数据源基础。不同视觉表征在多模态任务上的性能对比本图通过多维度指标对比了多种视觉表征在统一多模态预训练中的效果核心验证RAE以 SigLIP 2 为代表是兼顾视觉理解与生成的最优统一表征。图中对比了语义编码器SigLIP 2、WebSSL‑L、DINOv2‑L、VAE 类编码器SD‑VAE、FLUX.1以及原始像素输入等多种方案在文本困惑度PPL、图像生成指标DPGBench、GenEval和视觉问答VQA准确率上全面评估结果显示基于 RAE 的 SigLIP 2 在视觉生成与理解任务上显著优于传统 VAE同时文本困惑度与纯文本基线基本持平而原始像素在理解上接近语义编码器但生成质量偏低VAE 则在理解任务上明显弱于语义编码器。该图直接推翻 “理解与生成必须用双视觉表征” 的传统结论证明单一高维语义表征即可同时支撑两类任务为全文统一视觉表征设计提供核心实验依据。实验本表格主要对比了无共享专家、全局共享专家、模态专属共享专家三种 MoE 路由配置在统一多模态模型上的表现以 DCLM 困惑度、Notes 困惑度、扩散损失、GenEval 生成分数为评测指标结果显示全局共享专家相比无共享专家在各项指标上有小幅提升而采用文本与视觉各自独立的模态专属共享专家策略能够取得最优效果在降低文本困惑度与扩散损失的同时提升图像生成质量充分说明为不同模态单独设置固定激活的共享专家可以更好地适配文本与视觉差异化的计算需求进一步验证了模态专属容量分配对多模态联合训练的有效性也为后续 MoE 架构的优化设计提供了直接的实验支撑。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

华为交换机SSH远程登录保姆级配置教程（从命令行到验证，含常见错误排查）

华为交换机SSH远程登录实战指南：从零配置到深度排错刚接触华为交换机的网络工程师，往往会被命令行界面和复杂的配置步骤劝退。SSH作为最常用的远程管理协议，其配置过程涉及网络基础、服务启用、用户认证等多个环节。本文将手把手带你完成华为…...

2026/6/20 17:32:56 阅读更多 →

别再为YDLIDAR X3的ROS驱动发愁了！从SDK编译到Rviz可视化的保姆级避坑指南

YDLIDAR X3雷达ROS驱动全流程实战：从零搭建到Rviz可视化的深度排错手册第一次接触YDLIDAR X3雷达时，我按照官方文档操作却遭遇了各种"坑"——SDK编译报错、环境变量失效、串口权限问题、launch文件不兼容...这些看似简单的步骤背后藏着无数新…...

2026/5/13 23:04:35 阅读更多 →

告别交越失真！用Multisim仿真搞定三极管推挽电路偏置（附完整参数）

告别交越失真！用Multisim仿真搞定三极管推挽电路偏置（附完整参数） 在模拟电路的学习过程中，三极管推挽电路是一个既基础又关键的知识点。许多初学者在理论学习时能够理解其工作原理，但一到实际搭建电路或进行仿真时&am…...

2026/6/10 11:24:16 阅读更多 →

终极网盘直链下载指南：八大平台高速下载完全解决方案

终极网盘直链下载指南：八大平台高速下载完全解决方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

2026/6/22 11:26:33 阅读更多 →

抖音无水印下载终极指南：专业级开源工具完全解析

抖音无水印下载终极指南：专业级开源工具完全解析【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖…...

2026/6/21 0:08:48 阅读更多 →

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版

考研英语黄皮书pdf|考研英语黄皮书原文外教朗读|考研英语真题手译本电子版资料全科都有考研英语黄皮书 PDFhttps://tool.nineya.com/s/1jpq3effr 【英语真题】1. The word "resilient" means（ ） A. able to recover quickly B. very fragile C…...

2026/6/22 16:15:36 阅读更多 →

中兴光猫权限解锁工具：zteOnu完整使用指南与教程

中兴光猫权限解锁工具：zteOnu完整使用指南与教程【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫权限解锁工具zteOnu是一款专门用于开启中兴光猫设备工厂模式的强大…...

2026/6/22 2:39:53 阅读更多 →