上海AI实验室发布万亿参数科学模型Intern-S1-Pro

张

张建站

2026/4/22 12:32:55

10分钟阅读

这项由上海AI实验室主导的突破性研究发表于2026年3月27日论文编号为arXiv:2603.25040v1研究团队首次构建了拥有万亿参数规模的科学多模态基础模型Intern-S1-Pro。这个庞大的AI系统不仅在通用能力上达到了业界顶尖水平更是在科学专业领域展现出了前所未有的深度理解能力。当我们谈论人工智能时通常会想到ChatGPT这样的对话助手或者能够识别图片的视觉系统。但是科学研究的复杂性远超日常应用。化学分子结构、生物基因序列、地球科学数据、材料特性分析——这些专业领域都有着自己独特的语言和思维模式。就像一个医生需要同时掌握解剖学、药理学和诊断技术一样一个真正有用的科学AI助手也需要在多个专业领域都具备深厚的理解能力。Intern-S1-Pro的诞生源于一个简单而深刻的观察科学知识的复杂性需要足够庞大的模型容量来承载。研究团队发现就像翻译员需要更强的语言能力才能处理更多语言对一样处理多个科学领域的AI模型需要比处理单一领域的模型大90倍的参数量。这个发现促使他们将模型规模扩展到了万亿参数级别成为首个达到这一规模的科学多模态基础模型。这个AI系统的能力范围令人印象深刻。它不仅能够理解和生成自然语言文本还能够处理各种科学图像、解析时间序列数据甚至具备了自主规划和执行复杂科学工作流程的代理能力。更重要的是它在超过100个专业科学任务上都表现出色涵盖了化学、材料科学、生命科学和地球科学等关键领域。一、突破性的架构设计如何让万亿参数稳定运行构建万亿参数规模的AI模型就像在建造一座前所未有的摩天大楼——你不能简单地按比例放大现有的设计图纸而需要全新的工程解决方案来确保结构的稳定性。Intern-S1-Pro的成功很大程度上归功于其创新的架构设计。研究团队面临的第一个挑战是如何从之前的Intern-S1模型平稳扩展到四倍规模。他们采用了一种叫做专家扩展的策略可以把这个过程想象成一个餐厅从4个厨师扩展到16个厨师的过程。直接增加厨师数量可能导致混乱但如果合理分组让每组都包含经验丰富的资深厨师就能保证服务质量的稳定性。在这个比喻中Intern-S1-Pro引入了分组路由机制。传统的AI模型就像一个无序的厨房每次来订单时所有厨师都争抢着处理导致工作负载极不均衡。有些厨师忙得不可开交而另一些厨师却无所事事。这种不平衡在万亿参数规模下会导致严重的计算资源浪费甚至引起系统崩溃。分组路由机制的巧妙之处在于将所有专家相当于厨师均匀分配到不同组别中确保每个组都有顶尖的专家。当处理任务时系统会从每个组中选择最适合的专家来协同工作。这种方法不仅确保了负载均衡还显著提高了训练稳定性。实验结果显示使用这种方法的模型性能可以略微超越扩展前的基准而采用传统方法的性能会下降超过20个百分点。另一个技术创新是直通估计器Straight-Through Estimator的应用。可以把这个技术想象成一个智能的学习反馈系统。在传统方法中模型就像一个只能从成功案例中学习的学生对于那些没有被选中处理任务的专家系统无法提供有效的学习信号。直通估计器的作用就像给每个专家都配备了观察学习的能力即使某个专家这次没有被选中它也能通过观察整个处理过程来不断改进自己的技能。这种设计的优势在前向计算和反向学习过程中表现不同。在前向处理时系统仍然只激活最相关的专家保持计算效率。但在学习阶段所有专家都能获得反馈信号确保整个系统的持续改进。研究团队还引入了温度参数来精确控制这个学习过程在集中学习和均匀学习之间找到最佳平衡点。模型的视觉处理能力也经过了精心设计。不同于固定分辨率的传统系统Intern-S1-Pro采用了原生分辨率处理方式。就像一个摄影师会根据拍摄对象调整相机设置一样这个系统会根据输入图像的实际分辨率进行处理保留了高分辨率图像中的精细信息。这对科学应用尤为重要因为科学图像往往包含大量关键细节。二、革命性的位置编码让AI理解连续性的物理世界传统的AI模型处理信息的方式本质上是离散的就像把连续的音乐切分成一个个音符。但物理世界是连续的——光具有波粒二象性声音以连续波形传播电磁信号具有独特的频谱特征。这种离散化处理方式在处理科学数据时会丢失重要的连续性信息。Intern-S1-Pro引入了傅里叶位置编码FoPE技术这就像给AI装上了能够理解波动现象的物理直觉。可以把传统的位置编码想象成给每个位置分配一个固定的门牌号而傅里叶位置编码则像是给每个位置分配了一个完整的频谱指纹。这个创新的核心在于数学上的傅里叶分析原理。傅里叶分析能够将任何复杂的信号分解为不同频率的正弦波组合就像白光可以通过三棱镜分解为彩虹一样。在AI模型中应用这个原理每个维度不再被视为单一频率的函数而是被建模为多个频率成分的组合。这种方法带来了两个重要优势。第一是信息分离度更高。传统方法就像把不同颜色的颜料混合在一起很难再分离出原始成分。而傅里叶位置编码就像保持每种颜色的独立性不同频率的信息不会相互干扰。第二是训练稳定性更好。在模型训练过程中那些没有得到充分训练的频率成分会被自动识别并过滤掉就像一个音响系统会自动过滤掉杂音一样。更重要的是这种方法显著改善了模型在处理不同长度序列时的表现。传统模型在训练时如果只见过短序列处理长序列时往往表现不佳。FoPE技术通过其周期延拓特性让模型在处理超出训练长度的序列时仍能保持良好的性能就像学会了一首歌的旋律后即使延长演奏时间也不会走调。三、专门的时间序列处理解读科学数据的时间密码科学研究中有大量的时间序列数据——从天文观测到神经科学信号从地震波形到生物电信号。这些数据的特点是变化率差异巨大数据长度参差不齐数值范围跨度极大。传统的处理方法就像用同一把尺子测量从分子到银河系的所有物体显然不够精确。Intern-S1-Pro开发了专门的时间序列处理模块可以把它想象成一个智能的数据翻译员。这个翻译员首先会观察整个时间序列的特征然后决定如何将其分解为更容易理解的片段。这个过程叫做自适应子采样就像一个经验丰富的编辑会根据文章内容决定如何分段一样。自适应子采样的工作原理很巧妙。对于一个可能包含数百万数据点的长时间序列系统会根据信号的采样率和复杂度动态确定分块策略。如果信号变化缓慢就采用较大的块如果变化剧烈就采用较小的块。这样既保证了重要信息不被遗漏又将数据量控制在可处理的范围内。处理流程分为几个阶段。首先是动态分块系统像一个智能的图书管理员一样将长长的时间序列书籍分割成合适大小的章节。接着是局部特征提取每个章节内的细节特征被仔细分析和提取。最后是全局依赖建模系统会分析不同章节之间的关联关系理解整个时间序列的完整故事。这个模块的处理能力范围从100个数据点到100万个数据点覆盖了绝大多数科学应用场景。在天文学领域它能处理长期的星体光变数据在神经科学中它能分析复杂的脑电信号在地球科学里它能解读地震波形和气候变化数据。更令人印象深刻的是它还扩展到了新的应用领域比如生理信号分析和生物声学识别展现出了强大的泛化能力。四、高质量科学数据的获取从PDF中挖掘知识宝藏训练一个科学AI助手最大的挑战之一就是获得高质量的科学图文配对数据。网络上虽然有大量图像但大多数是生活照片或一般性图片真正的科学图像相对稀少而且往往缺乏详细准确的描述。这就像试图用烹饪杂志的图片来教会机器人做复杂的法式料理——图片是有的但缺少详细的制作步骤和关键技巧。研究团队的解决方案颇具创意他们把目光投向了科学论文的PDF文档。科学PDF就像一个巨大的知识宝库包含了大量高质量的实验图表、统计图形、结构示意图和公式推导。这些图像不仅信息密度高而且往往伴随着详细的文字说明是训练科学AI的理想素材。团队开发了一套完整的PDF数据处理流水线。首先使用MinerU2.5技术进行版面分析这个过程就像一个细心的图书馆员能够精确识别文档中的各个元素——哪里是图片哪里是表格哪里是公式哪里是正文。这种自动化识别的准确率非常高能够将复杂的学术论文完美解构。接下来是内容去重处理。由于同一个实验结果可能在多篇论文中被引用系统使用感知哈希技术来识别和移除重复的视觉内容。这个过程类似于照片管理软件自动识别重复照片的功能但更加精确和智能。最有趣的是标题生成环节。团队设计了一个主题分类和模型路由机制就像一个智能的写作助手分工系统。对于科学图像系统会调用专门训练的InternVL3.5-241B模型来生成专业的、领域特定的描述。对于非科学图像则使用CapRL-32B模型生成通用性描述。这种标题生成的质量差异非常显著。传统的自然描述往往只有几十个词内容简单比如显示实验结果的图表。而新的标题生成系统能够产生平均1000字的详细描述包含轴标签说明、数据趋势分析、实验条件描述、结果解释等丰富内容。这种详细程度的描述对训练科学AI至关重要因为它教会了模型如何准确理解和描述科学内容。为了进一步提高标题质量团队还采用了多模板随机化提示策略并引入了0.5B参数的文本质量判别器来过滤掉错误文本、重复表达和低信息密度内容。这个过程就像有一个专业的编辑在把关确保最终产出的训练数据既准确又有用。整个流水线处理了涵盖生命科学、化学、地球科学和材料科学的大规模PDF语料库最终产生了约270B token的高质量科学图文配对数据。这个数据集不仅规模庞大质量也达到了前所未有的高度。五、科学数据与通用数据的完美融合将科学数据与通用数据整合到一个模型中训练就像尝试让一个人同时成为严谨的科学家和灵活的文学家。这两类数据具有截然不同的特征科学数据逻辑性强、结构化程度高而通用数据更注重语义表达和语言多样性。直接混合训练往往会导致分布偏移和负迁移现象就像两种不同的思维方式在大脑中冲突导致推理过程出现混乱。研究团队采用了三大技术策略来解决这个挑战。第一个策略是结构化科学数据转换。科学数据通常以高度结构化的格式存在比如来自PubChem数据库的化学分子信息。团队没有简单地将这些数据线性化为文本而是开发了两种方法模板构建和任务形式转换。模板构建就像为不同类型的科学数据设计专门的翻译模板。通过这些模板异质的输入输出对被转换为语法正确的叙述性文本确保科学数据与通用数据在表达风格上保持一致。这种转换既保证了语义的连贯性也最大程度地减少了信息损失。对于那些缺乏直观语义的抽象输出比如数值矩阵或列表形式的结果团队结合了特定领域的科学先验知识将数字符号映射为具有实际科学意义的描述性答案。这让模型能够跨越符号屏障更好地理解数据背后的科学逻辑和原理。第二个策略是科学数据多样化。科学数据往往具有高重复性特征比如相似的蛋白质序列可能在训练数据中大量出现这容易导致模型过拟合。为了解决这个问题团队实施了提示多样化机制。对同一个科学概念系统会生成数十种不同的指令表达方式在保持核心科学知识不变的前提下扩展模型的泛化边界。同时针对科学任务输出往往过于简单的问题比如仅包含数值或简单结论团队引入了回展机制。通过结合科学先验知识和强基础模型的辅助生成系统能够将简单的知识记忆转换为完整的逻辑推演链条。这种做法显著增强了模型在复杂科学场景中的零样本推理能力。第三个策略是系统提示隔离。尽管进行了数据转换和多样化处理科学数据和通用数据之间的差异仍可能在训练阶段引发冲突。为了缓解这种冲突并减少负面影响团队采用了系统提示隔离策略。在训练周期中系统会为科学数据和通用数据注入互斥的系统级前缀为模型创建独立的上下文处理环境。这种策略的效果就像给不同类型的思考任务创建了专门的思维空间。当处理科学问题时模型会自动进入科学家模式运用严谨的逻辑思维当处理通用任务时会切换到通用模式发挥语言理解和创造能力。这种环境隔离有效减少了数据冲突提高了模型稳定性增强了训练效果。六、万亿参数规模下的强化学习训练将强化学习应用到万亿参数的混合专家模型上就像尝试协调一个由数千名专家组成的超大型研究团队。每个专家都有自己的专长领域但要让整个团队高效协作需要解决复杂的内存管理、计算分配和通信协调等挑战。Intern-S1-Pro相比前代模型的专家数量增加了4倍但激活的参数数量保持相对稳定。这种设计虽然提高了模型的专业化程度但也带来了巨大的内存压力。即使在专家并行计算的条件下庞大的专家层参数和激活值仍然会造成显著的内存负担。为了在如此大规模下进行稳定的强化学习训练团队采用了FP8量化技术。但是极端的稀疏性使得低精度训练需要格外小心稍有不慎就会导致性能下降。研究团队借鉴了之前工作的经验认识到训练引擎和推理引擎之间的差异是强化学习训练不稳定的主要原因。团队实施了一个综合性的稳定化框架这个框架就像一个精密的质量控制系统。首先他们进行了系统性的算子级别对比逐一检查LMDeploy推理引擎和XTuner训练引擎之间的数值差异。他们发现了几个数值敏感的组件包括RMSNorm、路由softmax和位置编码应用这些组件对精度差异特别敏感。通过在这些关键算子中减少精度差距确保推理分布在训练过程中得到忠实反映。此外为了保证专家路由的一致性团队实施了推理路由重放机制。对于每个token系统会记录推理阶段选择的专家索引并在策略更新时重放相同的路由决策。为了避免专家索引传输成为带宽和延迟瓶颈团队巧妙地通过Ray对象引用来传输路由轨迹而不是通过处理响应token的HTTP通道。这种设计既保证了路由一致性又避免了通信开销。在混合精度策略上团队采用了针对高度稀疏MoE模型的定制方案。他们观察到专家MLP层占据了最大的内存占用但其GEMM操作相对容易承受精度降低。因此他们只将专家线性层量化为FP8保持非专家组件使用BF16精度并使用FP32的语言模型头来提高对数概率估计的数值准确性。这种设计遵循了一个重要原则对数概率估计中的小误差可能被策略梯度更新放大。因此在对精度敏感的计算图部分保持高精度既获得了FP8的大部分内存和吞吐量优势又避免了敏感部分的不必要性能下降。最后团队借鉴了IcePop的思路使用双重要性采样比率来修改REINFORCE目标函数。第一个重要性采样比率校正训练-推理分布不匹配第二个比率纠正训练期间小批次更新引入的离策略偏差。通过掩蔽那些训练-推理差异过大的token系统能够抑制不可靠的学习信号。这些综合技术的应用使得FP8混合精度强化学习在实践中达到了与BF16训练相当的行为表现为万亿参数规模的模型训练开辟了可行路径。七、全面的性能评估科学AI的新标杆Intern-S1-Pro的性能评估就像是对一位博学多才的科学家进行全方位的能力测试。评估涵盖了科学任务和通用任务两大类包括纯文本和多模态设置总共涉及数十个具有挑战性的基准测试。在科学任务评估中Intern-S1-Pro展现出了令人瞩目的领先优势。在SciReasoner科学推理基准上该模型获得了55.5分远超Gemini-3-Pro的14.7分和GPT-5.2的13.6分。这个巨大的性能差距充分展示了专门针对科学领域优化的重要性。SciReasoner涵盖了十个不同的科学学科包括物理学、化学和医学等共149个具体任务。这些任务的设计不仅考察模型的知识储备更重要的是测试其科学推理能力。Intern-S1-Pro的出色表现表明它不仅掌握了广泛的科学知识更能够进行复杂的跨学科推理。在专业的科学多模态任务SFE基准上Intern-S1-Pro获得了52.7分的成绩。SFE基准包含830个经过验证的视觉问答对跨越66个多模态任务涵盖五个高价值科学学科。这个基准使用真实的科学数据格式来探测模型在感知、理解和高级推理方面的认知能力。在化学领域的SmolInstruct基准上Intern-S1-Pro取得了74.8分的显著成绩远超其他模型。SmolInstruct是一个大规模的化学专用数据集涵盖14个选定任务和超过300万个样本覆盖了有意义的化学应用包括正向合成和性质预测。这个成绩证明了模型在复杂分子科学推理方面的卓越能力。材料科学领域的表现同样出色。在MatBench基准上Intern-S1-Pro获得了72.8分这个基准提供了13个机器学习任务的精选测试套件用于材料性质预测数据集规模从312到132,000个样本不等。这些任务来自10个密度泛函理论和实验来源标准化了对不同晶体和分子材料性质的模型性能评估。在生物学相关任务上模型同样表现优异。MicroVQA专注于基于显微镜的研究包含1,042个专家策划的多选题跨越不同的成像模式。Intern-S1-Pro在这个基准上获得了63.3分展示了其在生物工作流程中的专家图像理解、假设生成和实验提议等关键推理能力。时间序列处理能力的评估结果令人印象深刻。在SciTS基准的子集测试中Intern-S1-Pro在多个任务上都获得了远超其他模型的F1分数。比如在EAU01任务上获得99.5分在ASU01任务上获得98.0分在BIU03任务上获得88.3分。这些结果证明了专门的时间序列处理模块在捕获复杂时间动态方面的有效性。在通用任务方面Intern-S1-Pro同样保持了强劲的竞争力。在MMMU-Pro知识推理基准上获得72.8分在MMLU-Pro上获得86.6分在高难度的AIME-2025数学推理任务上获得93.1分。这些成绩表明模型在专注科学能力提升的同时并没有牺牲通用能力。特别值得关注的是模型在代理任务上的表现。在GAIA基准上获得77.4分在τ?-Bench上获得80.9分在ScreenSpot V2上获得93.6分。这些成绩标志着模型在实际应用场景中的多步规划和环境交互能力达到了新的高度。八、专业化通才的优势更大更通用反而更专业在AI模型设计中存在一个有趣的争论是应该为每个专业领域训练专门的模型还是构建一个能够处理多个领域的通用模型传统观点认为专业化的模型在特定领域会表现更好就像专科医生在自己领域比全科医生更专业一样。但是Intern-S1-Pro的实验结果挑战了这种直观认识。研究团队通过与专门的生物学模型Biology-Instruction的详细对比发现了一个令人惊讶的现象在相同的训练数据条件下更大规模的通用模型反而在专业任务上表现更优。这个对比实验的设计很有说服力。两个模型使用了相同的底层数据集研究团队只是为Intern-S1-Pro升级了数据格式使文本表达更加流畅但核心的生物学信息保持完全一致。在这种控制条件下Intern-S1-Pro在绝大多数生物学任务上都显著超越了专业的Biology-Instruction模型。具体的性能差异令人印象深刻。在蛋白质荧光预测任务上Intern-S1-Pro获得78.14分而Biology-Instruction只有2.57分。在蛋白质功能预测任务上前者获得72.70分后者只有19.79分。在RNA同工型任务上Intern-S1-Pro获得82.95分Biology-Instruction为59.01分。平均而言Intern-S1-Pro的综合得分为52.45比Biology-Instruction的39.24高出13.21分。这种现象的原理可以用智能增强效应来解释。更大规模的模型具有更强的通用推理能力这种能力能够帮助模型更好地理解和利用专业数据。就像一个具有强大逻辑思维能力的通才即使在接触新的专业领域时也能比缺乏这种基础能力的专业人士更快地掌握和运用专业知识。这个发现对AI模型设计具有重要启示。它表明通用能力和专业能力之间不是简单的此消彼长关系而是相互促进的协同关系。强大的通用智能基础能够为专业任务提供更好的支撑让模型能够从相同的专业数据中提取和利用更多有价值的信息。这种专业化通才的概念代表了AI发展的一个新方向。与其为每个领域单独训练专业模型不如构建一个具有强大基础能力的大规模通用模型然后通过高质量的专业数据进行训练。这种方法不仅在单个领域内表现更优还能实现跨领域的知识迁移和融合为解决复杂的跨学科问题提供了可能。九、技术创新的深远影响Intern-S1-Pro的技术创新不仅体现在最终的性能表现上更在于它为AI领域探索出了多个具有普遍价值的技术路径。这些创新就像建筑工程中的新材料和新工艺不仅让当前的建筑更加坚固美观也为未来的建筑提供了更多可能性。分组路由机制的创新意义远超其在Intern-S1-Pro中的应用。这种负载均衡策略为大规模MoE模型的训练提供了新的解决方案。传统的Top-K路由策略在专家数量增加时容易导致负载不均衡就像一个工厂的生产线有些工人忙得团团转有些工人却无事可做。分组路由通过强制性的负载均衡设计确保了所有计算资源的充分利用这对于构建更大规模的AI系统具有重要参考价值。直通估计器在稀疏专家路由中的应用也开创了新的技术思路。这种技术解决了稀疏模型训练中的一个根本性问题如何让未被激活的专家也能获得学习机会。这个思路可以扩展到其他需要稀疏激活的模型架构中为构建更高效的大规模模型提供了新的工具。傅里叶位置编码代表了位置编码技术的重要进步。传统的位置编码方法本质上是离散的而FoPE通过引入连续性的物理原理让AI模型能够更好地理解和处理具有波动特性的数据。这种技术不仅适用于科学数据处理在音频、视频、信号处理等多个领域都有潜在应用价值。时间序列处理模块的自适应子采样策略也具有广泛的适用性。这种根据数据特征动态调整处理策略的思路可以扩展到其他需要处理变长、变复杂度数据的场景中。无论是自然语言处理中的长文档理解还是计算机视觉中的多尺度图像处理都可以借鉴这种自适应策略。高质量科学数据的构建流程更是为AI训练数据的准备开辟了新途径。从PDF文档中自动提取和生成高质量图文配对数据的方法不仅解决了科学AI训练数据稀缺的问题也为其他专业领域的AI系统提供了数据获取的新思路。法律、医学、工程等领域都可以采用类似的方法来构建高质量的专业训练数据。混合精度强化学习在万亿参数规模下的成功应用证明了在保持训练效率的同时实现高质量训练的可能性。这种技术路径为未来更大规模模型的训练提供了可行的解决方案对于推动AI技术的规模化发展具有重要意义。更重要的是专业化通才这一设计理念的验证可能会改变整个AI领域的发展方向。与其为每个专业领域单独开发AI系统不如构建少数几个高质量的通用系统然后通过专业数据进行针对性训练。这种方法不仅提高了资源利用效率也为实现真正的通用人工智能提供了新的路径。说到底Intern-S1-Pro的成功不仅在于它在特定任务上的优异表现更在于它证明了一个重要观点在AI发展的现阶段规模、质量和策略的完美结合能够产生远超预期的协同效应。这个万亿参数的科学AI助手既是当前技术水平的集大成者也是未来AI发展方向的探路者。对于普通人来说Intern-S1-Pro代表着AI技术在专业领域应用的新高度。它不仅能够辅助科学家进行复杂的研究工作提高科学发现的效率也为AI技术在教育、医疗、工程等其他专业领域的应用提供了重要参考。随着这类技术的不断发展和普及我们有理由相信AI将在更多领域成为人类的得力助手加速知识的创造和传播。未来的AI系统可能不再是单一功能的工具而是像Intern-S1-Pro这样的多能力融合体既具备广泛的通用智能又在特定领域具有专业深度。这种发展趋势预示着人工智能技术正在向更加实用、更加智能的方向发展最终可能实现真正意义上的通用人工智能。QAQ1Intern-S1-Pro的万亿参数规模是如何实现的AIntern-S1-Pro通过专家扩展策略从前代模型扩展到万亿参数规模。具体采用了分组路由机制将所有专家均匀分配到不同组别中每个组都包含经验丰富的顶级专家。这种方法类似于餐厅合理分配厨师确保每个组都有资深人员从而保证了训练稳定性和负载均衡。Q2为什么Intern-S1-Pro在科学任务上比专业模型表现更好A研究发现更大规模的通用模型反而在专业任务上表现更优这被称为专业化通才现象。强大的通用推理能力能够帮助模型更好地理解和利用专业数据就像具有强大逻辑思维的通才在接触新领域时比缺乏基础能力的专业人士掌握得更快。实验显示Intern-S1-Pro在生物学任务上平均比专业模型高出13.21分。Q3Intern-S1-Pro如何处理不同类型的科学数据AIntern-S1-Pro采用了多种专门技术来处理科学数据。对于图像使用原生分辨率处理保留精细信息对于时间序列开发了自适应子采样模块根据信号特征动态调整处理策略对于文本通过结构化数据转换和系统提示隔离来融合科学数据和通用数据确保不同类型数据都能得到最优处理。