模型技术细节公布 测评超越 DeepSeek-V44 月 28 日小米开源罗福莉带队研发的 MiMo-V2.5 系列模型采用 MIT 协议允许商用推理部署与二次训练无需额外授权。此前该系列模型于 4 月 23 日开启公测包括 MiMo-V2.5-Pro、MiMo-V2.5 两款模型。模型具备更强 Agent 能力支持 100 万上下文且 Token 效率大幅提升。MiMo-V2.5-Pro 的完整基准测试结果公布其在 GDPVal-AAElo、Claw-Evalpass^3等多项测评中超过了最新开源的 DeepSeek-V4-Pro 模型也超过了发布不久的 Kimi K2.6 等主流闭源模型实现总体最佳。由小米最新公开的模型卡可知MiMo-V2.5-Pro 是一款拥有 1.02 万亿个参数的混合专家模型其中 420 亿个激活参数基于混合注意力架构相比前代模型在通用智能能力、复杂软件工程和长时域任务处理方面均实现了显著提升。MiMo-V2.5-Pro 继承了 MiMo-V2-Flash 的混合注意力机制和多标记预测MTP设计。局部滑动窗口注意力SWA和全局注意力GA以 6:1 的比例交错使用窗口大小为 128 个 Token在长上下文情况下通过可学习的注意力池偏置将键值缓存存储空间减少了近 7 倍同时保持了性能。一个轻量级的 MTP 模块采用密集前馈神经网络FFN原生集成用于训练和推理输出吞吐量大约提升了三倍并加速了强化学习RL的部署。该模型预训练使用 27 万亿个 Token采用 FP8 混合精度原生序列长度为 32K上下文扩展至 1M 个 Token。后训练遵循 MiMo-V2-Flash 中引入的三阶段范式。MiMo-V2.5 是一个 3100 亿参数的稀疏 MoE 模型拥有 150 亿激活参数在 48 万亿个 Token 上进行训练。它的语言主干框架继承了 MiMo-V2-Flash 的混合滑动窗口注意力机制并搭载自研预训练视觉、音频编码器两类编码器通过轻量化投影模块完成跨模块融合。训练过程分为五个阶段从小米最新公布的测评结果来看MiMo-V2.5 在 Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro 等多项测评中大幅超越了 DeepSeek 最新发布的 DeepSeek-V4-Flash。开源首日完成阿里平头哥沐曦等 7 家芯片厂商适配小米还公布了芯片生态与推理框架最新适配情况MiMo-V2.5-Pro 开源首日完成多个芯片厂商的接入适配包括阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯。此外MiMo-V2.5 系列模型同步完成 SGLang 和 vLLM 主流推理框架的 Day 0 适配。免费发放 100 万亿 Token 已与 Hermes Agent 等合作与此同时小米还同步推出 MiMo Orbit 计划包含“百万亿 Token 创造者激励计划”与面向 Agent 框架团队的“Agent 生态共建计划”。在百万亿 Token 创造者激励计划方面小米面向全球 AI 用户免费发放 Token30 天内发放总计 100 万亿 Token 权益赠完即止。该计划采取申请制通过者最高获得 Max 档位 Token Plan包含 16 亿 Credits价值 659 元。活动时间为北京时间 2026 年 4 月 28 日 00:00 至 5 月 28 日 00:00。Agent 生态共建计划方面小米面向全球 Agent 框架团队提供专项支持为框架提供 MiMo Token 限免支持同时参与和赞助框架平台的 AI Hackathon 等共创活动。其目前已与 OpenCode、Hermes Agent、KiloCode 等 Agent 框架厂商展开深度合作。结语多款国产开源模型“亮剑”交锋近期大模型行业开源力度持续加码模型与国产及国际芯片的“Day 0”适配已从亮点变为刚需推理效率和部署成本成为下一阶段竞争的核心。同时百亿级 Token 免费激励与 Agent 框架生态共建反映出行业正从“拼参数”转向“拼应用”。值得关注的是小米 MiMo-V2.5-Pro 在多项基准评测中直接超越 DeepSeek 最新开源的 DeepSeek-V4-Pro 模型可谓与 DeepSeek 在开源赛道发起“亮剑”交锋有望倒逼行业更快降低推理成本、提升 Agent 真实任务完成率。