小米开源 MiMo-V2.5 系列模型:测评超 DeepSeek,适配 7 家芯片商,免费发 100 万亿 Token

模型技术细节公布 测评超越 DeepSeek-V4
4 月 28 日,小米开源罗福莉带队研发的 MiMo-V2.5 系列模型,采用 MIT 协议,允许商用推理部署与二次训练,无需额外授权。此前,该系列模型于 4 月 23 日开启公测,包括 MiMo-V2.5-Pro、MiMo-V2.5 两款模型。模型具备更强 Agent 能力,支持 100 万上下文,且 Token 效率大幅提升。
MiMo-V2.5-Pro 的完整基准测试结果公布,其在 GDPVal-AA(Elo)、Claw-Eval(pass^3)等多项测评中超过了最新开源的 DeepSeek-V4-Pro 模型,也超过了发布不久的 Kimi K2.6 等主流闭源模型,实现总体最佳。
由小米最新公开的模型卡可知,MiMo-V2.5-Pro 是一款拥有 1.02 万亿个参数的混合专家模型,其中 420 亿个激活参数,基于混合注意力架构,相比前代模型在通用智能能力、复杂软件工程和长时域任务处理方面均实现了显著提升。
MiMo-V2.5-Pro 继承了 MiMo-V2-Flash 的混合注意力机制和多标记预测(MTP)设计。局部滑动窗口注意力(SWA)和全局注意力(GA)以 6:1 的比例交错使用,窗口大小为 128 个 Token,在长上下文情况下,通过可学习的注意力池偏置,将键值缓存存储空间减少了近 7 倍,同时保持了性能。一个轻量级的 MTP 模块,采用密集前馈神经网络(FFN),原生集成用于训练和推理,输出吞吐量大约提升了三倍,并加速了强化学习(RL)的部署。
该模型预训练使用 27 万亿个 Token,采用 FP8 混合精度,原生序列长度为 32K,上下文扩展至 1M 个 Token。后训练遵循 MiMo-V2-Flash 中引入的三阶段范式。
MiMo-V2.5 是一个 3100 亿参数的稀疏 MoE 模型,拥有 150 亿激活参数,在 48 万亿个 Token 上进行训练。它的语言主干框架继承了 MiMo-V2-Flash 的混合滑动窗口注意力机制,并搭载自研预训练视觉、音频编码器,两类编码器通过轻量化投影模块完成跨模块融合。
训练过程分为五个阶段,从小米最新公布的测评结果来看,MiMo-V2.5 在 Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro 等多项测评中大幅超越了 DeepSeek 最新发布的 DeepSeek-V4-Flash。
开源首日,完成阿里平头哥沐曦等 7 家芯片厂商适配
小米还公布了芯片生态与推理框架最新适配情况,MiMo-V2.5-Pro 开源首日完成多个芯片厂商的接入适配,包括阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯。此外,MiMo-V2.5 系列模型同步完成 SGLang 和 vLLM 主流推理框架的 Day 0 适配。
免费发放 100 万亿 Token 已与 Hermes Agent 等合作
与此同时,小米还同步推出 MiMo Orbit 计划,包含“百万亿 Token 创造者激励计划”与面向 Agent 框架团队的“Agent 生态共建计划”。
在百万亿 Token 创造者激励计划方面,小米面向全球 AI 用户免费发放 Token,30 天内发放总计 100 万亿 Token 权益,赠完即止。该计划采取申请制,通过者最高获得 Max 档位 Token Plan,包含 16 亿 Credits,价值 659 元。活动时间为北京时间 2026 年 4 月 28 日 00:00 至 5 月 28 日 00:00。
Agent 生态共建计划方面,小米面向全球 Agent 框架团队提供专项支持,为框架提供 MiMo Token 限免支持,同时参与和赞助框架平台的 AI Hackathon 等共创活动。其目前已与 OpenCode、Hermes Agent、KiloCode 等 Agent 框架厂商展开深度合作。
结语:多款国产开源模型“亮剑”交锋
近期,大模型行业开源力度持续加码,模型与国产及国际芯片的“Day 0”适配已从亮点变为刚需,推理效率和部署成本成为下一阶段竞争的核心。同时,百亿级 Token 免费激励与 Agent 框架生态共建,反映出行业正从“拼参数”转向“拼应用”。
值得关注的是,小米 MiMo-V2.5-Pro 在多项基准评测中直接超越 DeepSeek 最新开源的 DeepSeek-V4-Pro 模型,可谓与 DeepSeek 在开源赛道发起“亮剑”交锋,有望倒逼行业更快降低推理成本、提升 Agent 真实任务完成率。
更多推荐



所有评论(0)