小米开源 MiMo-V2.5 系列模型：测评超 DeepSeek，适配 7 家芯片商，免费发 100 万亿 Token

IT界那些事儿

473人浏览 · 2026-04-28 17:27:01

IT界那些事儿 · 2026-04-28 17:27:01 发布

模型技术细节公布测评超越 DeepSeek-V4

4 月 28 日，小米开源罗福莉带队研发的 MiMo-V2.5 系列模型，采用 MIT 协议，允许商用推理部署与二次训练，无需额外授权。此前，该系列模型于 4 月 23 日开启公测，包括 MiMo-V2.5-Pro、MiMo-V2.5 两款模型。模型具备更强 Agent 能力，支持 100 万上下文，且 Token 效率大幅提升。

MiMo-V2.5-Pro 的完整基准测试结果公布，其在 GDPVal-AA（Elo）、Claw-Eval（pass^3）等多项测评中超过了最新开源的 DeepSeek-V4-Pro 模型，也超过了发布不久的 Kimi K2.6 等主流闭源模型，实现总体最佳。

由小米最新公开的模型卡可知，MiMo-V2.5-Pro 是一款拥有 1.02 万亿个参数的混合专家模型，其中 420 亿个激活参数，基于混合注意力架构，相比前代模型在通用智能能力、复杂软件工程和长时域任务处理方面均实现了显著提升。

MiMo-V2.5-Pro 继承了 MiMo-V2-Flash 的混合注意力机制和多标记预测（MTP）设计。局部滑动窗口注意力（SWA）和全局注意力（GA）以 6:1 的比例交错使用，窗口大小为 128 个 Token，在长上下文情况下，通过可学习的注意力池偏置，将键值缓存存储空间减少了近 7 倍，同时保持了性能。一个轻量级的 MTP 模块，采用密集前馈神经网络（FFN），原生集成用于训练和推理，输出吞吐量大约提升了三倍，并加速了强化学习（RL）的部署。

该模型预训练使用 27 万亿个 Token，采用 FP8 混合精度，原生序列长度为 32K，上下文扩展至 1M 个 Token。后训练遵循 MiMo-V2-Flash 中引入的三阶段范式。

MiMo-V2.5 是一个 3100 亿参数的稀疏 MoE 模型，拥有 150 亿激活参数，在 48 万亿个 Token 上进行训练。它的语言主干框架继承了 MiMo-V2-Flash 的混合滑动窗口注意力机制，并搭载自研预训练视觉、音频编码器，两类编码器通过轻量化投影模块完成跨模块融合。

训练过程分为五个阶段，从小米最新公布的测评结果来看，MiMo-V2.5 在 Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro 等多项测评中大幅超越了 DeepSeek 最新发布的 DeepSeek-V4-Flash。

开源首日，完成阿里平头哥沐曦等 7 家芯片厂商适配

小米还公布了芯片生态与推理框架最新适配情况，MiMo-V2.5-Pro 开源首日完成多个芯片厂商的接入适配，包括阿里平头哥、亚马逊云科技、AMD、百度昆仑芯、燧原科技、沐曦、天数智芯。此外，MiMo-V2.5 系列模型同步完成 SGLang 和 vLLM 主流推理框架的 Day 0 适配。

免费发放 100 万亿 Token 已与 Hermes Agent 等合作

与此同时，小米还同步推出 MiMo Orbit 计划，包含“百万亿 Token 创造者激励计划”与面向 Agent 框架团队的“Agent 生态共建计划”。

在百万亿 Token 创造者激励计划方面，小米面向全球 AI 用户免费发放 Token，30 天内发放总计 100 万亿 Token 权益，赠完即止。该计划采取申请制，通过者最高获得 Max 档位 Token Plan，包含 16 亿 Credits，价值 659 元。活动时间为北京时间 2026 年 4 月 28 日 00:00 至 5 月 28 日 00:00。

Agent 生态共建计划方面，小米面向全球 Agent 框架团队提供专项支持，为框架提供 MiMo Token 限免支持，同时参与和赞助框架平台的 AI Hackathon 等共创活动。其目前已与 OpenCode、Hermes Agent、KiloCode 等 Agent 框架厂商展开深度合作。