发布即可用！百度智能云Day0适配Xiaomi MiMo-V2.5-Pro

百度智能云

216人浏览 · 2026-04-28 20:40:54

百度智能云 · 2026-04-28 20:40:54 发布

今日，小米正式发布并开源MiMo-V2.5-Pro模型。百度智能云已同步完成对MiMo-V2.5-Pro的Day-0极速适配，成为首批适配的云厂商之一。

据悉，MiMo-V2.5-Pro是小米迄今最强大的模型，拥有1T超大参数量、以及1M超长上下文的高吞吐推理。在通用智能体能力、复杂软件工程以及长程任务等维度上，它已能与全球顶尖Agent模型（Claude Opus 4.6、GPT-5.4等）正面较量，相较上一代MiMo-V2-Pro实现了全方位跃升。该模型在Agent场景下的指令遵循能力也明显提升——既能精准捕捉上下文中的隐性要求，又能在超长周期内保持逻辑一致。适用于大型项目编程、数据分析等企业级应用场景，也适用于接入OpenClaw、Hermes Agent、Claude Code等Agent框架。

百度百舸基于昆仑芯硬件平台Day0完成MiMo-V2.5-Pro的模型适配与集群部署，实现模型「发布即可用」，助力最新开源大模型快速投入生产环境的大规模应用。同时，百度千帆也即将上线MiMo-V2.5系列模型调用服务，百度智能云视频云也将推出依托于视频云场景的模型解决方案。企业客户与开发者可在百度智能云第一时间体验并部署MiMo-V2.5-Pro，加快业务创新与应用落地进程。

百度百舸+昆仑芯：

助力国产模型规模化落地

让「发布即可用」

成为日常

百度百舸基于昆仑芯硬件平台，Day0完成MiMo-V2.5-Pro模型跑通与性能验证。通过INT8量化与EP16并行策略，仅用2台昆仑芯P800即可承载MiMo-V2.5-Pro万亿参数模型，并借助EP快速扩展支持1M超长上下文，从而使得MiMo-V2.5-Pro能够更好的支撑Agent场景。目前，百度百舸与昆仑芯已具备「极速模型适配-全链路性能提升-高效规模化部署-超大规模集群落地」的完备能力。

极速模型适配

为实现高性能模型的快速开发与适配，百度百舸联合昆仑芯开发vLLM-Kunlun Plugin，将vLLM社区版与昆仑芯XPU后端完全解耦。用户通过vLLM-Kunlun Plugin，快速适配主流开源模型。

在适配效率上，基于昆仑芯成熟的高性能算子库，对于未引入新算子的模型演进（如从MIMo-Flash-V2到MiMo-V2.5-Pro），可以直接复用已有算子能力，实现Day0快速适配；而对于涉及新增算子的模型（如MiMo-Flash-V2刚发布时），百度百舸仅用2天就完成了新算子的开发与模型跑通。同时配合torch_xray精度对齐工具与PyTorch Profiler性能分析工具，百度百舸为模型跑对与性能表现提供了全方位保障。

依托CUDA-like特性，vLLM-Kunlun Plugin在软件层面「抹平」硬件差异，使开发者能够像使用通用GPU一样便捷地使用昆仑芯。同时，vLLM-Playground已全面支持昆仑芯，即便是初学者也能通过直观的Web UI一键完成模型配置与推理。

全链路性能提升

为了使国产模型充分发挥昆仑芯硬件算力，百度百舸从算子、Kernel Launch、框架及系统等不同维度开展全链路优化——依据昆仑芯硬件单元特性为各类算子制定专属优化策略，借助CUDA Graph消除CPU调度开销显著降低Kernel Launch耗时，针对框架原生的性能瓶颈开发了昆仑芯定制算子，并在系统层面上大幅提升并行计算能力。

同时，在量化层面，百度百舸推出了「模型层-框架层-硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化，对不同来源的INT8/INT4量化模型实现最佳模型部署与量化推理，并基于昆仑芯XPU的计算特性，定制化开发高性能量化专用算子库。在实际部署时，采用INT8量化，仅用2台昆仑芯P800，即可承载小米MiMo-V2.5-Pro等万亿参数模型。

高效规模化部署

在完成模型适配并实现性能提升的基础上，百度百舸依托PD分离架构进一步优化集群推理效能，并提供针对标准8卡与超节点硬件平台的标准化部署方案。同时，百度百舸构建了精细化的KV Cache调度与加速引擎，实现高达80%～90%的缓存命中率，将64K序列的TTFT缩短6.2倍，为AI Agent及复杂Coding等高并发、极长文本业务提供了稳健的响应保障。

此外，针对业务流量波动，百度百舸对昆仑芯集群的弹性扩缩容能力进行了系统性优化，将实例拉起时间从分钟级压缩至秒级。

万卡集群算力支撑

目前，百度智能云多个大规模国产算力基础设施，借助3.2 万卡昆仑芯P800集群，持续支撑大模型训练任务；同时，百度天池超节点基于32卡点对点全互联架构，实现1.5μs低延迟通信，并通过软硬协同优化降低每Token成本，为国产模型创新提供稳定高效的算力底座。

百度千帆+视频云：

模型服务能力开放

加速多场景应用落地

百度千帆也即将上线MiMo-V2.5系列模型，开发者与企业客户将可以第一时间进行模型调用，快速体验并验证大模型能力，并融入日常业务中。一直以来，百度千帆依托多维开放的产品能力，持续构建丰富且领先的大模型服务生态。目前，平台已集成百度自研文心大模型、千帆自研系列模型，以及行业领先的第三方开源模型，提供上百款模型能力，覆盖通用对话、推理、代码、OCR、多模态等核心场景。

在行业应用层面，百度智能云视频云也将基于MiMo-V2.5系列模型能力，打造面向视频内容生产与理解的解决方案，进一步拓展模型在视频场景中的落地空间，助力视频业务智能化升级。

百度智能云

为国产模型创新加速！

百度智能云对MiMo-V2.5-Pro模型的Day-0极速适配，进一步体现了国产大模型与国产算力协同发展的趋势。依托昆仑芯、百度百舸，以软硬协同、云智一体为战略，百度智能云已构建起从模型适配、性能优化到规模化部署的完整链路，目前已快速完成GLM、Qwen、DeepSeek、MiniMax、Kimi、Xiaomi MiMo等最新大模型的部署和应用，持续推动国产优质模型实现“发布即可用”。

在此基础上，百度智能云不仅提供高性能推理与部署支持，也通过百度千帆与行业解决方案，打通模型调用、应用开发与场景落地路径，形成多层次的模型落地体系，让顶尖AI能力能够更高效地转化为企业生产力与产业发展动能。未来，百度智能云将持续深化与国产模型厂商的协同创新，加速国产模型与国产算力的融合演进，推动更多先进AI能力走向真实业务场景，助力产业智能化升级迈入新阶段。