今日,小米正式发布并开源MiMo-V2.5-Pro模型。百度智能云已同步完成对MiMo-V2.5-Pro的Day-0极速适配,成为首批适配的云厂商之一。

据悉,MiMo-V2.5-Pro是小米迄今最强大的模型,拥有1T超大参数量、以及1M超长上下文的高吞吐推理。在通用智能体能力、复杂软件工程以及长程任务等维度上,它已能与全球顶尖Agent模型(Claude Opus 4.6、GPT-5.4等)正面较量,相较上一代MiMo-V2-Pro实现了全方位跃升。该模型在Agent场景下的指令遵循能力也明显提升——既能精准捕捉上下文中的隐性要求,又能在超长周期内保持逻辑一致。适用于大型项目编程、数据分析等企业级应用场景,也适用于接入OpenClaw、Hermes Agent、Claude Code等Agent框架。

百度百舸基于昆仑芯硬件平台Day0完成MiMo-V2.5-Pro的模型适配与集群部署,实现模型「发布即可用」,助力最新开源大模型快速投入生产环境的大规模应用。同时,百度千帆也即将上线MiMo-V2.5系列模型调用服务,百度智能云视频云也将推出依托于视频云场景的模型解决方案。企业客户与开发者可在百度智能云第一时间体验并部署MiMo-V2.5-Pro,加快业务创新与应用落地进程。

百度百舸+昆仑芯:

助力国产模型规模化落地

让「发布即可用」

成为日常

图片

百度百舸基于昆仑芯硬件平台,Day0完成MiMo-V2.5-Pro模型跑通与性能验证。通过INT8量化与EP16并行策略,仅用2台昆仑芯P800即可承载MiMo-V2.5-Pro万亿参数模型,并借助EP快速扩展支持1M超长上下文,从而使得MiMo-V2.5-Pro能够更好的支撑Agent场景。目前,百度百舸与昆仑芯已具备「极速模型适配-全链路性能提升-高效规模化部署-超大规模集群落地」的完备能力。

极速模型适配

为实现高性能模型的快速开发与适配,百度百舸联合昆仑芯开发vLLM-Kunlun Plugin,将vLLM社区版与昆仑芯XPU后端完全解耦。用户通过vLLM-Kunlun Plugin,快速适配主流开源模型。

在适配效率上,基于昆仑芯成熟的高性能算子库,对于未引入新算子的模型演进(如从MIMo-Flash-V2到MiMo-V2.5-Pro),可以直接复用已有算子能力,实现Day0快速适配;而对于涉及新增算子的模型(如MiMo-Flash-V2刚发布时),百度百舸仅用2天就完成了新算子的开发与模型跑通。同时配合torch_xray精度对齐工具与PyTorch Profiler性能分析工具,百度百舸为模型跑对与性能表现提供了全方位保障。

依托CUDA-like特性,vLLM-Kunlun Plugin在软件层面「抹平」硬件差异,使开发者能够像使用通用GPU一样便捷地使用昆仑芯。同时,vLLM-Playground已全面支持昆仑芯,即便是初学者也能通过直观的Web UI一键完成模型配置与推理。

全链路性能提升

为了使国产模型充分发挥昆仑芯硬件算力,百度百舸从算子、Kernel Launch、框架及系统等不同维度开展全链路优化——依据昆仑芯硬件单元特性为各类算子制定专属优化策略,借助CUDA Graph消除CPU调度开销显著降低Kernel Launch耗时,针对框架原生的性能瓶颈开发了昆仑芯定制算子,并在系统层面上大幅提升并行计算能力。

同时,在量化层面,百度百舸推出了「模型层-框架层-硬件层」的端到端的量化体系——通过昆仑芯自研量化工具链实现高精度、高效率的模型量化,对不同来源的INT8/INT4量化模型实现最佳模型部署与量化推理,并基于昆仑芯XPU的计算特性,定制化开发高性能量化专用算子库。在实际部署时,采用INT8量化,仅用2台昆仑芯P800,即可承载小米MiMo-V2.5-Pro等万亿参数模型。

高效规模化部署

在完成模型适配并实现性能提升的基础上,百度百舸依托PD分离架构进一步优化集群推理效能,并提供针对标准8卡与超节点硬件平台的标准化部署方案。同时,百度百舸构建了精细化的KV Cache调度与加速引擎,实现高达80%~90%的缓存命中率,将64K序列的TTFT缩短6.2倍,为AI Agent及复杂Coding等高并发、极长文本业务提供了稳健的响应保障。

此外,针对业务流量波动,百度百舸对昆仑芯集群的弹性扩缩容能力进行了系统性优化,将实例拉起时间从分钟级压缩至秒级。

万卡集群算力支撑

目前,百度智能云多个大规模国产算力基础设施,借助3.2 万卡昆仑芯P800集群,持续支撑大模型训练任务;同时,百度天池超节点基于32卡点对点全互联架构,实现1.5μs低延迟通信,并通过软硬协同优化降低每Token成本,为国产模型创新提供稳定高效的算力底座。

百度千帆+视频云:

模型服务能力开放

加速多场景应用落地

图片

百度千帆也即将上线MiMo-V2.5系列模型,开发者与企业客户将可以第一时间进行模型调用,快速体验并验证大模型能力,并融入日常业务中。一直以来,百度千帆依托多维开放的产品能力,持续构建丰富且领先的大模型服务生态。目前,平台已集成百度自研文心大模型、千帆自研系列模型,以及行业领先的第三方开源模型,提供上百款模型能力,覆盖通用对话、推理、代码、OCR、多模态等核心场景。

在行业应用层面,百度智能云视频云也将基于MiMo-V2.5系列模型能力,打造面向视频内容生产与理解的解决方案,进一步拓展模型在视频场景中的落地空间,助力视频业务智能化升级。

百度智能云

为国产模型创新加速!

图片

百度智能云对MiMo-V2.5-Pro模型的Day-0极速适配,进一步体现了国产大模型与国产算力协同发展的趋势。依托昆仑芯、百度百舸,以软硬协同、云智一体为战略,百度智能云已构建起从模型适配、性能优化到规模化部署的完整链路,目前已快速完成GLM、Qwen、DeepSeek、MiniMax、Kimi、Xiaomi MiMo等最新大模型的部署和应用,持续推动国产优质模型实现“发布即可用”。

在此基础上,百度智能云不仅提供高性能推理与部署支持,也通过百度千帆与行业解决方案,打通模型调用、应用开发与场景落地路径,形成多层次的模型落地体系,让顶尖AI能力能够更高效地转化为企业生产力与产业发展动能。未来,百度智能云将持续深化与国产模型厂商的协同创新,加速国产模型与国产算力的融合演进,推动更多先进AI能力走向真实业务场景,助力产业智能化升级迈入新阶段。

5月13日-14日·北京

Create2026小程序现已上线

点击下方卡片参与报名哦⬇️

点击“阅读原文”,立即合作咨询!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐