全球首个开源大规模混合注意力模型来袭

GitHub项目MiniMax-M1是全球首个开源权重的大规模混合注意力推理模型，支持100万token长上下文，采用MoE架构和闪电注意力机制。该模型在数学推理和软件工程任务中表现突出，提供40K和80K两个版本，并支持函数调用和多模态API。使用Apache-2.0许可证开源，适合学术和商业用途。配套部署指南和演示工具降低了使用门槛，为AI研究和应用提供了新选择。

木子乔乔

1095人浏览 · 2025-06-18 22:06:34

木子乔乔 · 2025-06-18 22:06:34 发布

GitHub 上 MiniMax-M1 模型的项目页面，主要介绍了世界上首个开源权重的大规模混合注意力推理模型 MiniMax-M1，包括模型概述、评估结果、部署指南、功能调用、聊天机器人与 API 及联系方式等内容，以下是详细总结：

一、模型基本信息

模型定位：全球首个开源权重（open-weight）的大规模混合注意力推理模型。
开发背景：基于 MiniMax 团队此前的 MiniMax-Text-01 模型开发，采用混合专家（MoE）架构与闪电注意力机制（lightning attention）。
参数规模：总参数 4560 亿，每 token 激活 459 亿参数。
核心能力：
- 长上下文支持：原生支持 100 万 token 上下文长度，是 DeepSeek R1 的 8 倍。
- 计算效率：闪电注意力机制使测试时计算高效扩展，例如在生成 10 万 token 时，FLOPs 消耗仅为 DeepSeek R1 的 25%。
- 训练方式：通过大规模强化学习（RL）训练，覆盖数学推理、软件工程等多样化任务，提出 CISPO 算法优化 RL 效率。

二、模型版本与性能表现

版本分类：提供两种思考预算版本：40K 和 80K（数字代表思考步骤预算）。

基准测试结果（以 80K 版本为例）：

类别	任务	MiniMax-M1-80K	对比模型表现（部分）
数学	AIME 2024	86.0	超越 Qwen3-235B（85.7），接近 OpenAI-o3（91.6）
	AIME 2025	76.9	低于 Gemini 2.5 Pro（88.0）
通用编码	LiveCodeBench	65.0	低于 DeepSeek-R1（73.1）和 Gemini 2.5 Pro（77.1）
	FullStackBench	68.3	接近 DeepSeek-R1（69.4）
推理与知识	GPQA Diamond	70.0	显著低于 Gemini 2.5 Pro（86.4）
	ZebraLogic	86.8	低于 DeepSeek-R1（95.1）和 OpenAI-o3（95.8）
软件工程	SWE-bench Verified	56.0	超越 Qwen3-235B（34.4），低于 Claude 4 Opus（72.5）
长文本	OpenAI-MRCR（1M）	56.2	接近 Gemini 2.5 Pro（58.8）
智能体工具使用	TAU-bench（零售）	63.5	低于 Claude 4 Opus（81.4）和 OpenAI-o3（73.9）

三、关键特性与工具支持

函数调用：支持结构化函数调用，可识别何时调用外部工具并输出参数，配套《MiniMax-M1 函数调用指南》。
部署方式：
- 推荐方案：使用 vLLM 部署，具备高性能、智能内存管理、批量处理等特性，提供 [vLLM 部署指南]。
- 替代方案：直接通过 Transformers 部署，参考《MiniMax-M1 Transformers 部署指南》。
周边工具：
- 聊天机器人：提供带在线搜索功能的演示版本。
- API 接口：开放开发者 API，支持视频生成、图像生成、语音合成等多模态能力（通过 MiniMax MCP Server）。

四、项目资源与社区信息

代码与模型：
- 仓库地址：GitHub - MiniMax-AI/MiniMax-M1
- 模型下载：通过 Hugging Face 获取 40K 和 80K 版本。
开源协议：采用 Apache-2.0 许可证，允许商业使用与修改。
社区数据（截至页面信息）：
- Star 数：1.1K
- Fork 数：45
- 贡献者：3 人（含 MiniMax 官方开发团队）
联系方式：技术咨询可发送邮件至 model@minimax.io。

五、总结

MiniMax-M1 以长上下文处理和高效计算为核心优势，在软件工程、长文本理解等任务中表现突出，适合需要深度推理和大规模输入的场景。尽管在部分通用任务中性能不及顶尖闭源模型，但其开源特性和混合架构为学术研究与工业应用提供了新选择。项目配套的部署工具链和多模态 API 进一步降低了落地门槛，展现了团队在模型工程化方面的投入。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

在 WSL 环境下完整安装 Hermes Agent（爱马仕）并配置微信机器人的实战记录

本文详细记录了在 Windows WSL2 (Ubuntu 24.04) 环境下，从零开始安装 Nous Research Hermes Agent（爱马仕）开源 AI 智能体，并成功配置 DeepSeek API 作为模型后端、绑定微信个人号实现聊天机器人的完整过程。

DeepSeek技术社区

02-VSCode插件与Trae原生AI编辑器实战教程

DeepSeek技术社区

Coder Agents 上手：把AI编程Agent部署到自己的服务器上

用 Claude Code、Cursor、Codex 写代码，已经是很多开发者的日常。但如果你在金融、政府、医疗这类行业工作，一个绕不开的问题是：代码要发到第三方云端。Coder 在 5 月 6 日发布了 Coder Agents beta。一个 AI 编程 Agent，整套系统跑在你自己的服务器上，控制面、编排层、执行环境都在内网。源码、prompt、模型交互不出去。这篇文章记录我从零部署 Co