全球首个开源大规模混合注意力模型来袭
GitHub项目MiniMax-M1是全球首个开源权重的大规模混合注意力推理模型,支持100万token长上下文,采用MoE架构和闪电注意力机制。该模型在数学推理和软件工程任务中表现突出,提供40K和80K两个版本,并支持函数调用和多模态API。使用Apache-2.0许可证开源,适合学术和商业用途。配套部署指南和演示工具降低了使用门槛,为AI研究和应用提供了新选择。
·
GitHub 上 MiniMax-M1 模型的项目页面,主要介绍了世界上首个开源权重的大规模混合注意力推理模型 MiniMax-M1,包括模型概述、评估结果、部署指南、功能调用、聊天机器人与 API 及联系方式等内容,以下是详细总结:
一、模型基本信息
- 模型定位:全球首个开源权重(open-weight)的大规模混合注意力推理模型。
- 开发背景:基于 MiniMax 团队此前的 MiniMax-Text-01 模型开发,采用混合专家(MoE)架构与闪电注意力机制(lightning attention)。
- 参数规模:总参数 4560 亿,每 token 激活 459 亿参数。
- 核心能力:
- 长上下文支持:原生支持 100 万 token 上下文长度,是 DeepSeek R1 的 8 倍。
- 计算效率:闪电注意力机制使测试时计算高效扩展,例如在生成 10 万 token 时,FLOPs 消耗仅为 DeepSeek R1 的 25%。
- 训练方式:通过大规模强化学习(RL)训练,覆盖数学推理、软件工程等多样化任务,提出 CISPO 算法优化 RL 效率。
二、模型版本与性能表现
- 版本分类:提供两种思考预算版本:40K 和 80K(数字代表思考步骤预算)。
- 基准测试结果(以 80K 版本为例):
类别 任务 MiniMax-M1-80K 对比模型表现(部分) 数学 AIME 2024 86.0 超越 Qwen3-235B(85.7),接近 OpenAI-o3(91.6) AIME 2025 76.9 低于 Gemini 2.5 Pro(88.0) 通用编码 LiveCodeBench 65.0 低于 DeepSeek-R1(73.1)和 Gemini 2.5 Pro(77.1) FullStackBench 68.3 接近 DeepSeek-R1(69.4) 推理与知识 GPQA Diamond 70.0 显著低于 Gemini 2.5 Pro(86.4) ZebraLogic 86.8 低于 DeepSeek-R1(95.1)和 OpenAI-o3(95.8) 软件工程 SWE-bench Verified 56.0 超越 Qwen3-235B(34.4),低于 Claude 4 Opus(72.5) 长文本 OpenAI-MRCR(1M) 56.2 接近 Gemini 2.5 Pro(58.8) 智能体工具使用 TAU-bench(零售) 63.5 低于 Claude 4 Opus(81.4)和 OpenAI-o3(73.9)
三、关键特性与工具支持
- 函数调用:支持结构化函数调用,可识别何时调用外部工具并输出参数,配套《MiniMax-M1 函数调用指南》。
- 部署方式:
- 推荐方案:使用 vLLM 部署,具备高性能、智能内存管理、批量处理等特性,提供 [vLLM 部署指南]。
- 替代方案:直接通过 Transformers 部署,参考《MiniMax-M1 Transformers 部署指南》。
- 周边工具:
- 聊天机器人:提供带在线搜索功能的演示版本。
- API 接口:开放开发者 API,支持视频生成、图像生成、语音合成等多模态能力(通过 MiniMax MCP Server)。
四、项目资源与社区信息
- 代码与模型:
- 仓库地址:GitHub - MiniMax-AI/MiniMax-M1
- 模型下载:通过 Hugging Face 获取 40K 和 80K 版本。
- 开源协议:采用 Apache-2.0 许可证,允许商业使用与修改。
- 社区数据(截至页面信息):
- Star 数:1.1K
- Fork 数:45
- 贡献者:3 人(含 MiniMax 官方开发团队)
- 联系方式:技术咨询可发送邮件至 model@minimax.io。
五、总结
MiniMax-M1 以长上下文处理和高效计算为核心优势,在软件工程、长文本理解等任务中表现突出,适合需要深度推理和大规模输入的场景。尽管在部分通用任务中性能不及顶尖闭源模型,但其开源特性和混合架构为学术研究与工业应用提供了新选择。项目配套的部署工具链和多模态 API 进一步降低了落地门槛,展现了团队在模型工程化方面的投入。
更多推荐

所有评论(0)