GitHub 上 MiniMax-M1 模型的项目页面,主要介绍了世界上首个开源权重的大规模混合注意力推理模型 MiniMax-M1,包括模型概述、评估结果、部署指南、功能调用、聊天机器人与 API 及联系方式等内容,以下是详细总结:

一、模型基本信息

  • 模型定位:全球首个开源权重(open-weight)的大规模混合注意力推理模型。
  • 开发背景:基于 MiniMax 团队此前的 MiniMax-Text-01 模型开发,采用混合专家(MoE)架构与闪电注意力机制(lightning attention)。
  • 参数规模:总参数 4560 亿,每 token 激活 459 亿参数。
  • 核心能力
    • 长上下文支持:原生支持 100 万 token 上下文长度,是 DeepSeek R1 的 8 倍。
    • 计算效率:闪电注意力机制使测试时计算高效扩展,例如在生成 10 万 token 时,FLOPs 消耗仅为 DeepSeek R1 的 25%。
    • 训练方式:通过大规模强化学习(RL)训练,覆盖数学推理、软件工程等多样化任务,提出 CISPO 算法优化 RL 效率。

二、模型版本与性能表现

  • 版本分类:提供两种思考预算版本:40K 和 80K(数字代表思考步骤预算)。
  • 基准测试结果(以 80K 版本为例):
    类别 任务 MiniMax-M1-80K 对比模型表现(部分)
    数学 AIME 2024 86.0 超越 Qwen3-235B(85.7),接近 OpenAI-o3(91.6)
    AIME 2025 76.9 低于 Gemini 2.5 Pro(88.0)
    通用编码 LiveCodeBench 65.0 低于 DeepSeek-R1(73.1)和 Gemini 2.5 Pro(77.1)
    FullStackBench 68.3 接近 DeepSeek-R1(69.4)
    推理与知识 GPQA Diamond 70.0 显著低于 Gemini 2.5 Pro(86.4)
    ZebraLogic 86.8 低于 DeepSeek-R1(95.1)和 OpenAI-o3(95.8)
    软件工程 SWE-bench Verified 56.0 超越 Qwen3-235B(34.4),低于 Claude 4 Opus(72.5)
    长文本 OpenAI-MRCR(1M) 56.2 接近 Gemini 2.5 Pro(58.8)
    智能体工具使用 TAU-bench(零售) 63.5 低于 Claude 4 Opus(81.4)和 OpenAI-o3(73.9)

三、关键特性与工具支持

  • 函数调用:支持结构化函数调用,可识别何时调用外部工具并输出参数,配套《MiniMax-M1 函数调用指南》。
  • 部署方式
    • 推荐方案:使用 vLLM 部署,具备高性能、智能内存管理、批量处理等特性,提供 [vLLM 部署指南]。
    • 替代方案:直接通过 Transformers 部署,参考《MiniMax-M1 Transformers 部署指南》。
  • 周边工具
    • 聊天机器人:提供带在线搜索功能的演示版本。
    • API 接口:开放开发者 API,支持视频生成、图像生成、语音合成等多模态能力(通过 MiniMax MCP Server)。

四、项目资源与社区信息

  • 代码与模型
    • 仓库地址:GitHub - MiniMax-AI/MiniMax-M1
    • 模型下载:通过 Hugging Face 获取 40K 和 80K 版本。
  • 开源协议:采用 Apache-2.0 许可证,允许商业使用与修改。
  • 社区数据(截至页面信息):
    • Star 数:1.1K
    • Fork 数:45
    • 贡献者:3 人(含 MiniMax 官方开发团队)
  • 联系方式:技术咨询可发送邮件至 model@minimax.io。

五、总结

MiniMax-M1 以长上下文处理和高效计算为核心优势,在软件工程、长文本理解等任务中表现突出,适合需要深度推理和大规模输入的场景。尽管在部分通用任务中性能不及顶尖闭源模型,但其开源特性和混合架构为学术研究与工业应用提供了新选择。项目配套的部署工具链和多模态 API 进一步降低了落地门槛,展现了团队在模型工程化方面的投入。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐