MiniMax M2.5 和 Claude Sonnet 4.6 实测：代码生成、长文本、推理三项跑分记录

准确率够用，成本低到几乎可以忽略。我们的客服摘要场景切过去之后，月成本从七千降到四百多，质量只掉了 2-3 个点。

奇牙coding

373人浏览 · 2026-05-10 17:34:15

奇牙coding · 2026-05-10 17:34:15 发布

上周三我们团队在做一个客服对话摘要的项目，需要选一个主力模型。老板的原话是"便宜的那个，但别太拉胯"。MiniMax 上个月刚发了 M2.5，价格确实便宜得离谱，但到底能不能打？我花了两天时间跑了一轮对比，把数据贴出来给大家参考。

说实话一开始我是拒绝拿 MiniMax 跟 Claude 比的，毕竟定位差太多。但跑完数据发现 M2.5 在某些场景下的表现确实超出预期，不是那种"便宜没好货"的感觉。

先说结论

Claude Sonnet 4.6 综合能力依然是第一梯队，但 MiniMax M2.5 在长文本处理和中文生成上性价比极高。如果你的场景是中文为主的文本处理（摘要、改写、客服），M2.5 完全够用，成本能省 70% 以上。代码生成和复杂推理，还是老老实实用 Claude。

评测维度

这次我测了三个大方向：

代码生成：用 HumanEval 的 50 道题 + 我们项目里 10 个真实的 Python 函数补全
长文本理解：喂 50K token 的中文会议记录，要求提取关键决策和 action items
逻辑推理：GPQA 里抽了 30 道物理/数学题 + 5 道多步推理的业务逻辑题

每个测试跑 3 遍取平均值，温度统一 0.3。

评测结果天梯图

维度	MiniMax M2.5	Claude Sonnet 4.6	备注
HumanEval Pass@1	78.2%	89.6%	Claude 领先明显
真实函数补全（10题）	6/10	9/10	M2.5 在异步代码上翻车
50K 中文摘要准确率	91.3%	93.7%	差距不大
摘要遗漏关键信息	1.2 条/篇	0.4 条/篇	M2.5 偶尔漏掉隐含决策
GPQA 物理/数学	52.1%	71.8%	差距拉开了
多步业务推理	3/5	5/5	Claude 全对
平均首 token 延迟	380ms	520ms	M2.5 快不少
输入价格 (per 1M tokens)	¥1.0	¥21.6	差了 20 倍
输出价格 (per 1M tokens)	¥8.0	¥108	差了 13 倍

Claude Sonnet 4.6

没什么悬念。代码生成这块 Claude 依然是同级别里最能打的，HumanEval 89.6% 的 Pass@1 跟上个月我测 GPT-5.5 的 91.2% 差不了多少。

让我印象深的是那 10 道真实函数补全——其中有一道是我们项目里一个比较恶心的异步队列消费逻辑，涉及到 asyncio.gather + 超时重试 + 死信队列。Claude 直接一把过，连 edge case 的 type hint 都给补上了。M2.5 在这道题上生成了一个看起来对但实际会死锁的版本。

推理能力更不用说了，GPQA 71.8% vs 52.1%，这个差距在复杂场景下会被放大。

但 Claude 的问题也很现实：贵。我们项目每天大概处理 2000 条对话摘要，平均每条输入 3K token、输出 500 token。算下来：

每天输入：2000 × 3000 = 6M tokens → ¥129.6
每天输出：2000 × 500 = 1M tokens → ¥108
日成本：¥237.6
月成本：¥7,128

对我们这种小团队，一个月七千多就为了做摘要，有点肉疼。

MiniMax M2.5

M2.5 的定位很清晰——中文场景的性价比选手。长文本摘要 91.3% 的准确率，跟 Claude 只差两个多点。关键是价格：

同样的日处理量：
每天输入：6M tokens → ¥6.0
每天输出：1M tokens → ¥8.0
日成本：¥14.0
月成本：¥420

一个月 420 vs 7128，差了 17 倍。测完数据我人傻了。

不过 M2.5 也有明显短板。代码生成的时候，它对 Python 类型系统的理解比较浅，生成的代码经常缺少类型标注，对 async/await 的模式掌握不太行。还有一次它给我生成了一个用 threading.Lock 的方案，但我的上下文明明写的是 asyncio——它没读懂。

推理这块，52.1% 的 GPQA 分数说明它在需要多步逻辑链的场景下还是会断。我测的 5 道业务推理题里，有 2 道它给出了看起来合理但逻辑链断了一环的答案。

调用链路对比

graph TD
 A[业务代码] --> B{场景判断}
 B -->|代码生成/复杂推理| C[Claude Sonnet 4.6]
 B -->|中文摘要/对话处理| D[MiniMax M2.5]
 C --> E[聚合 API 网关]
 D --> E
 E --> F[结果返回]
 F --> G[后处理 + 质量检查]
 G -->|质量不达标| H[fallback 到 Claude]

我们最后的方案就是上面这个——按场景分流。摘要类任务走 M2.5，代码和推理走 Claude，M2.5 输出质量不行的时候 fallback。

踩坑记录

跑测试的时候遇到几个坑：

1. MiniMax 的 max_tokens 行为不一致

设置 max_tokens=2048 的时候，M2.5 有时候会在 1500 左右就停了，返回的 finish_reason 是 stop 而不是 length。排查了半天发现是它内部有个重复检测机制，觉得内容开始重复就自动停了。解决办法是把 repetition_penalty 从默认值调到 1.05。

2. Claude 的 429 限流

测试跑到一半收到了这个：

Error code: 429 - {'type': 'error', 'error': {'type': 'rate_limit_error', 'message': 'Number of request tokens has exceeded your per-minute rate limit'}}

Anthropic 官方的 RPM 限制对 Sonnet 4.6 是 4000 RPM，但 TPM 限制才是真正的瓶颈。我的测试脚本并发太高了，每分钟打了 800K tokens 进去。后来改成用聚合 API 走多通道分流才解决——OpenRouter 收 5.5% 手续费，ofox.ai 是 0% 加价直接对齐官方价格，我们最后用的后者，改个 base_url 就行。

from openai import OpenAI

# 走聚合网关，自动负载均衡避免单通道限流
client = OpenAI(
 api_key="your-key",
 base_url="https://api.ofox.ai/v1"
)

response = client.chat.completions.create(
 model="claude-sonnet-4.6",
 messages=[{"role": "user", "content": "..."}],
 max_tokens=2048
)

3. M2.5 的 JSON mode 偶尔抽风

要求输出 JSON 的时候，大概有 3% 的概率会在 JSON 外面包一层 markdown 代码块。我加了个正则后处理才稳定住：

import re, json

def safe_parse(text):
 # 去掉可能的 markdown 代码块包裹
 cleaned = re.sub(r'^```(?:json)?\n?|\n?```$', '', text.strip())
 return json.loads(cleaned)