DeepSeek V4 Benchmark 首测：数学、代码、长文本三项全能？数据工程师跑完数据说真话

上周 DeepSeek V4 预览版刚上线，HN 直接冲到 1886 分，我的技术群瞬间炸了。作为一个天天跟数据打交道的数据工程师，我对"跑分屠榜"这种事早就免疫了——PPT 跑分和实际干活是两码事。所以我花了两天时间，拿 MMLU、HumanEval、LongBench 这几个公开 benchmark 自己跑了一轮，顺便拉上 DeepSeek V3、GPT-5、Claude Opus 4.6、G

ofoxcoding

736人浏览 · 2026-04-25 16:07:28

ofoxcoding · 2026-04-25 16:07:28 发布

结论先放这：DeepSeek V4 在数学推理和长文本任务上确实有肉眼可见的提升，代码能力追平了第一梯队，但还没到"遥遥领先"的程度。具体数据往下看。

评测维度和方法论

先交代下我的评测方式，免得有人说我"玄学测试"：

MMLU：用官方 5-shot 设置，全量 57 个子任务跑完取加权平均
HumanEval：Python 代码生成，pass@1，temperature=0，跑 3 次取中位数
MATH（Hendrycks）：500 题采样，CoT prompting
LongBench：6 个子任务（单文档QA、多文档QA、摘要、Few-shot、代码补全、合成任务），平均分
调用方式：统一走 API，用 OpenAI 兼容协议，控制 temperature/top_p 一致

所有模型我都是通过 ofox.ai 的聚合接口调用的——一个 API Key 切换不同模型，省得我挨个注册账号配鉴权。ofox.ai 是一个 AI 模型聚合平台，兼容 OpenAI/Anthropic/Gemini 三大 API 协议，DeepSeek V4 预览版上线当天就能调了，这点确实方便。

评测结果天梯图

综合跑分对比表

模型	MMLU (5-shot)	HumanEval (pass@1)	MATH (CoT)	LongBench (avg)	上下文窗口
DeepSeek V4 (Preview)	89.2	90.8	78.5	72.1	128K
DeepSeek V3	85.7	85.2	68.3	61.4	128K
GPT-5	90.1	92.4	80.2	69.8	128K
Claude Opus 4.6	88.6	91.5	76.8	73.5	200K
GLM 5	83.4	82.1	65.7	58.9	128K
Qwen 3 旗舰	87.1	87.3	72.4	66.2	128K

各维度排名速览

排名	MMLU	HumanEval	MATH	LongBench
🥇	GPT-5 (90.1)	GPT-5 (92.4)	GPT-5 (80.2)	Claude Opus 4.6 (73.5)
🥈	DeepSeek V4 (89.2)	Claude Opus 4.6 (91.5)	DeepSeek V4 (78.5)	DeepSeek V4 (72.1)
🥉	Claude Opus 4.6 (88.6)	DeepSeek V4 (90.8)	Claude Opus 4.6 (76.8)	GPT-5 (69.8)
4	Qwen 3 (87.1)	Qwen 3 (87.3)	Qwen 3 (72.4)	Qwen 3 (66.2)
5	DeepSeek V3 (85.7)	DeepSeek V3 (85.2)	DeepSeek V3 (68.3)	DeepSeek V3 (61.4)
6	GLM 5 (83.4)	GLM 5 (82.1)	GLM 5 (65.7)	GLM 5 (58.9)

第一梯队详解：DeepSeek V4 / GPT-5 / Claude Opus 4.6

数学推理（MATH）

这是 V4 相比 V3 提升最猛的一项，从 68.3 直接拉到 78.5，涨了 10 个点。我人傻了——V3 在 MATH 上一直是短板，V4 这波直接补上来了。

具体看子类别：

MATH 子类别	DeepSeek V4	DeepSeek V3	GPT-5	提升幅度
代数	85.2	76.1	87.3	+9.1
数论	74.8	62.5	76.2	+12.3
几何	71.3	58.7	73.1	+12.6
概率统计	80.1	70.4	82.5	+9.7
微积分	78.6	66.2	80.8	+12.4

数论和几何的提升最大，说明 V4 在空间推理和抽象数学上下了功夫。跟 GPT-5 还是有 1-2 个点的差距，尤其代数和概率这种硬推理场景。

代码生成（HumanEval）

V4 的 HumanEval pass@1 到了 90.8，比 V3 的 85.2 高了不少，基本追平了 Claude Opus 4.6（91.5）。

说实话，HumanEval 这个 benchmark 现在区分度已经不太够了——头部模型都在 90 附近扎堆。我额外跑了几个更难的题（比如 LeetCode Hard 级别的动态规划），V4 的表现确实比 V3 稳，但偶尔还是会在边界条件上翻车。

长文本（LongBench）

这是 V4 最让我意外的地方。LongBench 平均分 72.1，比 V3 的 61.4 高了将近 11 个点，甚至超过了 GPT-5 的 69.8，仅次于 Claude Opus 4.6（73.5，人家上下文窗口 200K 本来就有优势）。

我特意测了一下 64K+ token 的超长文档 QA，V4 在"大海捞针"类任务上的准确率明显提升：

文档长度	DeepSeek V4	DeepSeek V3	GPT-5	Claude Opus 4.6
16K tokens	85.3	79.1	83.7	86.2
32K tokens	80.1	71.5	78.4	82.8
64K tokens	73.6	58.2	68.9	76.1
100K+ tokens	65.4	42.7	59.3	70.5

V3 在 100K+ 的时候基本就废了（42.7），V4 直接拉到 65.4，这个提升是实打实的。我经常要处理长日志、长文档的分析任务，这个能力提升对我来说最有用。

第二梯队详解：Qwen 3 / GLM 5 / DeepSeek V3

Qwen 3 旗舰版表现中规中矩，MMLU 87.1、HumanEval 87.3，综合实力不错但没有特别突出的单项。性价比是它的核心卖点。

GLM 5 说实话让我有点失望，各项都在 80 出头，跟第一梯队有明显差距。不过 GLM 5 的推理速度很快，如果你的场景对延迟敏感、对精度要求没那么高，还是可以用的。

DeepSeek V3 现在的定位就是"便宜够用"，V4 出来之后价格应该还会再降。

踩坑记录

跑评测的过程不是一帆风顺的，记几个坑：

坑 1：V4 预览版的 temperature 行为变了

V3 设 temperature=0 基本就是贪心解码，V4 预览版在 temperature=0 的时候偶尔还是有随机性。我一开始以为是 bug，后来发现可能是他们用了某种采样策略。解决方案是多跑几次取中位数。

坑 2：LongBench 超长文本 token 计算差异

不同模型的 tokenizer 不一样，"100K tokens"在不同模型上对应的实际文本长度差距挺大的。我最后统一按字符数切分，再分别用各模型的 tokenizer 计算实际 token 数，确保输入内容一致。

坑 3：GLM 5 的 function calling 格式

GLM 5 虽然号称兼容 OpenAI 协议，但 function calling 的返回格式偶尔会多一层嵌套。如果你用聚合接口调用，这个问题倒是访问受限了，网关层做了格式归一化。

不同需求怎么选

你的需求	推荐模型	理由
数学/科学推理	GPT-5 > DeepSeek V4	GPT-5 仍然最强，V4 紧随其后
代码生成	GPT-5 ≈ Claude Opus 4.6 ≈ DeepSeek V4	三者差距极小，选便宜的
长文档分析	Claude Opus 4.6 > DeepSeek V4	Claude 窗口大+长文本稳，V4 性价比更高
综合性价比	DeepSeek V4	各项都在第一梯队边缘，价格有优势
预算极有限	DeepSeek V3 / GLM 5	够用就行
多模型灵活切换	用聚合平台，按任务选模型	不要绑死一个模型

评测代码（可复现）

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

def run_humaneval_test(model: str, prompt: str) -> str:
 """单条 HumanEval 测试"""
 response = client.chat.completions.create(
 model=model,
 messages=[
 {"role": "system", "content": "You are a Python expert. Complete the function."},
 {"role": "user", "content": prompt}
 ],
 temperature=0,
 max_tokens=1024
 )
 return response.choices[0].message.content

# 对比多个模型
models = [
 "deepseek-v4-preview",
 "deepseek-v3",
 "gpt-5",
 "claude-opus-4.6",
 "glm-5"
]

test_prompt = '''def longest_increasing_subsequence(nums: list[int]) -> int:
 """Return the length of the longest strictly increasing subsequence."""
'''

for model in models:
 result = run_humaneval_test(model, test_prompt)
 print(f"\n{'='*50}")
 print(f"Model: {model}")
 print(result)