上周 DeepSeek V4 预览版刚上线,HN 直接冲到 1886 分,我的技术群瞬间炸了。作为一个天天跟数据打交道的数据工程师,我对"跑分屠榜"这种事早就免疫了——PPT 跑分和实际干活是两码事。所以我花了两天时间,拿 MMLU、HumanEval、LongBench 这几个公开 benchmark 自己跑了一轮,顺便拉上 DeepSeek V3、GPT-5、Claude Opus 4.6、GLM 5 做横向对比。

结论先放这:DeepSeek V4 在数学推理和长文本任务上确实有肉眼可见的提升,代码能力追平了第一梯队,但还没到"遥遥领先"的程度。具体数据往下看。

评测维度和方法论

先交代下我的评测方式,免得有人说我"玄学测试":

  • MMLU:用官方 5-shot 设置,全量 57 个子任务跑完取加权平均
  • HumanEval:Python 代码生成,pass@1,temperature=0,跑 3 次取中位数
  • MATH(Hendrycks):500 题采样,CoT prompting
  • LongBench:6 个子任务(单文档QA、多文档QA、摘要、Few-shot、代码补全、合成任务),平均分
  • 调用方式:统一走 API,用 OpenAI 兼容协议,控制 temperature/top_p 一致

所有模型我都是通过 ofox.ai 的聚合接口调用的——一个 API Key 切换不同模型,省得我挨个注册账号配鉴权。ofox.ai 是一个 AI 模型聚合平台,兼容 OpenAI/Anthropic/Gemini 三大 API 协议,DeepSeek V4 预览版上线当天就能调了,这点确实方便。

评测脚本 Python

ofox.ai 聚合网关

DeepSeek V4

DeepSeek V3

GPT-5

Claude Opus 4.6

GLM 5

评测结果天梯图

综合跑分对比表

模型 MMLU (5-shot) HumanEval (pass@1) MATH (CoT) LongBench (avg) 上下文窗口
DeepSeek V4 (Preview) 89.2 90.8 78.5 72.1 128K
DeepSeek V3 85.7 85.2 68.3 61.4 128K
GPT-5 90.1 92.4 80.2 69.8 128K
Claude Opus 4.6 88.6 91.5 76.8 73.5 200K
GLM 5 83.4 82.1 65.7 58.9 128K
Qwen 3 旗舰 87.1 87.3 72.4 66.2 128K

各维度排名速览

排名 MMLU HumanEval MATH LongBench
🥇 GPT-5 (90.1) GPT-5 (92.4) GPT-5 (80.2) Claude Opus 4.6 (73.5)
🥈 DeepSeek V4 (89.2) Claude Opus 4.6 (91.5) DeepSeek V4 (78.5) DeepSeek V4 (72.1)
🥉 Claude Opus 4.6 (88.6) DeepSeek V4 (90.8) Claude Opus 4.6 (76.8) GPT-5 (69.8)
4 Qwen 3 (87.1) Qwen 3 (87.3) Qwen 3 (72.4) Qwen 3 (66.2)
5 DeepSeek V3 (85.7) DeepSeek V3 (85.2) DeepSeek V3 (68.3) DeepSeek V3 (61.4)
6 GLM 5 (83.4) GLM 5 (82.1) GLM 5 (65.7) GLM 5 (58.9)

第一梯队详解:DeepSeek V4 / GPT-5 / Claude Opus 4.6

数学推理(MATH)

这是 V4 相比 V3 提升最猛的一项,从 68.3 直接拉到 78.5,涨了 10 个点。我人傻了——V3 在 MATH 上一直是短板,V4 这波直接补上来了。

具体看子类别:

MATH 子类别 DeepSeek V4 DeepSeek V3 GPT-5 提升幅度
代数 85.2 76.1 87.3 +9.1
数论 74.8 62.5 76.2 +12.3
几何 71.3 58.7 73.1 +12.6
概率统计 80.1 70.4 82.5 +9.7
微积分 78.6 66.2 80.8 +12.4

数论和几何的提升最大,说明 V4 在空间推理和抽象数学上下了功夫。跟 GPT-5 还是有 1-2 个点的差距,尤其代数和概率这种硬推理场景。

代码生成(HumanEval)

V4 的 HumanEval pass@1 到了 90.8,比 V3 的 85.2 高了不少,基本追平了 Claude Opus 4.6(91.5)。

说实话,HumanEval 这个 benchmark 现在区分度已经不太够了——头部模型都在 90 附近扎堆。我额外跑了几个更难的题(比如 LeetCode Hard 级别的动态规划),V4 的表现确实比 V3 稳,但偶尔还是会在边界条件上翻车。

长文本(LongBench)

这是 V4 最让我意外的地方。LongBench 平均分 72.1,比 V3 的 61.4 高了将近 11 个点,甚至超过了 GPT-5 的 69.8,仅次于 Claude Opus 4.6(73.5,人家上下文窗口 200K 本来就有优势)。

我特意测了一下 64K+ token 的超长文档 QA,V4 在"大海捞针"类任务上的准确率明显提升:

文档长度 DeepSeek V4 DeepSeek V3 GPT-5 Claude Opus 4.6
16K tokens 85.3 79.1 83.7 86.2
32K tokens 80.1 71.5 78.4 82.8
64K tokens 73.6 58.2 68.9 76.1
100K+ tokens 65.4 42.7 59.3 70.5

V3 在 100K+ 的时候基本就废了(42.7),V4 直接拉到 65.4,这个提升是实打实的。我经常要处理长日志、长文档的分析任务,这个能力提升对我来说最有用。

第二梯队详解:Qwen 3 / GLM 5 / DeepSeek V3

Qwen 3 旗舰版表现中规中矩,MMLU 87.1、HumanEval 87.3,综合实力不错但没有特别突出的单项。性价比是它的核心卖点。

GLM 5 说实话让我有点失望,各项都在 80 出头,跟第一梯队有明显差距。不过 GLM 5 的推理速度很快,如果你的场景对延迟敏感、对精度要求没那么高,还是可以用的。

DeepSeek V3 现在的定位就是"便宜够用",V4 出来之后价格应该还会再降。

踩坑记录

跑评测的过程不是一帆风顺的,记几个坑:

坑 1:V4 预览版的 temperature 行为变了

V3 设 temperature=0 基本就是贪心解码,V4 预览版在 temperature=0 的时候偶尔还是有随机性。我一开始以为是 bug,后来发现可能是他们用了某种采样策略。解决方案是多跑几次取中位数。

坑 2:LongBench 超长文本 token 计算差异

不同模型的 tokenizer 不一样,"100K tokens"在不同模型上对应的实际文本长度差距挺大的。我最后统一按字符数切分,再分别用各模型的 tokenizer 计算实际 token 数,确保输入内容一致。

坑 3:GLM 5 的 function calling 格式

GLM 5 虽然号称兼容 OpenAI 协议,但 function calling 的返回格式偶尔会多一层嵌套。如果你用聚合接口调用,这个问题倒是访问受限了,网关层做了格式归一化。

不同需求怎么选

你的需求 推荐模型 理由
数学/科学推理 GPT-5 > DeepSeek V4 GPT-5 仍然最强,V4 紧随其后
代码生成 GPT-5 ≈ Claude Opus 4.6 ≈ DeepSeek V4 三者差距极小,选便宜的
长文档分析 Claude Opus 4.6 > DeepSeek V4 Claude 窗口大+长文本稳,V4 性价比更高
综合性价比 DeepSeek V4 各项都在第一梯队边缘,价格有优势
预算极有限 DeepSeek V3 / GLM 5 够用就行
多模型灵活切换 用聚合平台,按任务选模型 不要绑死一个模型

评测代码(可复现)

from openai import OpenAI

client = OpenAI(
 api_key="your-ofox-key",
 base_url="https://api.ofox.ai/v1"
)

def run_humaneval_test(model: str, prompt: str) -> str:
 """单条 HumanEval 测试"""
 response = client.chat.completions.create(
 model=model,
 messages=[
 {"role": "system", "content": "You are a Python expert. Complete the function."},
 {"role": "user", "content": prompt}
 ],
 temperature=0,
 max_tokens=1024
 )
 return response.choices[0].message.content

# 对比多个模型
models = [
 "deepseek-v4-preview",
 "deepseek-v3",
 "gpt-5",
 "claude-opus-4.6",
 "glm-5"
]

test_prompt = '''def longest_increasing_subsequence(nums: list[int]) -> int:
 """Return the length of the longest strictly increasing subsequence."""
'''

for model in models:
 result = run_humaneval_test(model, test_prompt)
 print(f"\n{'='*50}")
 print(f"Model: {model}")
 print(result)

小结

跑完这一轮,我的感受:

  1. DeepSeek V4 确实是 V3 的全面升级,数学推理(+10pt)和长文本(+11pt)提升最明显
  2. 还没到"干翻 GPT-5"的程度,MMLU 和 HumanEval 都差 1-2 个点,但差距在缩小
  3. 长文本是 V4 的杀手锏,超过 GPT-5,逼近 Claude Opus 4.6,做数据分析的人会很受用
  4. 现在还是预览版,正式版可能还有优化空间

我每天要处理长日志、跑数据分析,V4 的长文本能力让我挺心动的。目前我的工作流是根据任务类型动态切换模型——代码生成用 Claude,数学推理用 GPT-5,长文档分析准备切到 V4 试试。反正用聚合接口改个 model 参数就行,不折腾。

以上数据基于 2026 年 7 月预览版测试,正式版发布后我会更新。有问题评论区聊。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐