DeepSeek v4到底怎么样？

实测深度使用 DeepSeek V4 Pro 三天，整体体验很难用简单几句话概括。单看核心硬指标，V4 Pro 的短板优势很突出：数学推理能力拉满，IMO 测试达到 89.8%，稳居开源模型第一，甚至大幅领先 Anthropic Opus 4.6；代码实战表现同样亮眼，SWE-Bench 跑分 83.7%，处在开源第一梯队。但客观来讲必须承认，GPT-5.5 这类顶级闭源模型，在超高难度的综合复杂

浑水摸鱼的程序员

175人浏览 · 2026-05-05 12:45:16

浑水摸鱼的程序员 · 2026-05-05 12:45:16 发布

说明：官方 Preview=Beta 测试阶段；Base 为纯预训练底座、无对齐；Max 为增强推理模式（同模型开关切换）

大版本数量：V4 仅 1 个主干版本（Beta / 预览），无独立 Alpha 内测版
可独立区分模型总数：6 个
核心商用主版本（常用）：2 个（V4-Pro、V4-Flash）
开源底座版本：2 个（Pro-Base、Flash-Base）
增强推理特供版：2 个（Pro-Max、Flash-Max）

一、是否多模态？

** 官方明确：V4（Pro / Flash）暂为纯文本大模型，不支持图像、音频、视频的理解与输入。

只能做：文本输入 → 文本输出。

官方说法：多模态版本预计 2026 Q3 推出，目前仅文本能力发布。

二、性能（截至 2026-05-04，V4-Pro 为主）

核心基准（vs 主流模型）

MMLU（通用知识）：91.2%（接近 GPT-5 的 92.0%）

GPQA（科学推理）：72.8%（超过 GPT-5 的 71.5%）

HumanEval（代码）：93.5%（超越 GPT-5、Claude）

SWE-Bench（真实工程）：58.2%（强于 GPT-5 的 55.6%）

MATH-500（奥数）：96.1%（顶尖水平）

特点

长文本：100 万 token 上下文，实际有效约 10–30 万。

代码很强：开源第一，部分指标超过 GPT-5.4。

中文很强：SuperCLUE 国内第一。

推理强、知识略弱：复杂数学 / Agent 接近顶级，世界知识略逊 Gemini 3.1 Pro。

Pro vs Flash 简要

V4-Pro（1.6T / 49B 激活）：旗舰，推理 / 代码更强，适合复杂任务。

V4-Flash（284B / 13B 激活）：轻量，速度快、成本低，日常 / 批量任务性价比高。

三、价格（人民币，2026-04-26 调价后，含限时优惠）

V4-Flash（轻量版）

输入（缓存命中）：0.02 元 / 百万 token

输入（未命中）：1 元 / 百万 token

输出：2 元 / 百万 token

V4-Pro（旗舰版）

输入（缓存命中）：0.025 元 / 百万 token（限时 2.5 折，至 5 月 5 日）

输入（未命中）：3 元 / 百万 token

输出：6 元 / 百万 token

一句话总结价格

缓存场景（RAG、知识库、客服）：几乎免费，2 分钱 / 百万 token。

普通场景：比 GPT-5 便宜几十倍。

排行榜：

在真实任务评测基准 GDPval-AA 中，所有大模型榜里，DeepSee-V4前面还有Claude和GPT，算是全球第三，在开源模型里，排名第一。

不过，大模型能力维度有很多，很难一概而论，这个排名也主要是一个参考，并不能说明什么，很多排行中还是KiMi在前面。

总结

实测深度使用 DeepSeek V4 Pro 三天，整体体验很难用简单几句话概括。

单看核心硬指标，V4 Pro 的短板优势很突出：数学推理能力拉满，IMO 测试达到 89.8%，稳居开源模型第一，甚至大幅领先 Anthropic Opus 4.6；代码实战表现同样亮眼，SWE-Bench 跑分 83.7%，处在开源第一梯队。

但客观来讲必须承认，GPT-5.5 这类顶级闭源模型，在超高难度的综合复杂任务上，依旧保有明显优势，这一点没必要刻意美化。

可一旦综合成本、服务稳定性、生态适配、国产化落地四大维度来看，这次 V4 版本的战略价值完全不在一个层级。它的核心竞争力，从来不是单纯追求全面碾压头部闭源模型，而是做到了「性能够用、体验合格」的前提下，实现碾压级的成本优势 —— 综合使用成本差出数百倍，同时支持私有化本地部署、数据自主可控，模型权重开源可查，完全规避数据安全风险。
对于企业决策者和技术落地而言，这几点组合在一起，就是无可替代的核心竞争力。

回望 DeepSeek 的发展，早期一直被行业贴上 “追赶者” 的标签，但现在这个定位早已不再适用。它没有盲目跟风内卷，而是走出了专属的技术路线，节奏稳健、落地扎实，差异化优势越来越清晰。

目前 V4 还处于 Beta 预览阶段，我非常期待 6 月正式版的全面升级。后续随着昇腾 950 算力大规模落地，V4 Pro 的调用成本进一步下探，整个大模型行业的商业化与国产化格局，大概率会迎来一次关键的变局。

***全文干货，大家有什么问题也可以一起讨论。

***喜欢留个关注，会持续输出，谢谢。