DeepSeek v4到底怎么样?
实测深度使用 DeepSeek V4 Pro 三天,整体体验很难用简单几句话概括。单看核心硬指标,V4 Pro 的短板优势很突出:数学推理能力拉满,IMO 测试达到 89.8%,稳居开源模型第一,甚至大幅领先 Anthropic Opus 4.6;代码实战表现同样亮眼,SWE-Bench 跑分 83.7%,处在开源第一梯队。但客观来讲必须承认,GPT-5.5 这类顶级闭源模型,在超高难度的综合复杂


说明:官方 Preview=Beta 测试阶段;Base 为纯预训练底座、无对齐;Max 为增强推理模式(同模型开关切换)
- 大版本数量:V4 仅 1 个主干版本(Beta / 预览),无独立 Alpha 内测版
- 可独立区分模型总数:6 个
- 核心商用主版本(常用):2 个(V4-Pro、V4-Flash)
- 开源底座版本:2 个(Pro-Base、Flash-Base)
- 增强推理特供版:2 个(Pro-Max、Flash-Max)
一、是否多模态?
** 官方明确:V4(Pro / Flash)暂为纯文本大模型,不支持图像、音频、视频的理解与输入。
只能做:文本输入 → 文本输出。
官方说法:多模态版本预计 2026 Q3 推出,目前仅文本能力发布。
二、性能(截至 2026-05-04,V4-Pro 为主)
- 核心基准(vs 主流模型)
MMLU(通用知识):91.2%(接近 GPT-5 的 92.0%)
GPQA(科学推理):72.8%(超过 GPT-5 的 71.5%)
HumanEval(代码):93.5%(超越 GPT-5、Claude)
SWE-Bench(真实工程):58.2%(强于 GPT-5 的 55.6%)
MATH-500(奥数):96.1%(顶尖水平)
- 特点
长文本:100 万 token 上下文,实际有效约 10–30 万。
代码很强:开源第一,部分指标超过 GPT-5.4。
中文很强:SuperCLUE 国内第一。
推理强、知识略弱:复杂数学 / Agent 接近顶级,世界知识略逊 Gemini 3.1 Pro。
- Pro vs Flash 简要
V4-Pro(1.6T / 49B 激活):旗舰,推理 / 代码更强,适合复杂任务。
V4-Flash(284B / 13B 激活):轻量,速度快、成本低,日常 / 批量任务性价比高。
三、价格(人民币,2026-04-26 调价后,含限时优惠)
- V4-Flash(轻量版)
输入(缓存命中):0.02 元 / 百万 token
输入(未命中):1 元 / 百万 token
输出:2 元 / 百万 token
- V4-Pro(旗舰版)
输入(缓存命中):0.025 元 / 百万 token(限时 2.5 折,至 5 月 5 日)
输入(未命中):3 元 / 百万 token
输出:6 元 / 百万 token
- 一句话总结价格
缓存场景(RAG、知识库、客服):几乎免费,2 分钱 / 百万 token。
普通场景:比 GPT-5 便宜 几十倍。
排行榜:

在真实任务评测基准 GDPval-AA 中,所有大模型榜里,DeepSee-V4前面还有Claude和GPT,算是全球第三,在开源模型里,排名第一。
不过,大模型能力维度有很多,很难一概而论,这个排名也主要是一个参考,并不能说明什么,很多排行中还是KiMi在前面。
总结
实测深度使用 DeepSeek V4 Pro 三天,整体体验很难用简单几句话概括。
单看核心硬指标,V4 Pro 的短板优势很突出:数学推理能力拉满,IMO 测试达到 89.8%,稳居开源模型第一,甚至大幅领先 Anthropic Opus 4.6;代码实战表现同样亮眼,SWE-Bench 跑分 83.7%,处在开源第一梯队。
但客观来讲必须承认,GPT-5.5 这类顶级闭源模型,在超高难度的综合复杂任务上,依旧保有明显优势,这一点没必要刻意美化。
可一旦综合成本、服务稳定性、生态适配、国产化落地四大维度来看,这次 V4 版本的战略价值完全不在一个层级。它的核心竞争力,从来不是单纯追求全面碾压头部闭源模型,而是做到了「性能够用、体验合格」的前提下,实现碾压级的成本优势 —— 综合使用成本差出数百倍,同时支持私有化本地部署、数据自主可控,模型权重开源可查,完全规避数据安全风险。
对于企业决策者和技术落地而言,这几点组合在一起,就是无可替代的核心竞争力。
回望 DeepSeek 的发展,早期一直被行业贴上 “追赶者” 的标签,但现在这个定位早已不再适用。它没有盲目跟风内卷,而是走出了专属的技术路线,节奏稳健、落地扎实,差异化优势越来越清晰。
目前 V4 还处于 Beta 预览阶段,我非常期待 6 月正式版的全面升级。后续随着昇腾 950 算力大规模落地,V4 Pro 的调用成本进一步下探,整个大模型行业的商业化与国产化格局,大概率会迎来一次关键的变局。
***全文干货,大家有什么问题也可以一起讨论。
***喜欢留个关注,会持续输出,谢谢。
更多推荐



所有评论(0)