DeepSeek-V4评测:开源大模# DeepSeek-V4 评测文档

发布信息

  • 发布时间:2026年4月24日
    • 开源协议:MIT,可商用
    • 官网:https://www.deepseek.com

版本规格

规格 V4-Pro V4-Flash
总参数 1.6T 284B
激活参数 49B 13B
上下文 100万token 100万token
训练数据 33T tokens 32T tokens

核心亮点

1. 百万上下文全面开源

  • KV cache 大幅缩减
    • V4-Pro 单token FLOPs 只有 V3.2 的 27%,KV cache 只有 10%
    • V4-Flash 更极端:分别压到 10% 和 7%

2. 国产芯片适配

  • 已支持华为算力
    • 预计下半年昇腾950超节点批量上市

3. 价格优势

版本 每百万token价格
V4-Flash 0.28美元
V4-Pro 3.48美元
Claude Opus 4.7 15美元

性能评测

第三方评测结果

  • Arena.ai:V4-Pro 被定性为"相较 V3.2 的重大飞跃"
    • 代码竞技场:开源模型第3位,综合第14位
    • Vals AI:V4 在 Vibe Code Benchmark 中拿下开源权重模型榜首,击败 Gemini 3.1 Pro

能力对比

能力 V4-Pro 评价
Agent能力 接近 Claude Opus 4.6 Max 开源第一
世界知识 大幅领先其他开源模型 接近顶级闭源
数学/STEM 超越所有公开评测开源模型 接近第一梯队
代码能力 开源第一 超越 Gemini 3.1 Pro

定位

  • V4 能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro
    • “发展轨迹大约滞后前沿闭源模型3至6个月”

实测反馈

优势

  1. 智能体编程提升明显:可连续自主编程60分钟以上,完成复杂工程任务
    1. 复杂推理有亮点:海龟汤等逻辑题表现出色
    1. 长程任务能力强:展现强大的长程规划、自我纠错和工具调用能力

短板

  1. 轻量级任务意外翻车:简单问题有时因"过度思考"无法给出正确答案
    1. 部分极限任务不稳定:IMO数学难题和部分轻量级测试可能陷入死循环

技术创新

CSA + HCA 混合压缩注意力机制

  • CSA(压缩稀疏注意力):每4个token的KV压缩成1个,再用Lightning Indexer稀疏选出最重要的KV块
    • HCA(重度压缩注意力):每128个token压缩成1个,不做稀疏,全量dense

适用场景推荐

场景 推荐选择
极致性价比 DeepSeek V4-Flash
复杂推理任务 DeepSeek V4-Pro
对标 GPT-5.4/Gemini 3.1 需考虑闭源模型
中文场景/企业级性价比 通义千问 3.0
学术研究/轻量部署 ChatGLM-5.1

文档整理时间:2026-04-27型的新突破

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐