DeepSeek-V4评测：开源大模型的新突破

DeepSeek-V4大模型评测摘要：2026年4月发布的这款开源模型包含V4-Pro（1.6T参数）和V4-Flash（284B参数）两个版本，采用MIT协议可商用。核心亮点包括百万token上下文支持、国产芯片适配和超高性价比（最低0.28美元/百万token）。评测显示其在代码、数学和Agent能力上位列开源第一，接近顶级闭源模型水平，但简单任务处理仍有提升空间。创新性的CSA+HCA混合压

L路人乙L

166人浏览 · 2026-05-01 17:11:16

L路人乙L · 2026-05-01 17:11:16 发布

DeepSeek-V4评测：开源大模# DeepSeek-V4 评测文档

发布信息

发布时间：2026年4月24日
- 开源协议：MIT，可商用
- 官网：https://www.deepseek.com

版本规格

规格	V4-Pro	V4-Flash
总参数	1.6T	284B
激活参数	49B	13B
上下文	100万token	100万token
训练数据	33T tokens	32T tokens

核心亮点

1. 百万上下文全面开源

KV cache 大幅缩减
- V4-Pro 单token FLOPs 只有 V3.2 的 27%，KV cache 只有 10%
- V4-Flash 更极端：分别压到 10% 和 7%

2. 国产芯片适配

已支持华为算力
- 预计下半年昇腾950超节点批量上市

3. 价格优势

版本	每百万token价格
V4-Flash	0.28美元
V4-Pro	3.48美元
Claude Opus 4.7	15美元

性能评测

第三方评测结果

Arena.ai：V4-Pro 被定性为"相较 V3.2 的重大飞跃"
- 代码竞技场：开源模型第3位，综合第14位
- Vals AI：V4 在 Vibe Code Benchmark 中拿下开源权重模型榜首，击败 Gemini 3.1 Pro

能力对比

能力	V4-Pro	评价
Agent能力	接近 Claude Opus 4.6 Max	开源第一
世界知识	大幅领先其他开源模型	接近顶级闭源
数学/STEM	超越所有公开评测开源模型	接近第一梯队
代码能力	开源第一	超越 Gemini 3.1 Pro

定位

V4 能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro
- “发展轨迹大约滞后前沿闭源模型3至6个月”

实测反馈

优势

智能体编程提升明显：可连续自主编程60分钟以上，完成复杂工程任务
1. 复杂推理有亮点：海龟汤等逻辑题表现出色
1. 长程任务能力强：展现强大的长程规划、自我纠错和工具调用能力

短板

轻量级任务意外翻车：简单问题有时因"过度思考"无法给出正确答案
1. 部分极限任务不稳定：IMO数学难题和部分轻量级测试可能陷入死循环

技术创新

CSA + HCA 混合压缩注意力机制

CSA（压缩稀疏注意力）：每4个token的KV压缩成1个，再用Lightning Indexer稀疏选出最重要的KV块
- HCA（重度压缩注意力）：每128个token压缩成1个，不做稀疏，全量dense

适用场景推荐

场景	推荐选择
极致性价比	DeepSeek V4-Flash
复杂推理任务	DeepSeek V4-Pro
对标 GPT-5.4/Gemini 3.1	需考虑闭源模型
中文场景/企业级性价比	通义千问 3.0
学术研究/轻量部署	ChatGLM-5.1