DeepSeek-V4评测:开源大模型的新突破
DeepSeek-V4大模型评测摘要:2026年4月发布的这款开源模型包含V4-Pro(1.6T参数)和V4-Flash(284B参数)两个版本,采用MIT协议可商用。核心亮点包括百万token上下文支持、国产芯片适配和超高性价比(最低0.28美元/百万token)。评测显示其在代码、数学和Agent能力上位列开源第一,接近顶级闭源模型水平,但简单任务处理仍有提升空间。创新性的CSA+HCA混合压
·
DeepSeek-V4评测:开源大模# DeepSeek-V4 评测文档
发布信息
- 发布时间:2026年4月24日
-
- 开源协议:MIT,可商用
-
- 官网:https://www.deepseek.com
版本规格
| 规格 | V4-Pro | V4-Flash |
|---|---|---|
| 总参数 | 1.6T | 284B |
| 激活参数 | 49B | 13B |
| 上下文 | 100万token | 100万token |
| 训练数据 | 33T tokens | 32T tokens |
核心亮点
1. 百万上下文全面开源
- KV cache 大幅缩减
-
- V4-Pro 单token FLOPs 只有 V3.2 的 27%,KV cache 只有 10%
-
- V4-Flash 更极端:分别压到 10% 和 7%
2. 国产芯片适配
- 已支持华为算力
-
- 预计下半年昇腾950超节点批量上市
3. 价格优势
| 版本 | 每百万token价格 |
|---|---|
| V4-Flash | 0.28美元 |
| V4-Pro | 3.48美元 |
| Claude Opus 4.7 | 15美元 |
性能评测
第三方评测结果
- Arena.ai:V4-Pro 被定性为"相较 V3.2 的重大飞跃"
-
- 代码竞技场:开源模型第3位,综合第14位
-
- Vals AI:V4 在 Vibe Code Benchmark 中拿下开源权重模型榜首,击败 Gemini 3.1 Pro
能力对比
| 能力 | V4-Pro | 评价 |
|---|---|---|
| Agent能力 | 接近 Claude Opus 4.6 Max | 开源第一 |
| 世界知识 | 大幅领先其他开源模型 | 接近顶级闭源 |
| 数学/STEM | 超越所有公开评测开源模型 | 接近第一梯队 |
| 代码能力 | 开源第一 | 超越 Gemini 3.1 Pro |
定位
- V4 能力水平仍落后 GPT-5.4 和 Gemini-3.1-Pro
-
- “发展轨迹大约滞后前沿闭源模型3至6个月”
实测反馈
优势
- 智能体编程提升明显:可连续自主编程60分钟以上,完成复杂工程任务
-
- 复杂推理有亮点:海龟汤等逻辑题表现出色
-
- 长程任务能力强:展现强大的长程规划、自我纠错和工具调用能力
短板
- 轻量级任务意外翻车:简单问题有时因"过度思考"无法给出正确答案
-
- 部分极限任务不稳定:IMO数学难题和部分轻量级测试可能陷入死循环
技术创新
CSA + HCA 混合压缩注意力机制
- CSA(压缩稀疏注意力):每4个token的KV压缩成1个,再用Lightning Indexer稀疏选出最重要的KV块
-
- HCA(重度压缩注意力):每128个token压缩成1个,不做稀疏,全量dense
适用场景推荐
| 场景 | 推荐选择 |
|---|---|
| 极致性价比 | DeepSeek V4-Flash |
| 复杂推理任务 | DeepSeek V4-Pro |
| 对标 GPT-5.4/Gemini 3.1 | 需考虑闭源模型 |
| 中文场景/企业级性价比 | 通义千问 3.0 |
| 学术研究/轻量部署 | ChatGLM-5.1 |
文档整理时间:2026-04-27型的新突破
更多推荐



所有评论(0)