DeepSeek V4 开源:13B激活参数打穿代码天花板,长上下文效率提升10倍
一、又一个"预览版"?
2026年4月24日,DeepSeek发布了V4系列预览版。两个模型:V4-Pro(1.6T总参数,49B激活)和V4-Flash(284B总参数,13B激活)。
MIT开源。上下文100万token。最大输出384K。
这些数字本身就够炸裂了。但真正让我停下来的,是一组对比数据——
V4-Flash,仅13B激活参数,在LiveCodeBench上跑出91.6分。 对比一下:GPT-5.4没公布这个数据,Gemini-3.1-Pro是91.7,而V4-Pro也才93.5。
13B激活参数追到了91.6。这是什么概念?相当于一个实习生干到了总监80%的活。
这不是一个常规的版本迭代。这是架构级别的质变。
二、V4到底改了什么
DeepSeek在技术报告中提出了三个核心架构创新。
2.1 混合注意力:CSA + HCA
这是V4最重要的创新,没有之一。
传统Transformer的注意力机制有一个根本性矛盾:上下文越长,计算量和内存消耗呈平方级增长。这就是为什么大多数模型的上下文被卡在128K甚至更短。
DeepSeek的解法是设计了一套混合注意力机制,把两种压缩注意力结合在一起:
- CSA(Compressed Sparse Attention):对大部分token做稀疏采样,只保留关键位置的完整注意力
- HCA(Heavily Compressed Attention):对剩余token做重度压缩,大幅降低KV cache占用
效果有多极端?在100万token的上下文下:
- 单token推理FLOPs只需要V3.2的27%
- KV cache只需要V3.2的10%
换句话说,同样的硬件,以前能跑128K上下文,现在能跑1M。不是线性提升,是数量级的效率飞跃。
2.2 流形约束超连接(mHC)
这是给深度网络信号传播问题的一剂药。
深层网络的经典难题是梯度消失和信号退化——信息经过几十上百层transformer后,要么衰减到无法传递,要么被噪声淹没。传统的残差连接(residual connection)能缓解这个问题,但不是最优解。
DeepSeek引入了流形约束(Manifold-Constrained)的概念:不是简单地让信号"加回去",而是在一个数学约束下引导信号沿着有效方向传播。既保持了模型的表达能力,又增强了深层信号传播的稳定性。
这就像给高速公路装了车道保持系统——车(信号)跑得更快,而且不容易跑偏。
2.3 Muon 优化器
训练大模型,优化器的选择直接影响收敛速度和训练稳定性。传统的AdamW用了这么多年,不是因为最好,是因为足够稳。
Muon是一个更新的优化器,以更快的收敛速度著称,但在超大模型上的应用一直是个挑战。DeepSeek在V4的32T token预训练中全程使用Muon,证明了这个优化器在万亿参数规模下的可行性。
32T token,Muon优化器,稳住了。这本身就说明了很多。
三、训练:32T token + 两阶段后训练
3.1 预训练规模
V4的预训练数据量超过了32T tokens。作为参考,V3系列是14.8T。翻了一倍多。
数据质量方面,DeepSeek强调"diverse and high-quality",但具体的数据配比和技术细节需要在技术报告中查看。
3.2 后训练范式
V4的后训练流程采用了DeepSeek称之为"两阶段范式"的方法:
第一阶段:领域专家独立培养。 针对不同领域(代码、数学、推理、工具调用等),分别用SFT和GRPO强化学习训练专门的专家能力。
第二阶段:统一模型整合。 通过on-policy蒸馏,把各领域专家的能力整合到一个统一的模型中。
这个思路的精妙之处在于:让每个领域的训练互不干扰,最后再统一融合。类比的话,就像先分别培养医学、法律、工程的专家,再让一个通才跟所有人学习,最终成为一个全能型选手。
四、三种推理模式
V4引入了三级推理强度控制:
| 模式 | 特点 | 适用场景 |
|---|---|---|
| Non-think | 快速直觉响应 | 日常对话、低风险决策 |
| Think High | 有意识逻辑分析 | 复杂问题求解、规划任务 |
| Think Max | 推理能力拉满 | 探索模型推理边界 |
这个设计不新鲜——Anthropic的Claude和OpenAI的o系列都有类似的reasoning_effort控制。但DeepSeek的实现有一个有趣的特点:Think Max模式使用特殊的系统提示词,模型会输出完整的思考链(reasoning_content)+ 最终答案。
开发者可以根据任务的复杂度灵活选择推理强度,在速度和准确性之间做trade-off。
五、Benchmark分析:亮点与差距
官方给出了极其详尽的benchmark数据。我挑重点说。
5.1 代码能力:全场最强
| Benchmark | GPT-5.4 | Gemini-3.1-Pro | V4-Pro Max |
|---|---|---|---|
| LiveCodeBench | - | 91.7 | 93.5 |
| Codeforces Rating | 3168 | 3052 | 3206 |
| SWE Verified | - | 80.6 | 80.6 |
LiveCodeBench 93.5,Codeforces 3206 rating——这两个数据是目前公开模型中的最高分。
13B激活参数的V4-Flash在LiveCodeBench上也跑到了91.6,比Gemini-3.1-Pro(91.7)只差0.1分。这意味着什么?意味着一个能在消费级显卡上跑的小模型,在代码生成能力上已经追平了Google的旗舰模型。
5.2 数学推理:强力但非最强
| Benchmark | GPT-5.4 | Gemini-3.1-Pro | V4-Pro Max |
|---|---|---|---|
| GPQA Diamond | 93.0 | 94.3 | 90.1 |
| HLE | 39.8 | 44.4 | 37.7 |
| HMMT 2026 | 97.7 | 94.7 | 95.2 |
| IMOAnswerBench | 91.4 | 81.0 | 89.8 |
数学推理方面,V4-Pro-Max处于第一梯队,但不是最强。Gemini-3.1-Pro在GPQA Diamond(94.3)和HLE(44.4)上领先明显。GPT-5.4在HMMT(97.7)和IMOAnswerBench(91.4)上更高。
不过HMMT 95.2和IMOAnswerBench 89.8的表现依然很强,Apex Shortlist更是跑出了90.2的全场最高分。
5.3 长上下文:碾压级优势
| Benchmark | Gemini-3.1-Pro | V4-Pro Max |
|---|---|---|
| MRCR 1M (MMR) | 76.3 | 83.5 |
| CorpusQA 1M (ACC) | 53.8 | 62.0 |
这是V4最亮眼的领域。CSA+HCA混合注意力架构的优势在长上下文benchmark中体现得淋漓尽致。MRCR 1M的83.5分比Gemini高7.2个百分点,CorpusQA 1M高8.2个百分点。
1M上下文不是噱头。是真能用的。
5.4 Agent能力:追平但未超越
| Benchmark | GPT-5.4 | Gemini-3.1-Pro | K2.6 | V4-Pro Max |
|---|---|---|---|---|
| Terminal Bench 2.0 | 75.1 | 68.5 | 66.7 | 67.9 |
| SWE Verified | - | 80.6 | 80.2 | 80.6 |
| MCPAtlas | 67.2 | 69.2 | 66.6 | 73.6 |
| BrowseComp | 82.7 | 85.9 | 83.2 | 83.4 |
| GDPval-AA (Elo) | 1674 | 1314 | 1482 | 1554 |
MCPAtlas(73.6)是全场最高,这是一个衡量模型调用MCP工具能力的benchmark。但在Terminal Bench和HLE with tools上,距离GPT-5.4还有差距。
总体来看,V4-Pro-Max在Agent领域处于第一梯队,但GPT-5.4仍然是综合最强的。
5.5 V4-Flash vs V4-Pro:差距有多大
这是我认为最有意思的数据:
| Benchmark | Flash Max | Pro Max | 差距 |
|---|---|---|---|
| LiveCodeBench | 91.6 | 93.5 | 1.9 |
| GPQA Diamond | 88.1 | 90.1 | 2.0 |
| HLE | 34.8 | 37.7 | 2.9 |
| SWE Verified | 79.0 | 80.6 | 1.6 |
| SimpleQA-Verified | 34.1 | 57.9 | 23.8 |
| MRCR 1M | 78.7 | 83.5 | 4.8 |
推理和代码差距很小(1-3分),但纯知识能力差距巨大(SimpleQA 23.8分)。这很合理——Flash只有13B激活参数,"聪明"程度够用,但"知道多少"受限于参数规模。
结论:日常使用选Flash足够,知识密集型任务选Pro。
六、开源与部署
6.1 开源协议
MIT License。没有任何限制。商用、修改、分发,随便用。
这在万亿参数级别的模型中极其罕见。Llama系列用自定义许可证,Qwen系列也有使用限制。DeepSeek坚持MIT,这意味着你可以拿V4-Pro做任何事,包括构建商业产品。
6.2 精度与部署
模型采用FP4+FP8混合精度:MoE专家参数用FP4,其余参数用FP8。这是在模型质量和推理效率之间的精妙平衡。
V4-Flash(284B总参数,13B激活)理论上可以在多卡消费级硬件上运行。V4-Pro(1.6T总参数,49B激活)则需要企业级部署。
DeepSeek官方建议:Think Max模式下,上下文窗口至少设置384K tokens。
6.3 API定价
| V4-Flash | V4-Pro | |
|---|---|---|
| 输入(缓存命中) | $0.028/M | $0.145/M |
| 输入(缓存未命中) | $0.14/M | $1.74/M |
| 输出 | $0.28/M | $3.48/M |
Flash的定价极具攻击性。缓存命中时输入仅$0.028/M tokens,这是目前我能找到的最便宜的大模型API之一。
七、DeepSeek的策略:用架构创新弥补算力差距
回顾DeepSeek的模型演进路线,一条清晰的策略主线浮现出来:
- V3(2024-12):671B MoE,37B激活,证明MoE架构在超大模型上的可行性
- R1(2025-01):强化学习驱动的推理模型,开源RL范式
- V3.1(2025-08):引入混合推理架构,Agent能力大幅提升
- V3.2(2025-12):全面迭代,SWE-bench 66.0
- V4(2026-04):1M上下文,13B激活打穿代码天花板
每一步都在做同一件事:用更少的激活参数,实现更强的能力。
V4-Flash的13B激活参数追平Gemini-3.1-Pro的代码能力,这不是偶然。这是从V3开始持续优化的混合注意力、MoE路由、后训练蒸馏的合力结果。
算力不是万能的。DeepSeek在用更聪明的架构设计,证明效率可以战胜规模。
八、对开发者的实际意义
如果你是一名开发者,V4的发布意味着几件具体的事:
第一,本地运行百万token上下文不再是幻想。 V4-Flash的混合注意力机制将长上下文的计算成本压缩到原来的10%,这使得在有限的GPU资源下处理大规模文档成为可能。
第二,代码生成有了真正的开源首选。 LiveCodeBench 93.5、Codeforces 3206,MIT开源。不需要API调用,不需要付费,不需要许可证审查。直接下载,直接用。
第三,三级推理模式让模型更可控。 简单任务用Non-think快速响应,复杂任务用Think Max深度推理。不需要为了一个简单问题等30秒的思考链。
第四,双API协议兼容降低了迁移成本。 同时支持OpenAI和Anthropic格式,一行配置就能从现有工具链切换到DeepSeek。
九、写在最后
V4是一个预览版。DeepSeek在标题中明确标注了"preview"。这意味着后续还会有正式版,benchmark数据可能还会提升。
但即使是预览版,V4-Pro-Max已经做到了几件事:
- 代码能力全场最强
- 长上下文效率提升10倍
- 13B激活参数追平旗舰模型
DeepSeek再次证明了一件事:开源模型的进步速度,正在追上甚至超越闭源模型。这不是一句口号。这是benchmark上的数字。
MIT许可证,HuggingFace和ModelScope同步上架。
技术报告:《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》
更多推荐



所有评论(0)