DeepSeek V4 开源：13B激活参数打穿代码天花板，长上下文效率提升10倍

Victor.Cheung

404人浏览 · 2026-04-26 16:36:59

Victor.Cheung · 2026-04-26 16:36:59 发布

一、又一个"预览版"？

2026年4月24日，DeepSeek发布了V4系列预览版。两个模型：V4-Pro（1.6T总参数，49B激活）和V4-Flash（284B总参数，13B激活）。

MIT开源。上下文100万token。最大输出384K。

这些数字本身就够炸裂了。但真正让我停下来的，是一组对比数据——

V4-Flash，仅13B激活参数，在LiveCodeBench上跑出91.6分。 对比一下：GPT-5.4没公布这个数据，Gemini-3.1-Pro是91.7，而V4-Pro也才93.5。

13B激活参数追到了91.6。这是什么概念？相当于一个实习生干到了总监80%的活。

这不是一个常规的版本迭代。这是架构级别的质变。

二、V4到底改了什么

DeepSeek在技术报告中提出了三个核心架构创新。

2.1 混合注意力：CSA + HCA

这是V4最重要的创新，没有之一。

传统Transformer的注意力机制有一个根本性矛盾：上下文越长，计算量和内存消耗呈平方级增长。这就是为什么大多数模型的上下文被卡在128K甚至更短。

DeepSeek的解法是设计了一套混合注意力机制，把两种压缩注意力结合在一起：

CSA（Compressed Sparse Attention）：对大部分token做稀疏采样，只保留关键位置的完整注意力
HCA（Heavily Compressed Attention）：对剩余token做重度压缩，大幅降低KV cache占用

效果有多极端？在100万token的上下文下：

单token推理FLOPs只需要V3.2的27%
KV cache只需要V3.2的10%

换句话说，同样的硬件，以前能跑128K上下文，现在能跑1M。不是线性提升，是数量级的效率飞跃。

2.2 流形约束超连接（mHC）

这是给深度网络信号传播问题的一剂药。

深层网络的经典难题是梯度消失和信号退化——信息经过几十上百层transformer后，要么衰减到无法传递，要么被噪声淹没。传统的残差连接（residual connection）能缓解这个问题，但不是最优解。

DeepSeek引入了流形约束（Manifold-Constrained）的概念：不是简单地让信号"加回去"，而是在一个数学约束下引导信号沿着有效方向传播。既保持了模型的表达能力，又增强了深层信号传播的稳定性。

这就像给高速公路装了车道保持系统——车（信号）跑得更快，而且不容易跑偏。

2.3 Muon 优化器

训练大模型，优化器的选择直接影响收敛速度和训练稳定性。传统的AdamW用了这么多年，不是因为最好，是因为足够稳。

Muon是一个更新的优化器，以更快的收敛速度著称，但在超大模型上的应用一直是个挑战。DeepSeek在V4的32T token预训练中全程使用Muon，证明了这个优化器在万亿参数规模下的可行性。

32T token，Muon优化器，稳住了。这本身就说明了很多。

三、训练：32T token + 两阶段后训练

3.1 预训练规模

V4的预训练数据量超过了32T tokens。作为参考，V3系列是14.8T。翻了一倍多。

数据质量方面，DeepSeek强调"diverse and high-quality"，但具体的数据配比和技术细节需要在技术报告中查看。

3.2 后训练范式

V4的后训练流程采用了DeepSeek称之为"两阶段范式"的方法：

第一阶段：领域专家独立培养。 针对不同领域（代码、数学、推理、工具调用等），分别用SFT和GRPO强化学习训练专门的专家能力。

第二阶段：统一模型整合。 通过on-policy蒸馏，把各领域专家的能力整合到一个统一的模型中。

这个思路的精妙之处在于：让每个领域的训练互不干扰，最后再统一融合。类比的话，就像先分别培养医学、法律、工程的专家，再让一个通才跟所有人学习，最终成为一个全能型选手。

四、三种推理模式

V4引入了三级推理强度控制：

模式	特点	适用场景
Non-think	快速直觉响应	日常对话、低风险决策
Think High	有意识逻辑分析	复杂问题求解、规划任务
Think Max	推理能力拉满	探索模型推理边界

这个设计不新鲜——Anthropic的Claude和OpenAI的o系列都有类似的reasoning_effort控制。但DeepSeek的实现有一个有趣的特点：Think Max模式使用特殊的系统提示词，模型会输出完整的思考链（reasoning_content）+ 最终答案。

开发者可以根据任务的复杂度灵活选择推理强度，在速度和准确性之间做trade-off。

五、Benchmark分析：亮点与差距

官方给出了极其详尽的benchmark数据。我挑重点说。

5.1 代码能力：全场最强

Benchmark	GPT-5.4	Gemini-3.1-Pro	V4-Pro Max
LiveCodeBench	-	91.7	93.5
Codeforces Rating	3168	3052	3206
SWE Verified	-	80.6	80.6

LiveCodeBench 93.5，Codeforces 3206 rating——这两个数据是目前公开模型中的最高分。

13B激活参数的V4-Flash在LiveCodeBench上也跑到了91.6，比Gemini-3.1-Pro（91.7）只差0.1分。这意味着什么？意味着一个能在消费级显卡上跑的小模型，在代码生成能力上已经追平了Google的旗舰模型。

5.2 数学推理：强力但非最强

Benchmark	GPT-5.4	Gemini-3.1-Pro	V4-Pro Max
GPQA Diamond	93.0	94.3	90.1
HLE	39.8	44.4	37.7
HMMT 2026	97.7	94.7	95.2
IMOAnswerBench	91.4	81.0	89.8

数学推理方面，V4-Pro-Max处于第一梯队，但不是最强。Gemini-3.1-Pro在GPQA Diamond（94.3）和HLE（44.4）上领先明显。GPT-5.4在HMMT（97.7）和IMOAnswerBench（91.4）上更高。

不过HMMT 95.2和IMOAnswerBench 89.8的表现依然很强，Apex Shortlist更是跑出了90.2的全场最高分。

5.3 长上下文：碾压级优势

Benchmark	Gemini-3.1-Pro	V4-Pro Max
MRCR 1M (MMR)	76.3	83.5
CorpusQA 1M (ACC)	53.8	62.0

这是V4最亮眼的领域。CSA+HCA混合注意力架构的优势在长上下文benchmark中体现得淋漓尽致。MRCR 1M的83.5分比Gemini高7.2个百分点，CorpusQA 1M高8.2个百分点。

1M上下文不是噱头。是真能用的。

5.4 Agent能力：追平但未超越

Benchmark	GPT-5.4	Gemini-3.1-Pro	K2.6	V4-Pro Max
Terminal Bench 2.0	75.1	68.5	66.7	67.9
SWE Verified	-	80.6	80.2	80.6
MCPAtlas	67.2	69.2	66.6	73.6
BrowseComp	82.7	85.9	83.2	83.4
GDPval-AA (Elo)	1674	1314	1482	1554

MCPAtlas（73.6）是全场最高，这是一个衡量模型调用MCP工具能力的benchmark。但在Terminal Bench和HLE with tools上，距离GPT-5.4还有差距。

总体来看，V4-Pro-Max在Agent领域处于第一梯队，但GPT-5.4仍然是综合最强的。

5.5 V4-Flash vs V4-Pro：差距有多大

这是我认为最有意思的数据：

Benchmark	Flash Max	Pro Max	差距
LiveCodeBench	91.6	93.5	1.9
GPQA Diamond	88.1	90.1	2.0
HLE	34.8	37.7	2.9
SWE Verified	79.0	80.6	1.6
SimpleQA-Verified	34.1	57.9	23.8
MRCR 1M	78.7	83.5	4.8

推理和代码差距很小（1-3分），但纯知识能力差距巨大（SimpleQA 23.8分）。这很合理——Flash只有13B激活参数，"聪明"程度够用，但"知道多少"受限于参数规模。

结论：日常使用选Flash足够，知识密集型任务选Pro。

六、开源与部署

6.1 开源协议

MIT License。没有任何限制。商用、修改、分发，随便用。

这在万亿参数级别的模型中极其罕见。Llama系列用自定义许可证，Qwen系列也有使用限制。DeepSeek坚持MIT，这意味着你可以拿V4-Pro做任何事，包括构建商业产品。

6.2 精度与部署

模型采用FP4+FP8混合精度：MoE专家参数用FP4，其余参数用FP8。这是在模型质量和推理效率之间的精妙平衡。

V4-Flash（284B总参数，13B激活）理论上可以在多卡消费级硬件上运行。V4-Pro（1.6T总参数，49B激活）则需要企业级部署。

DeepSeek官方建议：Think Max模式下，上下文窗口至少设置384K tokens。

6.3 API定价

	V4-Flash	V4-Pro
输入（缓存命中）	$0.028/M	$0.145/M
输入（缓存未命中）	$0.14/M	$1.74/M
输出	$0.28/M	$3.48/M

Flash的定价极具攻击性。缓存命中时输入仅$0.028/M tokens，这是目前我能找到的最便宜的大模型API之一。

七、DeepSeek的策略：用架构创新弥补算力差距

回顾DeepSeek的模型演进路线，一条清晰的策略主线浮现出来：

V3（2024-12）：671B MoE，37B激活，证明MoE架构在超大模型上的可行性
R1（2025-01）：强化学习驱动的推理模型，开源RL范式
V3.1（2025-08）：引入混合推理架构，Agent能力大幅提升
V3.2（2025-12）：全面迭代，SWE-bench 66.0
V4（2026-04）：1M上下文，13B激活打穿代码天花板

每一步都在做同一件事：用更少的激活参数，实现更强的能力。

V4-Flash的13B激活参数追平Gemini-3.1-Pro的代码能力，这不是偶然。这是从V3开始持续优化的混合注意力、MoE路由、后训练蒸馏的合力结果。

算力不是万能的。DeepSeek在用更聪明的架构设计，证明效率可以战胜规模。

八、对开发者的实际意义

如果你是一名开发者，V4的发布意味着几件具体的事：

第一，本地运行百万token上下文不再是幻想。 V4-Flash的混合注意力机制将长上下文的计算成本压缩到原来的10%，这使得在有限的GPU资源下处理大规模文档成为可能。

第二，代码生成有了真正的开源首选。 LiveCodeBench 93.5、Codeforces 3206，MIT开源。不需要API调用，不需要付费，不需要许可证审查。直接下载，直接用。

第三，三级推理模式让模型更可控。 简单任务用Non-think快速响应，复杂任务用Think Max深度推理。不需要为了一个简单问题等30秒的思考链。

第四，双API协议兼容降低了迁移成本。 同时支持OpenAI和Anthropic格式，一行配置就能从现有工具链切换到DeepSeek。

九、写在最后

V4是一个预览版。DeepSeek在标题中明确标注了"preview"。这意味着后续还会有正式版，benchmark数据可能还会提升。

但即使是预览版，V4-Pro-Max已经做到了几件事：

代码能力全场最强
长上下文效率提升10倍
13B激活参数追平旗舰模型

DeepSeek再次证明了一件事：开源模型的进步速度，正在追上甚至超越闭源模型。这不是一句口号。这是benchmark上的数字。

MIT许可证，HuggingFace和ModelScope同步上架。

技术报告：《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

ChatGPT怎么生成word文档？「AI 导出鸭」解决格式丢失痛点

DeepSeek技术社区

手机Claude怎么导出pdf：硬核横评四种方案，AI导出鸭终结格式乱码困局

DeepSeek技术社区

ChatGPT 5.5 多模态能力拆解，技术原理通俗讲解

DeepSeek技术社区

所有评论(0)

查看更多评论

Victor.Cheung

@victoracheung

已为社区贡献6条内容

DeepSeek V4 开源：13B激活参数打穿代码天花板，长上下文效率提升10倍

Victor.Cheung

一、又一个"预览版"？

二、V4到底改了什么

2.1 混合注意力：CSA + HCA

2.2 流形约束超连接（mHC）

2.3 Muon 优化器

三、训练：32T token + 两阶段后训练

3.1 预训练规模

3.2 后训练范式

四、三种推理模式

五、Benchmark分析：亮点与差距

5.1 代码能力：全场最强

5.2 数学推理：强力但非最强

5.3 长上下文：碾压级优势

5.4 Agent能力：追平但未超越

5.5 V4-Flash vs V4-Pro：差距有多大

六、开源与部署

6.1 开源协议

6.2 精度与部署

6.3 API定价

七、DeepSeek的策略：用架构创新弥补算力差距

八、对开发者的实际意义

九、写在最后

所有评论(0)

温馨提示：您尚未绑定手机号

Victor.Cheung