一、又一个"预览版"?

2026年4月24日,DeepSeek发布了V4系列预览版。两个模型:V4-Pro(1.6T总参数,49B激活)和V4-Flash(284B总参数,13B激活)。

MIT开源。上下文100万token。最大输出384K。

这些数字本身就够炸裂了。但真正让我停下来的,是一组对比数据——

V4-Flash,仅13B激活参数,在LiveCodeBench上跑出91.6分。 对比一下:GPT-5.4没公布这个数据,Gemini-3.1-Pro是91.7,而V4-Pro也才93.5。

13B激活参数追到了91.6。这是什么概念?相当于一个实习生干到了总监80%的活。

这不是一个常规的版本迭代。这是架构级别的质变。

二、V4到底改了什么

DeepSeek在技术报告中提出了三个核心架构创新。

2.1 混合注意力:CSA + HCA

这是V4最重要的创新,没有之一。

传统Transformer的注意力机制有一个根本性矛盾:上下文越长,计算量和内存消耗呈平方级增长。这就是为什么大多数模型的上下文被卡在128K甚至更短。

DeepSeek的解法是设计了一套混合注意力机制,把两种压缩注意力结合在一起:

  • CSA(Compressed Sparse Attention):对大部分token做稀疏采样,只保留关键位置的完整注意力
  • HCA(Heavily Compressed Attention):对剩余token做重度压缩,大幅降低KV cache占用

效果有多极端?在100万token的上下文下:

  • 单token推理FLOPs只需要V3.2的27%
  • KV cache只需要V3.2的10%

换句话说,同样的硬件,以前能跑128K上下文,现在能跑1M。不是线性提升,是数量级的效率飞跃

2.2 流形约束超连接(mHC)

这是给深度网络信号传播问题的一剂药。

深层网络的经典难题是梯度消失和信号退化——信息经过几十上百层transformer后,要么衰减到无法传递,要么被噪声淹没。传统的残差连接(residual connection)能缓解这个问题,但不是最优解。

DeepSeek引入了流形约束(Manifold-Constrained)的概念:不是简单地让信号"加回去",而是在一个数学约束下引导信号沿着有效方向传播。既保持了模型的表达能力,又增强了深层信号传播的稳定性。

这就像给高速公路装了车道保持系统——车(信号)跑得更快,而且不容易跑偏。

2.3 Muon 优化器

训练大模型,优化器的选择直接影响收敛速度和训练稳定性。传统的AdamW用了这么多年,不是因为最好,是因为足够稳。

Muon是一个更新的优化器,以更快的收敛速度著称,但在超大模型上的应用一直是个挑战。DeepSeek在V4的32T token预训练中全程使用Muon,证明了这个优化器在万亿参数规模下的可行性。

32T token,Muon优化器,稳住了。这本身就说明了很多。

三、训练:32T token + 两阶段后训练

3.1 预训练规模

V4的预训练数据量超过了32T tokens。作为参考,V3系列是14.8T。翻了一倍多。

数据质量方面,DeepSeek强调"diverse and high-quality",但具体的数据配比和技术细节需要在技术报告中查看。

3.2 后训练范式

V4的后训练流程采用了DeepSeek称之为"两阶段范式"的方法:

第一阶段:领域专家独立培养。 针对不同领域(代码、数学、推理、工具调用等),分别用SFT和GRPO强化学习训练专门的专家能力。

第二阶段:统一模型整合。 通过on-policy蒸馏,把各领域专家的能力整合到一个统一的模型中。

这个思路的精妙之处在于:让每个领域的训练互不干扰,最后再统一融合。类比的话,就像先分别培养医学、法律、工程的专家,再让一个通才跟所有人学习,最终成为一个全能型选手。

四、三种推理模式

V4引入了三级推理强度控制:

模式 特点 适用场景
Non-think 快速直觉响应 日常对话、低风险决策
Think High 有意识逻辑分析 复杂问题求解、规划任务
Think Max 推理能力拉满 探索模型推理边界

这个设计不新鲜——Anthropic的Claude和OpenAI的o系列都有类似的reasoning_effort控制。但DeepSeek的实现有一个有趣的特点:Think Max模式使用特殊的系统提示词,模型会输出完整的思考链(reasoning_content)+ 最终答案。

开发者可以根据任务的复杂度灵活选择推理强度,在速度和准确性之间做trade-off。

五、Benchmark分析:亮点与差距

官方给出了极其详尽的benchmark数据。我挑重点说。

5.1 代码能力:全场最强

Benchmark GPT-5.4 Gemini-3.1-Pro V4-Pro Max
LiveCodeBench - 91.7 93.5
Codeforces Rating 3168 3052 3206
SWE Verified - 80.6 80.6

LiveCodeBench 93.5,Codeforces 3206 rating——这两个数据是目前公开模型中的最高分。

13B激活参数的V4-Flash在LiveCodeBench上也跑到了91.6,比Gemini-3.1-Pro(91.7)只差0.1分。这意味着什么?意味着一个能在消费级显卡上跑的小模型,在代码生成能力上已经追平了Google的旗舰模型。

5.2 数学推理:强力但非最强

Benchmark GPT-5.4 Gemini-3.1-Pro V4-Pro Max
GPQA Diamond 93.0 94.3 90.1
HLE 39.8 44.4 37.7
HMMT 2026 97.7 94.7 95.2
IMOAnswerBench 91.4 81.0 89.8

数学推理方面,V4-Pro-Max处于第一梯队,但不是最强。Gemini-3.1-Pro在GPQA Diamond(94.3)和HLE(44.4)上领先明显。GPT-5.4在HMMT(97.7)和IMOAnswerBench(91.4)上更高。

不过HMMT 95.2和IMOAnswerBench 89.8的表现依然很强,Apex Shortlist更是跑出了90.2的全场最高分。

5.3 长上下文:碾压级优势

Benchmark Gemini-3.1-Pro V4-Pro Max
MRCR 1M (MMR) 76.3 83.5
CorpusQA 1M (ACC) 53.8 62.0

这是V4最亮眼的领域。CSA+HCA混合注意力架构的优势在长上下文benchmark中体现得淋漓尽致。MRCR 1M的83.5分比Gemini高7.2个百分点,CorpusQA 1M高8.2个百分点。

1M上下文不是噱头。是真能用的。

5.4 Agent能力:追平但未超越

Benchmark GPT-5.4 Gemini-3.1-Pro K2.6 V4-Pro Max
Terminal Bench 2.0 75.1 68.5 66.7 67.9
SWE Verified - 80.6 80.2 80.6
MCPAtlas 67.2 69.2 66.6 73.6
BrowseComp 82.7 85.9 83.2 83.4
GDPval-AA (Elo) 1674 1314 1482 1554

MCPAtlas(73.6)是全场最高,这是一个衡量模型调用MCP工具能力的benchmark。但在Terminal Bench和HLE with tools上,距离GPT-5.4还有差距。

总体来看,V4-Pro-Max在Agent领域处于第一梯队,但GPT-5.4仍然是综合最强的。

5.5 V4-Flash vs V4-Pro:差距有多大

这是我认为最有意思的数据:

Benchmark Flash Max Pro Max 差距
LiveCodeBench 91.6 93.5 1.9
GPQA Diamond 88.1 90.1 2.0
HLE 34.8 37.7 2.9
SWE Verified 79.0 80.6 1.6
SimpleQA-Verified 34.1 57.9 23.8
MRCR 1M 78.7 83.5 4.8

推理和代码差距很小(1-3分),但纯知识能力差距巨大(SimpleQA 23.8分)。这很合理——Flash只有13B激活参数,"聪明"程度够用,但"知道多少"受限于参数规模。

结论:日常使用选Flash足够,知识密集型任务选Pro。

六、开源与部署

6.1 开源协议

MIT License。没有任何限制。商用、修改、分发,随便用。

这在万亿参数级别的模型中极其罕见。Llama系列用自定义许可证,Qwen系列也有使用限制。DeepSeek坚持MIT,这意味着你可以拿V4-Pro做任何事,包括构建商业产品。

6.2 精度与部署

模型采用FP4+FP8混合精度:MoE专家参数用FP4,其余参数用FP8。这是在模型质量和推理效率之间的精妙平衡。

V4-Flash(284B总参数,13B激活)理论上可以在多卡消费级硬件上运行。V4-Pro(1.6T总参数,49B激活)则需要企业级部署。

DeepSeek官方建议:Think Max模式下,上下文窗口至少设置384K tokens。

6.3 API定价

V4-Flash V4-Pro
输入(缓存命中) $0.028/M $0.145/M
输入(缓存未命中) $0.14/M $1.74/M
输出 $0.28/M $3.48/M

Flash的定价极具攻击性。缓存命中时输入仅$0.028/M tokens,这是目前我能找到的最便宜的大模型API之一。

七、DeepSeek的策略:用架构创新弥补算力差距

回顾DeepSeek的模型演进路线,一条清晰的策略主线浮现出来:

  • V3(2024-12):671B MoE,37B激活,证明MoE架构在超大模型上的可行性
  • R1(2025-01):强化学习驱动的推理模型,开源RL范式
  • V3.1(2025-08):引入混合推理架构,Agent能力大幅提升
  • V3.2(2025-12):全面迭代,SWE-bench 66.0
  • V4(2026-04):1M上下文,13B激活打穿代码天花板

每一步都在做同一件事:用更少的激活参数,实现更强的能力。

V4-Flash的13B激活参数追平Gemini-3.1-Pro的代码能力,这不是偶然。这是从V3开始持续优化的混合注意力、MoE路由、后训练蒸馏的合力结果。

算力不是万能的。DeepSeek在用更聪明的架构设计,证明效率可以战胜规模。

八、对开发者的实际意义

如果你是一名开发者,V4的发布意味着几件具体的事:

第一,本地运行百万token上下文不再是幻想。 V4-Flash的混合注意力机制将长上下文的计算成本压缩到原来的10%,这使得在有限的GPU资源下处理大规模文档成为可能。

第二,代码生成有了真正的开源首选。 LiveCodeBench 93.5、Codeforces 3206,MIT开源。不需要API调用,不需要付费,不需要许可证审查。直接下载,直接用。

第三,三级推理模式让模型更可控。 简单任务用Non-think快速响应,复杂任务用Think Max深度推理。不需要为了一个简单问题等30秒的思考链。

第四,双API协议兼容降低了迁移成本。 同时支持OpenAI和Anthropic格式,一行配置就能从现有工具链切换到DeepSeek。

九、写在最后

V4是一个预览版。DeepSeek在标题中明确标注了"preview"。这意味着后续还会有正式版,benchmark数据可能还会提升。

但即使是预览版,V4-Pro-Max已经做到了几件事:

  • 代码能力全场最强
  • 长上下文效率提升10倍
  • 13B激活参数追平旗舰模型

DeepSeek再次证明了一件事:开源模型的进步速度,正在追上甚至超越闭源模型。这不是一句口号。这是benchmark上的数字。

MIT许可证,HuggingFace和ModelScope同步上架。

技术报告:《DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence》

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐