没人整理过的 DeepSeek 进化史：25篇论文里的技术蜕变

将 DeepSeek-V2-Chat 的通用对话能力和 DeepSeek-Coder-V2-Instruct 的代码能力，合并到同一个模型中。成果：V3.2 在推理基准上与 Kimi-k2-thinking 和 GPT-5 持平，在Agent能力上显著缩小了开源模型与闭源模型的差距。模型被迫用计算来"模拟"检索，比如，解析一个常见的多token实体需要消耗多个早期层的注意力和前馈网络，本质上是在运

技术人生黄勇

674人浏览 · 2026-04-27 19:39:43

技术人生黄勇 · 2026-04-27 19:39:43 发布

昨天发了这篇：DeepSeek-V4 技术报告深度解析后，想着Deepseek 终于在这段密集新模型发布期间官宣了一个新版本。

于是想把它发布过论文串起来，看看背后的技术团队是怎么设计和实施大模型训练，怎么在短短的不到3年时间追赶上国外顶尖大模型。

如何一步步从一个通用LLM出发，构建出今天这个覆盖语言、代码、数学、视觉、推理的完整技术体系的。

说明：本文以DeepSeek发表的21篇论文为骨干，同时纳入了V2.5、V3.1、V4等关键版本迭代。

第一章奠基：通用语言模型与代码智能（2023年11月）

1.1 DeepSeek-Coder —— 起点

📄 论文：DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence | arXiv:2401.14196 | 2024年1月25日

2023年11月2日，DeepSeek 第一个模型：DeepSeek Coder。

DeepSeek Coder 不是后来的"论文版"（arXiv论文2401.14196于2024年1月才提交），而是2023年11月就作为模型发布了。

1B、7B、33B全系列开源，免费商用。

DeepSeek选择代码作为切入点，不是偶然的。

代码是语言模型最容易量化和验证的领域，是否可用，测试用例一跑就知道。

这是DeepSeek一个快速迭代、快速验证的起跑线。

DeepSeek-Coder 覆盖了87种编程语言，在2万亿代码token上从头训练。

三个关键技术：

1. 项目级代码语料：不是简单地把代码文件拼在一起，而是按仓库（repository）级别组织数据。
让模型能理解跨文件的依赖关系，在实际的软件工程中至关重要。
2. Fill-in-the-Middle（FIM）：不只是"预测下一个token"，还训练模型在已有代码的中间填空。这直接服务于IDE中的代码补全场景。
3. 16K上下文窗口：为了处理长代码文件，特意扩展了上下文长度。

成果：DeepSeek-Coder 在开源模型中达到SOTA，还超越了 CodeLlama 和 GPT-3.5 这样的闭源模型。

1.2 DeepSeek LLM——通用能力的基石

📄 论文：DeepSeek LLM: Scaling Open-Source Language Models with Longtermism | arXiv:2401.02954 | 2024年1月6日

2023年11月29日，DeepSeek 发布了DeepSeek LLM 67B。

论文的核心贡献不是对Scaling Law的重新审视。

当时的开源社区笼罩在一片迷茫中：之前的文献对缩放定律给出了不同的结论，让人不确定"大力出奇迹"到底靠不靠谱。

DeepSeek 的回答很明确：

Scaling Law是有效的，但你需要理解它的细节。

他们深入研究了数据规模、模型规模和计算预算之间的关系，给出了更精确的缩放预测。

基于这些发现，他们用2万亿token训练了7B和67B两个规模的模型。

成果：DeepSeek LLM 67B 在代码、数学和推理任务上超越了 LLaMA-2 70B，Chat版本甚至超过了 GPT-3.5。

中国团队的开源模型，第一次在综合能力上追平了OpenAI的前代旗舰。

这篇论文确立了DeepSeek的一个核心理念：

不盲目堆参数，先搞清楚Scaling Law，再精确地投入算力。

这个理念贯穿了后续所有的工作。

DeepSeek的第一个模型是Coder。

从代码入手，验证架构和数据管线，再扩展到通用语言。

这是一个务实的工程选择，而不是学术上的"先通用后专精"。

第二章 MoE原型的探索（2024年1月-2月）

2.1 DeepSeekMoE——MoE架构的第一次试水

📄 论文：DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models | arXiv:2401.06066 | 提交日期：2024年1月12日

2024年1月，发布 DeepSeekMoE——国内首个开源的MoE大模型。

它的意义在于：V2的MoE不是凭空出现的，它经历了DeepSeekMoE这个原型阶段。

DeepSeekMoE 的核心贡献是提出了细粒度专家+共享专家的MoE设计范式：

• 传统MoE（如Mixtral 8x7B）使用少量大专家，每个专家参数多但数量少
• DeepSeekMoE 使用大量细粒度专家（每个更小更专精）+ 共享专家（处理通用知识）
• 这种设计让路由更灵活、专家更专精、冗余更少

然后在2B、16B、145B三个规模上验证了这个设计。

DeepSeekMoE 2B 能匹配 GShard 2.8B（1.5倍参数量）的性能，同时接近同级别Dense模型的上限。

DeepSeek总是先在小规模上验证架构思想，确认有效后再扩展到大规模。

DeepSeekMoE 2B/16B 的实验，为V2的236B MoE铺平了道路。

这是DeepSeek方法论中"先验证后扩展"的典型案例。

2.2 DeepSeek-Math——用数据工程撬动数学能力

📄 论文：DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models | arXiv:2402.03300 | 2024年2月5日

2024年2月，DeepSeek-Math 发布。

核心问题是：如何让语言模型学会数学推理？

DeepSeek 的答案出乎意料地朴素：

数据，数据，还是数据。

这个版本从 Common Crawl 中提取了1200亿个数学相关token。

通过一套精心设计的数据管道从互联网的海量文本中"淘金"。

• 数学网页的识别和过滤
• 数学公式的提取和验证
• 多语言数学内容的收集

然后用这些数据在 DeepSeek-Coder-Base-v1.5 7B 的基础上继续预训练，得到了 DeepSeekMath 7B。

这个版本还有一个重要创新：Group Relative Policy Optimization（GRPO）。

传统的PPO（Proximal Policy Optimization）在数学推理的强化学习中效果不够好。

DeepSeek 提出了GRPO——一种无需价值网络（value network）的策略优化方法。

它对同一问题生成一组回答，用组内的相对奖励来优化策略，而不是依赖一个额外的评论家网络。

这是一个思路转变：

从"学习模仿人类的解题过程"到"通过自我探索发现更好的推理路径"。

这个思路，后来在 DeepSeek-R1 中被推向了极致。

成果：DeepSeekMath 7B 在 GSM8K 上达到 64.2%，在 MATH 上达到 36.2%，

接近 Gemini Ultra 的水平，而后者的参数量是它的数十倍。

第三章看见：多模态的初步探索（2024年3月-12月）

3.1 DeepSeek-VL——让模型"看懂"真实世界

📄 论文：DeepSeek-VL: Towards Real-World Vision-Language Understanding | arXiv:2403.05525 | 2024年3月9日

2024年3月，DeepSeek-VL 发布。

这是 DeepSeek 在视觉-语言模型（VLM）领域的第一次尝试。

核心思路是三个维度：

1. 数据构建：追求多样性、可扩展性，覆盖真实世界场景——网页截图、文档、图表、自然图像
2. 架构设计：混合视觉编码器，融合SigLIP和SAM，支持不同分辨率的输入
3. 训练策略：从大规模弱监督数据到高质量细粒度数据的渐进式训练

这篇论文建立了一个多模态数据的工程范式，后来的 DeepSeek-VL2 继承并大幅强化了这个范式。

补充说明： 在论文集中还有一篇 DreamCraft3D（arXiv:2310.16818，2023年10月25日提交），这是DeepSeek在3D生成领域的探索。

虽然不在大语言模型的主线上，但它展示了DeepSeek在视觉生成方向上的早期技术积累。

只不过 DeepSeek 的技术路线没有选择文本和多模态一起发展，而是先坚持把基础打得更坚实。

3.2 Janus——理解与生成的"解耦"

📄 论文：Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation | arXiv:2410.13848 | 提交日期：2024年10月18日

2024年10月，Janus 发布。这个名字来自罗马神话中的双面神：一面看向过去，一面看向未来。

Janus 解决了一个根本性的架构矛盾：多模态理解和多模态生成，对视觉编码器的要求是不同的。

理解任务需要高层次的语义信息，生成任务需要底层的像素细节。

之前的做法（比如Chameleon）用同一个视觉编码器处理两个任务，结果两边都做不好。

Janus 的解法干脆利落：解耦。

用两个独立的视觉编码器——一个负责理解，一个负责生成——但共享同一个自回归Transformer主干。

这个"解耦"思想是DeepSeek反复使用的：

当两个任务的需求互相矛盾时，不要强行统一，而是各自专精，在上层融合。

3.3 JanusFlow——自回归与整流的统一

📄 论文：JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation | arXiv:2411.07975 | 提交日期：2024年11月12日

2024年11月，Janus的升级版 JanusFlow 发布，引入了Rectified Flow：一种当时最先进的图像生成方法。

在统一的框架中，Rectified Flow不需要复杂的架构修改就能与自回归语言模型和谐共存。

这意味着理解和生成可以在一个模型中同时优化，不必互相妥协。

3.4 Janus-Pro——解耦架构的规模化验证

📄 论文：Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling | arXiv:2501.17811 | 2025年1月30日

2025年1月，Janus-Pro 发布。这是Janus系列的成熟版本。

根据论文原文，Janus-Pro 的核心改进是将Janus的"解耦视觉编码"思想扩展到更大规模，并显著提升了图像生成质量。

它证明了Janus的解耦架构在规模扩展后依然有效——甚至比统一编码器更有优势。

这再次验证了DeepSeek的"解耦优于统一"原则：

不是简单地把两个任务硬塞进同一个编码器，而是让每个编码器做自己最擅长的事。

3.5 DeepSeek-VL2——MoE架构进入视觉

📄 论文：DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding | arXiv:2412.10302 | 提交日期：2024年12月13日

2024年12月，DeepSeek视觉-语言模型：DeepSeek-VL2 发布。

两个核心升级：

1. 动态分块视觉编码（Dynamic Tiling Strategy）：对于高分辨率图像，自动切分成多个小块分别编码，再聚合。
这让模型能处理原本无法处理的大尺寸图片。
2. MoE架构：直接继承了DeepSeek-V2的MLA+MoE架构，让视觉-语言模型也享受到了稀疏激活的效率红利。

第四章革命：架构层面的范式转变（2024年5月-12月）

前面是DeepSeek的"积累期"，大概花了半年，在各个方向上建立能力。

后面则进入DeepSeek的"爆发期"。

4.1 DeepSeek-V2——MLA与MoE的双重创新

📄 论文：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model | arXiv:2405.04434 | 提交日期：2024年5月7日

2024年5月，DeepSeek-V2 发布。

这是技术路线的第一个分水岭。

236B总参数，21B激活参数，128K上下文。

光看数字，这只是另一个MoE模型。

但是在架构层面的做了下面的创新：

创新1：Multi-head Latent Attention（MLA）

传统注意力机制的推理瓶颈在于KV Cache：每个token都要缓存Key和Value向量，随着序列长度增长，显存消耗线性增长。

MLA的核心思想是：把KV Cache压缩到一个低维潜在向量中。

具体来说，MLA将Key和Value联合压缩到一个低秩隐空间。

推理时，只需要缓存这个低维隐向量，而不是完整的KV对。

需要计算注意力时，再从隐向量解压出Key和Value。

效果：KV Cache减少了93.3%，生成吞吐量提升5.76倍。

这是一个量变引起质变的改进，它让236B参数的模型在推理时的显存占用，比67B的Dense模型还低。

创新2：DeepSeekMoE

DeepSeek 的 MoE 不同于常规的"8个大专家"设计，而是采用更多细粒度专家+共享专家的策略：

• 大量细粒度专家：每个专家更小、更专精，路由更灵活
• 共享专家：处理通用知识，避免信息冗余

效果：训练成本比DeepSeek 67B节省42.5%，性能反而更强。

这两个创新组合在一起的结果：

一个236B参数的模型，用21B的计算成本，跑出了超越LLaMA-3 70B的效果。

DeepSeek-V2 确立了DeepSeek后续所有大模型的架构基调——MLA+MoE，这个组合一直沿用到V3、V3.2，甚至R1。

4.2 DeepSeek-Coder-V2——代码能力的MoE升级

📄 论文：DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence | arXiv:2406.11931 | 2024年6月17日

2024年6月，DeepSeek-Coder-V2 发布。

它不是从头训练的，而是基于 DeepSeek-V2 的中间检查点，额外训练了6万亿token。

成果：在代码任务上达到了 GPT-4 Turbo 的水平。这是开源代码模型第一次追平GPT-4级别。

它验证了一个假设：

通用MoE模型可以通过继续训练，转化为领域专精模型，而不丢失通用能力。

这为后来的 Prover-V2 等工作铺平了道路。

4.3 DeepSeek-V2.5——通用与代码的第一次融合

📄 版本发布：2024年9月5日

2024年9月5日，工程整合的版本：DeepSeek-V2.5 发布。

将 DeepSeek-V2-Chat 的通用对话能力和 DeepSeek-Coder-V2-Instruct 的代码能力，合并到同一个模型中。

这个"合并"的意义被严重低估了。

通用模型和代码模型本来是两条独立的技术线：V2走通用，Coder-V2走代码。

V2.5 的发布意味着DeepSeek验证了一个关键假设：

MoE架构天然适合能力融合。

因为MoE的专家路由机制可以让不同类型的输入自然地激活不同的专家组合，而不需要手动切换模型。

这为后来的"一个模型打天下"奠定了基础。

从V2.5开始，DeepSeek不再需要分开的通用模型和代码模型——一个模型就够了。

第五章登顶：从V3到R1的跃迁（2024年12月-2025年1月）

5.1 DeepSeek-V3——671B参数，2.788M GPU小时

📄 论文：DeepSeek-V3 Technical Report | arXiv:2412.19437 | 2024年12月26日

2024年12月，DeepSeek-V3 发布。

这是技术路线的第二个分水岭。

• 671B总参数，37B激活参数
• 14.8万亿token预训练
• 仅用2.788M H800 GPU小时（约557万美元，按当时价格）
• 训练全程稳定，无任何不可逆的loss spike，无需任何回滚

训练一个671B参数的模型，全程没有炸过。

这说明他们对训练动力学有了非常深入的理解和控制能力。

核心技术突破

V3 继承了V2的 MLA + DeepSeekMoE 架构，但引入了两个关键创新：

1. 辅助损失无关的负载均衡（Auxiliary-Loss-Free Load Balancing）

MoE模型的一个老大难问题是：专家负载不均衡。

传统做法是加辅助损失（auxiliary loss）来惩罚负载不均，但这会损害模型的主任务性能。

DeepSeek-V3 的创新是：

完全去掉辅助损失，改用一种基于动态偏置项的均衡策略。

具体来说，为每个专家维护一个可学习的偏置项，在路由决策时加入偏置来引导均衡，但偏置项不参与梯度计算，不影响主损失。

这是一个优雅的解法：它解开了负载均衡和模型性能之间的耦合。

2. 多token预测（Multi-Token Prediction, MTP）

传统的语言模型一次只预测下一个token。

V3 额外训练了MTP头，一次预测后续多个token。

这不仅提升了训练效率（每个训练步骤获得更多监督信号），还改善了规划能力，模型被迫"看得更远"而不是只贪心地预测下一步。

成果：V3 在开源模型中全面领先，在多个基准上与 GPT-4o 和 Claude-3.5-Sonnet 持平。

系统工程：DualPipe与FP8

V3的技术报告还包含大量系统工程创新：

• DualPipe：一种双流水线并行策略，将计算和通信极致重叠，将流水线气泡减少到最小
• FP8混合精度训练：在H800上首次实现了大规模FP8训练，几乎无精度损失
• 跨节点All-to-All通信优化：针对MoE的专家并行，定制了高效的跨节点通信内核

这些工程创新让V3的训练效率达到了惊人的水平。

Insights into DeepSeek-V3 这篇论文专门分析了硬件与模型的协同设计。

这是一个被忽视的地方：DeepSeek不只是做模型，他们也在做系统。

5.2 DeepSeek-R1——纯强化学习的推理突破

📄 论文：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | arXiv:2501.12948 | 2025年1月20日

2025年1月，DeepSeek-R1 发布。

这是路线中第三个、也是最好玩的分水岭。

核心发现：推理能力可以通过纯RL涌现

之前的推理模型（如OpenAI的o1）严重依赖人类标注的思维链数据。

DeepSeek-R1 证明了一件事：不需要任何人类标注的推理轨迹，仅通过强化学习，推理能力就能自发涌现。

他们训练了 DeepSeek-R1-Zero：一个直接在基础模型上应用GRPO的版本。

令人震惊的是，模型自发地发展出了：

• 自我反思（Self-reflection）：检查自己的推理步骤是否正确
• 自我验证（Verification）：在得出答案前验证中间结果
• 动态策略适应（Dynamic Strategy Adaptation）：根据问题类型调整解题策略

这些行为不是被显式训练的，而是从强化学习的奖励信号中涌现出来的。

蒸馏：大模型教小模型

R1 还展示了一个关键能力转移方法：蒸馏。

用R1生成的推理轨迹作为训练数据，可以显著提升小模型的推理能力。

这意味着推理能力不一定要靠庞大的参数量来获得——通过蒸馏，7B的模型也能获得可观的推理能力。

从R1-Zero到R1

R1-Zero 虽然推理能力涌现了，但输出存在可读性差、语言混杂等问题。

R1 通过"冷启动+多阶段RL"解决了这些问题：

1. 冷启动：用少量高质量思维链数据做SFT，建立输出格式
2. 推理导向RL：在可验证任务（数学、代码）上做RL
3. 拒绝采样+通用RL：扩展到更广泛的任务

结果：R1 在数学、代码竞赛、STEM领域全面超越同类模型，甚至接近o1-1217水平。

5.3 DeepSeek-V3.1——混合推理架构的诞生

📄 版本发布：2025年8月21日

2025年8月21日，引入了一个影响深远的新架构的DeepSeek-V3.1 发布。

混合推理架构：同一个模型同时支持"思考模式"和"非思考模式"。

在使用V3.1时，简单问题（"今天星期几"）直接回答，不走推理链；复杂问题（"证明这个数学定理"）自动启动深度推理。

用户不需要手动选择模型，一个API调用搞定一切。

R1的设计：推理模型和通用模型是分开的。

V3.1 把它们合二为一，解决了"什么场景该用什么模型"的选择难题。

更重要的是，V3.1 标志着DeepSeek进入了"智能体驱动"阶段：

模型不再只是被动回答问题，而是能根据任务复杂度自主选择推理深度，主动调用工具，规划执行路径。

这是从"推理模型"到"推理Agent"的关键转变。

第六章深耕：形式化证明与数学推理2.0（2025年4月-11月）

6.1 DeepSeek-Prover-V2——让AI学会形式化证明

📄 论文：DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition | arXiv:2504.21801 | 2025年4月30日

2025年4月，DeepSeek-Prover-V2 发布。

形式化证明和自然语言推理是完全不同的游戏。

自然语言推理可以说"显然成立"，形式化证明必须在Lean4这样的定理证明器中给出每一步的严格推导。

Prover-V2 的创新在于递归证明管线：

1. 用 DeepSeek-V3 将复杂定理分解为一系列子目标
2. 用 Prover-V2 对每个子目标独立证明
3. 子目标的证明结果再反馈给V3，指导下一步分解

这种"分解-证明-反馈"的循环，让模型能处理远超其单次推理能力的复杂定理。

6.2 DeepSeek-OCR——视觉作为文本压缩介质

📄 论文：DeepSeek-OCR: Contexts Optical Compression | arXiv:2510.18234 | 2025年10月21日

2025年10月，3B参数的开源OCR模型 DeepSeek-OCR 发布。

DeepSeek-OCR 提出了一个有趣的核心观点：

当前LLM处理长文本面临O(n²)的计算瓶颈，而视觉模态可以作为文本信息的高效压缩介质。

一张包含文档文本的图像，可以用远少于原始文本的token来表示丰富的信息。

DeepSeek-OCR 的架构创新在于DeepEncoder：

不同于传统VLM直接用CLIP编码视觉特征，DeepEncoder专门针对OCR场景设计了视觉压缩管线，支持极端分辨率输入。

同时还分析了Vary/DeepSeek-VL分辨率受限、InternVL/Qwen-VL视觉token过多等现有方案的不足。

这篇论文提出了一个更根本的思路：

OCR不是简单的"图片转文字"，而是视觉模态和语言模态之间的一种高效信息压缩方式。

这为后来的DeepSeek-OCR 2（视觉因果流）奠定了基础。

6.3 DeepSeekMath-V2——自验证的数学推理

📄 论文：DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning | arXiv:2511.22570 | 2025年11月28日

2025年11月，DeepSeekMath-V2 发布。

这篇论文解决的问题是：

当强化学习只奖励正确答案时，模型会遇到天花板——它能找到正确答案，但不知道为什么正确。

DeepSeekMath-V2 的突破是自验证推理（Self-Verifiable Reasoning）。

模型不仅要给出答案，还要能够验证自己的推理过程。

这是从"做得对"到"知道为什么对"的跨越。

第七章进化：V3.2与架构的未来（2025年12月-2026年1月）

7.1 DeepSeek-V3.2——稀疏注意力与Agent能力

📄 论文：DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models | arXiv:2512.02556 | 提交日期：2025年12月2日

2025年12月，DeepSeek-V3.2 发布。

如果说V3是"把MoE做到极致"，V3.2就是"把效率推到新的维度"。

DeepSeek Sparse Attention（DSA）

DSA 是 V3.2 最核心的架构创新。

传统的注意力机制对长上下文的计算复杂度是O(n²)。

MLA解决了KV Cache的显存问题，但计算量的问题还在。

DSA 的方案是：

1. 闪电索引器（Lightning Indexer）：快速检索与当前token最相关的历史token
2. 细粒度token选择：在索引结果上做更精确的筛选
3. 整个过程实现了接近线性的复杂度

这让V3.2在处理超长上下文时，既省显存又省计算。

Agent能力的系统性提升

V3.2 另一个重要突破是Agent能力。DeepSeek构建了一个完整的工具使用训练管线：

1. 冷启动：用V3的方法论统一推理和工具使用
2. 大规模Agent任务合成：生成了1800+个不同环境和85000个复杂提示
3. 强化学习：在合成数据上做RL，泛化到真实场景

成果：V3.2 在推理基准上与 Kimi-k2-thinking 和 GPT-5 持平，在Agent能力上显著缩小了开源模型与闭源模型的差距。

V3.2-Special 版本更是在 IOI 2025、ICPC World Final 2025、IMO 2025 上达到金牌水平。

7.2 Engram——条件记忆：稀疏性的新轴

📄 论文：Engram: Conditional Memory via Scalable Lookup | arXiv:2601.07372 | 2026年1月12日

2026年1月，Engram 发布，这可能是DeepSeek架构的下一个大方向。

语言建模包含两种性质完全不同的子任务——组合推理和知识检索。

MoE 通过条件计算（conditional computation）处理推理，但 Transformer 没有原生的知识检索机制。

模型被迫用计算来"模拟"检索，比如，解析一个常见的多token实体需要消耗多个早期层的注意力和前馈网络，本质上是在运行时重建一个静态查找表。

Engram 提出了条件记忆（conditional memory）作为稀疏性的新轴：用N-gram嵌入的现代化版本，实现O(1)的静态知识查找。

关键发现：

• U形缩放定律：MoE计算和Engram记忆之间存在最优的分配比例
• Engram 在知识检索任务上带来巨大提升（MMLU +3.4, CMMLU +4.0），在推理任务上提升更大（BBH +5.0, ARC-Challenge +3.7）
• 机制分析揭示：Engram 解放了骨干网络的早期层，使其能专注于深层推理；同时释放了注意力容量用于全局上下文

新的架构方向： 未来的模型可能不是纯MoE，而是MoE（动态推理）+ Engram（静态知识）的混合体。

7.3 DeepSeek-OCR 2——视觉因果流

📄 论文：DeepSeek-OCR 2: Visual Causal Flow | arXiv:2601.20552 | 2026年1月29日

2026年1月，DeepSeek-OCR 2 发布。

这是一篇在视觉编码方向上有根本性创新的论文。

传统VLM的视觉token按光栅扫描顺序（从左上到右下）输入LLM，这完全不符合人类的阅读逻辑。

人类看文档是按照语义顺序、因果顺序来扫描的。

DeepSeek-OCR 2 提出了DeepEncoder V2：

用LLM风格的架构替代CLIP，通过因果注意力掩码，让视觉token能根据语义动态重排序。

2D图像理解能否通过两级级联的1D因果推理来实现？

如果可以，这意味着视觉理解本质上也是一种因果推理过程，与语言推理共享同一套计算原语。

第八章里程碑：V4与架构的未来验证（2026年4月）

📄 技术报告：DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence | 无arXiv编号（仅HuggingFace PDF） | 2026年4月24日

三天前，DeepSeek 发布了V4。

这是对前面所有技术积累的一次集中验收。

8.1 V4核心数据

• V4-Pro：1.6万亿总参数，49B激活，61层
• V4-Flash：2840亿总参数，13B激活，43层
• 100万token上下文（1M context），全面开源
• 训练数据从V3的14.8T翻倍至32-33T token
• KV Cache仅为V3.2的10%，单token FLOPs仅V3.2的27%

8.2 三大架构升级

升级1：mHC——稳定深层残差连接

V4引入了mHC（Manifold-Constrained Hyper-Connections）。

问题背景：传统残差连接（ResNet以来）在模型极深极宽时信号传递不稳。

Kimi提出的Hyper-Connections（HC）将残差流从一维扩展为多条并行通道，但堆多层时数值不稳定。

论文原文明确指出了HC的两大问题：

1. 数值不稳定：HC中的复合映射无法保持特征的全局均值，导致信号无界放大或衰减，大规模训练时不稳定
2. 硬件开销：HC增加了残差流宽度但未解决内存访问的效率问题

mHC的方案受到恒等映射原理的启发：

将残差映射矩阵约束到双随机矩阵流形（Birkhoff polytope），行和列都归一化为1。

论文的表述是："核心前提是将残差映射投影到特定流形上"——这既保证了稳定性（矩阵谱范数天然≤1），又允许跨流信息交换（不像恒等映射那样完全禁止信息交互）。

此外，mHC还对输入映射和输出映射施加了非负性约束，防止正负系数组合导致的信号抵消。

用Sinkhorn-Knopp迭代（交替行/列归一化）实现流形投影，配合fused kernel和选择性recomputation，wall-time开销仅6.7%。

结论：mHC已落地V4。

升级2：混合注意力架构——CSA + HCA交替

V4不再使用单一的注意力机制，而是设计了两种注意力层交替叠加：

• CSA（Compressed Sparse Attention）：温和压缩+稀疏选择，负责token级精细检索
• HCA（Heavily Compressed Attention）：每128个token压成1个做dense attention，负责长距离全局信号汇总

配合Q/KV Normalization、Partial RoPE（仅对最后64维施加旋转位置编码）、Sliding Window Attention等工程tricks，实现了百万token上下文的高效处理。

升级3：Muon优化器替代AdamW

V4用Muon（基于矩阵正交化的优化器）替代了AdamW，仅优化2D参数矩阵；其他参数仍用AdamW。

DeepSeek自研了hybrid Newton-Schulz迭代版本。

8.3 Engram——推测可能会在V5

Engram（条件记忆）并未进入V4，推测下一代V5。

Engram的"条件记忆"概念——将MoE的条件计算和O(1)静态知识查找结合——代表着更根本性的架构变革。

DeepSeek选择了稳健路线：V4先验证mHC和混合注意力，Engram这种"新稀疏轴"的引入留给架构更成熟的V5。

8.4 V4的意义

回顾进化路线图，V4做了三件事：

1. 验证了mHC：从论文到产品的完整落地
2. 推进了注意力效率：CSA+HCA是DSA思路的进化版
3. 保留了Engram：最激进的架构变革暂时搁置

DeepSeek的每一个新架构，都先以论文形式验证可行性，再在下一个版本中选择性落地。

不是所有论文成果都会立刻用上，而是非常理性的工程文化：等待最成熟的时机。

第九章全景：DeepSeek技术进化路线图

时间线总览

时间	模型/论文	核心贡献	进化意义
2023.11	DeepSeek Coder 📄arXiv:2401.14196（2024.01.25提交）	首个开源代码模型，FIM训练	起点：代码切入，快速验证
2023.11	DeepSeek LLM 📄arXiv:2401.02954（2024.01.06提交）	Scaling Law研究，67B Dense	奠基：验证"精确缩放"路线
2024.01	DeepSeekMoE 📄arXiv:2401.06066（2024.01.12提交）	细粒度专家+共享专家范式	原型：MoE架构的第一次试水
2024.02	DeepSeek-Math 📄arXiv:2402.03300（2024.02.05提交）	数据工程+GRPO	萌芽：RL驱动推理的种子
2024.03	DeepSeek-VL 📄arXiv:2403.05525（2024.03.09提交）	视觉-语言模型	扩展：多模态能力的第一步
2024.05	DeepSeek-V2 📄arXiv:2405.04434（2024.05.07提交）	MLA + DeepSeekMoE	革命：架构范式转变
2024.06	DeepSeek-Coder-V2 📄arXiv:2406.11931（2024.06.17提交）	MoE代码模型	迁移：架构革命渗透到领域模型
2024.09	DeepSeek-V2.5 📄无独立论文	通用+代码能力融合	融合：MoE架构天然适合能力合并
2024.10	Janus 📄arXiv:2410.13848（2024.10.18提交）	理解/生成解耦	思想：矛盾需求时"分治"
2024.11	JanusFlow 📄arXiv:2411.07975（2024.11.12提交）	自回归+Rectified Flow	统一：生成范式的融合
2025.01	Janus-Pro 📄arXiv:2501.17811（2025.01.30提交）	解耦架构规模化验证	验证：解耦在更大规模上仍优于统一
2024.12	DeepSeek-VL2 📄arXiv:2412.10302（2024.12.13提交）	MoE视觉-语言模型	迁移：架构革命进入多模态
2024.12	DeepSeek-V3 📄arXiv:2412.19437（2024.12.26提交）	辅助损失无关均衡+MTP+FP8	登顶：效率与性能的极致平衡
2025.01	DeepSeek-R1 📄arXiv:2501.12948（2025.01.20提交）	纯RL推理涌现+蒸馏	突破：推理能力的涌现
2025.04	DeepSeek-Prover-V2 📄arXiv:2504.21801（2025.04.30提交）	递归证明管线	深耕：推理能力进入形式化领域
2025.08	DeepSeek-V3.1 📄无独立论文	混合推理架构（思考/非思考）	进化：从推理模型到推理Agent
2025.10	DeepSeek-OCR 📄arXiv:2510.18234（2025.10.21提交）	3B参数OCR，视觉压缩，DeepEncoder	扩展：视觉作为文本压缩介质
2025.11	DeepSeekMath-V2 📄arXiv:2511.22570（2025.11.28提交）	自验证推理	升级：从"做对"到"知道为什么对"
2025.12	DeepSeek-V3.2 📄arXiv:2512.02556（2025.12.02提交）	DSA+Agent管线	进化：稀疏注意力+Agent能力
2025.12	mHC 📄arXiv:2512.24880（2025.12.31提交）	流形约束超连接	前沿：深层残差稳定性
2026.01	Engram 📄arXiv:2601.07372（2026.01.12提交）	条件记忆	前沿：稀疏性的新轴（留给V5）
2026.01	DeepSeek-OCR 2 📄arXiv:2601.20552（2026.01.29提交）	视觉因果流	前沿：视觉编码的因果推理化
2026.04	DeepSeek-V4 📄无arXiv编号（HuggingFace PDF）	mHC+混合注意力(CSA/HCA)+Muon	里程碑：百万token上下文，1.6T参数

三条技术主线

同过这21篇论文和5个关键版本，大致能归纳出三条清晰的技术主线：

主线1：架构效率

Dense (DeepSeek LLM 67B, 2023.11)

MoE原型 (DeepSeekMoE 2B/16B/145B, 2024.01)

MLA+MoE (DeepSeek-V2, 236B/21B, 2024.05)

MLA+MoE+辅助损失无关+MTP (DeepSeek-V3, 671B/37B, 2024.12)

稀疏注意力DSA (DeepSeek-V3.2, 2025.12)

混合注意力CSA+HCA + mHC残差 (DeepSeek-V4, 1.6T/49B, 2026.04)

条件记忆Engram (留给V5的新稀疏轴)

如何用更少的计算做更多的事？

从Dense到MoE是参数效率，

MLA是推理效率，

辅助损失无关是训练效率，

DSA/CSA+HCA是长上下文效率，

mHC是深层训练稳定性，

Engram是知识存储效率。

这些创新不是替代关系，而是叠加关系，每一层都在不同的维度上榨取效率。

主线2：推理能力涌现

GRPO (DeepSeek-Math, 2024.02)

纯RL推理涌现 (DeepSeek-R1-Zero, 2025.01)

冷启动+多阶段RL (DeepSeek-R1, 2025.01)

递归证明 (DeepSeek-Prover-V2, 2025.04)

混合推理架构 (DeepSeek-V3.1, 2025.08)

自验证推理 (DeepSeekMath-V2, 2025.11)

Agent推理 (DeepSeek-V3.2, 2025.12)

这条线从"让模型学会数学推理"出发，

经历了"推理能力的自发涌现"，

到"推理能力的形式化"和"推理能力的自我验证"，

经过"混合推理架构"（一个模型同时支持思考/非思考），

最终扩展到"推理能力驱动的Agent"。

每一步都在让推理变得更可靠、更深层、更可迁移。

主线3：多模态统一

独立视觉编码 (DeepSeek-VL, 2024.03)

理解/生成解耦 (Janus, 2024.10)

自回归+Flow统一 (JanusFlow, 2024.11)

解耦架构规模化验证 (Janus-Pro, 2025.01)

MoE视觉-语言 (DeepSeek-VL2, 2024.12)

视觉压缩+DeepEncoder (DeepSeek-OCR, 2025.10)

视觉因果流 (DeepSeek-OCR 2, 2026.01)

视觉理解和语言理解是否共享同一套计算原语？

DeepSeek-OCR 2 给出了一个大胆的答案：是的，如果我们把视觉理解也看作一种因果推理过程。

很期待DeepSeek后续的多模态版本。