没人整理过的 DeepSeek 进化史:25篇论文里的技术蜕变
将 DeepSeek-V2-Chat 的通用对话能力和 DeepSeek-Coder-V2-Instruct 的代码能力,合并到同一个模型中。成果:V3.2 在推理基准上与 Kimi-k2-thinking 和 GPT-5 持平,在Agent能力上显著缩小了开源模型与闭源模型的差距。模型被迫用计算来"模拟"检索,比如,解析一个常见的多token实体需要消耗多个早期层的注意力和前馈网络,本质上是在运
昨天发了这篇:DeepSeek-V4 技术报告深度解析后,想着Deepseek 终于在这段密集新模型发布期间官宣了一个新版本。
于是想把它发布过论文串起来,看看背后的技术团队是怎么设计和实施大模型训练,怎么在短短的不到3年时间追赶上国外顶尖大模型。
如何一步步从一个通用LLM出发,构建出今天这个覆盖语言、代码、数学、视觉、推理的完整技术体系的。
说明:本文以DeepSeek发表的21篇论文为骨干,同时纳入了V2.5、V3.1、V4等关键版本迭代。
第一章 奠基:通用语言模型与代码智能(2023年11月)
1.1 DeepSeek-Coder —— 起点
📄 论文:DeepSeek-Coder: When the Large Language Model Meets Programming — The Rise of Code Intelligence | arXiv:2401.14196 | 2024年1月25日
2023年11月2日,DeepSeek 第一个模型:DeepSeek Coder。
DeepSeek Coder 不是后来的"论文版"(arXiv论文2401.14196于2024年1月才提交),而是2023年11月就作为模型发布了。
1B、7B、33B全系列开源,免费商用。
DeepSeek选择代码作为切入点,不是偶然的。
代码是语言模型最容易量化和验证的领域,是否可用,测试用例一跑就知道。
这是DeepSeek一个快速迭代、快速验证的起跑线。
DeepSeek-Coder 覆盖了87种编程语言,在2万亿代码token上从头训练。
三个关键技术:
-
1. 项目级代码语料:不是简单地把代码文件拼在一起,而是按仓库(repository)级别组织数据。
-
让模型能理解跨文件的依赖关系,在实际的软件工程中至关重要。
-
2. Fill-in-the-Middle(FIM):不只是"预测下一个token",还训练模型在已有代码的中间填空。这直接服务于IDE中的代码补全场景。
-
3. 16K上下文窗口:为了处理长代码文件,特意扩展了上下文长度。
成果:DeepSeek-Coder 在开源模型中达到SOTA,还超越了 CodeLlama 和 GPT-3.5 这样的闭源模型。
1.2 DeepSeek LLM——通用能力的基石
📄 论文:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism | arXiv:2401.02954 | 2024年1月6日
2023年11月29日,DeepSeek 发布了DeepSeek LLM 67B。
论文的核心贡献不是对Scaling Law的重新审视。
当时的开源社区笼罩在一片迷茫中:之前的文献对缩放定律给出了不同的结论,让人不确定"大力出奇迹"到底靠不靠谱。
DeepSeek 的回答很明确:
Scaling Law是有效的,但你需要理解它的细节。
他们深入研究了数据规模、模型规模和计算预算之间的关系,给出了更精确的缩放预测。
基于这些发现,他们用2万亿token训练了7B和67B两个规模的模型。
成果:DeepSeek LLM 67B 在代码、数学和推理任务上超越了 LLaMA-2 70B,Chat版本甚至超过了 GPT-3.5。
中国团队的开源模型,第一次在综合能力上追平了OpenAI的前代旗舰。
这篇论文确立了DeepSeek的一个核心理念:
不盲目堆参数,先搞清楚Scaling Law,再精确地投入算力。
这个理念贯穿了后续所有的工作。
DeepSeek的第一个模型是Coder。
从代码入手,验证架构和数据管线,再扩展到通用语言。
这是一个务实的工程选择,而不是学术上的"先通用后专精"。
第二章 MoE原型的探索(2024年1月-2月)
2.1 DeepSeekMoE——MoE架构的第一次试水
📄 论文:DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models | arXiv:2401.06066 | 提交日期:2024年1月12日
2024年1月,发布 DeepSeekMoE——国内首个开源的MoE大模型。
它的意义在于:V2的MoE不是凭空出现的,它经历了DeepSeekMoE这个原型阶段。
DeepSeekMoE 的核心贡献是提出了细粒度专家+共享专家的MoE设计范式:
-
• 传统MoE(如Mixtral 8x7B)使用少量大专家,每个专家参数多但数量少
-
• DeepSeekMoE 使用大量细粒度专家(每个更小更专精)+ 共享专家(处理通用知识)
-
• 这种设计让路由更灵活、专家更专精、冗余更少
然后在2B、16B、145B三个规模上验证了这个设计。
DeepSeekMoE 2B 能匹配 GShard 2.8B(1.5倍参数量)的性能,同时接近同级别Dense模型的上限。
DeepSeek总是先在小规模上验证架构思想,确认有效后再扩展到大规模。
DeepSeekMoE 2B/16B 的实验,为V2的236B MoE铺平了道路。
这是DeepSeek方法论中"先验证后扩展"的典型案例。
2.2 DeepSeek-Math——用数据工程撬动数学能力
📄 论文:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models | arXiv:2402.03300 | 2024年2月5日
2024年2月,DeepSeek-Math 发布。
核心问题是:如何让语言模型学会数学推理?
DeepSeek 的答案出乎意料地朴素:
数据,数据,还是数据。
这个版本从 Common Crawl 中提取了1200亿个数学相关token。
通过一套精心设计的数据管道从互联网的海量文本中"淘金"。
-
• 数学网页的识别和过滤
-
• 数学公式的提取和验证
-
• 多语言数学内容的收集
然后用这些数据在 DeepSeek-Coder-Base-v1.5 7B 的基础上继续预训练,得到了 DeepSeekMath 7B。
这个版本还有一个重要创新:Group Relative Policy Optimization(GRPO)。
传统的PPO(Proximal Policy Optimization)在数学推理的强化学习中效果不够好。
DeepSeek 提出了GRPO——一种无需价值网络(value network)的策略优化方法。
它对同一问题生成一组回答,用组内的相对奖励来优化策略,而不是依赖一个额外的评论家网络。
这是一个思路转变:
从"学习模仿人类的解题过程"到"通过自我探索发现更好的推理路径"。
这个思路,后来在 DeepSeek-R1 中被推向了极致。
成果:DeepSeekMath 7B 在 GSM8K 上达到 64.2%,在 MATH 上达到 36.2%,
接近 Gemini Ultra 的水平,而后者的参数量是它的数十倍。
第三章 看见:多模态的初步探索(2024年3月-12月)
3.1 DeepSeek-VL——让模型"看懂"真实世界
📄 论文:DeepSeek-VL: Towards Real-World Vision-Language Understanding | arXiv:2403.05525 | 2024年3月9日
2024年3月,DeepSeek-VL 发布。
这是 DeepSeek 在视觉-语言模型(VLM)领域的第一次尝试。
核心思路是三个维度:
-
1. 数据构建:追求多样性、可扩展性,覆盖真实世界场景——网页截图、文档、图表、自然图像
-
2. 架构设计:混合视觉编码器,融合SigLIP和SAM,支持不同分辨率的输入
-
3. 训练策略:从大规模弱监督数据到高质量细粒度数据的渐进式训练
这篇论文建立了一个多模态数据的工程范式,后来的 DeepSeek-VL2 继承并大幅强化了这个范式。
补充说明: 在论文集中还有一篇 DreamCraft3D(arXiv:2310.16818,2023年10月25日提交),这是DeepSeek在3D生成领域的探索。
虽然不在大语言模型的主线上,但它展示了DeepSeek在视觉生成方向上的早期技术积累。
只不过 DeepSeek 的技术路线没有选择文本和多模态一起发展,而是先坚持把基础打得更坚实。
3.2 Janus——理解与生成的"解耦"
📄 论文:Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation | arXiv:2410.13848 | 提交日期:2024年10月18日
2024年10月,Janus 发布。这个名字来自罗马神话中的双面神:一面看向过去,一面看向未来。
Janus 解决了一个根本性的架构矛盾:多模态理解和多模态生成,对视觉编码器的要求是不同的。
理解任务需要高层次的语义信息,生成任务需要底层的像素细节。
之前的做法(比如Chameleon)用同一个视觉编码器处理两个任务,结果两边都做不好。
Janus 的解法干脆利落:解耦。
用两个独立的视觉编码器——一个负责理解,一个负责生成——但共享同一个自回归Transformer主干。
这个"解耦"思想是DeepSeek反复使用的:
当两个任务的需求互相矛盾时,不要强行统一,而是各自专精,在上层融合。
3.3 JanusFlow——自回归与整流的统一
📄 论文:JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation | arXiv:2411.07975 | 提交日期:2024年11月12日
2024年11月,Janus的升级版 JanusFlow 发布,引入了Rectified Flow:一种当时最先进的图像生成方法。
在统一的框架中,Rectified Flow不需要复杂的架构修改就能与自回归语言模型和谐共存。
这意味着理解和生成可以在一个模型中同时优化,不必互相妥协。
3.4 Janus-Pro——解耦架构的规模化验证
📄 论文:Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling | arXiv:2501.17811 | 2025年1月30日
2025年1月,Janus-Pro 发布。这是Janus系列的成熟版本。
根据论文原文,Janus-Pro 的核心改进是将Janus的"解耦视觉编码"思想扩展到更大规模,并显著提升了图像生成质量。
它证明了Janus的解耦架构在规模扩展后依然有效——甚至比统一编码器更有优势。
这再次验证了DeepSeek的"解耦优于统一"原则:
不是简单地把两个任务硬塞进同一个编码器,而是让每个编码器做自己最擅长的事。
3.5 DeepSeek-VL2——MoE架构进入视觉
📄 论文:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding | arXiv:2412.10302 | 提交日期:2024年12月13日
2024年12月,DeepSeek视觉-语言模型:DeepSeek-VL2 发布。
两个核心升级:
-
1. 动态分块视觉编码(Dynamic Tiling Strategy):对于高分辨率图像,自动切分成多个小块分别编码,再聚合。
-
这让模型能处理原本无法处理的大尺寸图片。
-
2. MoE架构:直接继承了DeepSeek-V2的MLA+MoE架构,让视觉-语言模型也享受到了稀疏激活的效率红利。
第四章 革命:架构层面的范式转变(2024年5月-12月)
前面是DeepSeek的"积累期",大概花了半年,在各个方向上建立能力。
后面则进入DeepSeek的"爆发期"。
4.1 DeepSeek-V2——MLA与MoE的双重创新
📄 论文:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model | arXiv:2405.04434 | 提交日期:2024年5月7日
2024年5月,DeepSeek-V2 发布。
这是技术路线的第一个分水岭。
236B总参数,21B激活参数,128K上下文。
光看数字,这只是另一个MoE模型。
但是在架构层面的做了下面的创新:
创新1:Multi-head Latent Attention(MLA)
传统注意力机制的推理瓶颈在于KV Cache:每个token都要缓存Key和Value向量,随着序列长度增长,显存消耗线性增长。
MLA的核心思想是:把KV Cache压缩到一个低维潜在向量中。
具体来说,MLA将Key和Value联合压缩到一个低秩隐空间。
推理时,只需要缓存这个低维隐向量,而不是完整的KV对。
需要计算注意力时,再从隐向量解压出Key和Value。
效果:KV Cache减少了93.3%,生成吞吐量提升5.76倍。
这是一个量变引起质变的改进,它让236B参数的模型在推理时的显存占用,比67B的Dense模型还低。
创新2:DeepSeekMoE
DeepSeek 的 MoE 不同于常规的"8个大专家"设计,而是采用更多细粒度专家+共享专家的策略:
-
• 大量细粒度专家:每个专家更小、更专精,路由更灵活
-
• 共享专家:处理通用知识,避免信息冗余
效果:训练成本比DeepSeek 67B节省42.5%,性能反而更强。
这两个创新组合在一起的结果:
一个236B参数的模型,用21B的计算成本,跑出了超越LLaMA-3 70B的效果。
DeepSeek-V2 确立了DeepSeek后续所有大模型的架构基调——MLA+MoE,这个组合一直沿用到V3、V3.2,甚至R1。
4.2 DeepSeek-Coder-V2——代码能力的MoE升级
📄 论文:DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence | arXiv:2406.11931 | 2024年6月17日
2024年6月,DeepSeek-Coder-V2 发布。
它不是从头训练的,而是基于 DeepSeek-V2 的中间检查点,额外训练了6万亿token。
成果:在代码任务上达到了 GPT-4 Turbo 的水平。这是开源代码模型第一次追平GPT-4级别。
它验证了一个假设:
通用MoE模型可以通过继续训练,转化为领域专精模型,而不丢失通用能力。
这为后来的 Prover-V2 等工作铺平了道路。
4.3 DeepSeek-V2.5——通用与代码的第一次融合
📄 版本发布:2024年9月5日
2024年9月5日,工程整合的版本:DeepSeek-V2.5 发布。
将 DeepSeek-V2-Chat 的通用对话能力和 DeepSeek-Coder-V2-Instruct 的代码能力,合并到同一个模型中。
这个"合并"的意义被严重低估了。
通用模型和代码模型本来是两条独立的技术线:V2走通用,Coder-V2走代码。
V2.5 的发布意味着DeepSeek验证了一个关键假设:
MoE架构天然适合能力融合。
因为MoE的专家路由机制可以让不同类型的输入自然地激活不同的专家组合,而不需要手动切换模型。
这为后来的"一个模型打天下"奠定了基础。
从V2.5开始,DeepSeek不再需要分开的通用模型和代码模型——一个模型就够了。
第五章 登顶:从V3到R1的跃迁(2024年12月-2025年1月)
5.1 DeepSeek-V3——671B参数,2.788M GPU小时
📄 论文:DeepSeek-V3 Technical Report | arXiv:2412.19437 | 2024年12月26日
2024年12月,DeepSeek-V3 发布。
这是技术路线的第二个分水岭。
-
• 671B总参数,37B激活参数
-
• 14.8万亿token预训练
-
• 仅用2.788M H800 GPU小时(约557万美元,按当时价格)
-
• 训练全程稳定,无任何不可逆的loss spike,无需任何回滚
训练一个671B参数的模型,全程没有炸过。
这说明他们对训练动力学有了非常深入的理解和控制能力。
核心技术突破
V3 继承了V2的 MLA + DeepSeekMoE 架构,但引入了两个关键创新:
1. 辅助损失无关的负载均衡(Auxiliary-Loss-Free Load Balancing)
MoE模型的一个老大难问题是:专家负载不均衡。
传统做法是加辅助损失(auxiliary loss)来惩罚负载不均,但这会损害模型的主任务性能。
DeepSeek-V3 的创新是:
完全去掉辅助损失,改用一种基于动态偏置项的均衡策略。
具体来说,为每个专家维护一个可学习的偏置项,在路由决策时加入偏置来引导均衡,但偏置项不参与梯度计算,不影响主损失。
这是一个优雅的解法:它解开了负载均衡和模型性能之间的耦合。
2. 多token预测(Multi-Token Prediction, MTP)
传统的语言模型一次只预测下一个token。
V3 额外训练了MTP头,一次预测后续多个token。
这不仅提升了训练效率(每个训练步骤获得更多监督信号),还改善了规划能力,模型被迫"看得更远"而不是只贪心地预测下一步。
成果:V3 在开源模型中全面领先,在多个基准上与 GPT-4o 和 Claude-3.5-Sonnet 持平。
系统工程:DualPipe与FP8
V3的技术报告还包含大量系统工程创新:
-
• DualPipe:一种双流水线并行策略,将计算和通信极致重叠,将流水线气泡减少到最小
-
• FP8混合精度训练:在H800上首次实现了大规模FP8训练,几乎无精度损失
-
• 跨节点All-to-All通信优化:针对MoE的专家并行,定制了高效的跨节点通信内核
这些工程创新让V3的训练效率达到了惊人的水平。
Insights into DeepSeek-V3 这篇论文专门分析了硬件与模型的协同设计。
这是一个被忽视的地方:DeepSeek不只是做模型,他们也在做系统。
5.2 DeepSeek-R1——纯强化学习的推理突破
📄 论文:DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning | arXiv:2501.12948 | 2025年1月20日
2025年1月,DeepSeek-R1 发布。
这是路线中第三个、也是最好玩的分水岭。
核心发现:推理能力可以通过纯RL涌现
之前的推理模型(如OpenAI的o1)严重依赖人类标注的思维链数据。
DeepSeek-R1 证明了一件事:不需要任何人类标注的推理轨迹,仅通过强化学习,推理能力就能自发涌现。
他们训练了 DeepSeek-R1-Zero:一个直接在基础模型上应用GRPO的版本。
令人震惊的是,模型自发地发展出了:
-
• 自我反思(Self-reflection):检查自己的推理步骤是否正确
-
• 自我验证(Verification):在得出答案前验证中间结果
-
• 动态策略适应(Dynamic Strategy Adaptation):根据问题类型调整解题策略
这些行为不是被显式训练的,而是从强化学习的奖励信号中涌现出来的。
蒸馏:大模型教小模型
R1 还展示了一个关键能力转移方法:蒸馏。
用R1生成的推理轨迹作为训练数据,可以显著提升小模型的推理能力。
这意味着推理能力不一定要靠庞大的参数量来获得——通过蒸馏,7B的模型也能获得可观的推理能力。
从R1-Zero到R1
R1-Zero 虽然推理能力涌现了,但输出存在可读性差、语言混杂等问题。
R1 通过"冷启动+多阶段RL"解决了这些问题:
-
1. 冷启动:用少量高质量思维链数据做SFT,建立输出格式
-
2. 推理导向RL:在可验证任务(数学、代码)上做RL
-
3. 拒绝采样+通用RL:扩展到更广泛的任务
结果:R1 在数学、代码竞赛、STEM领域全面超越同类模型,甚至接近o1-1217水平。
5.3 DeepSeek-V3.1——混合推理架构的诞生
📄 版本发布:2025年8月21日
2025年8月21日,引入了一个影响深远的新架构的DeepSeek-V3.1 发布。
混合推理架构:同一个模型同时支持"思考模式"和"非思考模式"。
在使用V3.1时,简单问题("今天星期几")直接回答,不走推理链;复杂问题("证明这个数学定理")自动启动深度推理。
用户不需要手动选择模型,一个API调用搞定一切。
R1的设计:推理模型和通用模型是分开的。
V3.1 把它们合二为一,解决了"什么场景该用什么模型"的选择难题。
更重要的是,V3.1 标志着DeepSeek进入了"智能体驱动"阶段:
模型不再只是被动回答问题,而是能根据任务复杂度自主选择推理深度,主动调用工具,规划执行路径。
这是从"推理模型"到"推理Agent"的关键转变。
第六章 深耕:形式化证明与数学推理2.0(2025年4月-11月)
6.1 DeepSeek-Prover-V2——让AI学会形式化证明
📄 论文:DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition | arXiv:2504.21801 | 2025年4月30日
2025年4月,DeepSeek-Prover-V2 发布。
形式化证明和自然语言推理是完全不同的游戏。
自然语言推理可以说"显然成立",形式化证明必须在Lean4这样的定理证明器中给出每一步的严格推导。
Prover-V2 的创新在于递归证明管线:
-
1. 用 DeepSeek-V3 将复杂定理分解为一系列子目标
-
2. 用 Prover-V2 对每个子目标独立证明
-
3. 子目标的证明结果再反馈给V3,指导下一步分解
这种"分解-证明-反馈"的循环,让模型能处理远超其单次推理能力的复杂定理。
6.2 DeepSeek-OCR——视觉作为文本压缩介质
📄 论文:DeepSeek-OCR: Contexts Optical Compression | arXiv:2510.18234 | 2025年10月21日
2025年10月,3B参数的开源OCR模型 DeepSeek-OCR 发布。
DeepSeek-OCR 提出了一个有趣的核心观点:
当前LLM处理长文本面临O(n²)的计算瓶颈,而视觉模态可以作为文本信息的高效压缩介质。
一张包含文档文本的图像,可以用远少于原始文本的token来表示丰富的信息。
DeepSeek-OCR 的架构创新在于DeepEncoder:
不同于传统VLM直接用CLIP编码视觉特征,DeepEncoder专门针对OCR场景设计了视觉压缩管线,支持极端分辨率输入。
同时还分析了Vary/DeepSeek-VL分辨率受限、InternVL/Qwen-VL视觉token过多等现有方案的不足。
这篇论文提出了一个更根本的思路:
OCR不是简单的"图片转文字",而是视觉模态和语言模态之间的一种高效信息压缩方式。
这为后来的DeepSeek-OCR 2(视觉因果流)奠定了基础。
6.3 DeepSeekMath-V2——自验证的数学推理
📄 论文:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning | arXiv:2511.22570 | 2025年11月28日
2025年11月,DeepSeekMath-V2 发布。
这篇论文解决的问题是:
当强化学习只奖励正确答案时,模型会遇到天花板——它能找到正确答案,但不知道为什么正确。
DeepSeekMath-V2 的突破是自验证推理(Self-Verifiable Reasoning)。
模型不仅要给出答案,还要能够验证自己的推理过程。
这是从"做得对"到"知道为什么对"的跨越。
第七章 进化:V3.2与架构的未来(2025年12月-2026年1月)
7.1 DeepSeek-V3.2——稀疏注意力与Agent能力
📄 论文:DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models | arXiv:2512.02556 | 提交日期:2025年12月2日
2025年12月,DeepSeek-V3.2 发布。
如果说V3是"把MoE做到极致",V3.2就是"把效率推到新的维度"。
DeepSeek Sparse Attention(DSA)
DSA 是 V3.2 最核心的架构创新。
传统的注意力机制对长上下文的计算复杂度是O(n²)。
MLA解决了KV Cache的显存问题,但计算量的问题还在。
DSA 的方案是:
-
1. 闪电索引器(Lightning Indexer):快速检索与当前token最相关的历史token
-
2. 细粒度token选择:在索引结果上做更精确的筛选
-
3. 整个过程实现了接近线性的复杂度
这让V3.2在处理超长上下文时,既省显存又省计算。
Agent能力的系统性提升
V3.2 另一个重要突破是Agent能力。DeepSeek构建了一个完整的工具使用训练管线:
-
1. 冷启动:用V3的方法论统一推理和工具使用
-
2. 大规模Agent任务合成:生成了1800+个不同环境和85000个复杂提示
-
3. 强化学习:在合成数据上做RL,泛化到真实场景
成果:V3.2 在推理基准上与 Kimi-k2-thinking 和 GPT-5 持平,在Agent能力上显著缩小了开源模型与闭源模型的差距。
V3.2-Special 版本更是在 IOI 2025、ICPC World Final 2025、IMO 2025 上达到金牌水平。
7.2 Engram——条件记忆:稀疏性的新轴
📄 论文:Engram: Conditional Memory via Scalable Lookup | arXiv:2601.07372 | 2026年1月12日
2026年1月,Engram 发布,这可能是DeepSeek架构的下一个大方向。
语言建模包含两种性质完全不同的子任务——组合推理和知识检索。
MoE 通过条件计算(conditional computation)处理推理,但 Transformer 没有原生的知识检索机制。
模型被迫用计算来"模拟"检索,比如,解析一个常见的多token实体需要消耗多个早期层的注意力和前馈网络,本质上是在运行时重建一个静态查找表。
Engram 提出了条件记忆(conditional memory)作为稀疏性的新轴:用N-gram嵌入的现代化版本,实现O(1)的静态知识查找。
关键发现:
-
• U形缩放定律:MoE计算和Engram记忆之间存在最优的分配比例
-
• Engram 在知识检索任务上带来巨大提升(MMLU +3.4, CMMLU +4.0),在推理任务上提升更大(BBH +5.0, ARC-Challenge +3.7)
-
• 机制分析揭示:Engram 解放了骨干网络的早期层,使其能专注于深层推理;同时释放了注意力容量用于全局上下文
新的架构方向: 未来的模型可能不是纯MoE,而是MoE(动态推理)+ Engram(静态知识)的混合体。
7.3 DeepSeek-OCR 2——视觉因果流
📄 论文:DeepSeek-OCR 2: Visual Causal Flow | arXiv:2601.20552 | 2026年1月29日
2026年1月,DeepSeek-OCR 2 发布。
这是一篇在视觉编码方向上有根本性创新的论文。
传统VLM的视觉token按光栅扫描顺序(从左上到右下)输入LLM,这完全不符合人类的阅读逻辑。
人类看文档是按照语义顺序、因果顺序来扫描的。
DeepSeek-OCR 2 提出了DeepEncoder V2:
用LLM风格的架构替代CLIP,通过因果注意力掩码,让视觉token能根据语义动态重排序。
2D图像理解能否通过两级级联的1D因果推理来实现?
如果可以,这意味着视觉理解本质上也是一种因果推理过程,与语言推理共享同一套计算原语。
第八章 里程碑:V4与架构的未来验证(2026年4月)
📄 技术报告:DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence | 无arXiv编号(仅HuggingFace PDF) | 2026年4月24日
三天前,DeepSeek 发布了V4。
这是对前面所有技术积累的一次集中验收。
8.1 V4核心数据
-
• V4-Pro:1.6万亿总参数,49B激活,61层
-
• V4-Flash:2840亿总参数,13B激活,43层
-
• 100万token上下文(1M context),全面开源
-
• 训练数据从V3的14.8T翻倍至32-33T token
-
• KV Cache仅为V3.2的10%,单token FLOPs仅V3.2的27%
8.2 三大架构升级
升级1:mHC——稳定深层残差连接
V4引入了mHC(Manifold-Constrained Hyper-Connections)。
问题背景:传统残差连接(ResNet以来)在模型极深极宽时信号传递不稳。
Kimi提出的Hyper-Connections(HC)将残差流从一维扩展为多条并行通道,但堆多层时数值不稳定。
论文原文明确指出了HC的两大问题:
-
1. 数值不稳定:HC中的复合映射无法保持特征的全局均值,导致信号无界放大或衰减,大规模训练时不稳定
-
2. 硬件开销:HC增加了残差流宽度但未解决内存访问的效率问题
mHC的方案受到恒等映射原理的启发:
将残差映射矩阵约束到双随机矩阵流形(Birkhoff polytope),行和列都归一化为1。
论文的表述是:"核心前提是将残差映射投影到特定流形上"——这既保证了稳定性(矩阵谱范数天然≤1),又允许跨流信息交换(不像恒等映射那样完全禁止信息交互)。
此外,mHC还对输入映射和输出映射施加了非负性约束,防止正负系数组合导致的信号抵消。
用Sinkhorn-Knopp迭代(交替行/列归一化)实现流形投影,配合fused kernel和选择性recomputation,wall-time开销仅6.7%。
结论:mHC已落地V4。
升级2:混合注意力架构——CSA + HCA交替
V4不再使用单一的注意力机制,而是设计了两种注意力层交替叠加:
-
• CSA(Compressed Sparse Attention):温和压缩+稀疏选择,负责token级精细检索
-
• HCA(Heavily Compressed Attention):每128个token压成1个做dense attention,负责长距离全局信号汇总
配合Q/KV Normalization、Partial RoPE(仅对最后64维施加旋转位置编码)、Sliding Window Attention等工程tricks,实现了百万token上下文的高效处理。
升级3:Muon优化器替代AdamW
V4用Muon(基于矩阵正交化的优化器)替代了AdamW,仅优化2D参数矩阵;其他参数仍用AdamW。
DeepSeek自研了hybrid Newton-Schulz迭代版本。
8.3 Engram——推测可能会在V5
Engram(条件记忆)并未进入V4,推测下一代V5。
Engram的"条件记忆"概念——将MoE的条件计算和O(1)静态知识查找结合——代表着更根本性的架构变革。
DeepSeek选择了稳健路线:V4先验证mHC和混合注意力,Engram这种"新稀疏轴"的引入留给架构更成熟的V5。
8.4 V4的意义
回顾进化路线图,V4做了三件事:
-
1. 验证了mHC:从论文到产品的完整落地
-
2. 推进了注意力效率:CSA+HCA是DSA思路的进化版
-
3. 保留了Engram:最激进的架构变革暂时搁置
DeepSeek的每一个新架构,都先以论文形式验证可行性,再在下一个版本中选择性落地。
不是所有论文成果都会立刻用上,而是非常理性的工程文化:等待最成熟的时机。
第九章 全景:DeepSeek技术进化路线图
时间线总览
|
时间 |
模型/论文 |
核心贡献 |
进化意义 |
|---|---|---|---|
|
2023.11 |
DeepSeek Coder 📄arXiv:2401.14196(2024.01.25提交) |
首个开源代码模型,FIM训练 |
起点:代码切入,快速验证 |
|
2023.11 |
DeepSeek LLM 📄arXiv:2401.02954(2024.01.06提交) |
Scaling Law研究,67B Dense |
奠基:验证"精确缩放"路线 |
|
2024.01 |
DeepSeekMoE 📄arXiv:2401.06066(2024.01.12提交) |
细粒度专家+共享专家范式 |
原型:MoE架构的第一次试水 |
|
2024.02 |
DeepSeek-Math 📄arXiv:2402.03300(2024.02.05提交) |
数据工程+GRPO |
萌芽:RL驱动推理的种子 |
|
2024.03 |
DeepSeek-VL 📄arXiv:2403.05525(2024.03.09提交) |
视觉-语言模型 |
扩展:多模态能力的第一步 |
|
2024.05 |
DeepSeek-V2 📄arXiv:2405.04434(2024.05.07提交) |
MLA + DeepSeekMoE |
革命:架构范式转变 |
|
2024.06 |
DeepSeek-Coder-V2 📄arXiv:2406.11931(2024.06.17提交) |
MoE代码模型 |
迁移:架构革命渗透到领域模型 |
|
2024.09 |
DeepSeek-V2.5 📄无独立论文 |
通用+代码能力融合 |
融合:MoE架构天然适合能力合并 |
|
2024.10 |
Janus 📄arXiv:2410.13848(2024.10.18提交) |
理解/生成解耦 |
思想:矛盾需求时"分治" |
|
2024.11 |
JanusFlow 📄arXiv:2411.07975(2024.11.12提交) |
自回归+Rectified Flow |
统一:生成范式的融合 |
|
2025.01 |
Janus-Pro 📄arXiv:2501.17811(2025.01.30提交) |
解耦架构规模化验证 |
验证:解耦在更大规模上仍优于统一 |
|
2024.12 |
DeepSeek-VL2 📄arXiv:2412.10302(2024.12.13提交) |
MoE视觉-语言模型 |
迁移:架构革命进入多模态 |
|
2024.12 |
DeepSeek-V3 📄arXiv:2412.19437(2024.12.26提交) |
辅助损失无关均衡+MTP+FP8 |
登顶:效率与性能的极致平衡 |
|
2025.01 |
DeepSeek-R1 📄arXiv:2501.12948(2025.01.20提交) |
纯RL推理涌现+蒸馏 |
突破:推理能力的涌现 |
|
2025.04 |
DeepSeek-Prover-V2 📄arXiv:2504.21801(2025.04.30提交) |
递归证明管线 |
深耕:推理能力进入形式化领域 |
|
2025.08 |
DeepSeek-V3.1 📄无独立论文 |
混合推理架构(思考/非思考) |
进化:从推理模型到推理Agent |
|
2025.10 |
DeepSeek-OCR 📄arXiv:2510.18234(2025.10.21提交) |
3B参数OCR,视觉压缩,DeepEncoder |
扩展:视觉作为文本压缩介质 |
|
2025.11 |
DeepSeekMath-V2 📄arXiv:2511.22570(2025.11.28提交) |
自验证推理 |
升级:从"做对"到"知道为什么对" |
|
2025.12 |
DeepSeek-V3.2 📄arXiv:2512.02556(2025.12.02提交) |
DSA+Agent管线 |
进化:稀疏注意力+Agent能力 |
|
2025.12 |
mHC 📄arXiv:2512.24880(2025.12.31提交) |
流形约束超连接 |
前沿:深层残差稳定性 |
|
2026.01 |
Engram 📄arXiv:2601.07372(2026.01.12提交) |
条件记忆 |
前沿:稀疏性的新轴(留给V5) |
|
2026.01 |
DeepSeek-OCR 2 📄arXiv:2601.20552(2026.01.29提交) |
视觉因果流 |
前沿:视觉编码的因果推理化 |
|
2026.04 |
DeepSeek-V4
📄无arXiv编号(HuggingFace PDF) |
mHC+混合注意力(CSA/HCA)+Muon |
里程碑:百万token上下文,1.6T参数 |
三条技术主线
同过这21篇论文和5个关键版本,大致能归纳出三条清晰的技术主线:
主线1:架构效率
Dense (DeepSeek LLM 67B, 2023.11)
MoE原型 (DeepSeekMoE 2B/16B/145B, 2024.01)
MLA+MoE (DeepSeek-V2, 236B/21B, 2024.05)
MLA+MoE+辅助损失无关+MTP (DeepSeek-V3, 671B/37B, 2024.12)
稀疏注意力DSA (DeepSeek-V3.2, 2025.12)
混合注意力CSA+HCA + mHC残差 (DeepSeek-V4, 1.6T/49B, 2026.04)
条件记忆Engram (留给V5的新稀疏轴)
如何用更少的计算做更多的事?
从Dense到MoE是参数效率,
MLA是推理效率,
辅助损失无关是训练效率,
DSA/CSA+HCA是长上下文效率,
mHC是深层训练稳定性,
Engram是知识存储效率。
这些创新不是替代关系,而是叠加关系,每一层都在不同的维度上榨取效率。
主线2:推理能力涌现
GRPO (DeepSeek-Math, 2024.02)
纯RL推理涌现 (DeepSeek-R1-Zero, 2025.01)
冷启动+多阶段RL (DeepSeek-R1, 2025.01)
递归证明 (DeepSeek-Prover-V2, 2025.04)
混合推理架构 (DeepSeek-V3.1, 2025.08)
自验证推理 (DeepSeekMath-V2, 2025.11)
Agent推理 (DeepSeek-V3.2, 2025.12)
这条线从"让模型学会数学推理"出发,
经历了"推理能力的自发涌现",
到"推理能力的形式化"和"推理能力的自我验证",
经过"混合推理架构"(一个模型同时支持思考/非思考),
最终扩展到"推理能力驱动的Agent"。
每一步都在让推理变得更可靠、更深层、更可迁移。
主线3:多模态统一
独立视觉编码 (DeepSeek-VL, 2024.03)
理解/生成解耦 (Janus, 2024.10)
自回归+Flow统一 (JanusFlow, 2024.11)
解耦架构规模化验证 (Janus-Pro, 2025.01)
MoE视觉-语言 (DeepSeek-VL2, 2024.12)
视觉压缩+DeepEncoder (DeepSeek-OCR, 2025.10)
视觉因果流 (DeepSeek-OCR 2, 2026.01)
视觉理解和语言理解是否共享同一套计算原语?
DeepSeek-OCR 2 给出了一个大胆的答案:是的,如果我们把视觉理解也看作一种因果推理过程。
很期待DeepSeek后续的多模态版本。
第十章 反思:DeepSeek的方法论
原则1:效率至上,不堆算力
从V2到V3到V3.2,每一代模型都在追求"用更少的计算做更多的事"。
671B参数的V3只用了2.788M GPU小时,因为他们深刻理解了效率的价值。
在AI领域,效率不仅关乎成本,更关乎可扩展性——只有高效的架构才能持续扩展。
原则2:解耦优于统一
Janus解耦了理解和生成,DeepSeekMoE解耦了共享知识和专精知识,Engram解耦了推理和检索。
DeepSeek反复验证了一个设计哲学:当两个需求存在张力时,解耦通常优于妥协。
原则3:涌现优于监督
R1是最极端的例证:不教模型怎么推理,只给它奖励信号,让推理能力自己涌现。
精心的设计:GRPO、冷启动、多阶段RL。
DeepSeek的方法是:创造正确的条件,让能力自发涌现,而不是硬教。
原则4:系统思维,而非单点优化
V3的技术报告不只是模型架构,还包括DualPipe、FP8训练、跨节点通信优化。
Insights into DeepSeek-V3 更是直接讨论了硬件-模型的协同设计。
在大规模AI系统中,模型、系统和硬件是同一个问题的不同面。
结果
回顾这21篇论文和5个关键版本,完整展示了大模型领域的技术演化。
DeepSeek 的技术迭代给我们展示了:这可能就是通往AGI的路径之一:
不是做一个更大的模型,而是做一个更聪明的架构:
让推理、检索、感知共享同一套计算原语,让不同的能力在同一架构中自然涌现。
DeepSeek用两年半的时间证明了一件事:在AI领域,架构创新比算力堆叠更有生命力。
DeepSeek + 华为自研芯片让斯坦福 AI Index 2026 明确写入"中美差距基本消除"。
这个故事还在继续。让我们期待V5。
我第一时间把 Trae/WorkBuddy 都配置了使用 DeepSeek V4 模型。

现在 deepseek-v4-pro 模型限时 2.5 折到5月2日,你用了吗?
-END-
推荐阅读:
Claude Design 系统提示词被泄露:AI 如何成为你的专业设计师
89.2%攻击成功率!腾讯、字节研究发现 OpenClaw Agent 存在可利用结构性漏洞
更多推荐



所有评论(0)