DeepSeek原创文章
1

DeepSeek-v3:基于MLA的高效kv缓存压缩与位置编码优化技术

2

Deepseek基座:DeepSeek LLM核心内容解析

3

Deepseek基座:Deepseek MOE核心内容解析

4

Deepseek基座:Deepseek-v2核心内容解析

5 Deepseek基座:Deepseek-v3核心内容解析
6

DeepSeek推理能力(Reasoning)

DeepSeek-V3 Technical Report

这篇是Deepseek正式受到大量关注的论文,可以看作是v2的scale up,参数规模达到671B,是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2(236B),V3 模型规模接近三倍,训练 token 数量达到 14.8T,远超 V2 的 8.1T 。

该模型在架构上延续了 V2 的核心设计,包括:

  • 使用 Multi-Head Latent Attention(MLA) 技术,显著压缩 KV Cache;
  • 延续 MoE 架构,大量专家(expert)设计提升稀疏性和模型表达能力;
  • 每个 token 只激活 21B参数,保持低推理成本的同时实现高性能 。

尽管模型规模巨大,DeepSeek-V3 的训练成本却非常低廉,使用 2300 张 H800 GPU,训练时长为 2300 GPU 小时;总花费仅 557万美元,远低于同期其他开源模型,如 Llama 3.1 400B 的训练成本高达 3000万美元以上,差距达 6 倍以上 。

DeepSeek-V3创新点

1. Loss-Free Balancing:无需额外损失函数的专家平衡机制
  • DeepSeek 在 MoE 模型训练中提出了一种 loss-free balancing 方法,用于解决不同专家之间使用不均衡的问题。

  • 该方法通过监控每个专家的使用频率,并动态调整其被选中的概率。例如,如果某个专家被频繁使用,系统会自动降低它的优先级,从而实现负载均衡。

  • 这是一种 轻量、直观且无需修改目标函数 的工程优化方式,相比传统引入新损失函数的方法更为简洁高效 。

2. Multi-Token Prediction(MTP):一次预测多个 token
  • DeepSeek-V3 引入了 Multi-Token Prediction 技术,即在训练时不仅预测下一个 token,还同时预测后续多个 token。

  • 这一做法增强了模型对未来语义的建模能力,使其具备“提前规划”的能力,有助于提升生成质量与连贯性。

  • 虽然这一技术来源于一篇非主流论文,但 DeepSeek 是首个在 超大规模 MoE 模型上成功应用 MTP 的公司

3. 推理阶段的 speculative decoding 应用潜力
  • MTP 的设计使得模型具备 一次生成多个 token 的可能性,这为后续部署 speculative decoding 提供了基础。

  • speculative decoding 是一种加速生成的技术,允许模型并行预测多个 token,再由另一个模型进行验证或修正,从而显著提升生成速度。

  • 尽管目前尚未明确是否已在产品中全面部署该机制,但 V3 的架构为其提供了可行性支撑 。

小结

特性 DeepSeek-V3 表现
模型规模 6710亿参数,当前最强基座模型之一
成本控制 训练成本仅 557万美元,远低于 Llama 等模型
Loss-Free Balancing 动态专家负载均衡,无需额外损失函数
Multi-Token Prediction 首次在大规模 MoE 上应用,提升生成质量和效率

FP8 低精度训练

DeepSeek-v3使用 FP8(8 位浮点数)进行低精度训练,以提升训练速度和降低计算成本。而传统训练中使用的是 FP32 或 FP16,精度更高但资源消耗大。

但是低精度表示可能导致训练不稳定、模型效果下降。之前多用于部署阶段的量化(如推理),但在大规模训练中成功案例极少。

DeepSeek V3 是最早在大规模语言模型训练中成功应用 FP8 的公开项目之一。


MOE(Mixture of Experts)路线坚持

  • 从 DeepSeek-MoE 到 V3,始终坚持使用大量专家(Expert)。
  • 相比之下,Llama 系列(如 Llama 3)仍未采用 MoE 架构。部署成本是Deepseek十倍多

V3 架构特点

  • 包含 1 个共享专家 + 256 个专属专家。V2(2 个共享专家 + 160 个专属专家)

DeepSeek-v3后训练

SFT 数据量极小

  • DeepSeek V3 的 SFT仅使用了 150万条数据(1.5M),相比 Llama 3 的 10M–20M 条数据量来说非常少。 对于一个 600B 参数级别的模型来说,这个数据量极其精简。

使用蒸馏生成数据

  • Reasoning 数据通过内部未公开的 DeepSeek R1 模型进行蒸馏生成。R1 是在 V3 基座基础上开发的推理模型,反过来用于蒸馏训练 V3 的 chat 版本。 这是一种“自蒸馏 + 内部迭代”的方式,在当时尚未对外公开。

Long Reasoning 数据来源

  • 使用 DeepSeek V2.5(即 DeepSeek V2 的优化版本)生成长推理数据。
  • V2.5 相比 V2 在数据或模型层面做了进一步优化,性能略优。

** 强化学习策略**

  • 引入 GRPO(一种强化学习算法),用于提升推理能力。
  • 对于可验证任务(如数学、编程)采用规则奖励机制(是否正确)。
  • 对开放性问题使用传统奖励模型(reward model)。
  • 这种混合奖励机制是 DeepSeek 策略上的重要变化,区别于早期完全依赖模型打分的方式。

最终部署版本(Chat 版本)经过蒸馏和 RL 训练后效果显著优于基座模型(Base Model)。 尽管后训练投入相对较少,但整体表现依然优异,尤其在中文、代码、数学等任务上超越 Llama 3 的 405B 模型。

DeepSeek V3 的训练策略和后训练设计并不以“刷榜”为导向。相较于其他公司对榜单分数的高度关注,DeepSeek 更注重工程实现、成本控制与实际应用价值。即使在 SFT 和 RL 阶段也没有大量优化榜单数据或嵌入特定提示。

这家公司更倾向于技术探索和系统性创新(如 FP8 训练、MOE 架构、多 token 预测等)。


这是DeepSeek基座模型的发展路线。从 DeepSeek-MoE 到 V1、V2、V3,持续优化 MoE 架构,降低成本并提升性能。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐