Deepseek基座:Deepseek-v3核心内容解析
这篇是Deepseek正式受到大量关注的论文,可以看作是v2的scale up,参数规模达到671B,是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2(236B),V3 模型规模接近三倍,训练 token 数量达到 14.8T,远超 V2 的 8.1T。尽管模型规模巨大,DeepSeek-V3 的训练成本却非常低廉,使用,训练时长为;总花费仅,远低于同期其他开

| DeepSeek原创文章 | |
| 1 | |
| 2 | |
| 3 | |
| 4 | |
| 5 | Deepseek基座:Deepseek-v3核心内容解析 |
| 6 |
这篇是Deepseek正式受到大量关注的论文,可以看作是v2的scale up,参数规模达到671B,是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2(236B),V3 模型规模接近三倍,训练 token 数量达到 14.8T,远超 V2 的 8.1T 。
该模型在架构上延续了 V2 的核心设计,包括:
- 使用 Multi-Head Latent Attention(MLA) 技术,显著压缩 KV Cache;
- 延续 MoE 架构,大量专家(expert)设计提升稀疏性和模型表达能力;
- 每个 token 只激活 21B参数,保持低推理成本的同时实现高性能 。
尽管模型规模巨大,DeepSeek-V3 的训练成本却非常低廉,使用 2300 张 H800 GPU,训练时长为 2300 GPU 小时;总花费仅 557万美元,远低于同期其他开源模型,如 Llama 3.1 400B 的训练成本高达 3000万美元以上,差距达 6 倍以上 。
DeepSeek-V3创新点
1. Loss-Free Balancing:无需额外损失函数的专家平衡机制
-
DeepSeek 在 MoE 模型训练中提出了一种 loss-free balancing 方法,用于解决不同专家之间使用不均衡的问题。
-
该方法通过监控每个专家的使用频率,并动态调整其被选中的概率。例如,如果某个专家被频繁使用,系统会自动降低它的优先级,从而实现负载均衡。
-
这是一种 轻量、直观且无需修改目标函数 的工程优化方式,相比传统引入新损失函数的方法更为简洁高效 。
2. Multi-Token Prediction(MTP):一次预测多个 token
-
DeepSeek-V3 引入了 Multi-Token Prediction 技术,即在训练时不仅预测下一个 token,还同时预测后续多个 token。
-
这一做法增强了模型对未来语义的建模能力,使其具备“提前规划”的能力,有助于提升生成质量与连贯性。
-
虽然这一技术来源于一篇非主流论文,但 DeepSeek 是首个在 超大规模 MoE 模型上成功应用 MTP 的公司。
3. 推理阶段的 speculative decoding 应用潜力
-
MTP 的设计使得模型具备 一次生成多个 token 的可能性,这为后续部署 speculative decoding 提供了基础。
-
speculative decoding 是一种加速生成的技术,允许模型并行预测多个 token,再由另一个模型进行验证或修正,从而显著提升生成速度。
-
尽管目前尚未明确是否已在产品中全面部署该机制,但 V3 的架构为其提供了可行性支撑 。
小结
| 特性 | DeepSeek-V3 表现 |
|---|---|
| 模型规模 | 6710亿参数,当前最强基座模型之一 |
| 成本控制 | 训练成本仅 557万美元,远低于 Llama 等模型 |
| Loss-Free Balancing | 动态专家负载均衡,无需额外损失函数 |
| Multi-Token Prediction | 首次在大规模 MoE 上应用,提升生成质量和效率 |
FP8 低精度训练
DeepSeek-v3使用 FP8(8 位浮点数)进行低精度训练,以提升训练速度和降低计算成本。而传统训练中使用的是 FP32 或 FP16,精度更高但资源消耗大。
但是低精度表示可能导致训练不稳定、模型效果下降。之前多用于部署阶段的量化(如推理),但在大规模训练中成功案例极少。
DeepSeek V3 是最早在大规模语言模型训练中成功应用 FP8 的公开项目之一。
MOE(Mixture of Experts)路线坚持
- 从 DeepSeek-MoE 到 V3,始终坚持使用大量专家(Expert)。
- 相比之下,Llama 系列(如 Llama 3)仍未采用 MoE 架构。部署成本是Deepseek十倍多
V3 架构特点
- 包含 1 个共享专家 + 256 个专属专家。V2(2 个共享专家 + 160 个专属专家)
DeepSeek-v3后训练
SFT 数据量极小
- DeepSeek V3 的 SFT仅使用了 150万条数据(1.5M),相比 Llama 3 的 10M–20M 条数据量来说非常少。 对于一个 600B 参数级别的模型来说,这个数据量极其精简。
使用蒸馏生成数据
- Reasoning 数据通过内部未公开的 DeepSeek R1 模型进行蒸馏生成。R1 是在 V3 基座基础上开发的推理模型,反过来用于蒸馏训练 V3 的 chat 版本。 这是一种“自蒸馏 + 内部迭代”的方式,在当时尚未对外公开。
Long Reasoning 数据来源
- 使用 DeepSeek V2.5(即 DeepSeek V2 的优化版本)生成长推理数据。
- V2.5 相比 V2 在数据或模型层面做了进一步优化,性能略优。
** 强化学习策略**
- 引入 GRPO(一种强化学习算法),用于提升推理能力。
- 对于可验证任务(如数学、编程)采用规则奖励机制(是否正确)。
- 对开放性问题使用传统奖励模型(reward model)。
- 这种混合奖励机制是 DeepSeek 策略上的重要变化,区别于早期完全依赖模型打分的方式。
最终部署版本(Chat 版本)经过蒸馏和 RL 训练后效果显著优于基座模型(Base Model)。 尽管后训练投入相对较少,但整体表现依然优异,尤其在中文、代码、数学等任务上超越 Llama 3 的 405B 模型。
DeepSeek V3 的训练策略和后训练设计并不以“刷榜”为导向。相较于其他公司对榜单分数的高度关注,DeepSeek 更注重工程实现、成本控制与实际应用价值。即使在 SFT 和 RL 阶段也没有大量优化榜单数据或嵌入特定提示。
这家公司更倾向于技术探索和系统性创新(如 FP8 训练、MOE 架构、多 token 预测等)。
这是DeepSeek基座模型的发展路线。从 DeepSeek-MoE 到 V1、V2、V3,持续优化 MoE 架构,降低成本并提升性能。
更多推荐


所有评论(0)