Deepseek基座：Deepseek-v3核心内容解析

这篇是Deepseek正式受到大量关注的论文，可以看作是v2的scale up，参数规模达到671B，是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2（236B），V3 模型规模接近三倍，训练 token 数量达到 14.8T，远超 V2 的 8.1T。尽管模型规模巨大，DeepSeek-V3 的训练成本却非常低廉，使用，训练时长为；总花费仅，远低于同期其他开

Shannon@

1428人浏览 · 2025-06-10 07:45:00

Shannon@ · 2025-06-10 07:45:00 发布

	DeepSeek原创文章
1	DeepSeek-v3：基于MLA的高效kv缓存压缩与位置编码优化技术
2	Deepseek基座：DeepSeek LLM核心内容解析
3	Deepseek基座：Deepseek MOE核心内容解析
4	Deepseek基座：Deepseek-v2核心内容解析
5	Deepseek基座：Deepseek-v3核心内容解析
6	DeepSeek推理能力（Reasoning）

DeepSeek-V3 Technical Report

这篇是Deepseek正式受到大量关注的论文，可以看作是v2的scale up，参数规模达到671B，是当时非常出名的 DeepSeek-R1 的基座模型。相比前代 DeepSeek-V2（236B），V3 模型规模接近三倍，训练 token 数量达到 14.8T，远超 V2 的 8.1T 。

该模型在架构上延续了 V2 的核心设计，包括：

使用 Multi-Head Latent Attention（MLA） 技术，显著压缩 KV Cache；
延续 MoE 架构，大量专家（expert）设计提升稀疏性和模型表达能力；
每个 token 只激活 21B参数，保持低推理成本的同时实现高性能。

尽管模型规模巨大，DeepSeek-V3 的训练成本却非常低廉，使用 2300 张 H800 GPU，训练时长为 2300 GPU 小时；总花费仅 557万美元，远低于同期其他开源模型，如 Llama 3.1 400B 的训练成本高达 3000万美元以上，差距达 6 倍以上 。

DeepSeek-V3创新点

1. Loss-Free Balancing：无需额外损失函数的专家平衡机制

DeepSeek 在 MoE 模型训练中提出了一种 loss-free balancing 方法，用于解决不同专家之间使用不均衡的问题。
该方法通过监控每个专家的使用频率，并动态调整其被选中的概率。例如，如果某个专家被频繁使用，系统会自动降低它的优先级，从而实现负载均衡。
这是一种 轻量、直观且无需修改目标函数 的工程优化方式，相比传统引入新损失函数的方法更为简洁高效。

2. Multi-Token Prediction（MTP）：一次预测多个 token

DeepSeek-V3 引入了 Multi-Token Prediction 技术，即在训练时不仅预测下一个 token，还同时预测后续多个 token。
这一做法增强了模型对未来语义的建模能力，使其具备“提前规划”的能力，有助于提升生成质量与连贯性。
虽然这一技术来源于一篇非主流论文，但 DeepSeek 是首个在 超大规模 MoE 模型上成功应用 MTP 的公司。

3. 推理阶段的 speculative decoding 应用潜力

MTP 的设计使得模型具备 一次生成多个 token 的可能性，这为后续部署 speculative decoding 提供了基础。
speculative decoding 是一种加速生成的技术，允许模型并行预测多个 token，再由另一个模型进行验证或修正，从而显著提升生成速度。
尽管目前尚未明确是否已在产品中全面部署该机制，但 V3 的架构为其提供了可行性支撑。

小结

特性	DeepSeek-V3 表现
模型规模	6710亿参数，当前最强基座模型之一
成本控制	训练成本仅 557万美元，远低于 Llama 等模型
Loss-Free Balancing	动态专家负载均衡，无需额外损失函数
Multi-Token Prediction	首次在大规模 MoE 上应用，提升生成质量和效率