Deepseek介绍之一：V3的训练过程

我最近在香港城市大学内部交流时，作了一个Deepseek的介绍。这里做一个分享。主要探讨三个问题。一，为什么Deepseek的效果这么好？这主要源于他们的训练过程。二，为什么他们能够用别人二十分之一的成本来训练这么大的一个模型。这部分主要介绍他们的一些关键技术。三，简单探讨他们对工业界有什么影响、以及一些学术角度考虑的研究问题。因为篇幅限制，分三篇文章发布。这篇是关于Deepseek V3是如何训

Python_金钱豹

2018人浏览 · 2025-02-23 10:45:00

Python_金钱豹 · 2025-02-23 10:45:00 发布

我最近在香港城市大学内部交流时，作了一个Deepseek的介绍。这里做一个分享。

主要探讨三个问题。

一，为什么Deepseek的效果这么好？这主要源于他们的训练过程。

二，为什么他们能够用别人二十分之一的成本来训练这么大的一个模型。这部分主要介绍他们的一些关键技术。

三，简单探讨他们对工业界有什么影响、以及一些学术角度考虑的研究问题。

因为篇幅限制，分三篇文章发布。这篇是关于Deepseek V3是如何训练的，第二篇是R1的训练过程，第三篇是一些关键技术和Deepseek的影响。

Deepseek v3技术报告中介绍的训练过程详细、但有些复杂。我基于技术报告梳理了上面的流程图。圆柱体表示训练数据，菱形表示训练的过程，方形表示模型。

一训练主线的三个阶段：预训练 --> 扩展提示词窗口 --> 后训练

下表展示了每个阶段所用的GPU Hours。95%的训练时间和成本是在第一个阶段：预训练。后训练只有5千GPU小时，按他们宣传的2k GPU计算，大约只有2个半小时。后面会介绍，就是这2.5小时，对V3惊艳的效果起到了决定性作用。

二. 预训练

V3预训练使用的语料大约15T的token。这个大约是ChatGPT 175B预训练预料的数十倍，但跟Llama2接近，基本上是当前这个规模的大模型常见的语料规模。

但与其他人不一样的是，他们在语料中增强了数学和编程的样本比例。这个对他们的能力是对应的。

三. 下文扩展

这一个阶段，他们用了业界的一个技术叫YaRN，他们预训练用的是4K的context，然后通过两次扩展训练，经32k、最后扩展到128k。

四. V3-Base

预训练和上下文扩展占用了大约99.8%的训练时间，得到的模型叫V3-Base。这个模型的性能如何呢？如下表所示。

V3-Base与阿里巴巴的Qwen（通义）和Facebook的llama3的Base模型进行了对比。这些都是开源的模型，而且是他们的Base版本。

相比其他模型，V3-Base主要是在code和math性能更好。这与他们在语料中增加了math和code的比例相关的。也就是说：V3-Base的性能主要来自于数据、而不是方法。

这个表格中另一个有意思的信息是：阿里的通义模型Qwen性能挺好的。他们只有Deepseek-V3-Base差不多1/10的参数量：72B，而性能是差不多的，个别指标甚至比Deepseek V3-Base更好。Deepseek 强调他们只激活了37B，这个参数量比qwen小一半。但我认为总的参数量也不是没有意义的。也许总的参数量有点像人的memeory记忆总量，也是很重要的一个因素。而且在部署的时候，这么多的参数量也需要更多的GPU memory容量，部署代价也是更高。“只激活了37B”的技术含义，在下次介绍Deepseek关键技术的时候会解释。

为什么不跟闭源的模型进行对比呢？因为闭源模型只能通过API调用。通常大家使用的是厂家经过一次后训练微调的，比如指令微调instructedfinetuning。这个阶段通常是为了让大模型输出政治正确的文字。Base模型只是一个中间过程的产物，闭源模型通常没有提供服务接口。

五. 后训练

介绍完V3-Base，我们现在来看后训练过程。如前面所说，这个阶段只花了0.2%的训练时间、5k GPU小时、平均到每个GPU只用了2个半小时。但是功夫在训练之外、在有监督微调（SFT）的数据准备上。

他们在这个阶段用了大约1.5M样本，与之对比的是Llama2用了大约1M人工
数据。Llama2这个阶段主要是为了模型的对齐alignment，也就是防止模型生成有害、政治不正确的输出。而V3的SFT目的不太一样。他们用了两个部分的数据。

一部分SFT数据是推理无关（non-reasoning）的，目的是与alignment一致的，也是为了防止生成有害数据。这部分数据，先由Deepseek之前的一个大模型Deepseek V2.5生成，然后人工进行检验、保障数据的质量。

另一个部分的SFT数据是推理数据。这部分有一个比较复杂的过程，用到了他们另一个为推理专门训练的模型：R1。R1的训练过程在下篇文章中介绍。

五. 推理reasnoning的SFT数据如何生成

推理reasnoning的数据又细分了几个领域。技术报告提到的是math、code和general reasoning，比如一些智力题。

每个领域需要先训练一个专家模型expert model。每个domain expert model的数据，一部分是R1生成的特定domain的数据，然后他们也有一部分是格式化的推理数据，可能是人工生成或者人工处理过的高质量数据。

这些数据经过2个阶段的到领域特定的专家模型：sft和强化学习，这个过程，在后面介绍R1的训练过程时会详细介绍。

那么R1提供数据这件事，对模型的贡献有多大呢？Deepseek在v2.5的模型上做了一个实验，比较了Deepseek V2.5 Base与使用R1生成的数据进行微调的模型进行对比，结果如下：

可以看到在code和math两个任务上，使用R1的数据，可以获得显著的性能提升。这个实验证明了R1模型蒸馏对v3模型的重要性。

这里顺便介绍一个术语：蒸馏 distillation：用模型A的输出来作为样本训练模型B，这个过程就叫蒸馏。模型A是teacher，模型B是student。

六. V3的性能

最后是V3的性能对比。基本上达到GPT-4o等最先进的闭源模型的性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述