注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

DeepSeek大模型技术系列十

DeepSeek大模型技术系列十》DeepSeek-V3后训练揭秘:如何通过监督微调和强化学习提升模型性能

在这里插入图片描述

5. 后训练
5.1 监督微调
我们精心整理了指令调整数据集,包含 150 万个跨越多个领域的实例,每个领域根据其特定需求采用不同的数据创建方法。

推理数据:对于与推理相关的数据集,包括专注于数学、代码竞赛问题和逻辑谜题的数据集,我们利用内部的 DeepSeek-R1 模型生成数据。具体而言,虽然 R1 生成的数据具有很高的准确性,但存在过度思考、格式不佳和长度过长等问题。我们的目标是在 R1 生成的
推理数据的高准确性与常规格式推理数据的清晰简洁之间取得平衡。
为确立我们的方法,我们首先针对特定领域(如代码、数学或通用推理)开发一个专家模型,采用监督微调(SFT)和强化学习(RL)相结合的训练流程。这个专家模型作为最终模型的数据生成器。训练过程中,针对每个实例生成两种不同类型的 SFT 样本:第一种将问题与其原始答案以 <问题,原始答案> 的格式配对;第二种则在问题和 R1 答案的基础上,加入系统提示,格式为 < 系统提示,问题,R1 答案 >。
系统提示经过精心设计,包含引导模型生成带有反思和验证机制的答案的指令。在 RL 阶段,模型利用高温采样生成的答案,即使在没有明确系统提示的情况下,也能融合 R1 生成的数据和原始数据中的模式。经过数百次 RL 步骤后,中间 RL 模型学会融入 R1 模式,从而战略性地提升整体性能。
在完成 RL 训练阶段后,我们采用拒绝采样为最终模型筛选高质量的 SFT 数据,其中专家模型作为数据生成源。这种方法确保最终训练数据既保留了 DeepSeek-R1 的优势,又能生成简洁有效的答案。
非推理数据:对于非推理数据,如创意写作、角色扮演和简单问答,我们利用 DeepSeek-V2.5 生成答案,并邀请人工标注员验证数据的准确性和正确性。
SFT 设置:我们使用 SFT 数据集对 DeepSeek-V3 基础模型进行两轮微调,采用余弦退火学习率调度,从开始,逐渐降至 。在训练过程中,每个单独的序列由多个样本打包而成。然而,我们采用样本掩码策略,以确保这些示例相互隔离且不可见。
5.2 强化学习
5.2.1 奖励模型

我们在 RL 过程中采用基于规则的奖励模型(RM)和基于模型的 RM。
基于规则的 RM:对于可以使用特定规则验证的问题,我们采用基于规则的奖励系统来确定反馈。例如,某些数学问题有确定的结果,我们要求模型以指定格式(如框内)给出最终答案,以便应用规则验证其正确性。同样,对于 LeetCode 问题,我们可以利用编译器根据测试用例生成反馈。只要有可能,我们就利用基于规则的验证,以确保更高的可靠性,因为这种方法不易被操纵或利用。
基于模型的 RM:对于具有自由格式标准答案的问题,我们依靠奖励模型来确定回答是否符合预期的标准答案。相反,对于没有明确标准答案的问题,如涉及创意写作的问题,奖励模型根据问题和相应答案作为输入提供反馈。奖励模型从 DeepSeek-V3 SFT 检查点进行训练。为增强其可靠性,我们构建偏好数据,不仅提供最终奖励,还包括得出奖励的思维链。这种方法有助于降低特定任务中奖励作弊的风险。
5.2.2 组相对策略优化
与 DeepSeek-V2(DeepSeek-AI, 2024c)类似,我们采用组相对策略优化(GRPO)(Shao 等人,2024),它摒弃了通常与策略模型大小相同的评论家模型,而是从组分数中估计基线。具体来说,对于每个问题,GRPO 从旧策略模型中采样一组输出,然后通过最大化以下目标来优化策略模型:
其中、是相关参数,是优势,由每组输出对应的奖励得出:
我们在 RL 过程中纳入来自不同领域(如编码、数学、写作、角色扮演和问答)的提示。这种方法不仅使模型更符合人类偏好,还提升了在基准测试中的性能,特别是在可用 SFT 数据有限的场景中。
5.3 评估
5.3.1 评估设置
评估基准:除了用于基础模型测试的基准外,我们还在 IFEval(Zhou 等人,2023)、FRAMES(Krishna 等人,2024)、LongBench v2(Bai 等人,2024)、GPQA(Rein 等人,2023)、SimpleQA(OpenAI, 2024c)、CSimpleQA(He 等人,2024)、SWE-Bench Verified(OpenAI, 2024d)、Aider 1、LiveCodeBench(Jain 等人,2024)(2024 年 8 月至 11 月的问题)、Codeforces 2、中国国家高中数学奥林匹克竞赛(CNMO 2024)3、美国数学邀请赛 2024(AIME 2024)(MAA, 2024)等基准上评估指令模型。
对比基线:我们对聊天模型与几个强大的基线进行全面评估,包括 DeepSeek-V2-0506、DeepSeek-V2.5-0905、Qwen2.5 72B Instruct、LLaMA-3.1 405B Instruct、Claude-Sonnet-3.5-1022 和 GPT-4o-0513。对于 DeepSeek-V2 模型系列,我们选择最具代表性的变体进行比较。对于闭源模型,通过它们各自的 API 进行评估。
详细评估配置:对于包括 MMLU、DROP、GPQA 和 SimpleQA 在内的标准基准,我们采用 simple-evals 框架 4 中的评估提示。对于 MMLU-Redux,我们在零样本设置下使用 Zero-Eval 提示格式(Lin, 2024)。对于其他数据集,我们遵循其原始评估协议,使用数据集创建者提供的默认提示。在代码和数学基准方面,HumanEval-Mul 数据集总共包含 8 种主流编程语言(Python、Java、Cpp、C#、JavaScript、TypeScript、PHP 和 Bash)。我们使用思维链(CoT)和非思维链方法评估模型在 LiveCodeBench 上的性能,其中数据收集于 2024 年 8 月至 11 月。Codeforces 数据集通过参赛者的百分比进行衡量。SWE-Bench verified 使用无代理框架(Xia 等人,2024)进行评估。我们使用 “diff” 格式评估与 Aider 相关的基准。对于数学评估,AIME 和 CNMO 2024 在温度为 0.7 的情况下进行评估,结果取 16 次运行的平均值,而 MATH-500 采用贪心解码。我们允许所有模型在每个基准上最多输出 8192 个 token。

基准(指标) DeepSeek-V2-0506 DeepSeek-V2.5-0905 Qwen2.5 72B-Inst LLaMA-3.1 405B-Inst Claude-3.5-Sonnet-1022 GPT-4o-0513 DeepSeek-V3
架构 MoE MoE 密集型 密集型 - - MoE
激活参数数量 210 亿 210 亿 720 亿 4050 亿 - - 370 亿
总参数数量 2360 亿 2360 亿 720 亿 4050 亿 - - 6710 亿
英语 MMLU(EM) 78.2 80.6 85.3 88.6 88.3 87.2 88.5
MMLU-Redux(EM) 77.9 80.3 85.6 86.2 88.9 88.0 89.1
MMLU-Pro(EM) 58.5 66.2 71.6 73.3 78.0 72.6 75.9
DROP(3-shot F1) 83.0 87.8 76.7 88.7 88.3 83.7 91.6
IF-Eval(Prompt Strict) 57.7 80.6 84.1 86.0 86.5 84.3 86.1
GPQA-Diamond(Pass@1) 35.3 41.3 49.0 51.1 65.0 49.9 59.1
SimpleQA(Correct) 9.0 10.2 9.1 17.1 28.4 38.2 24.9
FRAMES(Acc) 66.9 65.4 69.8 70.0 72.5 80.5 73.3
LongBench v2(Acc) 31.6 35.4 39.4 36.1 41.0 48.1 48.7
代码 HumanEval-Mul(Pass@1) 69.3 77.4 77.3 77.2 81.7 80.5 82.6
LiveCodeBench(Pass@1-Cor) 18.8 29.2 31.1 28.4 36.3 33.4 40.5
LiveCodeBench(Pass@1) 20.3 28.4 28.7 30.1 32.8 34.2 37.6
Codeforces(Percentile) 17.5 35.6 24.8 25.3 20.3 23.6 51.6
SWE Verified(Resolved) 22.6 23.8 24.5 50.8 38.8 42.0
Aider-Edit(Acc) 60.3 71.6 65.4 63.9 84.2 72.9 79.7
Aider-Polyglot(Acc) 18.2 7.6 5.8 45.3 16.0 49.6
数学 AIME 2024(Pass@1) 4.6 16.7 23.3 23.3 16.0 9.3 39.2
MATH-500(EM) 56.3 74.7 80.0 73.8 78.3 74.6 90.2
CNMO 2024(Pass@1) 2.8 10.8 15.9 6.8 13.1 10.8 43.2
中文 C-Eval(EM) 89.9 90.4 91.4 84.7 85.4 87.9 90.9
CLUEWSC(EM) 78.6 79.5 86.1 61.5 76.7 76.0 86.5
C-SimpleQA(Correct) 48.5 54.1 48.4 50.4 51.3 59.3 64.8
表 6 DeepSeek-V3 与其他代表性聊天模型的比较。所有模型均在输出长度限制为 8K 的配置下进行评估。包含少于 1000 个样本的基准使用不同温度设置进行多次测试,以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿闭源模型相比也具有竞争力
5.3.2 标准评估
表 6 展示了评估结果,表明 DeepSeek-V3 是性能最佳的开源模型。此外,它与前沿闭源模型(如 GPT-4o 和 Claude-3.5-Sonnet)相比也具有竞争力。
英语基准:MMLU 是一个广泛认可的基准,用于评估大语言模型在不同知识领域和任务上的性能。DeepSeek-V3 表现出有竞争力的性能,与顶级模型(如 LLaMA-3.1-405B、GPT-4o 和 Claude-Sonnet 3.5)相当,同时显著优于 Qwen2.5 72B。此外,DeepSeek-V3 在 MMLU-Pro(一个更具挑战性的教育知识基准)上表现出色,与 Claude-Sonnet 3.5 非常接近。在 MMLU-Redux(MMLU 的改进版本,修正了标签)上,DeepSeek-V3 超过了其他同行。在 GPQA-Diamond(一个博士水平的评估测试平台)上,DeepSeek-V3 取得了显著的成绩,仅次于 Claude 3.5 Sonnet,并且大幅领先其他竞争对手。
在长上下文理解基准(如 DROP、LongBench v2 和 FRAMES)中,DeepSeek-V3 继续展示其顶级模型的地位。它在 DROP 的 3-shot 设置中取得了令人印象深刻的 91.6 F1 分数,超过了该类别中的所有其他模型。在 FRAMES(一个需要在 100k token 上下文上进行问答的基准)中,DeepSeek-V3 紧随 GPT-4o 之后,同时大幅领先其他模型。这展示了 DeepSeek-V3 在处理极长上下文任务方面的强大能力。DeepSeek-V3 的长上下文能力在 LongBench v2(在 DeepSeek V3 发布前几周发布的数据集)上的最佳性能进一步得到验证。在事实知识基准 SimpleQA 上,DeepSeek-V3 落后于 GPT-4o 和 Claude-Sonnet,这主要是由于其设计重点和资源分配。DeepSeek-V3 将更多训练 token 用于学习中文知识,因此在 C-SimpleQA 上表现出色。在指令跟随基准上,DeepSeek-V3 显著优于其前身 DeepSeek-V2 系列,突出了其在理解和遵守用户定义格式约束方面的改进能力。
代码和数学基准:编码是大语言模型面临的一项具有挑战性和实用性的任务,涵盖了像 SWE-Bench-Verified 和 Aider 这样的工程任务,以及像 HumanEval 和 LiveCodeBench 这样的算法任务。在工程任务中,DeepSeek-V3 落后于 Claude-Sonnet-3.5-1022,但显著优于开源模型。开源的 DeepSeek-V3 有望推动编码相关工程任务的进展。通过提供其强大的能力,DeepSeek-V3 可以在软件工程和算法开发等领域推动创新和改进,使开发者和研究人员能够拓展开源模型在编码任务中的能力边界。在算法任务中,DeepSeek-V3 展示了卓越的性能,在 HumanEval-Mul 和 LiveCodeBench 等基准上超过了所有基线。这一成功可归因于其先进的知识蒸馏技术,该技术有效地增强了其在算法相关任务中的代码生成和问题解决能力。
在数学基准上,DeepSeek-V3 展示了卓越的性能,显著超越基线,为非 o1 类模型树立了新的最先进水平。具体来说,在 AIME、MATH-500 和 CNMO 2024 上,DeepSeek-V3 的绝对得分比第二好的模型 Qwen2.5 72B 高出约 10%,对于如此具有挑战性的基准而言,这是一个巨大的差距。这一卓越能力突出了从 DeepSeek-R1 蒸馏知识的有效性,已证明这对非 o1 类模型非常有益。

模型 Arena-Hard AlpacaEval 2.0
DeepSeek-V2.5-0905 76.2 50.5
Qwen2.5-72B-Instruct 81.2 49.1
LLaMA-3.1 405B 69.3 40.5
GPT-4o-0513 80.4 51.1
Claude-Sonnet-3.5-1022 85.2 52.0
DeepSeek-V3 85.5 70.0

表 7 英文开放式对话评估。对于 AlpacaEval 2.0,我们使用长度控制胜率作为指标
5.3.3 开放评估
除了标准基准测试,我们还使用大语言模型作为评判者,对模型在开放式生成任务上进行评估,结果见表 7。具体来说,我们遵循 AlpacaEval 2.0(Dubois 等人,2024)和 Arena-Hard(Li 等人,2024a)的原始配置,利用 GPT-4-Turbo-1106 作为评判者进行两两比较。在 Arena-Hard 上,DeepSeek-V3 与基线 GPT-4-0314 相比,胜率超过 86%,与 Claude-Sonnet-3.5-1022 等顶级模型表现相当。这突出了 DeepSeek-V3 强大的能力,特别是在处理复杂提示(包括编码和调试任务)方面。此外,DeepSeek-V3 成为第一个在 Arena-Hard 基准上超过 85% 胜率的开源模型,这一成就显著缩小了开源模型和闭源模型之间的性能差距,为开源模型在具有挑战性的领域中设定了新的标准。
同样,DeepSeek-V3 在 AlpacaEval 2.0 上也展现出卓越的性能,超过了闭源模型和开源模型。这展示了它在写作任务和处理简单问答场景方面的出色能力。值得注意的是,它比 DeepSeek-V2.5-0905 的胜率高出 20%,这突出了它在处理简单任务方面的显著改进,也展示了其改进的有效性。
5.3.4 DeepSeek-V3 作为生成式奖励模型
我们将 DeepSeek-V3 的评判能力与最先进的模型(即 GPT-4o 和 Claude-3.5)进行比较。表 8 展示了这些模型在 RewardBench(Lambert 等人,2024)上的性能。DeepSeek-V3 的表现与 GPT-4o-0806 和 Claude-3.5-Sonnet-1022 的最佳版本相当,同时超过了其他版本。此外,DeepSeek-V3 的评判能力还可以通过投票技术得到增强。因此,我们使用 DeepSeek-V3 结合投票,为开放式问题提供自我反馈,从而提高对齐过程的有效性和稳健性。

模型 Chat Chat-Hard Safety Reasoning Average
GPT-4o-0513 96.6 70.4 86.7 84.9 84.7
GPT-4o-0806 96.1 76.1 88.1 86.6 86.7
GPT-4o-1120 95.8 71.3 86.2 85.2 84.6
Claude-3.5-sonnet-0620 96.4 74.0 81.6 84.7 84.2
Claude-3.5-sonnet-1022 96.4 79.7 91.1 87.6 88.7
DeepSeek-V3 96.9 79.8 87.0 84.3 87.0
DeepSeek-V3(maj@6) 96.9 82.6 89.5 89.2 89.6

表 8 GPT-4o、Claude-3.5-sonnet 和 DeepSeek-V3 在 RewardBench 上的性能

模型 LiveCodeBench-CoT MATH-500
Pass@1 Length Pass@1 Length
DeepSeek-V2.5 Baseline 31.1 718 74.6 769
DeepSeek-V2.5 +R1 Distill 37.4 783 83.2 1510

表 9 从 DeepSeek-R1 蒸馏知识的贡献。LiveCodeBench 和 MATH-500 的评估设置与表 6 相同
5.4 讨论
5.4.1 从 DeepSeek-R1 蒸馏知识
我们基于 DeepSeek-V2.5 对从 DeepSeek-R1 蒸馏知识的贡献进行了消融研究。基线模型在短思维链(CoT)数据上进行训练,而其竞争模型使用上述专家检查点生成的数据。
表 9 展示了蒸馏数据的有效性,在 LiveCodeBench 和 MATH-500 基准测试中都显示出显著的改进。我们的实验揭示了一个有趣的权衡:蒸馏带来了更好的性能,但也大幅增加了平均响应长度。为了在模型准确性和计算效率之间保持平衡,我们为 DeepSeek-V3 精心选择了蒸馏的最佳设置。
我们的研究表明,从推理模型中进行知识蒸馏为后训练优化提供了一个有前景的方向。虽然我们目前的工作主要集中在从数学和编码领域蒸馏数据,但这种方法在各种任务领域具有更广泛的应用潜力。在这些特定领域展示的有效性表明,长思维链蒸馏对于提高其他需要复杂推理的认知任务的模型性能可能是有价值的。进一步探索这种方法在不同领域的应用仍然是未来研究的一个重要方向。
5.4.2 自奖励
奖励在强化学习中起着关键作用,指导优化过程。在可以通过外部工具轻松验证的领域,如某些编码或数学场景中,强化学习表现出卓越的效果。然而,在更一般的场景中,构建有效的反馈机制具有挑战性。自奖励是一种有潜力的解决方案,它使模型能够根据自己的输出评估奖励。在 DeepSeek-V3 中,我们探索了使用模型自身的预测作为奖励信号的一部分。初步实验表明,这种方法在某些任务中可以提高模型的性能,但也面临着一些问题,如奖励信号的一致性和稳定性。未来的研究需要更深入地探讨如何设计有效的自奖励策略,以提高模型在各种场景下的性能。
5.4.3 多 token 预测评估
尽管多 token 预测(MTP)在训练过程中显示出提高模型性能的潜力,但在评估方面仍存在挑战。传统的评估指标(如准确率、F1 值等)可能无法充分捕捉 MTP 对模型能力的影响。例如,MTP 可能使模型生成更连贯和准确的长文本,但这些改进可能不会直接反映在标准评估指标中。此外,MTP 的训练目标与实际应用中的推理场景之间存在差异,这也给评估带来了困难。我们需要开发新的评估方法,能够更好地衡量 MTP 对模型性能的影响,特别是在长文本生成和复杂任务处理方面。这将有助于更准确地评估模型的能力,并指导未来的模型改进。

更多技术内容

更多技术内容可参见
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】书籍。
更多的技术交流和探讨也欢迎加我个人微信chenjinglei66。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:深入浅出,逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战 视频教程【陈敬雷】
视频特色:把目前互联网热门、前沿的项目实战汇聚一堂,通过真实的项目实战课程,让你快速成为算法总监、架构师、技术负责人!包含了推荐系统、智能问答、人脸识别等前沿的精品课程,下面分别介绍各个实战项目:
1、推荐算法系统实战
听完此课,可以实现一个完整的推荐系统!下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目!
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程!
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向,从理论到源码实战、再到服务器操作给大家深度讲解!

自然语言处理NLP原理与实战 视频教程【陈敬雷】
视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

人工智能《分布式机器学习实战》 视频教程【陈敬雷】
视频特色:视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战(推荐算法系统实战、人脸识别实战、对话机器人实战)。

上一篇:DeepSeek大模型技术系列七》DeepSeek 突破!NSA——DeepSeek 原生稀疏注意力开启硬件适配与可训练新时代
下一篇:DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析:支撑万亿参数模型的幕后英雄

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐