DeepSeek 双引擎驱动知识蒸馏与强化学习，助力小模型 “逆袭” 大模型

【配套新书教材】《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。

陈敬雷-充电了么-CEO兼CTO

1113人浏览 · 2025-02-26 18:47:40

陈敬雷-充电了么-CEO兼CTO · 2025-02-26 18:47:40 发布

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】

文章目录

DeepSeek大模型技术系列八
- DeepSeek大模型技术系列八》DeepSeek 双引擎驱动知识蒸馏与强化学习，助力小模型 “逆袭” 大模型
- - 更多技术内容
总结

DeepSeek大模型技术系列八

DeepSeek大模型技术系列八》DeepSeek 双引擎驱动知识蒸馏与强化学习，助力小模型 “逆袭” 大模型

在大模型蓬勃发展的当下，如何高效提升小模型性能成为研究关键。本文聚焦于蒸馏与强化学习对模型性能的影响，深入探讨小模型性能提升路径。在先前研究中，通过蒸馏 DeepSeek - R1，小模型已取得优异成果。但模型能否仅依靠大规模强化学习在无蒸馏情况下达到类似性能仍有待探究。为此，我们以 Qwen - 32B - Base 为基础，运用数学、代码和 STEM 数据开展大规模强化学习训练，步数超 10000 步，得到 DeepSeek - R1 - Zero - Qwen - 32B 。实验结果表明，经大规模强化学习训练的 320 亿参数基础模型，性能与 QwQ - 32B - Preview 相近，然而从 DeepSeek - R1 蒸馏得到的 DeepSeek - R1 - Distill - Qwen - 32B 在所有基准测试中均显著优于 DeepSeek - R1 - Zero - Qwen - 32B。由此得出：一方面，将强模型知识蒸馏至小模型效果显著，而依赖大规模强化学习提升小模型性能，不仅需大量计算资源，还可能难以超越蒸馏的效果；另一方面，尽管蒸馏策略兼具经济性与有效性，但要实现智能的更大突破，强大基础模型与大规模强化学习或许依旧不可或缺。
在这里插入图片描述
表 6 | 蒸馏模型和强化学习模型在推理相关基准测试中的比较
通过蒸馏 DeepSeek-R1，小模型能取得令人瞩目的结果。然而，仍有一个问题：模型能否通过本文中讨论的大规模强化学习训练，在不进行蒸馏的情况下达到可比的性能？为了回答这个问题，我们使用数学、代码和 STEM 数据对 Qwen-32B-Base 进行大规模强化学习训练，训练步数超过 10000 步，得到 DeepSeek-R1-Zero-Qwen-32B。实验结果如表 6 所示，经过大规模强化学习训练的 320 亿参数基础模型，性能与 QwQ-32B-Preview 相当。然而，从 DeepSeek-R1 蒸馏得到的 DeepSeek-R1-Distill-Qwen-32B 在所有基准测试中的表现都明显优于 DeepSeek-R1-Zero-Qwen-32B。
因此，我们可以得出两个结论：第一，将更强的模型蒸馏到小模型中能产生出色的效果，而依赖本文中提到的大规模强化学习的小模型，需要巨大的计算资源，甚至可能无法达到蒸馏的性能。第二，虽然蒸馏策略既经济又有效，但要突破智能的边界，可能仍然需要更强大的基础模型和大规模强化学习。
接下来分享下知识蒸馏的技术原理。

在机器学习领域，知识蒸馏作为一种模型压缩技术，近年来受到了广泛关注。它主要用于将大型模型（即教师模型）蕴含的知识迁移到较小的模型（即学生模型）中，这种技术在深度学习范畴内意义重大，有助于在保证模型性能的同时，有效降低对计算资源的需求。当前，知识蒸馏涵盖多种类型，主要包括标准知识蒸馏、基于涌现能力的知识蒸馏、上下文学习蒸馏、思维链蒸馏以及指令遵循蒸馏。
1. 标准知识蒸馏
标准知识蒸馏（Standard KD）的核心目标，是促使学生模型学习大型语言模型（LLM）所具备的通用知识，比如输出分布和特征信息。这一方法与传统知识蒸馏思路相似，但不同之处在于其教师模型采用的是 LLM。像 MINILLM 和 GKD，就是该领域的典型代表。
MINILLM：MINILLM 专注于白盒生成 LLM 的蒸馏研究。在实践中，研究人员发现最小化前向 Kullback-Leibler 散度（KLD）存在一定问题，这可能会使学生模型在教师模型分布中不太可能出现的区域赋予过高概率，进而在自由生成样本时产生不合理的结果。为解决这一难题，MINILLM 选择最小化逆向 KLD。通过这种方式，能有效避免学生模型高估教师分布中的低概率区域，显著提升生成样本的质量。
GKD：GKD 主要探索自回归模型的蒸馏，白盒生成 LLM 是其中的一个子集。该方法在研究过程中明确了两个关键问题：一是训练期间模型的输出序列与学生模型在实际部署时生成的输出序列之间存在分布差异；二是模型可能存在表达能力不足的情况，即学生模型难以达到与教师模型分布相匹配的表达水平。针对这些问题，GKD 在训练过程中对学生的输出序列进行采样，以此缓解分布不匹配的问题；同时，通过优化逆向 KL 等替代散度，解决模型表达能力不足的难题。
2. 基于涌现能力的知识蒸馏
基于涌现能力的知识蒸馏（Based EA KD）的目标不仅局限于迁移 LLM 的常识性知识，还着重于提取和迁移其涌现能力。当 LLM 处理复杂任务时，会展现出一些令人惊喜的能力，这些能力被称为 “涌现能力”，主要涵盖上下文学习（ICL）、思维链（CoT）和指令遵循（IF）三个方面。
3. 上下文学习蒸馏
上下文学习蒸馏（ICL Distillation）的重点在于将 LLM 的上下文小样本学习能力以及语言建模功能迁移到较小的语言模型（SLM）中。实现这一目标的途径是将上下文学习目标与传统语言建模目标相结合。以 Meta-ICT 为例，该语言模型通过在不同任务中使用上下文学习目标进行元训练，从而具备了通过上下文学习适应未知任务的能力，极大地拓展了自身解决问题的范围。而 Multitask-ICT 则是利用 ICL 目标和目标任务中的部分示例对模型进行微调，之后借助上下文学习进行任务预测。
4. 思维链蒸馏
思维链蒸馏（CoT Distillation）借助 LLM 生成的解释内容，强化小型推理模型的训练过程。它运用多任务学习框架，让较小的模型不仅拥有强大的推理能力，还具备生成解释的能力。比如，Fine-tune CoT 通过随机采样的方式，从 LLM 生成多个推理解决方案，这种训练数据增强策略对学生模型的学习十分有益。Fu 等人在研究中发现了语言模型多维能力之间的权衡关系，并提出对指令调整模型进行微调的方法。他们从大型教师模型中提取思维链推理路径，以此提升模型在分布外的泛化能力。Hsieh 等人则利用 LLM 的论据，作为在多任务框架内训练较小模型的额外指导信息。SOCRATIC CoT 训练了两个蒸馏模型：问题分解器和子问题求解器，前者负责将原始问题拆解为一系列子问题，后者则专注于解决这些子问题。DISCO 提出了一种基于 LLM 的全自动反事实知识蒸馏方法，通过设计特定的提示，利用 LLM 生成短语扰动，再经任务特定的教师模型筛选，提取高质量的反事实数据。SCOTT 通过对比解码，从大型 LM（教师模型）获取支持标准答案的论据，促使教师模型生成仅在考虑答案时才更具可信度的 Token。为确保蒸馏的可靠性，利用教师生成的基本论据，以反事实推理为目标训练学生 LM，防止学生模型忽视基本论据而做出不一致的预测。
5. 指令遵循蒸馏
指令遵循蒸馏（IF Distillation）致力于提升语言模型仅依据任务描述执行新任务的能力，而无需依赖少量样本。通过使用一系列以指令形式呈现的任务进行微调，语言模型能够准确执行之前未接触过的指令所描述的任务。例如，Lion 充分利用 LLM 的高适应性特点，提升学生模型的性能。它引导 LLM 识别并生成 “hard” 指令，然后利用这些指令增强学生模型的能力，借助 LLM 的广泛用途特性，指导学生模型学习解决复杂指令和任务。
在大模型参数量不断攀升的当下，通过相对较小量级的模型蒸馏大模型知识这一研究方向显得愈发重要。随着技术持续进步，知识蒸馏有望在未来的机器学习和人工智能领域发挥更为关键的作用，为模型的优化和发展提供更多可能。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：本书从自然语言处理基础开始，逐步深入各种NLP热点前沿技术，使用了Java和Python两门语言精心编排了大量代码实例，契合公司实际工作场景技能，侧重实战。
全书共分为19章，详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型（Language Model）、分布式深度学习实战等内容，同时配套完整实战项目，例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践，深入浅出，知识点全面，通过阅读本书，读者不仅可以理解自然语言处理的知识，还能通过实战项目案例更好地将理论融入实际工作中。
《分布式机器学习实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】
新书特色：深入浅出，逐步讲解分布式机器学习的框架及应用配套个性化推荐算法系统、人脸识别、对话机器人等实战项目。

【配套视频】

推荐系统/智能问答/人脸识别实战视频教程【陈敬雷】
视频特色：把目前互联网热门、前沿的项目实战汇聚一堂，通过真实的项目实战课程，让你快速成为算法总监、架构师、技术负责人！包含了推荐系统、智能问答、人脸识别等前沿的精品课程，下面分别介绍各个实战项目：
1、推荐算法系统实战
听完此课，可以实现一个完整的推荐系统！下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目！
2、智能问答/对话机器人实战
由浅入深的给大家详细讲解对话机器人项目的原理以及代码实现、并在公司服务器上演示如何实际操作和部署的全过程！
3、人脸识别实战
从人脸识别原理、人脸识别应用场景、人脸检测与对齐、人脸识别比对、人脸年龄识别、人脸性别识别几个方向，从理论到源码实战、再到服务器操作给大家深度讲解！

自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

人工智能《分布式机器学习实战》视频教程【陈敬雷】
视频特色：视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战（推荐算法系统实战、人脸识别实战、对话机器人实战）。

上一篇：DeepSeek大模型技术系列七》DeepSeek 突破！NSA——DeepSeek 原生稀疏注意力开启硬件适配与可训练新时代
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置