被 DeepSeek 带火的蒸馏到底是啥？

近期，DeepSeek 的发布在开源社区引起了广泛关注。成功再次将人们的目光聚焦到了模型蒸馏技术上来。那么，究竟什么是模型蒸馏？为什么它能帮助我们构建如此高效的模型？让我们一起深入探讨这个话题。LLM Distillation 将大型生成模型定位为 “teacher”，将较小的模型定位为 “student”。student 模型可以是简单的模型（如 logistic regression）或基础模

和老莫一起学AI

1159人浏览 · 2025-02-07 10:24:05

和老莫一起学AI · 2025-02-07 10:24:05 发布

近期，DeepSeek 的发布在开源社区引起了广泛关注。成功再次将人们的目光聚焦到了模型蒸馏技术上来。那么，究竟什么是模型蒸馏？为什么它能帮助我们构建如此高效的模型？让我们一起深入探讨这个话题。

LLM Distillation 将大型生成模型定位为 “teacher”，将较小的模型定位为 “student”。student 模型可以是简单的模型（如 logistic regression）或基础模型（如 BERT）。在最基本的 distillation 版本中，数据科学家从未标记的数据开始，并要求对其进行LLM标记。然后，数据科学家使用合成标记的数据来训练“student”模型，该模型将反映“teacher”模型在原始数据集定义的任务上的表现。

数据科学家还可以使用蒸馏来微调较小的生成模型。在这种情况下，他们将向 “teacher” 模型提示提供并捕获响应作为 “student” 的训练目标。

为什么要使用LLM蒸馏法？

LLMs与 GPT-4 一样，Gemini 和 Llama 展示了令人难以置信的能力，但也存在明显的缺点：

• 成本。数十亿个参数LLMs的托管成本很高，通过 API 访问的成本更高。
• 速度。由于所需的计算数量，full-size LLMs 可能会很慢。
• 基础设施难题。托管最大可用LLMs版本的私有版本意味着需要整理和协调大量资源。

通过提炼 LLM，数据科学团队可以构建更易于托管、运行成本更低且响应速度更快的衍生模型。

蒸馏的LLM缺点是什么？

虽然蒸馏是一个强大的捷径，LLM但它并不是训练新模型的万灵药。该技术面临四个主要挑战：

• 学生受到老师的限制。在最简单的蒸馏版本中，“学生”模型将反映“老师”模型的性能。面对专业任务的广义通常LLMs达不到生产级的准确性。
• 您仍然需要大量未标记的数据。这将LLM为您创建标签，但由于多种原因，源数据可能供不应求。
• 您可能不被允许使用未标记的数据。对于被限制使用客户数据的组织，这可能会带来真正的障碍。
• 您可以使用的内容LLMs可能会受到限制。虽然对于分类任务来说不是问题，但许多 LLM API 的服务条款禁止用户使用其LLMs输出来训练可能具有竞争力的生成模型。

知识蒸馏的基本原理

知识蒸馏本质上是一种模型压缩的方法，其核心思想是利用一个大模型（教师模型）来指导小模型（学生模型）的训练。在这个过程中，小模型不仅要学习训练数据中的硬标签，还要学习大模型输出的软标签（概率分布）。这个过程可以用以下数学公式来表示：

其中：

这里：

• 是温度参数，用于控制软标签的"软"程度
• 和分别是教师模型和学生模型的logits
• 是平衡软标签和硬标签的权重
• 是真实标签

• 是平衡软标签和硬标签的权重• 是真实标签

主流的蒸馏方法及其特点

1. 响应蒸馏 (Response Distillation)

这是最基础的蒸馏方法，主要用于处理分类任务。在这种方法中，我们直接使用教师模型的输出作为学生模型的训练目标。以BERT模型家族为例，DistilBERT就是使用这种方法，将原始BERT模型压缩到原来大小的40%，同时保持了97%的性能。

具体实现步骤：

1. 使用教师模型对大量未标注数据进行预测
2. 收集教师模型的输出概率分布
3. 训练学生模型来模拟这些概率分布

适用场景：

• 分类任务
• 序列标注任务
• 文本匹配任务

在这里插入图片描述

2. 特征蒸馏 (Feature Distillation)

特征蒸馏不仅关注模型的最终输出，还会学习教师模型中间层的特征表示。这种方法的数学表达式为：

其中：

• 和分别表示教师和学生模型第l层的特征
• 是选择用于蒸馏的层的集合
• 是均方误差损失

TinyBERT就是采用这种方法的典型代表，它不仅学习BERT的输出层，还学习了注意力矩阵和隐层状态。

在这里插入图片描述

3. 逐步蒸馏 (Progressive Distillation)

逐步蒸馏是一种较新的方法，它将蒸馏过程分解为多个步骤。每个步骤都专注于特定的任务或能力的转移。这种方法的优势在于可以更好地保持复杂任务的性能。

以最近的MinLLM为例，它采用了以下策略：

1. 首先学习教师模型的基础语言理解能力
2. 然后逐步学习更复杂的任务相关能力
3. 最后微调特定任务的性能

在这里插入图片描述

蒸馏方法的详细对比

在这里插入图片描述

实践中的关键考虑因素

数据选择

数据质量和数量对蒸馏效果有着决定性影响。在实践中，我们需要考虑：

1. 数据的分布是否覆盖目标任务空间
2. 数据的质量如何保证
3. 数据量的大小如何确定

架构设计

学生模型的架构设计需要权衡多个因素：

1. 模型容量：需要足够大以捕获必要的知识，但又要满足资源约束
2. 层次映射：如何将教师模型的层映射到学生模型
3. 注意力机制：是否需要特殊的注意力结构

训练策略

有效的训练策略通常包括：

1. 使用动态温度参数
2. 采用渐进式训练方案
3. 结合多任务学习

技术发展趋势

当前，知识蒸馏技术正在向以下几个方向发展：

1. 多教师蒸馏：利用多个专家模型的知识
2. 自蒸馏：模型作为自己的教师
3. 在线蒸馏：边训练边蒸馏

这些新方向都在尝试解决现有蒸馏方法的局限性，提供更有效的知识转移机制。

零基础如何学习AI大模型

领取方式在文末

为什么要学习大模型？

学习大模型课程的重要性在于它能够极大地促进个人在人工智能领域的专业发展。大模型技术，如自然语言处理和图像识别，正在推动着人工智能的新发展阶段。通过学习大模型课程，可以掌握设计和实现基于大模型的应用系统所需的基本原理和技术，从而提升自己在数据处理、分析和决策制定方面的能力。此外，大模型技术在多个行业中的应用日益增加，掌握这一技术将有助于提高就业竞争力，并为未来的创新创业提供坚实的基础。

大模型典型应用场景

①AI+教育：智能教学助手和自动评分系统使个性化教育成为可能。通过AI分析学生的学习数据，提供量身定制的学习方案，提高学习效果。
②AI+医疗：智能诊断系统和个性化医疗方案让医疗服务更加精准高效。AI可以分析医学影像，辅助医生进行早期诊断，同时根据患者数据制定个性化治疗方案。
③AI+金融：智能投顾和风险管理系统帮助投资者做出更明智的决策，并实时监控金融市场，识别潜在风险。
④AI+制造：智能制造和自动化工厂提高了生产效率和质量。通过AI技术，工厂可以实现设备预测性维护，减少停机时间。
…
这些案例表明，学习大模型课程不仅能够提升个人技能，还能为企业带来实际效益，推动行业创新发展。