DeepSeek火爆背后的核心技术：模型压缩（知识蒸馏）

训练学生模型（相对参数较少、更为轻量级的小模型）。

程序员笑武

709人浏览 · 2025-02-19 20:58:19

程序员笑武 · 2025-02-19 20:58:19 发布

深度学习之所以取得巨大成功，主要归功于其能够处理大规模数据的编码以及操控数十亿个模型参数的能力。然而，将这些庞大的深度模型部署到资源有限的设备（如手机和嵌入式设备）上是一个挑战，这不仅因为计算复杂度高，还因为存储需求大。

为此，人们开发了各种模型压缩和加速技术。作为模型压缩和加速的一种代表性方法，知识蒸馏能够从大型教师模型中有效地学习一个小型学生模型。

DeepSeek火爆背后的核心技术之一便是模型压缩中的知识蒸馏技术。该技术通过有效地学习一个小型学生模型，使得大型深度模型能够在资源有限的设备上高效运行，并保持接近甚至超越原始模型的性能。

一、模型压缩（知识蒸馏）

为什么需要模型压缩（知识蒸馏）？大型深度神经网络在大数据场景下表现出色，但因其复杂性和高资源需求，在移动和嵌入式设备上部署面临挑战。

为解决此问题，模型压缩技术应运而生，其中知识蒸馏是重要方法。该方法由Bucilua等人（2006）率先提出，后由Hinton等人（2015）正式推广。

知识蒸馏的核心思想是让小型学生模型模仿大型教师模型，以达到或超越其性能。关键在于有效转移教师模型的知识到学生模型。

知识蒸馏包含哪些组件？知识蒸馏系统由三个关键组件组成，知识、蒸馏算法和教师-学生架构。知识蒸馏的一般教师-学生框架如图所示。

知识：教师模型学到的复杂模式和特征，表现为输出或中间层特征，将被传递给学生模型。
蒸馏算法：负责将教师模型的知识有效地转移到学生模型中。
教师-学生架构：包括一个复杂且性能优越的教师模型和一个结构相对简单的学生模型。教师模型负责提供知识，而学生模型则通过学习教师模型的输出来提升自身性能。

二、蒸馏算法

常用的蒸馏算法有哪些？常见的蒸馏算法包括基于响应的知识蒸馏（关注教师模型的最终预测结果）、基于特征的知识蒸馏（关注教师模型的中间层特征表示）以及基于关系的知识蒸馏（探索教师模型内部不同层或不同样本之间的关系）。

基于响应的知识蒸馏：通过模仿教师模型最后一层输出的神经响应（如软标签），将教师模型的知识有效转移到学生模型中的方法，特别适用于模型压缩，并广泛应用于不同任务，但局限于监督学习和最后一层输出的依赖。

基于特征的知识蒸馏：通过匹配教师模型和学生模型的中间层特征表示来传递知识，从而提升学生模型性能的方法，涉及多种特征匹配技术和蒸馏损失函数。

基于关系的知识蒸馏：通过探索和利用教师模型中不同层或数据样本之间的关系来传递知识，从而提升学生模型性能的方法。

DeepSeek如何应用知识蒸馏？DeepSeek应用基于响应的知识蒸馏进行知识的传递与迁移。它模仿教师模型（通常是参数众多、性能强大的大模型）的输出，以此来训练学生模型（相对参数较少、更为轻量级的小模型）。

为了更容易理解DeepSeek应用的基于响应的知识蒸馏，Hinton（深度学习之父，杰弗里·辛顿）2015年给出了一个基准模型，即标准的知识蒸馏模型，它结合了蒸馏损失和学生损失。

教师模型（Teacher Model）：已训练好的复杂模型，提供软目标（类概率），包含正则化约束和类间相似性信息（暗知识）。
学生模型（Student Model）：需要学习的轻量化模型，通过蒸馏训练获取教师模型的知识。
蒸馏算法（Distillation Algorithm）：学生模型模仿教师模型输出或中间层特征的机制，决定学生模型学习教师模型知识的程度。
损失函数（Loss Function）：学生损失，学生模型与真实标签之间的损失；蒸馏损失，学生模型与教师模型软目标之间的损失。两者共同作用于学生模型的训练过程。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述