DEEPSEEK的蒸馏步骤及“蒸馏学生“和“模型老师”的对比

大模型蒸馏损失了什么？参数量大幅减少（如缩减至原模型的 1/1000），体积更小（如从 100MB 压缩至 10MB），推理速度提升数倍（如提升 60%），可部署在手机、边缘设备甚至智能手表上，能耗仅为原模型的极小部分。例如，输入猫的图片，原大模型会输出各物种的概率分布（如猫 85%、狗 12%），蒸馏后模型通过学习这些分布理解类别间的相似性。参数量庞大（如千亿级），结构复杂，需顶级硬件（如多块

Wnq10072

1130人浏览 · 2025-03-19 13:05:45

Wnq10072 · 2025-03-19 13:05:45 发布

DeepSeek 的蒸馏技术通过系统化的流程将国外大模型（如 Llama 系列）的知识迁移至更小、更高效的模型，其核心步骤可概括为以下四个阶段：

1. 数据准备：生成高质量推理样本

教师模型生成数据：使用 DeepSeek 自研的大模型（如 DeepSeek-R1-671B）作为教师模型，生成包含详细推理过程的训练样本。例如，在数学题解答中，教师模型不仅输出答案，还会标注“先画辅助线，再用勾股定理”等逻辑步骤。
数据筛选与优化：从海量生成数据中精选高质量样本（如李飞飞案例中从58,000条数据筛选出1,000条），确保数据覆盖核心推理逻辑，并引入“预算强制”方法，控制思考过程的最小和最大长度，避免无效循环。

2. 模型选择：适配不同规模的学生模型

开源模型作为基础：选择目标学生模型架构（如 Llama、Qwen 等），覆盖从1.5B到70B的参数规模。例如，DeepSeek-R1-Distill-Llama-70B 基于 Llama-3.3-70B-Instruct 进行微调。
多参数规模适配：针对不同部署场景（如移动端、边缘计算），灵活选择学生模型的参数量，平衡性能与资源消耗。

3. 监督微调（SFT）：知识迁移的核心阶段

模仿教师输出分布：学生模型通过监督学习直接模仿教师模型的软标签（概率分布）和推理步骤。例如，在图像分类任务中，教师模型输出“猫的概率99%，狗的概率1%”，学生模型学习这种置信度分布。
强化逻辑链学习：重点训练学生模型对推理过程的复现能力。例如，在数学任务中，学生需模仿教师模型的解题逻辑（如“先分解方程，再代入验证”），而非仅记忆答案。

4. 性能评估与部署

基准测试验证：在开源评测集（如 LiveCodeBench、MATH-500）中对比蒸馏模型与原始模型的性能。例如，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 数学竞赛中达到55.5%的 Pass@1准确率，超越同类开源模型。
实际场景优化：根据部署环境（如智能手表、医疗诊断设备）调整模型参数，确保推理速度与精度的平衡。例如，通过蒸馏技术将模型参数量从671B压缩至7B，计算成本降低至50美元级别。

技术优势与创新点

低成本高效率：仅需少量精选数据（如1,000条）即可完成微调，算力成本低至50美元。
多模态扩展潜力：未来计划将蒸馏技术应用于图像、语音等多模态任务，提升跨领域推理能力。
开源生态支持：DeepSeek 已开源基于 Qwen2.5 和 Llama3 的多个蒸馏模型检查点，推动学术界与产业界复用技术成果。

通过上述步骤，DeepSeek 成功将大型模型的复杂推理能力“轻量化”，使其在资源受限场景中仍能保持高性能，这一技术路径已被验证可复现与 OpenAI 的 O1-Mini 相当的效果。

蒸馏得到的模型（通常指学生模型）与原大模型（教师模型）的区别主要体现在以下几个方面：

1. 模型规模与资源消耗

原大模型：
参数量庞大（如千亿级），结构复杂，需顶级硬件（如多块 A100 显卡）支持，运行成本高（高功耗、高电费），推理速度慢。
例如，GPT-4 运行一次的能耗相当于家庭一天用电量，而 DeepSeek R1 的满血版参数量达 671B。
蒸馏后模型：
参数量大幅减少（如缩减至原模型的 1/1000），体积更小（如从 100MB 压缩至 10MB），推理速度提升数倍（如提升 60%），可部署在手机、边缘设备甚至智能手表上，能耗仅为原模型的极小部分。

2. 知识来源与学习方式

原大模型：
直接从原始数据中学习，依赖大规模标注和无标注数据训练，通过复杂网络提取深层特征，具备更强的创造力和处理未知问题的能力。
蒸馏后模型：
主要通过模仿原大模型的 “软标签”（概率分布、中间层特征）学习，而非仅依赖硬标签（标准答案）。
例如，输入猫的图片，原大模型会输出各物种的概率分布（如猫 85%、狗 12%），蒸馏后模型通过学习这些分布理解类别间的相似性。

3. 性能表现

原大模型：
在复杂任务（如数学推理、多模态理解）中表现更优，具备更强的泛化能力和鲁棒性，能处理长尾数据和对抗噪声。
蒸馏后模型：
保留原模型的大部分性能（如 DistilBERT 保留 BERT 的 97% 能力），但在极端复杂任务或需要细节处理的场景中可能略有下降（如量子物理推理、意识流创作）。