DeepSeek-R1 蒸馏数据的生成

为了提高生成数据的可读性，研究人员设计了可读的输出格式，并在每个响应的末尾添加了总结部分，帮助用户快速理解推理结果。对于复杂的非推理任务（如写作或事实问答），研究人员调用DeepSeek-V3生成潜在的推理链，然后再生成最终答案。：数据集包括推理任务和非推理任务，涵盖了数学、编码、科学推理、逻辑推理、写作、事实问答、自我认知、翻译等多个领域。过滤掉不符合要求的输出，例如语言混合、长段落、代码块等，

just do it now

1420人浏览 · 2025-02-05 14:52:55

just do it now · 2025-02-05 14:52:55 发布

1. 推理数据的生成：

推理任务的选择：研究人员选择了多种推理任务，包括数学、编码、科学推理和逻辑推理等。这些任务通常具有明确的解决方案，适合通过规则进行验证。
拒绝采样（Rejection Sampling）：从DeepSeek-R1的强化学习（RL）检查点生成推理轨迹。具体步骤如下：
- 对于每个推理任务，研究人员生成多个模型输出（即多个推理轨迹）。
- 通过规则或生成式奖励模型（Generative Reward Model）来评估这些输出的正确性。规则奖励模型用于那些可以通过确定性规则验证的任务（如数学问题），而生成式奖励模型则用于更复杂的任务，通过将模型输出与真实答案进行比较来评估。
- 过滤掉不符合要求的输出，例如语言混合、长段落、代码块等，只保留正确的推理轨迹。
数据规模：最终，研究人员生成了约600,000个与推理相关的训练样本。

2. 非推理数据的生成：

非推理任务的选择：非推理任务包括写作、事实问答、自我认知、翻译等。这些任务不需要复杂的推理过程，但需要模型具备良好的语言理解和生成能力。
数据来源：研究人员使用了DeepSeek-V3的监督微调（SFT）数据集，并在此基础上生成潜在的推理链（Chain-of-Thought, CoT）来回答问题。
生成过程：
- 对于复杂的非推理任务（如写作或事实问答），研究人员调用DeepSeek-V3生成潜在的推理链，然后再生成最终答案。
- 对于简单的查询（如“你好”），研究人员不提供推理链，直接生成答案。
数据规模：最终，研究人员生成了约200,000个与非推理相关的训练样本。

3. 数据格式：

推理数据格式：推理数据的输出格式通常包括推理过程和最终答案。推理过程被包含在<think>和</think>标签中，而最终答案则包含在<answer>和</answer>标签中。这种格式有助于模型在生成答案时保持结构化的推理过程。
非推理数据格式：非推理数据的格式相对简单，通常直接生成答案，而不需要复杂的推理过程。

4. 数据过滤和后处理：

语言一致性：为了避免语言混合问题（如中英文混合），研究人员在生成数据时引入了语言一致性奖励，确保推理过程使用目标语言。
可读性：为了提高生成数据的可读性，研究人员设计了可读的输出格式，并在每个响应的末尾添加了总结部分，帮助用户快速理解推理结果。

5. 最终数据集：

总规模：推理数据和非推理数据的总和约为800,000个训练样本。
数据集组成：数据集包括推理任务和非推理任务，涵盖了数学、编码、科学推理、逻辑推理、写作、事实问答、自我认知、翻译等多个领域。

6. 数据的使用：

蒸馏训练：生成的800,000个样本被用于对小型模型进行监督微调（SFT），使其能够模仿DeepSeek-R1的推理能力。
评估：蒸馏后的小型模型在多个基准测试中表现出色，证明了数据生成过程的有效性。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

function call介绍和实现（以DeepSeek为例）

DeepSeek技术社区

cover

或许是全网最全的 DeepSeek 使用指南，90% 的人都不知道的使用技巧

DeepSeek技术社区

cover

最全面的DeepSeek提示词总结，轻松应对各个时期各个阶段的论文问题

DeepSeek技术社区

所有评论(0)

查看更多评论

just do it now

已为社区贡献4条内容