DeepSeek-R1 蒸馏数据的生成
为了提高生成数据的可读性,研究人员设计了可读的输出格式,并在每个响应的末尾添加了总结部分,帮助用户快速理解推理结果。对于复杂的非推理任务(如写作或事实问答),研究人员调用DeepSeek-V3生成潜在的推理链,然后再生成最终答案。:数据集包括推理任务和非推理任务,涵盖了数学、编码、科学推理、逻辑推理、写作、事实问答、自我认知、翻译等多个领域。过滤掉不符合要求的输出,例如语言混合、长段落、代码块等,
1. 推理数据的生成:
-
推理任务的选择:研究人员选择了多种推理任务,包括数学、编码、科学推理和逻辑推理等。这些任务通常具有明确的解决方案,适合通过规则进行验证。
-
拒绝采样(Rejection Sampling):从DeepSeek-R1的强化学习(RL)检查点生成推理轨迹。具体步骤如下:
-
对于每个推理任务,研究人员生成多个模型输出(即多个推理轨迹)。
-
通过规则或生成式奖励模型(Generative Reward Model)来评估这些输出的正确性。规则奖励模型用于那些可以通过确定性规则验证的任务(如数学问题),而生成式奖励模型则用于更复杂的任务,通过将模型输出与真实答案进行比较来评估。
-
过滤掉不符合要求的输出,例如语言混合、长段落、代码块等,只保留正确的推理轨迹。
-
-
数据规模:最终,研究人员生成了约600,000个与推理相关的训练样本。
2. 非推理数据的生成:
-
非推理任务的选择:非推理任务包括写作、事实问答、自我认知、翻译等。这些任务不需要复杂的推理过程,但需要模型具备良好的语言理解和生成能力。
-
数据来源:研究人员使用了DeepSeek-V3的监督微调(SFT)数据集,并在此基础上生成潜在的推理链(Chain-of-Thought, CoT)来回答问题。
-
生成过程:
-
对于复杂的非推理任务(如写作或事实问答),研究人员调用DeepSeek-V3生成潜在的推理链,然后再生成最终答案。
-
对于简单的查询(如“你好”),研究人员不提供推理链,直接生成答案。
-
-
数据规模:最终,研究人员生成了约200,000个与非推理相关的训练样本。
3. 数据格式:
-
推理数据格式:推理数据的输出格式通常包括推理过程和最终答案。推理过程被包含在
<think>
和</think>
标签中,而最终答案则包含在<answer>
和</answer>
标签中。这种格式有助于模型在生成答案时保持结构化的推理过程。 -
非推理数据格式:非推理数据的格式相对简单,通常直接生成答案,而不需要复杂的推理过程。
4. 数据过滤和后处理:
-
语言一致性:为了避免语言混合问题(如中英文混合),研究人员在生成数据时引入了语言一致性奖励,确保推理过程使用目标语言。
-
可读性:为了提高生成数据的可读性,研究人员设计了可读的输出格式,并在每个响应的末尾添加了总结部分,帮助用户快速理解推理结果。
5. 最终数据集:
-
总规模:推理数据和非推理数据的总和约为800,000个训练样本。
-
数据集组成:数据集包括推理任务和非推理任务,涵盖了数学、编码、科学推理、逻辑推理、写作、事实问答、自我认知、翻译等多个领域。
6. 数据的使用:
-
蒸馏训练:生成的800,000个样本被用于对小型模型进行监督微调(SFT),使其能够模仿DeepSeek-R1的推理能力。
-
评估:蒸馏后的小型模型在多个基准测试中表现出色,证明了数据生成过程的有效性。
更多推荐
所有评论(0)