Open R1：全球最火爆的DeepSeek R1全开源复现项目（GitHub 19.5k星）

OpenAI 的 o1 模型展示了，当大型语言模型（LLM）在推理时使用更多计算资源时，它们在解决数学、编程和逻辑推理任务时的表现会显著提高。然而，OpenAI 推理模型背后的训练方法一直是一个保密的内容。DeepSeek-R1 是迄今为止第一个在表现上与 o1 相当甚至更好的开源推理模型（Reasoning LLM）。DeepSeek-R1 详细的技术报告，阐明了其训练方法的关键步骤。这个训练方

安卓老猴子

1557人浏览 · 2025-02-14 14:31:08

安卓老猴子 · 2025-02-14 14:31:08 发布

OpenAI 的 o1 模型展示了，当大型语言模型（LLM）在推理时使用更多计算资源时，它们在解决数学、编程和逻辑推理任务时的表现会显著提高。然而，OpenAI 推理模型背后的训练方法一直是一个保密的内容。

DeepSeek-R1 是迄今为止第一个在表现上与 o1 相当甚至更好的开源推理模型（Reasoning LLM）。DeepSeek-R1 详细的技术报告，阐明了其训练方法的关键步骤。这个训练方法包含了几项创新，最引人注目的是应用纯强化学习（Reinforcement Learning，RL）来教导基础语言模型如何进行推理，而无需任何人工监督。如下图所示，如果你拥有一个强大的基础模型和高质量的数据混合，那么创建一个强大的推理模型现在变得非常简单：

DeepSeek-R1 training pipeline

HuggingFace 启动了一个系统性重建 DeepSeek-R1 数据和训练管道的计划的 Open-R1 项目，旨在验证 DeepSeek-R1 声称的效果，并推动开放推理模型的边界。通过构建 Open-R1，HuggingFace 希望提供透明的过程，展示强化学习如何增强推理能力，分享可复现的研究成果与开源社区，并为未来的模型利用这些技术奠定基础。

一、DeepSeek-R1 为什么这么强？

所有优秀的推理模型都是从一个强大的基础模型开始的，DeepSeek-R1 是基于 DeepSeek-V3 构建的推理模型。

DeepSeek-V3 是一款 671B 的专家混合（Mixture of Experts，MoE）模型，它在性能上与 Sonnet 3.5 和 GPT-4o 等重量级模型的表现相当。

通过多 token 预测（Multi Token Prediction，MTP）、多头潜在注意力（Multi-Head Latent Attention，MLA）这些架构上的改进和相当大量的硬件优化之后，使得其训练成本相当低。

DeepSeek 还推出了 DeepSeek-R1-Zero 和 DeepSeek-R1，它们采用了不同的训练方法。DeepSeek-R1-Zero 完全跳过了监督式微调，而是完全依赖强化学习，使用 Group Relative Policy Optimization（GRPO）来提高效率。一个简单的奖励系统被用来引导模型，基于答案的准确性和结构提供反馈。这种方法帮助模型发展出有用的推理技能，比如将问题分解成步骤，并验证自己的输出。然而，它的回答往往缺乏清晰度，且难以理解。

这就是 DeepSeek-R1 的作用。它首先进入“冷启动”阶段，在一小部分精心设计的示例上进行微调，以提高清晰度和可读性。之后，它经历了更多的强化学习和精细化步骤，包括用基于人类偏好和可验证奖励的方式拒绝低质量的输出，最终打造出了一个不仅推理能力强大，还能生成精炼且一致答案的模型。

DeepSeek-V3 architecture

二、Open R1 补充 DeepSeek R1 缺失的部分

DeepSeek-R1 的发布对社区是一个巨大的福利，但他们并没有发布所有内容——虽然模型权重是开放的，但用于训练模型的数据集和代码却没有公开 。

Open-R1 的目标是构建这些最后缺失的部分，以便整个研究和行业社区可以使用这些方法和数据集构建类似或更好的模型。通过公开这一过程，社区中的每个人都可以做出贡献！

Open R1 列出了三步计划：

Open-R1 steps

通过从 DeepSeek-R1 中提炼出一个高质量的推理数据集来复现 R1-Distill 模型。
复现 DeepSeek 用于创建 R1-Zero 的纯强化学习流程。这将涉及为数学、推理和编程创建新的大规模数据集。
展示我们可以通过多阶段训练，从基础模型 → SFT → RL 的路径。

这些合成数据集将使每个人通过简单地在其上进行微调，将现有的或新的 LLM 模型调整为推理模型。涉及强化学习的训练方法将作为任何人从零开始构建类似模型的起点，并允许研究人员在此基础上构建更先进的方法。

三、阶段性成果：高质量 DeepSeek R1 数据集

现在 Open R1 公开了第一个用于数学推理的大规模数据集：OpenR1-Math-220k 的构建过程。

DeepSeek R1 的一个关键优势是能够通过蒸馏将先进的推理能力转移到较小的模型上。DeepSeek 团队通过生成 60 万个推理轨迹，并对一系列 Qwen 和 Llama 模型进行微调，展示了从 R1 直接蒸馏可以在没有强化学习的情况下实现竞争力的推理性能。值得注意的是，DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 中达到了 55.5% 的成绩，超越了像 QwQ-32B-Preview 等更大模型。

然而，用于蒸馏的推理轨迹并未公开，这促使社区独立重新创建类似的数据集。到目前为止，社区已经发布了多个开源数据集，包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。

OpenR1-Math-220k 是使用 512 个 H100 本地生成的一个大规模的数学推理数据集，其中每个问题包含多个答案。

OpenR1 数据集相较于现有数据集的新特点：

80 万 R1 推理轨迹：使用 DeepSeek R1 为 40 万个问题生成了两个答案。过滤后的数据集包含 22 万个具有正确推理轨迹的问题。
512 个 H100 本地运行：不依赖 API，而是利用 vLLM 和 SGLang 在 HuggingFace 的科学集群上本地运行生成，每天生成 18万个推理轨迹。
基于 NuminaMath 1.5：专注于数学推理轨迹，并为 NuminaMath 1.5 中的问题生成答案，这是 NuminaMath-CoT 数据集的改进版本。
自动化过滤：应用 Math Verify，仅保留至少一个正确答案的问题，使用 Llama3.3-70B-Instruct 作为判断器，检索更多正确示例（例如，处理无法用基于规则的解析器验证的格式错误答案）。
通过微调 Qwen-7B-Math-Instruct 匹配 DeepSeek-Distill-Qwen-7B 的表现：在这个数据集上对 Qwen-7B-Math-Instruct 进行微调，取得了匹配的效果。

Open R1 项目地址： https://github.com/huggingface/open-r1
数据生成的脚本： https://github.com/huggingface/open-r1/tree/main/slurm
未经过滤的数据集： https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw