OpenAI 的 o1 模型展示了,当大型语言模型(LLM)在推理时使用更多计算资源时,它们在解决数学、编程和逻辑推理任务时的表现会显著提高。然而,OpenAI 推理模型背后的训练方法一直是一个保密的内容。

DeepSeek-R1 是迄今为止第一个在表现上与 o1 相当甚至更好的开源推理模型(Reasoning LLM)。DeepSeek-R1 详细的技术报告,阐明了其训练方法的关键步骤。这个训练方法包含了几项创新,最引人注目的是应用纯强化学习(Reinforcement Learning,RL)来教导基础语言模型如何进行推理,而无需任何人工监督。如下图所示,如果你拥有一个强大的基础模型和高质量的数据混合,那么创建一个强大的推理模型现在变得非常简单:

DeepSeek-R1 training pipeline

HuggingFace 启动了一个系统性重建 DeepSeek-R1 数据和训练管道的计划的 Open-R1 项目,旨在验证 DeepSeek-R1 声称的效果,并推动开放推理模型的边界。通过构建 Open-R1,HuggingFace 希望提供透明的过程,展示强化学习如何增强推理能力,分享可复现的研究成果与开源社区,并为未来的模型利用这些技术奠定基础。

一、DeepSeek-R1 为什么这么强?

所有优秀的推理模型都是从一个强大的基础模型开始的,DeepSeek-R1 是基于 DeepSeek-V3 构建的推理模型。

DeepSeek-V3 是一款 671B 的专家混合(Mixture of Experts,MoE)模型,它在性能上与 Sonnet 3.5 和 GPT-4o 等重量级模型的表现相当。

通过多 token 预测(Multi Token Prediction,MTP)、多头潜在注意力(Multi-Head Latent Attention,MLA)这些架构上的改进和相当大量的硬件优化之后,使得其训练成本相当低。

DeepSeek 还推出了 DeepSeek-R1-Zero 和 DeepSeek-R1,它们采用了不同的训练方法。DeepSeek-R1-Zero 完全跳过了监督式微调,而是完全依赖强化学习,使用 Group Relative Policy Optimization(GRPO)来提高效率。一个简单的奖励系统被用来引导模型,基于答案的准确性和结构提供反馈。这种方法帮助模型发展出有用的推理技能,比如将问题分解成步骤,并验证自己的输出。然而,它的回答往往缺乏清晰度,且难以理解

这就是 DeepSeek-R1 的作用。它首先进入“冷启动”阶段,在一小部分精心设计的示例上进行微调,以提高清晰度和可读性。之后,它经历了更多的强化学习和精细化步骤,包括用基于人类偏好和可验证奖励的方式拒绝低质量的输出,最终打造出了一个不仅推理能力强大,还能生成精炼且一致答案的模型。

DeepSeek-V3 architecture

二、Open R1 补充 DeepSeek R1 缺失的部分

DeepSeek-R1 的发布对社区是一个巨大的福利,但他们并没有发布所有内容——虽然模型权重是开放的,但用于训练模型的数据集和代码却没有公开

Open-R1 的目标是构建这些最后缺失的部分,以便整个研究和行业社区可以使用这些方法和数据集构建类似或更好的模型。通过公开这一过程,社区中的每个人都可以做出贡献!

Open R1 列出了三步计划:

Open-R1 steps

  1. 通过从 DeepSeek-R1 中提炼出一个高质量的推理数据集来复现 R1-Distill 模型。

  2. 复现 DeepSeek 用于创建 R1-Zero 的纯强化学习流程。这将涉及为数学、推理和编程创建新的大规模数据集。

  3. 展示我们可以通过多阶段训练,从基础模型 → SFT → RL 的路径。

这些合成数据集将使每个人通过简单地在其上进行微调,将现有的或新的 LLM 模型调整为推理模型。涉及强化学习的训练方法将作为任何人从零开始构建类似模型的起点,并允许研究人员在此基础上构建更先进的方法。

三、阶段性成果:高质量 DeepSeek R1 数据集

现在 Open R1 公开了第一个用于数学推理的大规模数据集:OpenR1-Math-220k 的构建过程。

DeepSeek R1 的一个关键优势是能够通过蒸馏将先进的推理能力转移到较小的模型上。DeepSeek 团队通过生成 60 万个推理轨迹,并对一系列 Qwen 和 Llama 模型进行微调,展示了从 R1 直接蒸馏可以在没有强化学习的情况下实现竞争力的推理性能。值得注意的是,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 中达到了 55.5% 的成绩,超越了像 QwQ-32B-Preview 等更大模型。

然而,用于蒸馏的推理轨迹并未公开,这促使社区独立重新创建类似的数据集。到目前为止,社区已经发布了多个开源数据集,包括 OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1 和 LIMO。

OpenR1-Math-220k 是使用 512 个 H100 本地生成的一个大规模的数学推理数据集,其中每个问题包含多个答案。

OpenR1 数据集相较于现有数据集的新特点:

  • 80 万 R1 推理轨迹:使用 DeepSeek R1 为 40 万个问题生成了两个答案。过滤后的数据集包含 22 万个具有正确推理轨迹的问题。

  • 512 个 H100 本地运行:不依赖 API,而是利用 vLLM 和 SGLang 在 HuggingFace 的科学集群上本地运行生成,每天生成 18万 个推理轨迹。

  • 基于 NuminaMath 1.5:专注于数学推理轨迹,并为 NuminaMath 1.5 中的问题生成答案,这是 NuminaMath-CoT 数据集的改进版本。

  • 自动化过滤:应用 Math Verify,仅保留至少一个正确答案的问题,使用 Llama3.3-70B-Instruct 作为判断器,检索更多正确示例(例如,处理无法用基于规则的解析器验证的格式错误答案)。

  • 通过微调 Qwen-7B-Math-Instruct 匹配 DeepSeek-Distill-Qwen-7B 的表现:在这个数据集上对 Qwen-7B-Math-Instruct 进行微调,取得了匹配的效果。

Open R1 项目地址: https://github.com/huggingface/open-r1
数据生成的脚本: https://github.com/huggingface/open-r1/tree/main/slurm
未经过滤的数据集: https://huggingface.co/datasets/open-r1/OpenR1-Math-Raw


四、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

在这里插入图片描述

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐