写在前面:

最新破圈的大模型DeepSeek,其由由国内顶尖AI研究机构深度求索(DeepSeek)发布的大模型。涵盖架构创新(MoE设计)、训练范式(混合预训练)、能力增强(数学推理)等研究方向。其典型代表:DeepSeek-MoE(稀疏架构)、DeepSeek-R1(推理增强)。在DeepSeek技术演进路线中,包括基础架构优化(参数效率与训练稳定性)、知识注入策略(结构化知识图谱融合)、推理能力突破(本篇重点解析的R1核心贡献)。仅作为学习讨论。

哦,插一嘴,它的老东家是做私募量化的幻方量化,国内四大量化之一,国内少有的A100万卡集群厂商。

 

DeepSeek-R1 论文解读

1. 论文背景与动机

 论文地址DeepSeek-R1.pdf

近年来,大型语言模型(LLMs)在推理能力方面取得了显著进展,但如何进一步提升其推理能力仍然是一个挑战。以往的研究通常依赖于监督学习(SFT)来提升模型性能,但这种方法需要大量的标注数据,成本较高。因此,DeepSeek 团队提出了一种纯强化学习(RL)的方法来提升模型的推理能力。

先看看模型训练与当前主流模型的对比:

2. DeepSeek-R1-Zero:纯强化学习模型

DeepSeek-R1-Zero 是该研究的第一个模型,它完全通过强化学习训练,没有使用任何监督学习作为预处理步骤。这种方法的核心是让模型通过自我进化来发展推理能力

  • 强化学习算法:DeepSeek-R1-Zero 使用了 Group Relative Policy Optimization(GRPO)算法,该算法通过优化策略模型来提高模型的推理能力。

  • 奖励建模:奖励函数的设计是关键,它决定了模型在推理过程中如何被激励。DeepSeek-R1-Zero 的奖励函数旨在鼓励模型生成更准确、更合理的推理路径。

  • 性能表现:DeepSeek-R1-Zero 在多个推理基准测试中表现出色,例如在 AIME 2024 上的 Pass@1 分数从 15.6% 提升到 71.0%,接近 OpenAI-o1-0912 的性能。

接下来看看DeepSeek-R1-Zero 的训练性能:

DeepSeek-R1-Zero在训练期间的 AIME 准确性。对于每个问题,我们抽样 16 个回答并计算总体平均准确性,以确保评估稳定。

DeepSeek-R1-Zero 的自我进化过程:

自我进化过程展示了 RL 如何驱动模型自主提高其推理能力。通过直接从基础模型启动 RL,我们可以密切监控模型的进度,而不受监督微调阶段的影响。这种方法清楚地展示了模型如何随着时间的推移而演变,特别是在处理复杂推理任务的能力方面。

这种改进不是外部调整的结果,而是模型内部的内在发展。

DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然而然地获得了解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

这种自我进化最引人注目的方面之一是随着测试时间计算的增加而出现复杂的行为。诸如反射(模型重新审视和重新评估其先前步骤)等行为以及探索解决问题的替代方法等行为都会自发出现。这些行为没有被显式编程,而是作为模型与强化学习环境交互的结果而出现的。

这种自发开发显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够更高效、更准确地处理更具挑战性的任务。

然而,DeepSeek-R1-Zero 也存在一些问题,如可读性差和语言混合等。

3. DeepSeek-R1:改进后的模型

为了解决 DeepSeek-R1-Zero 的问题并进一步提升推理性能,DeepSeek 团队引入了 DeepSeek-R1。该模型通过多阶段训练和冷启动数据来优化推理能力。

  • 冷启动数据:在强化学习之前,使用少量的冷启动数据对基础模型进行微调,以解决语言混合等问题。

  • 推理导向的强化学习:在冷启动数据微调后,DeepSeek-R1 进行了推理导向的强化学习,进一步优化推理能力。

  • 拒绝采样和监督微调:在强化学习接近收敛时,通过拒绝采样生成新的监督数据,并结合其他领域的数据进行微调。

  • 多场景强化学习:最后,DeepSeek-R1 在所有场景的提示下进行强化学习,以确保模型在各种任务中都能表现出色。

4. 模型性能

DeepSeek-R1 在多个推理任务上取得了与 OpenAI-o1-1217 相当的性能。例如,在 AIME 2024 上,DeepSeek-R1 的 Pass@1 分数达到了 79.8%,略高于 OpenAI-o1-1217。此外,DeepSeek-R1 在编码任务上也表现出色,在 Codeforces 上的 Elo 评分达到了 2029,超越了 96.3% 的人类参赛者。

 DeepSeek-R1 与其他代表性模型的比较:

5. 模型蒸馏

DeepSeek 团队还将 DeepSeek-R1 的推理能力蒸馏到较小的密集模型中,这些模型在推理任务上的表现优于通过强化学习直接训练的小模型。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上的分数达到了 55.5%,超过了 QwQ-32B-Preview。

DeepSeek-R1 蒸馏模型与其他类似模型在推理相关基准上的比较。

6. 总结与未来工作


在本研究中,我们分享了通过强化学习提升模型推理能力的探索历程。DeepSeek-R1-Zero采用纯强化学习方案,无需依赖冷启动数据即在多项任务中均表现出色。DeepSeek-R1在此基础上进一步强化,通过冷启动数据与迭代式强化学习微调相结合的方式,最终在多项任务中达到与OpenAI-o1-1217相媲美的性能表现。

我们进一步探索了将推理能力蒸馏至小型密集模型的路径。通过使用DeepSeek-R1作为教师模型生成80万训练样本,并对多个小型密集模型进行微调,取得了显著成果:DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中表现优异(AIME 28.9%,MATH 83.9%),超越GPT-4o和Claude-3.5-Sonnet。其他密集模型同样展现出突破性表现,显著优于基于相同基础检查点的其他指令微调模型。

对于DeepSeek-R1的未来发展,我们计划重点推进以下研究方向:

• 通用能力提升:目前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演和JSON输出等任务中仍落后于DeepSeek-V3。未来我们将探索如何通过长思维链(CoT)机制增强这些领域的任务表现。

• 多语言混合问题:当前模型主要针对中英文优化,在处理其他语言查询时可能出现语言混杂现象(例如即使用非中英文提问,模型仍使用英文进行推理和回答)。我们计划在后续版本中解决这一局限性。

• 提示工程优化:评估发现DeepSeek-R1对提示词较为敏感,少样本提示(few-shot prompting)会显著影响性能。因此建议用户直接采用零样本(zero-shot)设置描述问题并指定输出格式以获得最佳效果。

• 软件工程任务优化:由于评估耗时较长影响强化学习效率,目前大规模强化学习在软件工程任务中应用有限,导致DeepSeek-R1在该类基准测试中较DeepSeek-V3提升幅度有限。未来版本计划通过在软件工程数据上实施拒绝采样(rejection sampling)或引入异步评估机制来提升训练效率。

总结

DeepSeek-R1 是一个具有里程碑意义的研究,它证明了通过纯强化学习可以显著提升大型语言模型的推理能力。该研究不仅为推理能力的提升提供了新的思路,还通过模型蒸馏将推理能力扩展到了较小的模型中,为未来的研究和应用提供了广阔的空间

本文深入解读了DeepSeek-R1系列论文,探讨其如何通过强化学习提升大型语言模型的推理能力。DeepSeek-R1-Zero作为纯强化学习模型,虽在推理任务中表现出色,但存在语言混合等问题。为解决此问题,DeepSeek-R1引入冷启动数据微调、多阶段强化学习及拒绝采样等改进策略,显著提升了模型的推理性能,其在AIME 2024等任务上的表现已接近甚至超越行业领先水平。此外,DeepSeek团队还将推理能力蒸馏至较小模型中,进一步拓展了推理能力的应用范围。尽管如此,DeepSeek-R1在非推理任务上仍有待提升,未来研究将聚焦于长推理链的优化及语言混合问题的解决,为推理能力的进一步发展提供新方向。

写在最后:

关于本地部署大模型,可参考小飞的此博客Ollama框架结合docker下的open-webui与AnythingLLM构建RAG知识库_anythingllm和open-webui如何结合-CSDN博客若对您有帮助,可点赞收藏加关注,后续会更新Deep Seek相关论文解读。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐