DeepSeek-R1论文解读，附15篇浙大、清华、北大、厦大宝典最全合集免费下载，建议收藏！

如表5所示，通过直接蒸馏DeepSeek-R1的输出，高效的小模型DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，下文采用类似简称）即可全面超越GPT-4o-0513等非推理优化模型。值得注意的是，若对蒸馏模型施加强化学习（RL），性能可获进一步跃升。无需构建和维护高质量的 SFT 数据集，而是直接让模型在强化学习的环境中进行自我探索，通过与环境的互动，自主

若年封尘

1289人浏览 · 2025-03-20 20:19:46

若年封尘 · 2025-03-20 20:19:46 发布

DeekSeek资料合集：浙大两部+清华七部+北大三部+厦大三部

收集整理了近日网上各大高校对DeepSeek的解读资料，网盘免费下载：https://pan.quark.cn/s/007151613cd8#/list/share

背景

DeepSeek，全称“杭州深度求索人工智能基础技术研究有限公司”，成立于2023年7月。在硅谷，DeepSeek被称作“来自东方的神秘力量”、大模型届的“拼多多”。2025年1月20日，DeepSeek-R1 发布，性能对标 OpenAI o1 正式版，并同步开源模型权重。

DeepSeek-R1 新范式

本篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》正式推出了第一代推理模型DeepSeek-R1-Zero与DeepSeek-R1，开创强化学习加持下强推理慢思考范式新边界，证明了强化学习的潜力所在：

跳过了经典后训练阶段中的监督微调（SFT），完全依赖强化学习。
随着训练步骤增加，模型逐渐展现出长文本推理及长链推理能力。
随着推理路径增长，模型表现出自我修正和启发式搜索的能力。
为促进学术生态建设，论文完整开源DeepSeek-R1-Zero和DeepSeek-R1模型，并发布基于Qwen与Llama架构从DeepSeek-R1蒸馏获得的六个稠密模型（1.5B/7B/8B/14B/32B/70B）。

预训练、后训练、Scaling Laws

近年来，后训练已成为完整模型训练流程的重要组成部分。相较于预训练阶段，后训练以较低的计算资源成本，显著提升了模型在推理任务中的准确率，实现了社会价值对齐与用户偏好适配。在推理能力发展领域，OpenAI的o1系列模型首创了通过扩展思维链（CoT）推理长度实现推理时延展的创新方法，在数学推导、代码生成及科学推理等任务中实现了显著突破。
在这里插入图片描述
传统范式：预训练→监督微调→强化学习
DeepSeek-R1-Zero：超大规模预训练 → 纯强化学习突破
这种设计使模型在保持知识广度的同时，实现推理能力的阶跃式提升。

Scaling Laws：

Pre-Training Scaling Laws 预训练扩展律：在预训练模型上，计算量C和参数量N成一个类似于正比的关系，也就是算力（计算量）等于 6 倍的参数量N乘上数据量D。因此在大模型时代发展的初期，囤卡提升预训练的算力和模型参数变成了主要目标。
Pre-Training Scaling Laws 后训练扩展律：随着 OpenAI o1 的发布，也证明了在强化学习加持下后训练时代一个新的扩展律：随着模型在后训练阶段的训练时计算量和测试时计算量的提升，模型的性能特别是数学代码能力也会随之提升。那么在后训练扩展律下语言模型的训练时计算量多了一个新的变量，也就是在探索语言模型推理产生的计算量。
为什么我们需要后训练扩展律？其实早在 2022 年就有启发的认知，主要是出于两个原因：第一个是随着模型尺寸的逐渐增大，预训练阶段参数的扩展带来的边际收益开始逐步递减，如果想要深度提升模型的推理能力和长程问题的能力，基于强化学习的后训练将会成为下一个突破点；第二个也就是自回归模型在传统的像数学推理问题上很难进步，其中的关键一点就是没有办法进行回答的自主修正，那如果仅是依靠生成的方法和扩大参数的规模在数学和推理任务上带来的收益不会很大。所以我们迫切地需要额外的 Scaling Law。

自回归模型（如GPT系列）通常采用逐词生成的方式，即按顺序生成文本，且生成过程是单向的、不可逆的。例如，在解决数学问题时，模型需要逐步推导步骤，但一旦生成某个错误的中间步骤，后续生成的文本会基于错误的前提继续推导，导致错误累积，最终无法得到正确答案。

DeepSeek-R1-Zero 及 R1 技术剖析

DeepSeek-R1-Zero：基础模型上的强化学习

强化学习在推理任务中表现出了显著的有效性，这在之前的工作中已经得到了证明。然而，这些工作在很大程度上还是会依赖于监督数据，而监督数据的收集需要大量时间。

DeepSeek-R1 Zero 在没有任何监督数据的情况下运用大规模强化学习就实现了推理能力的大幅提升，在数学代码等问题上显著飞跃。并且在强化学习训练过程中自然涌现长文本推理能力，这其中的关键在于基于规则的奖励（基于一定的规则可以直接利用程序进行判断正误的奖励信号）和以推理为中心的大规模强化学习。
在这里插入图片描述

模型细节

强化学习算法

在传统的强化学习上进行了一些算法的细节优化，采用了组相对策略优化（GRPO），并且只瞄准了推理方面的专项任务。

GRPO（Group Relative Policy Optimization，组相对策略优化）是一种改进的强化学习算法，专为复杂推理任务设计。它通过分组机制优化策略更新过程，提升模型在高维动作空间中的训练效率和推理能力。

奖励建模

奖励是训练信号的来源，它决定着强化学习的优化方向。训练 DeepSeek-R1-Zero采用了主要包含两种类型奖励的基于规则的奖励系统。

准确率奖励：对于推理任务根据最后答案的正确率直接来判断这个任务是否成功完成。例如，对于结果确定的数学问题，模型需要以指定格式提供最终答案，从而实现可靠的基于规则的正确性验证。同样，对于 LeetCode 问题，编译器可根据预定义的测试用例生成反馈。
格式奖励：显式的去规劝模型的输出过程中必须包含思考的过程，强制模型将其思考过程放在 “” 和 “” 标记之间。
在开发 DeepSeek-R1-Zero 时，没有使用结果或过程奖励模型，因为基于神经网络的奖励模型都有可能遭受奖励攻陷的问题，导致模型陷入局部最优解，而且重新训练奖励模型需要额外的训练资源，会使整个训练流程复杂化。

训练模板

为了训练 DeepSeek-R1-Zero，设计了一个简单明了的模板，引导基础模型遵守指定的指令。如表1所示，该模板要求首先生成推理过程，然后生成最终答案。从而能够直接观察到在强化学习过程中最本质的表现。
在这里插入图片描述

模型性能、自我进化过程和顿悟时刻

模型性能
表2提供了DeepSeek-R1-Zero与OpenAI o1-0912模型在多个推理相关基准测试上的对比分析。研究结果表明，强化学习使DeepSeek-R1-Zero无需任何监督微调数据即可获得强大的推理能力。
自我进化过程

强化学习驱动：跳过监督微调，直接基于基础模型启动强化学习，通过环境交互自主优化推理能力。
动态思考优化：模型在训练中自然延长"思考时间"，通过生成数百至数千推理令牌，逐步完善复杂问题的解决路径。
自发行为涌现：随计算能力提升，自主发展出反思修正、路径探索等高阶能力，显著增强复杂任务处理效率。
本质突破：仅依靠强化学习信号与大规模计算，使模型在无外部干预下实现推理能力的持续进化。

“顿悟时刻”

在模型训练过程中有一个特别引人深思的现象——“顿悟时刻”。如表3所示，这个关键转折点出现在模型的中间版本阶段。在此阶段，DeepSeek-R1-Zero通过重新评估初始解题思路，学会了为问题分配更长的思考时间。这种行为不仅证明了模型推理能力的持续进化，更是强化学习能够催生意外突破性进展的生动例证。深刻揭示了强化学习的独特魅力：无需明确指导模型如何解决问题，只需提供恰当的激励机制，模型就能自主发展出高级解题策略。这一发现有力印证了强化学习在解锁人工智能系统新维度上的潜力，为未来开发更自主、更具适应性的模型开辟了新的可能性。
在这里插入图片描述

关键启示

在传统的大语言模型训练中监督微调通常被认为是不可或缺的一环，其逻辑是先用大量人工标注的数据来让模型初步掌握某种能力或回答范式，再利用强化学习进一步优化模型的性能。

然而 DeepSeek 却打破了这一传统，跳过了对于大规模人工标注数据的依赖。无需构建和维护高质量的 SFT 数据集，而是直接让模型在强化学习的环境中进行自我探索，通过与环境的互动，自主的去发现和学习解决复杂问题的能力，就好比一个初学者在没有老师的指导下通过不断的尝试和错误，来掌握一门新的技能。这种自主学习的方式，不仅节省了大量的标注成本，更重要的是它能让模型更加自由地探索解决问题的路径，而不是被预先设定的模式所束缚，这也使得模型最终具备了更加强大的泛化能力和适应能力。

为什么能跳过监督微调阶段直接运用纯强化学习？

足够强的基座模型：基座模型（DeepSeek-V3 Base）超过了某个质量和能力阈值（671B在14.8T高质量Token上训练）。
大规模强化学习加持：GRPO对于强化学习训练的优化。
规则化奖励：绕过奖励攻陷问题，但是得益于推理问题可以进行自动化标记和验证。

局限性

DeepSeek-R1 Zero的问题：长推理过程可读性差，语言混合，帮助性低。
那么能否在DeepSeek-R1 Zero的基础上，在兼顾推理性能的同时，提升模型的帮助性和安全性，例如能不能产生一些比较清晰且直接的推理过程，并且能够泛化到通用能力任务上的模型；以及能否利用一些高质量的反思数据去做冷启动，从而加速强化学习的收敛或者帮助提升推理表现。那么围绕这两个研究问题，应运而生了 DeepSeek-R1 这个模型。

DeepSeek-R1：基于冷启动的强化学习

DeepSeek-R1要解决的关键问题：

（1）通过引入少量高质量数据作为冷启动，能否进一步提升推理性能或加速收敛？

（2）如何训练出既具备清晰连贯的思维链（CoT）生成能力，又保持强大通用性的用户友好型模型？

为解决这些问题，论文设计了包含四个阶段的DeepSeek-R1训练流程：
在这里插入图片描述

首先基于 DeepSeek V3-base 产生了 DeepSeek R1-Zero 模型。
第一阶段是希望先增强 DeepSeek R1-Zero 的推理链的可读性，在这一阶段会利用一些冷启动的数据，这些数据里边包含了人类专家和模型所撰写的高质量的语言，符合语言格式的这样一些反思数据。
然后再以推理为中心的强化学习去进一步的去进行微调，从而获得一个相对推理链可读性更强的一个中间模型。
那么更进一步采用传统 RLHF 中的一些技术，比如说通过拒绝采样和全领域的监督微调。
在全领域的任务上进行强化学习的训练，比如对于推理任务可以使用规则奖励，而对于一些通用比如说聊天任务进行偏好建模，从而来在第二阶段去提升模型的通用能力和安全性，最终获得了 DeepSeek-R1 这样一个模型。

冷启动阶段

冷启动：指模型在训练初期缺乏足够的标注数据或先验知识时，通过特定策略快速建立基础能力的阶段。是连接预训练与强化学习的桥梁，通过最小成本建立任务感知能力。

与DeepSeek-R1-Zero直接从基础模型启动强化学习不同，为避免强化学习初期不稳定的影响，DeepSeek-R1通过构建并收集少量长思维链数据对模型进行微调，作为强化学习的起点。

这样引入一些人类的先验知识，同时去提升它推理链的语义连贯性和可读性，让模型获得一个最基本的能力。

推理导向的强化学习

这一阶段和 DeepSeek R1 Zero 的构建过程一致，使用以推理为中心的强化学习，通过增强大规模的训练过程来进一步提升冷启动后模型在代码、数学、科学和逻辑推理等领域的专项能力，这些任务通常具有明确的问题定义与标准解法。

与此同时，除了传统格式奖励之外，还引入了语言一致性奖励，用以解决 DeepSeek-R1 Zero 中思维链中可能会混合带有不同语言的问题。此外还有推理任务正确率奖励，通过 GRPO 模型也是能够在 AIME 这些数学基准上 Pass@1 的正确率有极大提升。

拒绝采样与监督微调

拒绝采样：通过筛选模型输出来提升生成质量与安全性的后处理技术，其核心思想是主动过滤不符合要求的生成结果。

当推理导向的强化学习收敛后，采用拒绝采样、监督微调以及全领域的强化学习来帮助模型去获得通用能力和安全性。与初期专注于推理的冷启动数据不同，这个阶段整合了其他领域数据以增强模型的写作、角色扮演等通用能力。

全领域强化学习

全领域强化学习这个阶段采用传统的奖励模型来建模人类的偏好和意图，进一步提升除了推理能力之外的帮助性和安全性。最终版本的 R1，其实不仅是在推理和对话任务上达到了高水平，还更具备更安全的交互性能。

关键启示

DeepSeek R1 也是自主涌现了像自验证，反思和长链推理能力。

自验证：模型在生成最终答案之前会主动的验证自己的中间推理步骤是不是正确的，就像是一个学生在做题的过程中会反复检查自己的解题过程来确保答案的准确性；
反思：模型会回溯检查自己之前的推理过程并根据检查的结果进行修正，相当于一个学生在复习的时候会反思自己之前的错误，以便下次不再犯同样的错误；
长链推理能力：让模型能够处理复杂，更需要多步骤思考的问题，这种能力对于解决一些需要跨越多个逻辑步骤，才能找到答案的问题至关重要，也有复杂的数学题或者逻辑谜题。
冷启动：让强化学习的训练更加稳定，比如加强它的收敛性，以及提高模型输出的可读性。

知识蒸馏：赋能小模型推理能力

为赋予小模型（如Qwen/Llama系列）DeepSeek-R1级别的推理能力，直接使用4.2.3所述80万样本进行微调。实验表明这种简洁的蒸馏方法显著提升了小模型的推理性能。基础模型选用Qwen2.5-Math-1.5B至32B系列及Llama-3.1-8B/Llama-3.3-70B-Instruct（优选推理更强的Llama-3.3）。尽管引入强化学习可进一步提升性能，但蒸馏模型仅采用监督微调，将强化学习的探索空间留给学界。

模型效果对比

DeepSeek-R1评估结果

在教育知识类基准（MMLU系列、GPQA Diamond）中，DeepSeek-R1相比V3版本展现显著优势，这主要归功于大规模强化学习（RL）带来的STEM问题准确率提升。在长文本QA任务FRAMES上的优异表现，验证了其强大的文档分析能力，彰显推理模型在智能搜索领域的潜力。

事实类基准SimpleQA测试中，DeepSeek-R1超越V3版本，与OpenAI-o1优于GPT-4o的趋势一致。但在中文版C-SimpleQA上，由于安全强化学习导致的应答回避倾向，性能略低于V3（关闭安全RL后准确率可超70%）。

在格式指令遵循测试IF-Eval中，DeepSeek-R1的突破性表现得益于监督微调（SFT）和RL阶段注入的指令遵循数据。AlpacaEval2.0和ArenaHard测试显示，该模型在写作和开放域问答方面具有显著优势（平均输出长度分别为689 tokens和2,218字符），证明大规模RL不仅增强推理能力，还提升跨领域泛化性能。

数学任务表现与OpenAI-o1-1217持平，显著领先其他模型。编程算法类基准（LiveCodeBench、Codeforces）同样由推理优化模型主导。在工程类编程任务中，OpenAI-o1-1217在Aider上占优，但双方在SWE Verified表现相当。我们预计下个版本将增加相关RL训练数据以提升工程能力。
在这里插入图片描述

蒸馏模型评估结果

如表5所示，通过直接蒸馏DeepSeek-R1的输出，高效的小模型DeepSeek-R1-7B（即DeepSeek-R1-Distill-Qwen-7B，下文采用类似简称）即可全面超越GPT-4o-0513等非推理优化模型。DeepSeek-R1-14B在全部指标上超越QwQ-32B-Preview，而DeepSeek-R1-32B和DeepSeek-R1-70B在多数基准测试中显著优于o1-mini。这些结果印证了知识蒸馏技术的强大潜力。值得注意的是，若对蒸馏模型施加强化学习（RL），性能可获进一步跃升。但为突出蒸馏本身的效果，本文仅展示基础SFT蒸馏模型的实验结果。
在这里插入图片描述

知识蒸馏 vs 强化学习

实验表明，通过蒸馏DeepSeek-R1可使小模型取得卓越性能。但遗留一个关键问题：若不采用蒸馏，仅依赖论文所述的大规模RL训练，能否使模型达到可比性能？
在这里插入图片描述
为解答此问题，论文对Qwen-32B-Base进行数学、编程与STEM领域的大规模RL训练（超10,000步），得到DeepSeek-R1-Zero-Qwen-32B。表6显示，经大规模RL训练的32B基础模型性能与QwQ-32B-Preview持平，而通过蒸馏DeepSeek-R1获得的DeepSeek-R1-Distill-Qwen-32B则在所有基准上显著优于前者。由此可得以下结论：

知识蒸馏优势：通过蒸馏强模型赋能小模型效果显著，而依赖纯RL训练的小模型需消耗海量算力且难以匹敌蒸馏效果；
技术路径选择：尽管蒸馏策略经济高效，但突破智能边界仍需更强基础模型与更大规模RL支持。

结论、局限性与未来工作

本研究系统阐述了通过强化学习（RL）提升模型推理能力的完整技术路径。DeepSeek-R1-Zero作为纯RL驱动方案（无需冷启动数据支撑），在多任务场景中展现出强劲性能；而融合冷启动数据与迭代式RL微调的DeepSeek-R1则实现更高突破，在多项任务上达到与OpenAI-o1-1217相当的基准水平。

论文进一步探索了推理能力向小型密集模型的迁移：以DeepSeek-R1作为教师模型生成80万训练样本，对多个小模型进行微调。实验成果显著：

DeepSeek-R1-Distill-Qwen-1.5B在数学基准测试中全面超越GPT-4o与Claude-3.5-Sonnet（AIME得分28.9%，MATH得分83.9%）
其他蒸馏模型相较同参数规模的指令微调模型亦展现出显著优势。

论文未来计划围绕以下方向深化研究：

通用能力：
当前DeepSeek-R1在函数调用、多轮对话、复杂角色扮演及JSON输出等场景性能不及DeepSeek-V3。下一步将探索引入长思维链（CoT）增强此类任务表现。
多语言混杂问题：
现版本主要优化中英文场景，处理其他语言查询时可能出现推理与响应语言不匹配现象（如使用英语回应非中英文问题），后续版本将针对性改进。
提示工程敏感性：
评估发现模型对提示词设计敏感，少样本提示易导致性能下降。建议用户直接采用零样本设置描述问题并明确输出格式以获得最优结果。