清华学姐解读deepseek论文：「DeepSeek-R1：通过强化学习增强大语言模型推理能力的创新解析」

deepseek论文解读：近年来，大型语言模型（LLMs）在推理任务上的表现持续提升，但传统方法通常依赖监督微调（Supervised Fine-Tuning, SFT）和大规模标注数据。系列模型通过纯强化学习（Reinforcement Learning, RL）和多阶段训练，探索了一种无需监督数据即可提升推理能力的新范式。：首个通过纯强化学习（无需SFT）训练的模型，展示了RL在推理任务中的潜

兔零兔三兔顶会

3778人浏览 · 2025-02-06 10:43:50

兔零兔三兔顶会 · 2025-02-06 10:43:50 发布

在这里插入图片描述

一、论文概述

近年来，大型语言模型（LLMs）在推理任务上的表现持续提升，但传统方法通常依赖监督微调（Supervised Fine-Tuning, SFT）和大规模标注数据。DeepSeek-R1 系列模型通过纯强化学习（Reinforcement Learning, RL）和多阶段训练，探索了一种无需监督数据即可提升推理能力的新范式。论文核心贡献如下：

DeepSeek-R1-Zero：首个通过纯强化学习（无需SFT）训练的模型，展示了RL在推理任务中的潜力。
DeepSeek-R1：结合冷启动数据和多阶段训练，解决了可读性和语言混合问题，性能对标OpenAI的顶级模型。
知识蒸馏：将大模型的推理能力迁移到小模型，性能超越直接RL训练的小模型。
算法创新：提出改进的强化学习算法GRPO（Group Relative Policy Optimization），降低训练成本。

二、方法详解

1. DeepSeek-R1-Zero：纯强化学习训练

核心思想

无需监督数据：直接从基础模型（DeepSeek-V3-Base）出发，通过RL训练提升推理能力。
奖励设计：使用规则化的奖励系统，包括准确性奖励（基于答案正确性）和格式奖励（确保输出结构规范）。
自进化过程：模型通过RL自主发展出反思、验证等复杂推理行为。

训练模板

用户提问 → 模型思考（<think>标签内） → 最终答案（<answer>标签内）

通过结构化模板引导模型生成链式思考（Chain-of-Thought, CoT），但避免内容层面的干预。

在这里插入图片描述

2. DeepSeek-R1：多阶段优化

冷启动（Cold Start）

目的：解决DeepSeek-R1-Zero的可读性问题。
方法：收集少量高质量的CoT数据（数千条），对基础模型进行初步微调，作为RL训练的起点。

多阶段训练流程

冷启动微调：使用高质量CoT数据微调模型。
推理导向的RL：应用与DeepSeek-R1-Zero相同的RL算法，优化数学、代码等任务。
拒绝采样与SFT：从RL检查点生成新数据，结合其他领域数据（写作、事实问答等）进行监督微调。
全场景RL：结合多样化的奖励信号（帮助性、无害性）进行二次RL训练。

3. 知识蒸馏：小模型的逆袭

方法：使用DeepSeek-R1生成的80万条数据，直接对开源小模型（Qwen、Llama系列）进行监督微调。
效果：蒸馏后的小模型（如7B、14B）性能超越直接RL训练的同规模模型，甚至接近OpenAI的闭源模型。

三、公式解析

1. GRPO算法目标函数（式1）

论文提出Group Relative Policy Optimization (GRPO)，通过分组计算优势函数，避免使用独立的Critic模型，降低训练成本。

公式1：
[
\mathcal{J}{GRPO}(\theta) = \mathbb{E}\left[\frac{1}{G}\sum{i=1}^{G} \left( \min\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip}\left(\frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\varepsilon, 1+\varepsilon\right) A_i \right) - \beta \mathbb{D}{KL}(\pi{\theta} || \pi_{ref}) \right) \right]
]

符号解释：