DeepSeek-R1 技术报告

DeepSeek-R1 是 DeepSeek 团队推出的第一代专注推理能力的大语言模型系列，包含两个核心模型：DeepSeek-R1-Zero 和 DeepSeek-R1。两者的核心差异在于训练流程设计：(1) 纯强化学习驱动的推理涌现DeepSeek-R1-Zero 的突破性在于验证了无需 SFT 的 RL 路径：(2) 冷启动与多阶段训练策略为解决 R1-Zero 的缺陷，R1 引入四阶段流

泰山掌门

1942人浏览 · 2025-02-04 19:16:36

泰山掌门 · 2025-02-04 19:16:36 发布

DeepSeek-R1 技术报告：通过强化学习激发大语言模型的推理能力

1. 模型概述

DeepSeek-R1 是 DeepSeek 团队推出的第一代专注推理能力的大语言模型系列，包含两个核心模型：DeepSeek-R1-Zero 和 DeepSeek-R1。两者的核心差异在于训练流程设计：

DeepSeek-R1-Zero：完全摒弃传统的监督微调（SFT），直接通过大规模强化学习（RL）从基础模型（DeepSeek-V3-Base）训练，展示了纯 RL 驱动的推理能力涌现现象，但存在可读性差、语言混合等问题。
DeepSeek-R1：在 R1-Zero 基础上，引入少量冷启动数据（数千样本）和多阶段训练（SFT + RL），显著优化了输出质量，推理性能与 OpenAI-o1-1217 相当。
此外，团队还开源了基于 Qwen 和 Llama 架构的 6 个蒸馏小模型（1.5B 至 70B），其性能超越同类开源模型，甚至接近 OpenAI-o1-mini。

2. 核心技术创新

(1) 纯强化学习驱动的推理涌现
DeepSeek-R1-Zero 的突破性在于验证了 无需 SFT 的 RL 路径：

采用 GRPO（Group Relative Policy Optimization） 算法，显著降低 RL 训练成本。
奖励机制设计为 准确性奖励（如数学答案匹配、代码执行验证）与 格式奖励（标准化思维链结构）结合，激发模型生成长链推理和自验证行为。
训练过程中观察到 “顿悟时刻”（Aha Moment），模型在中间版本突然学会为复杂问题分配更多思考步骤，展现了 RL 驱动的自主进化潜力。

(2) 冷启动与多阶段训练策略
为解决 R1-Zero 的缺陷，R1 引入四阶段流程：

冷启动 SFT：人工筛选数千条高质量思维链数据，提升可读性。
推理场景 RL：在数学、代码任务中复用 R1-Zero 的 RL 框架，新增语言一致性奖励以抑制混合输出。
拒绝采样与通用 SFT：结合 RL 生成的数据和通用任务数据（总计 80 万样本），平衡推理与通用能力。
全场景 RL：针对不同任务类型动态调整奖励策略，最终实现性能与用户体验的平衡。

(3) 高效蒸馏技术
通过将 R1 的推理数据蒸馏至小模型，团队发现：

直接蒸馏的性价比远高于对小模型单独进行 RL，例如 7B 模型在数学任务（AIME 2024）中达到 55.5% 的 Pass@1，超越 32B 级开源模型。
蒸馏模型在代码竞赛（Codeforces）中表现优异，32B 模型评级达 1691，接近人类顶尖选手水平。

3. 性能评估

任务类别	Benchmark	DeepSeek-R1	OpenAI-o1-1217	对比模型（如 GPT-4o）
数学推理	AIME 2024 (Pass@1)	79.8%	79.2%	GPT-4o: 9.3%
	MATH-500 (Pass@1)	97.3%	96.4%	Claude-3.5: 78.3%
代码生成	Codeforces 评级	2029 Elo	2061 Elo	GPT-4o: 759 Elo
	LiveCodeBench	65.9%	63.4%	QwQ-32B: 41.9%
知识问答	MMLU (Pass@1)	90.8%	91.8%	DeepSeek-V3: 88.5%
通用能力	AlpacaEval 2.0	87.6%	-	GPT-4o: 51.1%

4. 开源生态与行业影响

开源策略：公开模型参数、训练框架（GRPO）及蒸馏流程，但未完全开放训练数据。尽管如此，已有多个高校团队成功复现模型，Meta 等企业亦紧急成立研究小组分析其技术细节。
成本优势：官方估算训练成本约 100 万至 220 万美元（含 100B Token 处理），显著低于同类模型（如 OpenAI-o1 的预训练成本）。
应用场景：通过腾讯云平台 3 分钟快速部署，赋能企业级客服、代码生成、科学计算等场景，降低中小开发者使用门槛。