【论文蒸馏】DeepSeek_Math 总结

DeepSeekMath论文核心内容，包括DeepseekMath数据集的构建，模型预训练与后训练，以及关于强化学习的思考

Greener Pat · 2025-04-08 09:49:47 发布

LLM在定量推理和集合推理领域取得了长足进展，但是最先进的未开源
退出DeepSeek_Math，以及配套的高质量语料库(多语言)。
- 初始阶段，fastText分类器用OpenWebMath做正例，其他网页作负例训练。之后后通过Common Crawl挖掘更多正例，再人工优化。
- 初始模型使用Code模型比通用LLM要好，与训练之后再用CoT, PoT, 工具集成推理等方法进行微调
- 提出GRPO，即PPO的变体算法
summary
- 大规模数学预训练
  - 从CC数据中找到了大量可用于数学与训练的数据
  - 开源模型7B同阶无敌，跨阶(70B)五五开，说明模型能力和数据训练质量相关
  - 证明数学训练之前用代码训练能提高数学推理能力
- 强化学习分析探索
  - GRPO, 组相对优化，省去了评估模型，与PPO相比训练资源消耗更少

从种子语料库中随机选择 50 万个数据点作为正训练示例，从 Common Crawl 中选择另外 50 万个网页作为负训练示例，训练fastText
在第一次数据收集迭代之后，仍有许多数学网页未被收集，主要是因为 fastText 模型是在一组多样性不足的正例上进行训练的。于是添加额外的数学网页来源，得到了总计120B的token.
为了避免“基准污染”(训练数据中混入了与测试数据高度相同的样本)，过滤了英语/中文数学基准及其相似的网页

训练集包括 56%(DeepSeekMath语料库) + 4%(AlgebraicStack) + 10%(Arxiv) + 20%(Github)
表现评估
1. 分布数学推理问题 - 使用few-shot CoT提示技术，相比于开源模型遥遥领先
2. 使用工具的数学问题求解 - 使用few-shot PoT提示技术(Python)，保持领先，面对Llemma34B 不落下风
3. 形式化数学(使用精确的数学语言表达对象，确保严谨性和可验证性) - 除了MMLU(大规模多任务语言理解，评估LLM在广泛学科领域中的知识和推理能力)以外都领先

每一个问题都配有CoT, PoT和工具集成推理格式的解决方案

相对于开源模型都保持领先，即使对方具有更大的参数量

PPO(近端策略优化)

$πθ\pi_\theta$ 和 $KaTeX parse error: Double subscript at position 11: \pi_\theta_̲{old}$ 是当前策略模型和旧模型，q, o是问题数据集和就策略生成出的问答对， $ϵ\epsilon$ 用于截断， $A_t$ 是基于广义有时估计得到的优势函数

如图可见，优势函数的计算需要价值模型的参与，也需要同时训练价值模型和策略模型，且两者大小接近。(注：参考模型的存在是为了计算新旧模型之间的KL散度，防止过度优化)
GPRO(群体相对策略优化)

事实上，LLM场景中通常只有最后⼀个标记会被反馈奖励，导致难以训练出对每个标记都精确的价值函数。所以提出GRPO，不引入价值函数，而是通过同一问题的多个采样输出平均奖励作为基线，计算优势函数 $Ai,t=ri−mean(r)std(r)A_{i,t} = \frac{r_i - mean(r)}{std(r)}$
结果监督(仅在每次输出结束时提供奖励)对于复杂数学任务不够充分，所以探索了过程监督，即每个推理步结束时提供奖励。
迭代强化学习
- 随着强化学习训练过程的推进，旧奖励模型可能不⾜以监督当前策略模型。在迭代GRPO中，根据策略模型采样结果⽣成新的奖励模型训练集，并通过融合历史数据的回放机制持续训练旧奖励模型。