1. Introduction

  • LLM在定量推理和集合推理领域取得了长足进展,但是最先进的未开源
  • 退出DeepSeek_Math,以及配套的高质量语料库(多语言)。
    • 初始阶段,fastText分类器用OpenWebMath做正例,其他网页作负例训练。之后后通过Common Crawl挖掘更多正例,再人工优化。
    • 初始模型使用Code模型比通用LLM要好,与训练之后再用CoT, PoT, 工具集成推理等方法进行微调
    • 提出GRPO,即PPO的变体算法
  • summary
    • 大规模数学预训练
      • 从CC数据中找到了大量可用于数学与训练的数据
      • 开源模型7B同阶无敌,跨阶(70B)五五开,说明模型能力和数据训练质量相关
      • 证明数学训练之前用代码训练能提高数学推理能力
    • 强化学习分析探索
      • GRPO, 组相对优化,省去了评估模型,与PPO相比训练资源消耗更少

2. Math Pre-Training

2.1 数据收集与去污染

  • 从种子语料库中随机选择 50 万个数据点作为正训练示例,从 Common Crawl 中选择另外 50 万个网页作为负训练示例,训练fastText
  • 在第一次数据收集迭代之后,仍有许多数学网页未被收集,主要是因为 fastText 模型是在一组多样性不足的正例上进行训练的。于是添加额外的数学网页来源,得到了总计120B的token.
  • 为了避免“基准污染”(训练数据中混入了与测试数据高度相同的样本),过滤了英语/中文数学基准及其相似的网页

2.2 语料库质量验证

  • 用不同的语料库训练同一个大小结构的模型,发现DeepSeekMath有高质量,多语言,大规模等优点

2.3 DeepSeekMath-Base 7B的训练评估

  • 训练集包括 56%(DeepSeekMath语料库) + 4%(AlgebraicStack) + 10%(Arxiv) + 20%(Github)

  • 表现评估

    1. 分布数学推理问题 - 使用few-shot CoT提示技术,相比于开源模型遥遥领先
    2. 使用工具的数学问题求解 - 使用few-shot PoT提示技术(Python),保持领先,面对Llemma34B 不落下风
    3. 形式化数学(使用精确的数学语言表达对象,确保严谨性和可验证性) - 除了MMLU(大规模多任务语言理解,评估LLM在广泛学科领域中的知识和推理能力)以外都领先

3. Supervised Fine-Tuning

3.1 SFT数据构建

每一个问题都配有CoT, PoT和工具集成推理格式的解决方案

3.2 DeepSeekMath-Instruct 7B的训练&评估

相对于开源模型都保持领先,即使对方具有更大的参数量

4. Reinforcement Learning

4.1 GPRO群体相对策略优化

  • PPO(近端策略优化)

    在这里插入图片描述

    πθ\pi_\thetaπθKaTeX parse error: Double subscript at position 11: \pi_\theta_̲{old}是当前策略模型和旧模型,q, o是问题数据集和就策略生成出的问答对,ϵ\epsilonϵ用于截断,AtA_tAt是基于广义有时估计得到的优势函数

    在这里插入图片描述

    如图可见,优势函数的计算需要价值模型的参与,也需要同时训练价值模型和策略模型,且两者大小接近。(注:参考模型的存在是为了计算新旧模型之间的KL散度,防止过度优化)

  • GPRO(群体相对策略优化)

    事实上,LLM场景中通常只有最后⼀个标记会被反馈奖励,导致难以训练出对每个标记都精确的价值函数。所以提出GRPO,不引入价值函数,而是通过同一问题的多个采样输出平均奖励作为基线,计算优势函数Ai,t=ri−mean(r)std(r)A_{i,t} = \frac{r_i - mean(r)}{std(r)}Ai,t=std(r)rimean(r)

  • 结果监督(仅在每次输出结束时提供奖励)对于复杂数学任务不够充分,所以探索了过程监督,即每个推理步结束时提供奖励。

  • 迭代强化学习

    • 随着强化学习训练过程的推进,旧奖励模型可能不⾜以监督当前策略模型。在迭代GRPO中,根据策略模型采样结果⽣成新的奖励模型训练集,并通过融合历史数据的回放机制持续训练旧奖励模型。

4.2 DeepSeekMath-RL 模型训练评估

该模型仅基于DeepSeekMath-Instruct 7B进⾏GSM8K和MATH的思维链格式指令微调训练,尽管训练数据范围有限,却在所有评估指标上均超越基础模型,印证了强化学习的有效性

5. Discussion

5.1 预训练经验总结

  1. 代码训练提升了实用工具和不使用工具时的数学推理能力
  2. arxiv论文训对数学推理能力帮助有限

5.2 强化学习的核心洞见

  1. 提出统一范式 - 核心要素: 数据来源(在线/离线),奖励函数(规则/模型),梯度系数(奖励信号的处理方法)
  2. 在线训练优势 - 使用当前策略实时生成新数据,而非使用预先生成的数据集(离线),这样可以
  3. GRPO创新性 - 组内监督代替价值模型降低计算开销;过程监督提供更细粒度的梯度调整动态探索新策略空间,可能发现更优解
  4. 强化学习作用机制 - 提升模型输出的稳健性而非基础能力,即增强正确答案在TopK中的集中度
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐