【论文蒸馏】DeepSeek_Math 总结
DeepSeekMath论文核心内容,包括DeepseekMath数据集的构建,模型预训练与后训练,以及关于强化学习的思考
1. Introduction
- LLM在定量推理和集合推理领域取得了长足进展,但是最先进的未开源
- 退出DeepSeek_Math,以及配套的高质量语料库(多语言)。
- 初始阶段,fastText分类器用OpenWebMath做正例,其他网页作负例训练。之后后通过Common Crawl挖掘更多正例,再人工优化。
- 初始模型使用Code模型比通用LLM要好,与训练之后再用CoT, PoT, 工具集成推理等方法进行微调
- 提出GRPO,即PPO的变体算法
- summary
- 大规模数学预训练
- 从CC数据中找到了大量可用于数学与训练的数据
- 开源模型7B同阶无敌,跨阶(70B)五五开,说明模型能力和数据训练质量相关
- 证明数学训练之前用代码训练能提高数学推理能力
- 强化学习分析探索
- GRPO, 组相对优化,省去了评估模型,与PPO相比训练资源消耗更少
- 大规模数学预训练
2. Math Pre-Training
2.1 数据收集与去污染
- 从种子语料库中随机选择 50 万个数据点作为正训练示例,从 Common Crawl 中选择另外 50 万个网页作为负训练示例,训练fastText
- 在第一次数据收集迭代之后,仍有许多数学网页未被收集,主要是因为 fastText 模型是在一组多样性不足的正例上进行训练的。于是添加额外的数学网页来源,得到了总计120B的token.
- 为了避免“基准污染”(训练数据中混入了与测试数据高度相同的样本),过滤了英语/中文数学基准及其相似的网页
2.2 语料库质量验证
- 用不同的语料库训练同一个大小结构的模型,发现DeepSeekMath有高质量,多语言,大规模等优点
2.3 DeepSeekMath-Base 7B的训练评估
-
训练集包括 56%(DeepSeekMath语料库) + 4%(AlgebraicStack) + 10%(Arxiv) + 20%(Github)
-
表现评估
- 分布数学推理问题 - 使用few-shot CoT提示技术,相比于开源模型遥遥领先
- 使用工具的数学问题求解 - 使用few-shot PoT提示技术(Python),保持领先,面对Llemma34B 不落下风
- 形式化数学(使用精确的数学语言表达对象,确保严谨性和可验证性) - 除了MMLU(大规模多任务语言理解,评估LLM在广泛学科领域中的知识和推理能力)以外都领先
3. Supervised Fine-Tuning
3.1 SFT数据构建
每一个问题都配有CoT, PoT和工具集成推理格式的解决方案
3.2 DeepSeekMath-Instruct 7B的训练&评估
相对于开源模型都保持领先,即使对方具有更大的参数量
4. Reinforcement Learning
4.1 GPRO群体相对策略优化
-
PPO(近端策略优化)
πθ\pi_\thetaπθ 和 KaTeX parse error: Double subscript at position 11: \pi_\theta_̲{old}是当前策略模型和旧模型,q, o是问题数据集和就策略生成出的问答对,ϵ\epsilonϵ用于截断,AtA_tAt是基于广义有时估计得到的优势函数
如图可见,优势函数的计算需要价值模型的参与,也需要同时训练价值模型和策略模型,且两者大小接近。(注:参考模型的存在是为了计算新旧模型之间的KL散度,防止过度优化)
-
GPRO(群体相对策略优化)
事实上,LLM场景中通常只有最后⼀个标记会被反馈奖励,导致难以训练出对每个标记都精确的价值函数。所以提出GRPO,不引入价值函数,而是通过同一问题的多个采样输出平均奖励作为基线,计算优势函数Ai,t=ri−mean(r)std(r)A_{i,t} = \frac{r_i - mean(r)}{std(r)}Ai,t=std(r)ri−mean(r)
-
结果监督(仅在每次输出结束时提供奖励)对于复杂数学任务不够充分,所以探索了过程监督,即每个推理步结束时提供奖励。
-
迭代强化学习
- 随着强化学习训练过程的推进,旧奖励模型可能不⾜以监督当前策略模型。在迭代GRPO中,根据策略模型采样结果⽣成新的奖励模型训练集,并通过融合历史数据的回放机制持续训练旧奖励模型。
4.2 DeepSeekMath-RL 模型训练评估
该模型仅基于DeepSeekMath-Instruct 7B进⾏GSM8K和MATH的思维链格式指令微调训练,尽管训练数据范围有限,却在所有评估指标上均超越基础模型,印证了强化学习的有效性
5. Discussion
5.1 预训练经验总结
- 代码训练提升了实用工具和不使用工具时的数学推理能力
- arxiv论文训对数学推理能力帮助有限
5.2 强化学习的核心洞见
- 提出统一范式 - 核心要素: 数据来源(在线/离线),奖励函数(规则/模型),梯度系数(奖励信号的处理方法)
- 在线训练优势 - 使用当前策略实时生成新数据,而非使用预先生成的数据集(离线),这样可以
- GRPO创新性 - 组内监督代替价值模型降低计算开销;过程监督提供更细粒度的梯度调整动态探索新策略空间,可能发现更优解
- 强化学习作用机制 - 提升模型输出的稳健性而非基础能力,即增强正确答案在TopK中的集中度
更多推荐
所有评论(0)