DeepSeekMath: Pushing the Limits of MathematicalReasoning in Open Language Models论文阅读

m0_37733448

1268人浏览 · 2025-02-05 16:21:52

m0_37733448 · 2025-02-05 16:21:52 发布

arxiv论文：[2402.03300] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

摘要

数学推理因其复杂性和结构化特性，对语言模型提出了重大挑战。在本文中，我们介绍了 DeepSeekMath 7B，它在 DeepSeek-Coder-Base-v1.5 7B 的基础上，使从 Common Crawl 收集的 1200 亿个数学相关标记进行了持续预训练，同时结合了自然语言和代码数据。DeepSeekMath 7B 在竞争级别的 MATH 基准测试中取得了令人印象深刻的 51.7% 的成绩，且没有依赖外部工具包和投票技术，接近 Gemini-Ultra 和 GPT-4 的性能水平。DeepSeekMath 7B 在 64 个样本上的自洽性在 MATH 上达到了 60.9%。DeepSeekMath 的数学推理能力归功于两个关键因素：首先，我们通过精心设计的数据选择管道，充分利用了公开可用的网络数据的巨大潜力。其次，我们引入了组相对策略优化（GRPO），这是近端策略优化（PPO）的一种变体，它在增强数学推理能力的同时，优化了 PPO 的内存使用。

1. 引言

大型语言模型（LLM）彻底改变了人工智能中数学推理的方法，推动了定量推理基准和几何推理基准的重大进展。此外，这些模型在帮助人类解决复杂的数学问题方面也证明是有效的。然而，像 GPT-4和 Gemini-Ultra这样的尖端模型并未公开，而目前可用的开源模型在性能上仍然远远落后。

在这项研究中，我们介绍了 DeepSeekMath，这是一个领域特定的语言模型，它在学术基准测试中的数学能力显著优于开源模型，并接近 GPT-4 的性能水平。为了实现这一目标，我们创建了 DeepSeekMath 语料库，这是一个包含 1200 亿个数学标记的大规模高质量预训练语料库。该数据集是使用基于 fastText 的分类器从 Common Crawl（CC）中提取的。在第一次迭代中，分类器使用 OpenWebMath中的实例作为正例进行训练，同时纳入各种其他网页作为负例。随后，我们使用分类器从 CC 中挖掘出更多的正例，并通过人工注释进一步对其进行完善。然后，我们使用这个增强的数据集更新分类器，以提高其性能。评估结果表明，大规模语料库质量很高，因为我们的基础模型 DeepSeekMath-Base 7B 在 GSM8K上达到了 64.2%，在竞争级别的 MATH 数据集上达到了 36.2%，超过了 Minerva 540B。此外，DeepSeekMath 语料库是多语言的，因此我们注意到中国数学基准测试的改进。我们相信，我们在数学数据处理方面的经验是研究界的一个起点，未来还有很大的改进空间。

DeepSeekMath-Base 是以 DeepSeek-Coder-Base-v1.5 7B为起点进行初始化的，因为我们发现从代码训练模型开始是一个比通用 LLM 更好的选择。此外，我们观察到数学训练也提高了模型在 MMLU和 BBH 基准测试上的能力，这表明它不仅增强了模型的数学能力，而且放大了通用推理能力。

在预训练之后，我们对 DeepSeekMath-Base 进行了数学指令微调，使用了思维链、程序思维和工具集成推理数据。由此产生的模型 DeepSeekMath-Instruct 7B 击败了所有 7B 对手，并且与 70B 开源指令微调模型相当。

此外，我们介绍了组相对策略优化（GRPO），这是一种强化学习（RL）算法，是近端策略优化（PPO）的变体。GRPO 放弃了价值模型，而是从组分数中估计基线，与 PPO 相比，显著减少了训练资源。通过仅使用英语指令微调数据的一个子集，GRPO 在强化学习阶段对强大的 DeepSeekMath-Instruct 进行了重大改进，包括域内任务（例如，GSM8K: 82.9%→88.2%∗，MATH: 46.8%→51.7%）和域外数学任务（例如，CMATH: 84.6%→88.8%）。我们还提供了一个统一的范式来理解不同的方法，例如拒绝采样微调（RFT）、直接偏好优化（DPO）、PPO 和 GRPO。基于这样一个统一的范式，我们发现所有这些方法都被概念化为直接或直接的或简化的 RL 技术。我们还进行了广泛的实验，例如在线与离线训练、结果与过程监督、单回合与迭代 RL 等，以深入研究这一范式的本质要素。最后，我们解释了为什么我们的 RL 提高了指令微调模型的性能，并进一步总结了基于这一统一范式实现更有效 RL 的潜在方向。

1.1 贡献

我们的贡献包括可扩展的数学预训练，以及对强化学习的探索和分析。

大规模数学预训练

我们的研究提供了令人信服的证据，表明公开可访问的 Common Crawl 数据包含对数学目的有价值的 information。通过实施精心设计的数据选择管道，我们成功地构建了 DeepSeekMath 语料库，这是一个包含 1200 亿个标记的高质量数据集，该数据集是从经过数学内容过滤的网络页面中筛选出来的，其规模几乎是 Minerva使用的数学网页的 7 倍，也是最近发布的 OpenWebMath的 9 倍。
我们的预训练基础模型 DeepSeekMath-Base 7B 与 Minerva 540B的性能相当，这表明参数数量并非数学推理能力的唯一关键因素。在高质量数据上预训练的小模型也能取得强大的性能。
我们分享了数学训练实验的发现。在数学训练之前进行代码训练可以提高模型解决数学问题的能力，无论是否使用工具。这为长期存在的问题提供了一部分答案：代码训练是否提高了推理能力？我们相信它确实提高了，至少对于数学推理来说是这样。
尽管在 arXiv 论文上进行训练很常见，尤其是在许多与数学相关的论文中，但它在我们的论文中采用的所有数学基准测试中并没有带来显著的改进。

强化学习的探索和分析

我们介绍了组相对策略优化（GRPO），这是一种高效且有效的强化学习算法。GRPO 放弃了价值模型，而是从组分数中估计基线，与近端策略优化（PPO）相比，显著减少了训练资源。
我们证明，GRPO 通过仅使用指令微调数据，显著提高了我们的指令微调模型 DeepSeekMath-Instruct 的性能。此外，我们观察到在强化学习过程中，域外性能也得到了提高。
我们提供了一个统一的范式来理解不同的方法，例如 RFT、DPO、PPO 和 GRPO。我们还进行了广泛的实验，例如在线与离线训练、结果与过程监督、单回合与迭代强化学习等，以深入研究这一范式的本质要素。
基于我们的统一范式，我们探讨了强化学习有效性的原因，并总结了实现 LLM 更有效强化学习的几个潜在方向。

1.2 评估和指标总结

英语和中文数学推理: 我们对模型进行了全面的评估，涵盖了从小学到大学水平的数学问题。英语基准测试包括 GSM8K、MATH、SAT、OCW Courses、MMLU-STEM。中文基准测试包括 MGSM-zh、CMATH、Gaokao-MathCloze和 Gaokao-MathQA。我们评估了模型在不依赖工具的情况下生成独立文本解决方案的能力，以及使用 Python 解决问题的能力。

在英语基准测试中，DeepSeekMath-Base 与闭源 Minerva 540B竞争，并且在所有开源基础模型（例如，Mistral 7B和 Llemma-34B）中表现优异，无论它们是否经过数学预训练，通常都领先很多。值得注意的是，DeepSeekMath-Base 在中文基准测试中表现更优，这可能是因为我们没有像以前的工作那样仅收集英语数学预训练数据，并且还包括高质量的非英语数据。通过数学指令微调和强化学习，由此产生的 DeepSeekMath-Instruct 和 DeepSeekMath-RL 展示了强大的性能，在开源社区中首次在竞争级别的 MATH 数据集上获得了超过 50% 的准确率。

形式数学: 我们使用来自的非正式到正式定理证明任务，在 miniF2F上评估了 DeepSeekMath-Base，选择 Isabelle作为证明助手。DeepSeekMath-Base 展示了强大的少样本自动形式化性能。
自然语言理解、推理和代码: 为了构建模型对一般理解、推理和编码能力的全面概况，我们评估了 DeepSeekMath-Base 在 Massive Multitask Language Understanding (MMLU) 基准测试上的表现，该基准测试涵盖了 57 个涵盖不同主题的多项选择任务，BIG-Bench Hard (BBH)由 23 个具有挑战性的任务组成，这些任务大多需要多步骤推理才能解决，以及用于评估代码语言模型的 HumanEval和 MBPP。数学预训练有利于语言理解和推理性能。

2. 数学预训练

2.1 数据收集和去污染

在本节中，我们将概述从 Common Crawl 构建 DeepSeekMath 语料库的过程。如图 2 所示，我们展示了一个迭代管道，展示了如何系统地从 Common Crawl 收集大规模数学语料库，从种子语料库（例如，一个小型但高质量的数学相关数据集集合）开始。值得注意的是，这种方法也适用于其他领域，例如编码。

首先，我们选择 OpenWebMath，一个高质量的数学网络文本集合，作为我们最初的种子语料库。使用这个语料库，我们训练了一个 fastText 模型来召回更多类似 OpenWebMath 的数学网页。具体来说，我们从种子语料库中随机选择 500,000 个数据点作为正训练示例，从 Common Crawl 中选择另外 500,000 个网页作为负示例。我们使用开源库进行训练，配置向量维度为 256，学习率为 0.1，单词 n-gram 的最大长度为 3，单词出现次数的最小值为 3，训练周期为 3。为了减少原始 Common Crawl 的大小，我们采用基于 URL 的重复数据删除和近似重复数据删除技术，从而得到 400 亿个 HTML 网页。然后，我们使用 fastText 模型从重复数据删除后的 Common Crawl 中召回数学网页。为了过滤掉低质量的数学内容，我们根据 fastText 模型预测的分数对收集的页面进行排名，并仅保留排名靠前的。保留的数据量是通过对前 40B、80B、120B 和 160B 个标记进行预训练实验来评估的。在第一次迭代中，我们选择保留前 40B 个标记。

在第一次迭代的数据收集之后，许多数学网页仍未被收集，主要是因为 fastText 模型是在一组缺乏足够多样性的正例上训练的。因此，我们确定了额外的数学网络来源，以丰富种子语料库，以便我们可以优化 fastText 模型。具体来说，我们首先将整个 Common Crawl 组织成不同的域；域被定义为共享相同基本 URL 的网页。对于每个域，我们计算在第一次迭代中收集的网页的百分比。超过 10% 的网页被收集的域被归类为与数学相关（例如，mathoverflow.net）。随后，我们手动注释这些已识别域中与数学内容相关的 URL（例如，mathoverflow.net/questions）。链接到这些 URL 但未收集的网页将被添加到种子语料库。这种方法使我们能够收集更多的正例，从而训练出改进的 fastText 模型，能够在后续迭代中召回更多的数学数据。在四次数据收集迭代之后，我们最终得到了 3550 万个数学网页，总共 1200 亿个标记。在第四次迭代中，我们注意到在第三次迭代中已经收集了将近 98% 的数据，所以我们决定停止数据收集。

为了避免基准污染，我们遵循 Guo 等人（2024）的做法，过滤掉包含来自英语数学基准测试（例如 GSM8K和 MATH）和中文基准测试（例如 CMATH和 AGIEval）的网页或答案。过滤标准如下：任何包含与评估基准测试中任何子字符串完全匹配的 10-gram 字符串的文本段都将从我们的数学训练语料库中删除。对于长度小于 10 克的基准测试文本但至少有 3 克，我们采用精确匹配来过滤掉受污染的网页。

2.2 验证 DeepSeekMath 语料库的质量

我们进行预训练实验，以研究 DeepSeekMath 语料库与最近发布的数学训练语料库的比较：

MathPile: 一个多源语料库（89 亿个标记），汇集了教科书、维基百科、ProofWiki、CommonCrawl、StackExchange 和 arXiv，其中大部分（超过 85%）来自 arXiv；
OpenWebMath: 过滤了数学内容的 CommonCrawl 数据，总共 136 亿个标记；
Proof-Pile-2: 一个由 OpenWebMath、代数堆栈（103 亿个数学代码标记）和 arXiv 论文（280 亿个标记）组成的数学语料库。在 Proof-Pile-2 上进行实验时，我们按照 Azerbayev 等人（2023）的做法，使用 arXiv:Web:Code 比例为 2:4:1。

2.2.1 训练设置

我们对一个具有 1.3B 参数的通用预训练语言模型应用数学训练，该模型与 DeepSeek LLMs共享相同的框架，称为 DeepSeekLLM 1.3B。我们分别在每个数学语料库上训练一个模型 1500 亿个标记。所有实验均使用高效轻量级的 HAI-LLM训练框架进行。按照 DeepSeek LLMs 的训练实践，我们使用 AdamW 优化器，其中 β1=0.9，β2=0.95，weight_decay=0.1，以及多步学习率调度，其中学习率在 2000 个预热步骤后达到峰值，在 80% 的训练过程后降至其 31.6%，并在 90% 的训练过程后进一步降至峰值的 10.0%。我们将学习率的最大值设置为 5.3e-4，并使用 4M 标记的批量大小和 4K 的上下文长度

2.2.2 评估结果

DeepSeekMath 语料库质量高，涵盖多语言数学内容，并且是规模最大的。

高质量: 我们使用少样本思维链提示对 8 个数学基准测试进行了下游性能评估。如表 1 所示，经过 DeepSeekMath 语料库训练的模型表现出明显的性能优势。图 3 显示，经过 DeepSeekMath 语料库训练的模型比 Proof-Pile-2 在 500 亿个标记（Proof-Pile-2 的完整周期）上表现出更好的性能，表明 DeepSeekMath 语料库的平均质量更高。

多语言: DeepSeekMath 语料库包含多种语言的数据，主要以英语和中文为代表。如表 1 所示，在 DeepSeekMath 语料库上训练可以提高英语和中文的数学推理性能。相比之下，现有的数学语料库主要是以英语为中心的，其改进有限，甚至可能阻碍中文数学推理的性能。
大规模: DeepSeekMath 语料库的规模是现有数学语料库的数倍。如图 3 所示，DeepSeek-LLM 1.3B 在 DeepSeekMath 语料库上进行训练时，显示出更陡峭的学习曲线以及更持久的改进。相比之下，基线语料库要小得多，并且在训练过程中已经重复了多个周期，由此产生的模型性能很快就达到了平台期。

2.3 训练和评估 DeepSeekMath-Base 7B

在本节中，我们介绍了 DeepSeekMath-Base 7B，这是一个具有强大推理能力的基模型，尤其是在数学方面。我们的模型以 DeepSeek-Coder-Base-v1.5 7B为起点，训练了 5000 亿个标记。数据分布如下：56% 来自 DeepSeekMath 语料库，4% 来自代数堆栈，10% 来自 arXiv，20% 是 GitHub 代码，其余 10% 是来自 Common Crawl 的自然语言数据，包括英语和中文。我们主要采用第 2.2.1 节中指定的训练设置，除了我们将学习率的最大值设置为 4.2e-4，并使用 1000 万个标记的批量大小。

我们全面评估了 DeepSeekMathBase 7B 的数学能力，重点关注其在不依赖外部工具的情况下产生独立数学解决方案的能力，使用工具解决数学问题的能力，以及进行形式定理证明的能力。除此之外，我们还提供了对基础模型的更通用概况，包括其自然语言理解、推理和编程技能的性能。

数学问题解决与逐步推理

我们使用少样本思维链提示评估了 DeepSeekMathBase 在解决数学问题方面的性能，涵盖了英语和中文的八个基准测试。这些基准测试包括定量推理（例如，GSM8K、MATH和 CMATH）和多选题（例如，MMLU-STEM和 Gaokao-MathQA），涵盖了从小学到大学水平数学的各个领域。

如表 2 所示，DeepSeekMath-Base 7B 在所有八个基准测试中在开源基础模型中处于领先地位（包括广泛使用的通用模型 Mistral 7B和最近发布的 Llemma 34B，后者在 Proof-Pile-2上进行了数学训练）。值得注意的是，在竞争级别的 MATH 数据集上，DeepSeekMath-Base 超过现有开源基础模型超过 10% 的绝对值，并且超过了 Minerva 540B，一个比它大 77 倍的闭源基础模型，它建立在 PaLM之上，并进一步在数学文本上进行训练。

使用工具解决数学问题

我们使用少样本程序思维提示对 GSM8K 和 MATH 使用程序辅助数学推理进行评估。模型被提示通过编写 Python 程序来解决每个问题，其中可以利用诸如 math 和 sympy 等库进行复杂的计算。程序的执行结果被评估为答案。如表 3 所示，DeepSeekMath-Base 7B 优于之前的最新技术 Llemma 34B。

形式数学

形式证明自动化有利于确保数学证明的准确性和可靠性，并提高效率，近年来日益受到关注。我们在来自的非正式到正式证明任务上评估了 DeepSeekMath-Base 7B，该任务是根据非正式陈述、一个陈述的形式对应物以及一个非正式证明来生成形式证明。我们在 miniF2F上进行了评估，这是一个形式奥林匹克数学水平的基准测试，并使用少样本提示为每个问题生成 Isabelle 中的形式证明。按照的做法，我们利用模型生成证明草图，并执行现成的自动证明器 Sledgehammer来填补缺失的细节。如表 3 所示，DeepSeekMath-Base 7B 在证明自动形式化方面表现出强大的性能。

自然语言理解、推理和代码

我们评估了模型在 MMLU上的自然语言理解性能，在 BBH上的推理性能，以及在 HumanEval和 MBPP上的编码能力。如表 4 所示，DeepSeekMath-Base 7B 在 MMLU 和 BBH 上的性能比其前身 DeepSeek-Coder-Base-v1.5有显著提高，说明数学训练对语言理解和推理的积极影响。此外，通过包括代码标记进行持续训练，DeepSeekMath-Base 7B 有效地保持了 DeepSeek-Coder-Base-v1.5 在两个编码基准测试上的性能。总体而言，DeepSeekMath-Base 7B 在三个推理和编码基准测试上显著优于通用模型 Mistral 7B。

3. 监督微调

3.1 SFT 数据整理

我们构建了一个涵盖不同数学领域和不同复杂性水平的英语和中文问题数学指令微调数据集：问题与解决方案配对，采用思维链（CoT）、程序思维（PoT）和工具集成推理格式。训练示例的总数为 77.6 万。

英语数学数据集: 我们注释了 GSM8K 和 MATH 问题，并采用 MathInstruct的一个子集以及 Lila-OOD的训练集，其中问题是用 CoT 或 PoT 解决的。我们的英语集合涵盖了数学的各个领域，例如代数、概率、数论、微积分和几何。
中文数学数据集: 我们收集了中文 K-12 数学问题，涵盖 76 个子主题，例如线性方程，解决方案分别用 CoT 和工具集成推理格式注释。

3.2 训练和评估 DeepSeekMath-Instruct 7B

在本节中，我们介绍了 DeepSeekMath-Instruct 7B，它基于 DeepSeekMath-Base 进行数学指令微调。训练示例被随机连接，直到达到最大上下文长度 4K 个标记。我们训练模型 500 步，批量大小为 256，学习率为 5e-5。

我们评估了模型在没有和利用工具的情况下，在 4 个定量推理基准测试中的数学性能。我们的模型与当时的领先模型进行基准测试：

闭源模型包括: (1) GPT 系列，其中 GPT-4和 GPT-4 Code Interpreter是最强大的，(2) Gemini Ultra 和 Pro， (3) Inflection-2， (4) Grok-1，以及最近由中国公司发布的模型，包括 (5) Baichuan-3， (6) GLM 家族的最新版本 GLM-4。这些模型是通用的，大多数都经过了一系列对齐程序。
开源模型包括: 通用模型，例如 (1) DeepSeek-LLM-Chat 67B， (2) Qwen 72B， (3) SeaLLM-v2 7B，以及 (4) ChatGLM3 6B，以及在数学方面有增强的模型，包括 (5) InternLM2-Math 20B，它建立在 InternLM2 之上，并进行了数学训练，随后进行指令微调， (6) Math-Shepherd-Mistral 7B，它对 Mistral 7B应用 PPO 训练，使用过程监督奖励模型， (7) WizardMath 系列，它使用演进的指令（即一种使用 AI 演化的指令进行指令微调）以及 PPO 训练来改进 Mistral 7B 和 Llama-2 70B的数学推理，主要的训练问题主要来自 GSM8K 和 MATH， (8) MetaMath 70B，它是 Llama-2 70B 在 GSM8K 和 MATH 的增强版本上微调， (9) ToRA 34B，它是 CodeLlama 34B 微调以进行工具集成数学推理， (10) MAmmoTH 70B，它是 Llama-2 70B 在 MathInstruct 上指令微调。

如表 5 所示，在不允许使用工具的评估设置下，DeepSeekMath-Instruct 7B 展示了强大的逐步推理性能。值得注意的是，在竞争级别的 MATH 数据集上，我们的模型超过了所有开源模型和大多数专有模型（例如，Inflection-2 和 Gemini Pro），至少领先 9% 的绝对值。即使是规模更大的模型（例如 Qwen 72B）或者通过数学聚焦的强化学习（例如 WizardMath-v1.1 7B）专门增强的模型也是如此。虽然 DeepSeekMath-Instruct 在 MATH 上与中国的专有模型 GLM-4 和 Baichuan-3 竞争，但它仍然不如 GPT-4 和 Gemini Ultra。

在模型允许整合自然语言推理和基于程序工具使用来解决问题的评估设置下，DeepSeekMath-Instruct 7B 在 MATH 上接近 60% 的准确率，超过了所有现有的开源模型。在其他基准测试中，我们的模型与 DeepSeek-LLM-Chat 67B（之前的最新技术，比它大 10 倍）竞争。

4. 强化学习

4.1 组相对策略优化（GRPO）

强化学习（RL）已被证明在监督微调（SFT）阶段之后，可以进一步提高大语言模型（LLM）的数学推理能力。在本节中，我们将介绍我们高效且有效的 RL 算法——组相对策略优化（GRPO）。

4.1.1 从 PPO 到 GRPO

近端策略优化（PPO）是一种广泛用于 LLM 强化学习微调阶段的 actor-critic RL 算法。具体来说，它通过最大化以下代理目标来优化 LLM：

其中 πθ 和 πθold 分别是当前和旧的策略模型，q,o 是从问题数据集和旧的策略 πθoldπθold 中采样得到的问题和输出。 ε 是 PPO 中引入的与裁剪相关的超参数，用于稳定训练。 At 是优势，它是通过应用广义优势估计（GAE）来计算的，基于奖励 {r≥t} 和一个学习到的价值函数 Vψ 。因此，在 PPO 中，需要训练一个价值函数与策略模型并行，并且为了减轻对奖励模型的过度优化，标准做法是在每个标记的奖励中加入一个每标记 KL 惩罚，即：

其中 rφ是奖励模型， πref 是参考模型，它通常是初始 SFT 模型， β 是 KL 惩罚的系数。

由于 PPO 中使用的价值函数通常是另一个与策略模型大小相当的模型，因此它带来了巨大的内存和计算负担。此外，在 RL 训练过程中，价值函数被视为计算优势以减少方差的基础。而在 LLM 环境中，通常只有最后一个标记被奖励模型分配一个奖励分数，这可能会使训练一个在每个标记上都准确的价值函数变得复杂。为了解决这一问题，如图 4 所示，我们提出了组相对策略优化（GRPO），它避免了像 PPO 中的额外价值函数近似，而是使用针对同一问题产生的多个采样输出组的平均奖励作为基线。更具体地说，对于每个问题 q ，GRPO 从旧的政策 πθold 中对一组输出 {o1,o2,⋯ ,oG} 进行采样，然后通过最大化以下目标来优化策略模型：

其中 ε 和 β 是超参数，而 A^i,t 是基于组内输出之间的相对奖励计算的。GRPO 利用组相对方式计算优势，与奖励模型的比较性质非常吻合，因为奖励模型通常在数据集上训练，比较同一问题上的输出之间的差异。同时注意，GRPO 不是在奖励中加入 KL 惩罚，而是直接在损失中加上训练策略和参考策略之间的 KL 散度，避免了使 A^i,t 的计算复杂化。

与方程（2）中使用的 KL 惩罚项不同，我们使用以下无偏估计器来估计 KL 散度（Schulman，2020）：

这保证了结果是正的。

4.1.2 使用 GRPO 进行结果监督的强化学习

形式上，对于每个问题 q，从旧的政策模型 πθold 中采样一组输出 {o1,o2,⋯ ,oG}。然后使用奖励模型对输出进行评分，得到相应的 G 个奖励 r={r1,r2,⋯ ,rG}。随后，这些奖励通过减去组平均值并除以组标准差进行标准化。结果监督在每个输出 oioi 结束时提供标准化奖励，并将输出的所有标记的优势 A^ˉi,t设置为标准化奖励，即 A^i,t=r~i=ri−mean(r)std(r)，然后通过最大化方程（3）中定义的目标来优化策略。

4.1.3 使用 GRPO 进行过程监督的强化学习

结果监督只在每个输出结束时提供奖励，这可能不足以有效地监督复杂数学任务中的策略。继 Wang 等人（2023b）之后，我们还探索了过程监督，它在每个推理步骤结束时提供奖励。形式上，给定问题 q 和 G 个采样输出 {o1,o2,⋯ ,oG}，使用过程奖励模型对输出的每个步骤进行评分，得到相应的奖励：R˙={ {r1index(1),⋯ ,r1index(K1)},⋯ ,{rGindex(1),⋯ ,rGindex(KG)}}，其中 index(j)是第 j 个步骤的结束标记索引，KiKi 是第 ii 个输出中步骤的总数。我们还使用平均值和标准差对这些奖励进行标准化，即。随后，过程监督将每个标记的优势计算为后续步骤的标准化奖励之和，即，然后通过最大化方程（3）中定义的目标来优化策略。

4.1.4. 带有GRPO的迭代强化学习

随着强化学习训练过程的进行，旧奖励模型可能不足以监督当前策略模型。因此，我们还探索了使用 GRPO 的迭代 RL。如算法 1 所示，在迭代 GRPO 中，我们根据策略模型的采样结果为奖励模型生成新的训练集，并使用包含 10% 历史数据的重放机制持续训练旧奖励模型。然后，我们将参考模型设置为策略模型，并使用新的奖励模型持续训练策略模型。

4.2 训练和评估 DeepSeekMath-RL

我们基于 DeepSeekMath-Instruct 7B 进行 RL。RL 的训练数据是与 GSM8K 和 MATH 相关的链式思维格式问题，这些问题来自 SFT 数据集，包含大约 144K 个问题。我们排除了其他 SFT 问题，以研究 RL 对在 RL 阶段缺乏数据的基准测试的影响。我们按照（Wang 等人，2023b）构建奖励模型的训练集。我们基于 DeepSeekMath-Base 7B 训练我们的初始奖励模型，学习率为 2e-5。对于 GRPO，我们设置策略模型的学习率为 1e-6。KL 系数为 0.04。对于每个问题，我们采样 64 个输出。最大长度设置为 1024，训练批量大小为 1024。策略模型在每次探索阶段后只有一次更新。我们按照 DeepSeekMath-Instruct 7B 对基准测试进行评估。对于 DeepSeekMath-RL 7B，GSM8K 和 MATH 与链式思维推理可以视为域内任务，所有其他基准测试可以视为域外任务。

表 5 展示了使用链式思维和工具集成推理的开放和封闭源码模型在英语和中文基准测试上的性能。我们发现：1）DeepSeekMath-RL 7B 在 GSM8K 和 MATH 上分别获得了 88.2% 和 51.7% 的准确率，利用链式思维推理。这种性能超过了所有 7B 到 70B 范围内的开放源码模型，以及大多数封闭源码模型。2）最重要的是，DeepSeekMath-RL 7B 仅在 GSM8K 和 MATH 的链式思维格式指令微调数据上进行训练，从 DeepSeekMath-Instruct 7B 开始。尽管其训练数据的范围有限，但它在所有评估指标上都优于 DeepSeekMath-Instruct 7B，展示了强化学习的有效性。

5. 讨论

在本节中，我们将分享我们在预训练和 RL 实验中的发现。

5.1 预训练中的经验教训

我们首先分享我们在预训练方面的经验。除非另有说明，我们将遵循第 2.2.1 节中概述的培训设置。值得注意的是，当本节提到 DeepSeekMath 语料库时，我们使用的是数据收集过程中的第二次迭代中的 890 亿个标记数据集。

5.1.1 代码训练有利于数学推理

一个流行但未经证实的假设认为代码训练可以提高推理能力。我们试图对此提供部分答案，特别是在数学领域：代码训练提高了模型进行数学推理的能力，无论是否使用工具。

为了研究代码训练如何影响数学推理，我们尝试了以下两种两阶段训练和单阶段训练设置：

两阶段训练

代码训练 4000 亿个标记 → 数学训练 1500 亿个标记: 我们对 DeepSeekLLM 1.3B 进行了 4000 亿个代码标记的训练，然后进行了 1500 亿个数学标记的训练；
通用训练 4000 亿个标记 → 数学训练 1500 亿个标记: 作为对照实验，我们还在第一阶段训练中使用通用标记（从 DeepSeek-AI 创建的大规模通用语料库中采样）代替代码标记，以调查代码标记在提高数学推理方面的优势。

单阶段训练

数学训练 1500 亿个标记: 我们对 DeepSeek-LLM 1.3B 进行了 1500 亿个数学标记的训练；
代码和数学混合训练: 数学训练后进行代码训练会降低编码性能。我们调查当代码标记与数学标记混合进行单阶段训练时，是否仍然可以提高数学推理，并同时缓解灾难性遗忘的问题。

结果表 6 和表 7 显示了不同训练设置下的下游性能。

代码训练有利于程序辅助数学推理，无论是在两阶段训练还是单阶段训练设置下。如表 6 所示，在两阶段训练设置下，仅代码训练就已经显著增强了使用 Python 解决 GSM8K 和 MATH 问题的能力。第二阶段的数学训练带来了进一步的改进。有趣的是，在单阶段训练设置下，混合代码标记和数学标记有效地缓解了两阶段训练中出现的灾难性遗忘问题，并且还使编码（表 7）和程序辅助数学推理（表 6）协同增效。

代码训练也提高了不使用工具的数学推理能力。在两阶段训练设置中，代码训练的初始阶段已经产生了适度的增强。它还提高了后续数学训练的效率，最终导致最佳性能。然而，将代码标记和数学标记混合进行单阶段训练会损害不使用工具的数学推理。一个猜想是，由于 DeepSeek-LLM 1.3B 的规模有限，缺乏同时吸收代码和数学数据的能力。

5.1.2 arXiv 论文似乎对提高数学推理无效

arXiv 论文通常被包括在数学预训练数据中。然而，关于它们对数学推理的影响的详细分析尚未广泛进行。也许与直觉相反，根据我们的实验，arXiv 论文似乎对提高数学推理无效。我们对不同规模的模型进行了实验，包括 DeepSeek-LLM 1.3B 和 DeepSeek-Coder-Base-v1.5 7B，使用了经过不同处理管道的 arXiv 语料库：

MathPile: 一个 89 亿个标记的语料库，通过清洁和过滤启发式规则开发，其中超过 85% 是科学 arXiv 论文；
arXiv-RedPajama: 整个 arXiv LaTeX 文件，删除了序言、注释、宏和参考文献，总共 280 亿个标记。

在我们的实验中，我们分别对 DeepSeek-LLM 1.3B 训练了 1500 亿个标记，对 DeepSeekCoder-Base-v1.5 7B 训练了 400 亿个标记，每个 arXiv 语料库。看起来 arXiv 论文对提高数学推理无效。当在仅 arXiv 语料库上训练时，这两个模型在用于本研究的各种复杂性的不同数学基准测试中显示出没有显著改进，甚至出现恶化。这些基准测试包括定量推理数据集，如 GSM8K 和 MATH（表 8）、多项选择挑战，如 MMLU-STEM（表 8）以及形式数学，如 miniF2F（表 9）。

然而，这个结论有其局限性，应该谨慎对待。我们尚未研究：

arXiv 标记对未包含在本研究中的特定与数学相关的任务的影响，例如定理的非正式化，即是将形式化陈述或证明转换为非形式化版本；
arXiv 标记与其他类型的数据结合时的效果；
arXiv 论文的好处是否会在更大的模型规模上显现出来。

因此，需要进一步的探索，我们将其留待未来的研究。

5.2 强化学习的见解

5.2.1 走向统一范式

在本节中，我们提供了一个统一的范式来分析不同的训练方法，如 SFT、RFT、DPO、PPO、GRPO，并进一步进行实验以探索统一范式的因素。一般来说，训练方法的参数 θ 的梯度可以写成：

存在三个关键组成部分：1) 数据源 D，它决定了训练数据；2) 奖励函数 πrf，它是训练奖励信号的来源；3) 算法 A：它处理训练数据和奖励信号到梯度系数，它决定了数据惩罚或强化的程度。我们基于这样一个统一的范式分析了几种代表性的方法：

监督微调（SFT）: SFT 在人工选择的 SFT 数据上微调预训练模型。

拒绝采样微调（RFT）: RFT 在从 SFT 模型中采样过滤后的输出上进一步微调 SFT 模型，基于 SFT 问题。RFT 根据答案的正确性过滤输出。
直接偏好优化（DPO）: DPO 通过在从 SFT 模型中采样增强的输出上使用成对 DPO 损失进一步微调 SFT 模型。
在线拒绝采样微调（Online RFT）: 与 RFT 不同，Online RFT 使用 SFT 模型初始化策略模型，并通过使用从实时策略模型中采样增强的输出进行微调来进一步微调它。
PPO/GRPO: PPO/GRPO 使用 SFT 模型初始化策略模型，并使用从实时策略模型中采样输出进行强化。

我们在表 10 中总结了这些方法的组成部分。有关更详细的推导过程，请参见附录 A.1。

关于数据源的观察

我们将数据源分为两类，在线采样和离线采样。在线采样表示训练数据来自实时训练策略模型的探索结果，而离线采样表示训练数据来自初始 SFT 模型的采样结果。RFT 和 DPO 采用离线风格，而 Online RFT 和 GRPO 采用在线风格。

如图 5 所示，我们发现 Online RFT 在两个基准测试上显著优于 RFT。具体来说，Online RFT 在训练初期与 RFT 相当，但在后期获得了绝对优势，证明了在线训练的优势。这很直观，因为在初期，行动者和 SFT 模型表现出密切的相似性，采样数据只显示出微小的差异。然而，在后期，从行动者采样的数据将显示出更显著的差异，而实时数据采样将提供更大的优势。

关于梯度系数的观察

算法将奖励信号处理为梯度系数以更新模型参数。在我们的实验中，我们将奖励函数分为“规则”和“模型”。规则是指根据答案的正确性来判断响应的质量，而模型表示我们训练一个奖励模型来对每个响应进行评分。奖励模型的训练数据基于规则判断。方程 10 和 21 突出了 GRPO 和 Online RFT 之间的一个关键区别：GRPO 独特地根据奖励模型提供的奖励值调整其梯度系数。这允许根据响应的大小对响应进行差异化的强化和惩罚。相比之下，Online RFT 没有这个特性；它不会惩罚不正确的响应，并且以相同的强度统一强化所有正确答案的响应。

如图 5 所示，GRPO 优于在线 RFT，从而证明了改变正负梯度系数的效率。此外，GRPO+PS 显示出比 GRPO+OS, 更优的性能，表明使用细粒度、步骤感知的梯度系数的好处。此外，我们探索了迭代 RL，在我们的实验中，我们进行了两轮迭代。如图 6 所示，我们注意到迭代 RL 显著提高了性能，尤其是在第一次迭代时。

5.2.2 为什么 RL 有效？

在本文中，我们基于指令微调数据的一个子集进行强化学习，并且它在对指令微调模型上实现了显著的性能提升。为了进一步解释为什么强化学习有效。我们评估了 Instruct 和 RL 模型在两个基准测试上的 Pass@K 和 Maj@K 准确率。如图 7 所示，RL 增强了 Maj@K 的性能，但没有增强 Pass@K。这些发现表明，RL 通过使输出分布更加稳健，从而增强了模型的整体性能，换句话说，似乎改进是由于提高了 TopK 中的正确响应，而不是提高基本能力。同样，（Wang 等人，2023a）确定了 SFT 模型中推理任务的错位问题，表明 SFT 模型的推理性能可以通过一系列偏好对齐策略来提高（Song 等人，2023; Wang 等人，2023a; Yuan 等人，2023b）。

5.2.3 如何实现更有效的强化学习？

我们证明了强化学习在数学推理任务中非常有效。我们还提供了一个统一的范式来理解不同的代表性训练方法。在这个范式中，所有方法都被概念化为直接或直接的或简化的强化学习技术。如公式 5 所总结，存在三个关键组成部分：数据源、算法和奖励函数。我们为这三个组成部分提供了一些潜在的未来方向。

数据源

数据源是所有训练方法的原材料。在强化学习的背景下，我们特别指的是数据源是来自策略模型的未标记问题和输出样本。在本文中，我们仅使用指令微调阶段的问题和简单的核采样来生成输出。我们认为这是我们的强化学习管道仅提高 Maj@K 性能的一个潜在原因。在未来，我们将探索我们的强化学习管道在分布外问题提示上的应用，以及结合先进的采样（解码）策略，例如基于树搜索的方法。此外，高效的推理技术决定了模型在推理过程中可以生成多少输出，这对于强化学习的数据收集阶段至关重要。

算法

算法处理数据和奖励信号，将其转换为梯度系数以更新模型参数。基于公式 5，到某种程度上，所有方法现在都完全信任奖励函数的信号来增加或减少某个标记的条件概率。然而，无法确保奖励信号始终可靠，尤其是在极其复杂的任务中。例如，即使是经过训练有素的人工注释者仔细注释的 PRM800K 数据集，仍然包含大约 20% 的错误注释。为此，我们将探索对噪声奖励信号具有鲁棒性的强化学习算法。我们相信，这种弱到强的对齐方法将给学习算法带来根本性的变化。

奖励函数

奖励函数是训练信号的来源。在强化学习中，奖励函数通常是神经奖励模型。我们认为奖励模型存在三个重要方向：

1.如何增强奖励模型的泛化能力。奖励模型必须有效地泛化，以处理分布外的问题和先进的解码输出；否则，强化学习可能仅仅稳定了 LLM 的分布，而不是提高其基本能力。

2.如何反映奖励模型的不确定性。不确定性可能成为弱奖励模型和弱到强学习算法之间的桥梁。

3.如何高效地构建高质量的过程奖励模型，可以为推理过程提供细粒度的训练信号。

6. 结论、局限性和未来工作

我们介绍了 DeepSeekMath，它在竞争级别的 MATH 基准测试中超越了所有开源模型，并接近闭源模型的性能。DeepSeekMath 以 DeepSeek-Coder-v1.5 7B 为起点，并进行了 5000 亿个标记的持续训练，训练数据的重要部分是来自 Common Crawl 的 1200 亿个数学标记。我们广泛的消融研究表明，网络页面为高质量数学数据提供了巨大潜力，而 arXiv 可能并不像我们预期的那样有益。我们介绍了组相对策略优化（GRPO），这是近端策略优化（PPO）的一种变体，它可以显著提高数学推理能力，同时减少内存消耗。实验结果表明，即使 DeepSeekMath-Instruct 7B 在基准测试上已经取得了高分，GRPO 也是有效的。我们还提供了一个统一的范式来理解一系列方法，并总结了实现更有效强化学习的几个潜在方向。

尽管 DeepSeekMath 在定量推理基准测试上取得了令人印象深刻的成绩，但在几何和定理证明方面的能力相对较弱，与闭源模型相比。例如，在我们的试运行中，该模型无法处理与三角形和椭圆相关的问题，这可能表明预训练和微调中的数据选择偏差。此外，受限于模型规模，DeepSeekMath 在少样本能力上不如 GPT-4。GPT-4 可以通过少样本输入提高其性能，而 DeepSeekMath 在零样本和少样本评估中表现出相似的性能。在未来，我们将进一步改进我们精心设计的数据选择管道，以构建更多高质量的预训练语料库。此外，我们将探索更有效的 LLM 强化学习的潜在方向（第 5.2.3 节）。

Q&A

Q: 这篇论文试图解决什么问题？

A: 这篇论文试图解决的问题是提高大型语言模型（LLM）在数学推理任务上的性能。具体来说，论文介绍了一个名为DeepSeekMath 7B的模型，它通过以下几个关键步骤来应对数学推理的挑战：

高质量的数学数据集构建：论文通过精心设计的数据处理流程，从Common Crawl数据集中提取了120亿个与数学相关的token，构建了一个大规模、高质量的预训练语料库（DeepSeekMath Corpus），用于提高模型对数学内容的理解能力。

数学推理能力的增强：通过在DeepSeek-Coder-Base-v1.5 7B模型基础上进行数学数据的持续训练，DeepSeekMath 7B在数学推理任务上取得了显著的性能提升，尤其是在MATH基准测试上，达到了51.7%的准确率。

强化学习算法的优化：论文提出了一种名为Group Relative Policy Optimization (GRPO)的变体强化学习算法，该算法在优化数学推理能力的同时，减少了内存使用，提高了训练效率。

数学推理与自然语言处理能力的平衡：论文不仅关注数学推理能力的提升，还通过实验表明，数学训练可以增强模型在自然语言理解、推理和编程任务上的性能。

多语言支持：DeepSeekMath Corpus支持多语言，这使得模型在处理中文数学问题时也表现出色，提高了模型的通用性和实用性。

总的来说，这篇论文的目标是推动大型语言模型在数学推理领域的应用，通过构建高质量的数据集、优化训练算法和模型结构，以及实现多语言支持，来提升模型在解决复杂数学问题上的能力。

Q: 有哪些相关研究？

A: 这篇论文中提到了多个与数学推理相关的研究，以下是一些主要的相关研究：

GPT-4 (OpenAI, 2023): 这是一个由OpenAI开发的先进模型，它在数学推理任务上表现出色，但目前不公开。

Gemini-Ultra (Anil et al., 2023): 这是一个在数学推理任务上性能接近GPT-4的模型。

Minerva 540B (Lewkowycz et al., 2022a): 这是一个大型的数学推理模型，它在多个数学基准测试上取得了优异成绩。

OpenWebMath (Paster et al., 2023): 这是一个高质量的数学网页数据集，用于训练和评估数学推理模型。

MATH benchmark (Hendrycks et al., 2021): 这是一个用于评估语言模型在数学问题解决能力上的基准测试。

GSM8K (Cobbe et al., 2021): 这是一个包含数学问题的基准测试，用于评估模型的数学推理能力。

MMLU (Hendrycks et al., 2020): Massive Multitask Language Understanding (MMLU) 是一个包含多种语言理解任务的基准测试。

BBH benchmarks (Suzgun et al., 2022): Big-Bench Hard (BBH) 是一个包含多种需要多步推理解决的任务的基准测试。

Chain-of-thought (CoT) (Wei et al., 2022) 和 Program-of-thought (PoT) (Chen et al., 2022; Gao et al., 2023): 这两种方法用于指导模型在解决数学问题时展示其推理过程。

Tool-integrated reasoning (Gou et al., 2023): 这种方法允许模型在解决数学问题时使用工具，如Python编程。

Proximal Policy Optimization (PPO) (Schulman et al., 2017): 这是一种强化学习算法，用于优化策略模型，特别是在大型语言模型的微调阶段。

Group Relative Policy Optimization (GRPO): 这是论文中提出的PPO的变体，用于在数学推理任务中提高模型性能。

这些研究为DeepSeekMath模型的开发提供了理论基础和实践指导，同时也展示了当前人工智能在数学推理领域的最新进展。

Q: 论文如何解决这个问题？

A: 论文通过以下几个关键步骤来解决大型语言模型在数学推理任务上的挑战：

构建高质量的数学预训练语料库：

使用Common Crawl数据集，通过fastText分类器筛选出数学相关的网页。

通过迭代数据收集和人工标注，构建了一个包含120亿数学token的DeepSeekMath Corpus。

该语料库覆盖了多种语言，特别是英语和中文，以提高模型在多语言数学问题上的推理能力。

模型初始化与预训练：

DeepSeekMath-Base 7B模型基于DeepSeek-Coder-Base-v1.5 7B进行初始化，因为从代码训练模型开始比从一般的大型语言模型开始更有利于数学推理能力的提升。

在预训练阶段，模型在DeepSeekMath Corpus上进行了500亿token的训练，以增强其数学推理能力。

数学指令微调：

在预训练的基础上，使用链式思维（chain-of-thought）和程序化思维（program-of-thought）等数据对模型进行数学指令微调，以进一步提高其解决数学问题的能力。

引入Group Relative Policy Optimization (GRPO)：

GRPO是一种变体的Proximal Policy Optimization (PPO)算法，它通过估计基线分数来优化策略，减少了训练资源消耗。

在强化学习阶段，GRPO仅使用部分英文指令调优数据，就能显著提升模型在领域内（如GSM8K）和领域外（如CMath）数学任务上的性能。

多语言和多领域评估：

在多个英语和中文数学基准测试上评估模型性能，包括GSM8K、MATH、SAT、OCW Courses、MMLU-STEM等。

评估模型在形式数学任务上的性能，如使用Isabelle进行非正式到形式定理证明。

探索和分析强化学习：

提供了一个统一的范式来理解不同的训练方法，如RFT、DPO、PPO和GRPO，并进行了广泛的实验来深入研究这些方法的本质元素。

通过这些方法，论文展示了DeepSeekMath模型在数学推理任务上的显著进步，特别是在开放源代码模型中，其性能接近了封闭源代码模型如GPT-4和Gemini-Ultra的水平。

Q: 论文做了哪些实验？

A: 论文中进行了一系列的实验来评估和验证DeepSeekMath模型的性能，以及探索和分析强化学习（RL）算法的效果。以下是主要的实验内容：

数学预训练实验：

使用不同大小的数学语料库（40B, 80B, 120B, 160B tokens）进行预训练，以评估数据集规模对模型性能的影响。

在多个数学基准测试上评估DeepSeek-LLM 1.3B模型，包括GSM8K、MATH、OCW、SAT、MMLU-STEM、CMath、Gaokao MathCloze和Gaokao MathQA。

数学指令调优实验：

在DeepSeekMath-Base 7B模型上应用数学指令调优，使用链式思维（CoT）、程序化思维（PoT）和工具集成推理（TIR）数据。

评估调优后的DeepSeekMath-Instruct 7B模型在数学问题解决上的性能，包括定量推理和多选题。

数学问题解决工具使用实验：

评估DeepSeekMath-Base 7B和DeepSeekMath-Instruct 7B模型在允许使用Python编程工具解决数学问题时的性能。

形式数学实验：

在miniF2F基准上评估DeepSeekMath-Base 7B模型的非正式到形式定理证明能力，使用Isabelle作为证明助手。

自然语言理解、推理和编程能力评估：

在MMLU、BBH、HumanEval和MBPP等基准测试上评估DeepSeekMath-Base 7B模型的通用理解、推理和编程能力。

强化学习实验：

使用GRPO算法对DeepSeekMath-Instruct 7B模型进行强化学习训练，并在GSM8K和MATH基准上评估其性能。

对比在线和离线训练、结果监督与过程监督、单轮与迭代强化学习等不同强化学习设置的效果。

统一范式下的RL方法比较：

提供了一个统一的范式来理解不同的RL方法，如SFT、RFT、DPO、PPO和GRPO，并进行了实验来探索这些方法的关键组件，如数据源、算法和奖励函数。

这些实验不仅验证了DeepSeekMath模型在数学推理任务上的有效性，而且深入探讨了强化学习在提升模型性能方面的潜力和机制。通过这些实验，论文展示了DeepSeekMath模型在多个领域的应用潜力，并为未来的研究提供了方向。

Q: 有什么可以进一步探索的点？

A: 论文中提出了一些可以进一步探索的点，主要包括：

数据源的优化：

探索更高效的数据选择和清洗流程，以构建更高质量的数学预训练语料库。

研究如何结合不同领域的数据，例如结合数学和编程数据，以进一步提升模型的推理能力。

模型架构的改进：

研究更高效的模型架构，以在保持或提高性能的同时减少计算资源消耗。

探索多模态模型，结合文本、图像和符号数据，以解决更复杂的数学问题。

强化学习算法的创新：

开发新的强化学习算法，以提高模型在复杂数学任务上的学习效率和泛化能力。

研究如何使强化学习算法对噪声奖励信号更加鲁棒。

奖励函数的设计：

设计更有效的奖励函数，以更好地反映人类对数学推理过程的评价标准。

研究如何利用不确定性信息来指导模型学习。

多语言和跨文化能力的提升：

扩展模型的多语言支持，特别是在非英语语言上的数学推理能力。

研究如何使模型更好地理解和处理不同文化背景下的数学表达。

实际应用场景的探索：

在教育、科研和工业等领域探索DeepSeekMath模型的实际应用，如自动解题、数学教育辅助和数学研究辅助工具。

研究如何将模型集成到现有的教育和研究平台中，以提高数学问题的解决效率。

模型解释性和透明度：

提高模型的可解释性，使研究人员和用户能够理解模型的推理过程。

研究如何通过模型解释来提升模型的透明度和信任度。

伦理和公平性：

研究如何确保模型在处理数学问题时的公平性和无偏见。

探索如何通过模型设计和训练过程来减少潜在的歧视和偏见。

这些探索点不仅有助于推动数学推理模型的发展，还能为人工智能在更广泛领域的应用提供新的思路和方法。

Q: 总结一下论文的主要内容

A: 这篇论文介绍了DeepSeekMath 7B，这是一个专门针对数学推理任务优化的大型语言模型。以下是论文的主要内容总结：

挑战与动机：

数学推理对语言模型来说是一个重大挑战，因为它需要复杂的结构化知识。

现有的先进模型如GPT-4和Gemini-Ultra在数学推理上表现出色，但它们并不公开。

开源模型在性能上落后于这些先进模型。

DeepSeekMath 7B的介绍：

DeepSeekMath 7B是基于DeepSeek-Coder-Base-v1.5 7B模型，通过在Common Crawl数据集上进行120B数学相关token的预训练得到的。

该模型在MATH基准测试上达到了51.7%的准确率，接近Gemini-Ultra和GPT-4的性能。

关键贡献：

提出了DeepSeekMath Corpus，一个大规模的数学预训练语料库。

展示了从代码训练模型开始对数学推理能力的提升有积极影响。

提出了Group Relative Policy Optimization (GRPO)，一种新的强化学习算法，用于提升数学推理能力。

实验与评估：

在多个英语和中文数学基准测试上评估了DeepSeekMath-Base 7B和DeepSeekMath-Instruct 7B的性能。

在数学问题解决、工具使用、形式数学证明以及自然语言理解、推理和编程任务上进行了全面的评估。

强化学习的探索与分析：

提供了一个统一的范式来理解不同的训练方法，如SFT、RFT、DPO、PPO和GRPO。

通过实验深入研究了这些方法的关键元素，如数据源、算法和奖励函数。

未来方向：

提出了在数据源、算法和奖励函数方面的潜在改进方向，以实现更有效的强化学习。

总的来说，这篇论文展示了DeepSeekMath 7B在数学推理任务上的显著进步，并为未来在这一领域的研究提供了新的思路和方法。