从论文中积累复现 R1 的 insight

上篇提到在业务场景中复现 DeepSeek-R1，也简单记录下最近阅读一些论文过程中积累的 insight。1. 目前的算法还有很多改进空间论文[3]针对 GRPO 提出了名为 Dr. GRPO 的改进方法。GRPO 在优化过程中存在响应级长度偏差和问题级难度偏差，导致模型训练时会生成越来越长的错误响应。

LLand520

514人浏览 · 2025-04-28 10:52:10

LLand520 · 2025-04-28 10:52:10 发布

上篇 R1复现小记：在业务场景的两类NLP任务上有显著效果提到在业务场景中复现 DeepSeek-R1，也简单记录下最近阅读一些论文过程中积累的 insight。

Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning
An Empirical Study on Eliciting and Improving R1-like Reasoning Models
Understanding R1-Zero-Like Training: A Critical Perspective
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

1. 目前的算法还有很多改进空间

论文[3]针对 GRPO 提出了名为 Dr. GRPO 的改进方法。GRPO 在优化过程中存在响应级长度偏差和问题级难度偏差，导致模型训练时会生成越来越长的错误响应。Dr. GRPO 通过简单地去除 GRPO 中和这两个归一化项，同时在掩码均值函数中用常数（如生成预算）替代，恢复了 PPO 的原始目标，采用蒙特卡罗回报估计优势，并设置无偏基线，从而有效避免了优化偏差，在提升令牌效率的同时，还能维持模型的推理性能。
论文[4]针对GRPO和PPO在大语言模型强化学习训练中的熵坍缩、样本效率低、长序列训练效果差等问题，提出DAPO方法。Clip-Higher技术解耦裁剪范围，提高，增加低概率token概率提升空间，避免策略熵过早下降，提升样本多样性；动态采样对准确率为1和0的样本过采样并过滤无效样本，保留有效梯度样本，提高训练效率和稳定性；Token-Level Policy Gradient Loss针对长思维链场景，改变GRPO样本级损失计算方式，使长序列对梯度更新影响更大，更好学习推理模式，抑制不良模式；Overlong Reward Shaping提出超长过滤策略和软超长惩罚机制，减少截断样本奖励噪声，稳定训练，引导模型避免超长响应。

2. 强化学习超参数设置

论文[2]提到Train Batch Size方面，较大值（如 TBS = 1024）能增强训练效率与稳定性；学习策略上，On-policy 相比 Off-policy 更具优势，可促进模型探索并提升测试集表现；在Tollout Times，增加Tollout Times（如 n = 64 ）能提升训练效果、鼓励模型生成更长响应，Rollout Temperature 为 1.2 时在保证正常生成文本的情况下性能更佳；KL 惩罚系数则以动态退火策略（从 KL = 1×10⁻³ 到 KL = 0 余弦衰减）为优，利于平衡模型探索与稳定性。

3. 奖励的设计要更细粒度

论文[1]观察到在早期奖励规则设计不完善时，模型出现多种 reward hacking 行为，比如跳过思考过程直接作答、在答案标签内进行推理、胡乱猜测答案、给出无关内容、错误组织正确答案、回答后又因推理不足重新思考、重复问题或用套话逃避推理等。为优化这一情况，研究人员迭代完善规则设计，要求模型按特定格式输出，/和/标签仅出现一次且顺序正确，思考过程必须有真实推理，结论要便于提取和阅读。同时构建了包含格式奖励和答案奖励的规则式奖励系统，格式正确得 1 分，错误得 -1 分；答案完全正确得 2 分，部分错误得 -1.5 分，无法解析或缺失得 -2 分，以此约束模型行为，避免奖励作弊。

4. 推理能力的提升是渐进的，没有明显的“顿悟时刻”

模型在训练前已经有一定的复杂推理行为（如反思、验证、策略探索等），而且在后续的训练过程中，推理能力的提升是渐进过程，不会突然有个拐点 emerge 出突飞猛进的推理能力。

5. 增加回答长度并不直接提高推理能力，长度增加与推理性能提升是相关的，但不是因果关系。

响应长度增加可能为推理能力提升提供更多探索空间，但二者本质是伴随关系，推理性能的核心提升源于模型对有效推理步骤的优化而非单纯长度增长。而且，通常 response lenght 越长的回复，准确性越低，可能是因为response 越长，代表这题越难，自然准确率就越低了，对“有效推理”的理解应该是模型自己学会了这些难度的题要用多少推理来处理。

6. 避免“长度作弊”需自然扩展响应。

同第 5 点，竟然推理长度不等于推理能力。那就没必要用强制的手段，让模型强行推理了，一切都最好让模型自己习得，设置为适当的 reward 后，就不要管了。

7. RL 相比 SFT 更能促进泛化

这应该已经成为了 RL 认知中的一个公式，论文[1]中用逻辑题上进行 RL 对数学题也有提升。所以在模型内部，可能推理就是一个通用能力，能用某个任务刺激出模型的这种能力，那就能泛化到其它任务。

8. 最好 ruled-based reward 和 reward mode-based reward 相结合

论文[5]提到ruled-based 相对于 reward model不容易受到 reward hacking，能学习到 fine-grained 的信息。按这样说，假如我们的业务是没有明确答案的，只能训练 reward model 的话，那 RL 中最好也结合一些有 ruled-based 的数据，例如数学、编程等任务，结合着一起训。