上篇 R1复现小记:在业务场景的两类NLP任务上有显著效果 提到在业务场景中复现 DeepSeek-R1,也简单记录下最近阅读一些论文过程中积累的 insight。

  • Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning

  • An Empirical Study on Eliciting and Improving R1-like Reasoning Models

  • Understanding R1-Zero-Like Training: A Critical Perspective

  • DAPO: An Open-Source LLM Reinforcement Learning System at Scale

  • Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

1. 目前的算法还有很多改进空间

  • 论文[3]针对 GRPO 提出了名为 Dr. GRPO 的改进方法。GRPO 在优化过程中存在响应级长度偏差和问题级难度偏差,导致模型训练时会生成越来越长的错误响应。Dr. GRPO 通过简单地去除 GRPO 中  和  这两个归一化项,同时在掩码均值函数中用常数(如生成预算)替代  ,恢复了 PPO 的原始目标,采用蒙特卡罗回报估计优势,并设置无偏基线,从而有效避免了优化偏差,在提升令牌效率的同时,还能维持模型的推理性能。

  • 论文[4]针对GRPO和PPO在大语言模型强化学习训练中的熵坍缩、样本效率低、长序列训练效果差等问题,提出DAPO方法。Clip-Higher技术解耦裁剪范围,提高  ,增加低概率token概率提升空间,避免策略熵过早下降,提升样本多样性;动态采样对准确率为1和0的样本过采样并过滤无效样本,保留有效梯度样本,提高训练效率和稳定性;Token-Level Policy Gradient Loss针对长思维链场景,改变GRPO样本级损失计算方式,使长序列对梯度更新影响更大,更好学习推理模式,抑制不良模式;Overlong Reward Shaping提出超长过滤策略和软超长惩罚机制,减少截断样本奖励噪声,稳定训练,引导模型避免超长响应。

2. 强化学习超参数设置

  • 论文[2]提到Train Batch Size方面,较大值(如 TBS = 1024)能增强训练效率与稳定性;学习策略上,On-policy 相比 Off-policy 更具优势,可促进模型探索并提升测试集表现;在Tollout Times,增加Tollout Times(如 n = 64 )能提升训练效果、鼓励模型生成更长响应,Rollout Temperature 为 1.2 时在保证正常生成文本的情况下性能更佳;KL 惩罚系数则以动态退火策略(从 KL = 1×10⁻³ 到 KL = 0 余弦衰减)为优,利于平衡模型探索与稳定性。

3. 奖励的设计要更细粒度

  • 论文[1]观察到在早期奖励规则设计不完善时,模型出现多种 reward hacking 行为,比如跳过思考过程直接作答、在答案标签内进行推理、胡乱猜测答案、给出无关内容、错误组织正确答案、回答后又因推理不足重新思考、重复问题或用套话逃避推理等。为优化这一情况,研究人员迭代完善规则设计,要求模型按特定格式输出,/和/标签仅出现一次且顺序正确,思考过程必须有真实推理,结论要便于提取和阅读。同时构建了包含格式奖励和答案奖励的规则式奖励系统,格式正确得 1 分,错误得 -1 分;答案完全正确得 2 分,部分错误得 -1.5 分,无法解析或缺失得 -2 分,以此约束模型行为,避免奖励作弊。

4. 推理能力的提升是渐进的,没有明显的“顿悟时刻”

  • 模型在训练前已经有一定的复杂推理行为(如反思、验证、策略探索等),而且在后续的训练过程中,推理能力的提升是渐进过程,不会突然有个拐点 emerge 出突飞猛进的推理能力。

5. 增加回答长度并不直接提高推理能力,长度增加与推理性能提升是相关的,但不是因果关系。

  • 响应长度增加可能为推理能力提升提供更多探索空间,但二者本质是伴随关系,推理性能的核心提升源于模型对有效推理步骤的优化而非单纯长度增长。而且,通常 response lenght 越长的回复,准确性越低,可能是因为response 越长,代表这题越难,自然准确率就越低了,对“有效推理”的理解应该是模型自己学会了这些难度的题要用多少推理来处理。

6. 避免“长度作弊”需自然扩展响应。

  • 同第 5 点,竟然推理长度不等于推理能力。那就没必要用强制的手段,让模型强行推理了,一切都最好让模型自己习得,设置为适当的 reward 后,就不要管了。

7. RL 相比 SFT 更能促进泛化

  • 这应该已经成为了 RL 认知中的一个公式,论文[1]中用逻辑题上进行 RL 对数学题也有提升。所以在模型内部,可能推理就是一个通用能力,能用某个任务刺激出模型的这种能力,那就能泛化到其它任务。

8. 最好 ruled-based reward 和 reward mode-based reward 相结合

  • 论文[5]提到ruled-based 相对于 reward model不容易受到 reward hacking,能学习到 fine-grained 的信息。按这样说,假如我们的业务是没有明确答案的,只能训练 reward model 的话,那 RL 中最好也结合一些有 ruled-based 的数据,例如数学、编程等任务,结合着一起训。

 

 大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书 

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。



4.LLM面试题和面经合集


这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。



👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集***

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐