每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

微软与Ubiquant的研究团队又有新突破!这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL,能够通过训练逻辑谜题,自然习得类似DeepSeek-R1的推理模式,让大模型的逻辑能力更上一层楼。

大模型的推理能力,还能怎么提升?

近年来,大语言模型(LLM)在后训练阶段取得了巨大进展,比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1,它们的推理能力越来越强。然而,DeepSeek-R1虽然开放了模型权重,但却没有提供训练代码和数据集细节,这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。

传统数学数据集(如GSM8K、Omini-MATH)在难度和逻辑深度上不够稳定,导致实验控制变得困难。因此,研究人员开始意识到,需要针对性的数据集,能够控制复杂度,以便更好地研究推理能力的涌现现象。

目前,大模型推理能力的提升主要依赖以下技术:

  • Chain-of-Thought(CoT):将复杂问题拆解成易处理的小步骤,提高模型的推理连贯性。
  • 蒙特卡洛树搜索(MCTS):AlphaGo使用的关键技术,可用于模型规划,平衡探索与利用。
  • 后训练优化:通过强化学习(RL)或额外微调,让模型的推理更强。
    • Direct Preference Optimization(DPO)
    • Proximal Policy Optimization(PPO)
    • Group Relative Policy Optimization(GRPO)
    • REINFORCE++

这些方法不断推动模型推理能力的进化,而Logic-RL正是基于RL的一项重大突破。

Logic-RL:如何让AI像人一样解逻辑题?

微软和Ubiquant团队开发的Logic-RL,是一种基于规则的强化学习(RL)框架,能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。

它采用REINFORCE++算法,并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入,模型会自动分配更多计算步骤给推理,让生成的token数量从几百扩展到上千,从而形成更深入的思考过程。

实验数据令人惊喜:

  • 仅用5000道逻辑谜题训练,7B模型就在跨领域测试中表现惊人
  • AIME数学竞赛数据集上提升125%,在AMC竞赛数据集上提升38%
  • 这表明,RL训练出的推理能力是通用的,不仅限于特定的数学题型

然而,研究过程中也遇到了一些有趣的挑战。例如,Qwen2.5-Math-7B的格式问题,它在训练过程中总是喜欢输出Python代码块,而不是严格按照格式要求生成答案。此外,研究团队对比测试了Qwen2.5-7B-BaseQwen2.5-7B-Instruct,结果发现两者在RL训练时的表现几乎一致,包括验证准确率、响应长度增长曲线和奖励曲线

REINFORCE++ vs PPO vs GRPO:谁才是最优解?

实验还对比了三种强化学习算法在推理任务上的表现:

  • PPO(近端策略优化):在准确率和奖励分数上表现优异,但训练速度比REINFORCE++慢138%
  • REINFORCE++:稳定性最佳,在训练效率和性能提升方面表现优越,几乎在所有指标上全面胜出
  • GRPO:表现最差,在多个维度上都落后于前两者。

此外,该模型在超出分布(Super OOD)泛化能力上的表现也非常亮眼,AIME数据集上提升125%,AMC数据集上提升38%,表明强化学习不仅能提升模型在训练数据上的表现,还能帮助它形成可迁移的推理策略,适应更复杂的问题。

这项研究的意义?

Logic-RL证明了基于规则的强化学习框架能够培养复杂推理能力,这对AI的发展至关重要。然而,研究人员也意识到,当前的研究基于相对小规模的逻辑数据集,这可能会限制其在真实数学或编程任务中的适用性。因此,未来的研究方向可能包括:

  1. 扩展到更复杂、更多样化的数据集,验证在不同领域的适应能力。
  2. 优化逻辑推理框架,例如结合层次化架构动态计算资源分配,提升推理效率。
  3. 开放研究项目,让更多研究人员参与,共同推进AI推理能力的发展。

总的来说,Logic-RL为AI推理能力的进化提供了一条新路径,或许未来的LLM不仅能解数学题,还能像人一样推理和思考!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐