微软与Ubiquant的研究团队带来了一款全新的基于规则的强化学习框架——Logic-RL

订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。然而，DeepSeek-R1虽然开放了模型权重，但却没有提供训练代码和数据集细节，这让人们对如何在。，是一种基于规则的强化学习（RL）框架，能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。，能够通过训练逻辑谜题，自然习得类似DeepSeek-R1的推理模式，让大模型的逻辑能力更上一层楼。这些方法不断推动模型推理能力的进

新加坡内哥谈技术

1107人浏览 · 2025-03-10 23:52:11

新加坡内哥谈技术 · 2025-03-10 23:52:11 发布

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

微软与Ubiquant的研究团队又有新突破！这次他们带来了一款全新的基于规则的强化学习框架——Logic-RL，能够通过训练逻辑谜题，自然习得类似DeepSeek-R1的推理模式，让大模型的逻辑能力更上一层楼。

大模型的推理能力，还能怎么提升？

近年来，大语言模型（LLM）在后训练阶段取得了巨大进展，比如DeepSeek-R1、Kimi-K1.5和OpenAI-o1，它们的推理能力越来越强。然而，DeepSeek-R1虽然开放了模型权重，但却没有提供训练代码和数据集细节，这让人们对如何在小模型上扩展推理能力、如何构建最佳训练数据结构、以及如何可靠地复现推理方法充满疑问。

传统数学数据集（如GSM8K、Omini-MATH）在难度和逻辑深度上不够稳定，导致实验控制变得困难。因此，研究人员开始意识到，需要针对性的数据集，能够控制复杂度，以便更好地研究推理能力的涌现现象。

目前，大模型推理能力的提升主要依赖以下技术：

Chain-of-Thought（CoT）：将复杂问题拆解成易处理的小步骤，提高模型的推理连贯性。
蒙特卡洛树搜索（MCTS）：AlphaGo使用的关键技术，可用于模型规划，平衡探索与利用。
后训练优化：通过强化学习（RL）或额外微调，让模型的推理更强。
- Direct Preference Optimization（DPO）
- Proximal Policy Optimization（PPO）
- Group Relative Policy Optimization（GRPO）
- REINFORCE++

这些方法不断推动模型推理能力的进化，而Logic-RL正是基于RL的一项重大突破。

Logic-RL：如何让AI像人一样解逻辑题？

微软和Ubiquant团队开发的Logic-RL，是一种基于规则的强化学习（RL）框架，能让模型通过逻辑训练习得类似DeepSeek-R1的推理能力。

它采用REINFORCE++算法，并参考了DeepSeek-R1的奖励机制进行后训练。随着训练的深入，模型会自动分配更多计算步骤给推理，让生成的token数量从几百扩展到上千，从而形成更深入的思考过程。

实验数据令人惊喜：

仅用5000道逻辑谜题训练，7B模型就在跨领域测试中表现惊人
在AIME数学竞赛数据集上提升125%，在AMC竞赛数据集上提升38%
这表明，RL训练出的推理能力是通用的，不仅限于特定的数学题型

然而，研究过程中也遇到了一些有趣的挑战。例如，Qwen2.5-Math-7B的格式问题，它在训练过程中总是喜欢输出Python代码块，而不是严格按照格式要求生成答案。此外，研究团队对比测试了Qwen2.5-7B-Base和Qwen2.5-7B-Instruct，结果发现两者在RL训练时的表现几乎一致，包括验证准确率、响应长度增长曲线和奖励曲线。