Manus爆火后的思考：是否可以通过RL微调LLM来获得决策大模型

那回到主题上来，如果让我设计决策式的AI Agent，我可能会设计一些基础的决策任务，类似爬虫，写代码等等，每个子任务由一个垂类决策大模型控制。每个子任务都由LLM模型通过强化学习对其进行微调得到，奖励信号来自于是否完成了任务，而非人类给的监督信号。当然这仅仅只是我的一个构想，我也会在未来尝试一下，看这个思路是否可行。

全栈大佬！

999人浏览 · 2025-03-27 16:27:01

全栈大佬！ · 2025-03-27 16:27:01 发布

最近AI领域最引人注目的突破莫过于Manus这样的AI agent涌现。其热度本质映射着行业认知的范式转变：AI Agent实现了从感知智能（语言对话）向决策智能（数据爬取，代码生成，可视化分析）的里程碑式跨越。这一认知层突破带来的震撼，恰似2016年AlphaGo横空出世时强化学习对产业界的颠覆性冲击。

我跟我的小伙伴们也对Manus具体的实现路径进行了激烈的讨论，存在两个典型观点：

• 提示工程极致派 ：主张通过思维链、树状推理等prompt架构创新，激发LLM原生决策潜能。
• 定向微调派 ：通过强化学习对大模型进行某项决策能力专项优化。

这有点像当年的自动驾驶，方案1是写一堆固定规则，方案2是通过端到端的训练模型来控制。不认同方案2的原因无非以下几点：

• 决策这件事非常要命，一旦出错带来的损失比感知大很多
• 人机交互协同的能力很差，很难说AI哪不好，我人来弥补它
• bad-case不好修复，因为是神经网络，没办法把bad-case告诉它。

但我觉得方案2不一定不可行，或者说方案1和方案2是有可能结合的。这里介绍一个我们最新的工作。

在去年12月份的时候，我们就想尝试做决策大模型，当然我们一开始也是基于prompt去做，我们首先在星际这个垂直决策领域开刀，也取得了不错的效果，具体可以看这篇文章：一种解决SMAC任务的新方法：让大语言模型写决策树代码[1]

但我们还是想结合强化学习的思路，让LLM Agent通过不断玩星际来提升星际水平。

这里我们仍然是采用之前的思路，我们构建了很多星际的小场景任务，然后通过描述这个任务，来让大模型生成对应的决策树代码。

有兄弟问我，为啥不采用把当前状态描述一下，然后问大模型应该采用什么动作的方式呢？

• 首先这种方式做出来的决策模型仍然是个黑盒，上面讲的三点问题都没解决。
• 第二我觉得从原理上讲，除非模型告诉MDP整个问题的定义，也就是状态空间、动作空间等等，否则缺乏信息量来判断该状态下应该做什么动作呢。

这里跟之前用常规强化学习训练不同，加了两个不一样的奖励。

• 如果大模型未按要求生成代码，奖励给-1
• 如果大模型生成的决策树代码，报错了给0
• 其他情况就按星际任务的胜率来进行归一化，归一化到0-1

以此就达到了通过环境交互训练大模型的功能。

当然由于算力资源有限，还要做很多准备，我们实际的流程是这样的。

• 先deepseek v2.5-236B（做这个工作的时候还没有v3和r1）的API模式，生成一些星际的决策树代码
• 用本地部署的Qwen-coder-7b做数据增强。
• 然后数据先蒸馏了Qwen-base-7b，基本保证代码API调用正确。过程中用了SFT和DPO。
• 最后才是上文讲的通过GRPO算法来进行模型微调。

具体实验细节

reward和环境是我们整个框架的核心，而且和大家现在疯狂做的math，reasoning 的问题不同，smac是真的需要起一个星际争霸2游戏跑的，cpu端和游戏本身的运行速度也是一个瓶颈。我们的主要优化都在于如何设置game evaluation work，提升并行运行速度，以及设置合适的正则表达式正确的提取代码并执行。至于具体的超参数层面，verl 库本身的配置就已经足够好了，基本不需要任何修改。

令我们意外的是，模型训练过程中，在MMM2，8m_vs_9m，10m_vs_11m 都取得了不错的胜率，要知道LLM实际上是用行为树粗犷的编写代码实现策略，而非MARL里面一个个精确操作实现的。这个胜率相较于dpo 模型有了质的飞跃。

相比于这两个月来R1复现时大家经常讨论的aha moment 和cot 不断增加，我们的实验效果截然不同。三次训练均显示response length 不断变短， reward 不停增加，而且训练到最后，我们的 language reasoning 部分，也就是策略分析<strategy>......</strategy>竟然训没了。要知道很多人复现的时候都说，他们的<think> token甚至可以涌现出来。这说明smac这样的微操策略可能很难用语言表述，拿我们打游戏常用的话说，人越菜话越多，真正的高手看一眼就知道怎么打了，根本不需要分析，只有越菜的人才越清晰于找各种理由和借口。错误的分析还不如不分析！