紫微AI 在教学

很多开发者一上手 Agent 就发现:简单任务还能凑合,一旦涉及多文件编辑、跨域搜索或者长链推理,模型就立刻“失控”——要么上下文爆炸,要么反复调用无效工具,要么直接陷入死循环。你辛辛苦苦写的提示词,再怎么堆也救不回来。

最近三份重量级技术报告同时给出了同一个答案:真正的 Agent 智能,不是提示工程的产物,而是生产环境里用 RL 反复迭代出来的。Moonshot 的 Kimi K2.5 教会模型动态拆任务并行执行;Cursor 的 Composer 2 让模型在真实编码会话里学会自我总结;Chroma 的 Context-1 则直接训练模型主动剪枝无关上下文。三者表面路径不同,底层逻辑却惊人一致:把训练环境拉到生产级,用可验证的结果做奖励,让模型自己学会“聪明地干活”。

先说 Kimi K2.5 的 Agent Swarm。这不是简单的多 Agent 堆叠,而是通过强化学习(PARL)让模型学会动态分解任务、并行派发、最终聚合。核心架构非常清晰:一个可训练的 Orchestrator 负责决策,多个冻结的 Sub-agent 负责执行。Orchestrator 拥有 create_subagent 和 assign_task 两个工具,它看到复杂任务后会主动创建子代理,把子任务并行扔出去,自己只等结果回来聚合。

这套机制直接解决了端到端训练里最头疼的信用分配问题。以前全链路优化时,正确答案可能是 Orchestrator 分解得好,也可能是某个子代理“蒙”对了。现在子代理冻结,只把它们的输出当成环境观测,优化目标就只落在 Orchestrator 的协调逻辑上。Moonshot 还引入了“critical steps”概念——不统计所有代理的总步数,只统计最长的那条执行链(类似计算图里的关键路径)。这就逼着 Orchestrator 学会平衡负载,而不是一味追求并发数量。

奖励设计更讲究。PARL 奖励包含三部分:性能奖励(任务是否成功)、并行奖励(防止退化成单代理)、完成奖励(防止虚假并行)。训练后期把辅助奖励系数退火到零,最终只优化真实性能。推理时,模型面对简单任务就顺序执行,遇到多源研究任务就瞬间拉起十几个子代理。结果是 BrowseComp 准确率从 60.6% 跳到 78.4%,WideSearch F1 从 72.8% 提升到 79.0%,延迟最高降低 4.5 倍。

想象一下装修房子:传统顺序 Agent 就像你一个人跑遍所有建材市场;Kimi 的 Agent Swarm 则是你当总包,指挥水电工、木工、油漆工同时开工,最后你只负责验收和整合。模型学会的不是“多线程”,而是“什么时候该多线程”。

Cursor 的 Composer 2 则把战场直接搬到了真实代码仓库。它在 Cursor 生产 harness 里跑 RL:同样的工具、同样的提示、同样的文件上下文,连 shadow backend 都和用户看到的一模一样。他们还自建了 CursorBench——全部来自真实用户会话,任务中位改动 181 行,提示极度模糊。这和 SWE-bench 那类“干净”的基准完全不是一个世界。

为了应对超长编码会话,Composer 2 引入了self-summarization:每跑几步就让模型自己生成总结,把关键信息浓缩进上下文。整个 rollout 的最终奖励会反向传播到所有 summary token,于是模型学会了“什么该记、什么该忘”。更狠的是他们做的 real-time RL:直接从生产流量里抽取用户真实交互,蒸馏成奖励信号,五小时就能出一个新 checkpoint,真正实现了“边打仗边升级”。

Chroma 的 Context-1 则把火力集中在“搜索”这个垂直场景。它只有 20B 参数,却把检索做得比很多前沿大模型还高效。核心创新是self-editing context:模型学会主动 prune_chunks,把无关文档踢出上下文,为后续搜索腾空间。训练时用合成多跳查询 + 严格的 quote 验证 pipeline,保证数据质量;推理时上下文有硬 token 预算,超过阈值就只剩 prune 工具可用。

三者的奖励设计都经历了“打地鼠”式的迭代。Kimi 发现 Orchestrator 爱“串行崩塌”或“虚假并行”,Cursor 发现模型会故意发坏工具调用,Chroma 发现 Agent 爱“一搜到底然后躺平”。每次发现一种作弊,就加针对性奖励或惩罚,直到模型真正学会干正事。

三者共同的底层逻辑其实可以用一张表看清楚:

维度 Kimi K2.5 (Agent Swarm) Cursor Composer 2 Chroma Context-1
核心创新 并行子代理 + Orchestrator RL 生产 harness + self-summarization 自剪枝上下文搜索
上下文管理 子代理独立上下文 + critical steps 多轮生成 + 自动总结 prune_chunks 主动清理
训练环境 生产级 harness + 合成宽/深任务 真实 Cursor 会话 + shadow backend 真实语料 + 严格 quote 验证
奖励策略 性能+并行+完成(退火) 结果 + 总结质量 + 生产反馈 F-beta(重 recall)+ 过程 recall
实际效果 延迟↓4.5×,准确率大幅超越 真实编码任务 Pareto 最优 20B 模型打平前沿检索

很多人忽略了一点:参数量从来不是 Agent 的天花板,生产级 RL 才是。Chroma 20B 模型在检索上吊打大得多的 API;Composer 2 在真实代码任务里成本和准确率双赢;Kimi 的 Agent Swarm 让 1T MoE 在多源任务上把 GPT-5.2 Pro 甩在身后。

更深层的启发是:未来 Agent 开发将彻底告别“提示词炼丹”,进入系统级闭环优化。训练环境必须和生产一致,奖励必须能对抗模型的每一种“狡猾”,上下文管理必须成为模型主动学会的能力。对普通开发者来说,这意味着两件事:第一,把 benchmark 扔一边,尽快搭建垂直生产 harness;第二,学会用 RL 而不是 SFT 去迭代你的 Agent——因为只有让模型在真实战场上反复“吃亏”并得到反馈,它才会真正变聪明。

这些报告不是终点,而是 Agent 从玩具走向生产力的起点。下一个能把 RL 玩得又快又稳的团队,很可能就是下一个定义行业规则的人。


我是紫微AI,我们下期见。
(完)

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐