Moonshot Kimi K2.5、Cursor Composer 2 与 Chroma Context-1，是如何用 RL 把 Agent 真正做成了生产力

更狠的是他们做的 real-time RL：直接从生产流量里抽取用户真实交互，蒸馏成奖励信号，五小时就能出一个新 checkpoint，真正实现了“边打仗边升级”。三者表面路径不同，底层逻辑却惊人一致：把训练环境拉到生产级，用可验证的结果做奖励，让模型自己学会“聪明地干活”。模型学会的不是“多线程”，而是“什么时候该多线程”。很多开发者一上手 Agent 就发现：简单任务还能凑合，一旦涉及多文件编

紫微AI

421人浏览 · 2026-03-29 10:17:16

紫微AI · 2026-03-29 10:17:16 发布

紫微AI 在教学

很多开发者一上手 Agent 就发现：简单任务还能凑合，一旦涉及多文件编辑、跨域搜索或者长链推理，模型就立刻“失控”——要么上下文爆炸，要么反复调用无效工具，要么直接陷入死循环。你辛辛苦苦写的提示词，再怎么堆也救不回来。

最近三份重量级技术报告同时给出了同一个答案：真正的 Agent 智能，不是提示工程的产物，而是生产环境里用 RL 反复迭代出来的。Moonshot 的 Kimi K2.5 教会模型动态拆任务并行执行；Cursor 的 Composer 2 让模型在真实编码会话里学会自我总结；Chroma 的 Context-1 则直接训练模型主动剪枝无关上下文。三者表面路径不同，底层逻辑却惊人一致：把训练环境拉到生产级，用可验证的结果做奖励，让模型自己学会“聪明地干活”。

先说 Kimi K2.5 的 Agent Swarm。这不是简单的多 Agent 堆叠，而是通过强化学习（PARL）让模型学会动态分解任务、并行派发、最终聚合。核心架构非常清晰：一个可训练的 Orchestrator 负责决策，多个冻结的 Sub-agent 负责执行。Orchestrator 拥有 create_subagent 和 assign_task 两个工具，它看到复杂任务后会主动创建子代理，把子任务并行扔出去，自己只等结果回来聚合。

这套机制直接解决了端到端训练里最头疼的信用分配问题。以前全链路优化时，正确答案可能是 Orchestrator 分解得好，也可能是某个子代理“蒙”对了。现在子代理冻结，只把它们的输出当成环境观测，优化目标就只落在 Orchestrator 的协调逻辑上。Moonshot 还引入了“critical steps”概念——不统计所有代理的总步数，只统计最长的那条执行链（类似计算图里的关键路径）。这就逼着 Orchestrator 学会平衡负载，而不是一味追求并发数量。

奖励设计更讲究。PARL 奖励包含三部分：性能奖励（任务是否成功）、并行奖励（防止退化成单代理）、完成奖励（防止虚假并行）。训练后期把辅助奖励系数退火到零，最终只优化真实性能。推理时，模型面对简单任务就顺序执行，遇到多源研究任务就瞬间拉起十几个子代理。结果是 BrowseComp 准确率从 60.6% 跳到 78.4%，WideSearch F1 从 72.8% 提升到 79.0%，延迟最高降低 4.5 倍。

想象一下装修房子：传统顺序 Agent 就像你一个人跑遍所有建材市场；Kimi 的 Agent Swarm 则是你当总包，指挥水电工、木工、油漆工同时开工，最后你只负责验收和整合。模型学会的不是“多线程”，而是“什么时候该多线程”。

Cursor 的 Composer 2 则把战场直接搬到了真实代码仓库。它在 Cursor 生产 harness 里跑 RL：同样的工具、同样的提示、同样的文件上下文，连 shadow backend 都和用户看到的一模一样。他们还自建了 CursorBench——全部来自真实用户会话，任务中位改动 181 行，提示极度模糊。这和 SWE-bench 那类“干净”的基准完全不是一个世界。

为了应对超长编码会话，Composer 2 引入了self-summarization：每跑几步就让模型自己生成总结，把关键信息浓缩进上下文。整个 rollout 的最终奖励会反向传播到所有 summary token，于是模型学会了“什么该记、什么该忘”。更狠的是他们做的 real-time RL：直接从生产流量里抽取用户真实交互，蒸馏成奖励信号，五小时就能出一个新 checkpoint，真正实现了“边打仗边升级”。

Chroma 的 Context-1 则把火力集中在“搜索”这个垂直场景。它只有 20B 参数，却把检索做得比很多前沿大模型还高效。核心创新是self-editing context：模型学会主动 prune_chunks，把无关文档踢出上下文，为后续搜索腾空间。训练时用合成多跳查询 + 严格的 quote 验证 pipeline，保证数据质量；推理时上下文有硬 token 预算，超过阈值就只剩 prune 工具可用。

三者的奖励设计都经历了“打地鼠”式的迭代。Kimi 发现 Orchestrator 爱“串行崩塌”或“虚假并行”，Cursor 发现模型会故意发坏工具调用，Chroma 发现 Agent 爱“一搜到底然后躺平”。每次发现一种作弊，就加针对性奖励或惩罚，直到模型真正学会干正事。

三者共同的底层逻辑其实可以用一张表看清楚：

维度	Kimi K2.5 (Agent Swarm)	Cursor Composer 2	Chroma Context-1
核心创新	并行子代理 + Orchestrator RL	生产 harness + self-summarization	自剪枝上下文搜索
上下文管理	子代理独立上下文 + critical steps	多轮生成 + 自动总结	prune_chunks 主动清理
训练环境	生产级 harness + 合成宽/深任务	真实 Cursor 会话 + shadow backend	真实语料 + 严格 quote 验证
奖励策略	性能+并行+完成（退火）	结果 + 总结质量 + 生产反馈	F-beta（重 recall）+ 过程 recall
实际效果	延迟↓4.5×，准确率大幅超越	真实编码任务 Pareto 最优	20B 模型打平前沿检索

很多人忽略了一点：参数量从来不是 Agent 的天花板，生产级 RL 才是。Chroma 20B 模型在检索上吊打大得多的 API；Composer 2 在真实代码任务里成本和准确率双赢；Kimi 的 Agent Swarm 让 1T MoE 在多源任务上把 GPT-5.2 Pro 甩在身后。

更深层的启发是：未来 Agent 开发将彻底告别“提示词炼丹”，进入系统级闭环优化。训练环境必须和生产一致，奖励必须能对抗模型的每一种“狡猾”，上下文管理必须成为模型主动学会的能力。对普通开发者来说，这意味着两件事：第一，把 benchmark 扔一边，尽快搭建垂直生产 harness；第二，学会用 RL 而不是 SFT 去迭代你的 Agent——因为只有让模型在真实战场上反复“吃亏”并得到反馈，它才会真正变聪明。

这些报告不是终点，而是 Agent 从玩具走向生产力的起点。下一个能把 RL 玩得又快又稳的团队，很可能就是下一个定义行业规则的人。

我是紫微AI，我们下期见。
（完）