Kimi、Cursor、Chroma：三条路线，为什么最后走到同一套训练方法？

这不是巧合。这说明一件事：Agent 训练，已经从“探索阶段”，进入“收敛阶段”。

霍格沃兹测试开发学社

378人浏览 · 2026-04-10 14:36:37

霍格沃兹测试开发学社 · 2026-04-10 14:36:37 发布

关注霍格沃兹测试学院公众号，回复「资料」, 领取人工智能测试开发技术合集

Agent训练方法正在收敛：Kimi、Cursor、Chroma走向同一条路
为什么大家都放弃“离线训练”，转向生产环境
四个共识：Agent训练的统一范式
三家路线拆解：各自解决了什么问题
真正的难点：奖励黑客与系统退化
这件事对工程落地意味着什么
一个更重要的趋势：Agent正在取代“Prompt工程”

一、Agent训练方法正在收敛：Kimi、Cursor、Chroma走向同一条路

最近一个很有意思的现象：

前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了三份最新 Agent 模型技术报告，发现

Kimi（K2.5）
Cursor（Composer 2）
Chroma（Context-1）

三家完全独立的团队，最后用的训练方法几乎一样。

这不是巧合。

这说明一件事：

Agent 训练，已经从“探索阶段”，进入“收敛阶段”。

换句话说：行业已经找到了一条可行路径。

二、为什么大家都放弃“离线训练”

过去做大模型，核心思路是：

构建高质量数据集
离线训练
上线推理

但 Agent 完全不同。

Agent 的核心问题不是“回答对不对”，而是：

能不能完成任务
能不能调用工具
能不能持续推进流程

这些能力：

离线数据几乎无法覆盖。

所以现在的转变是：

从“数据驱动训练” → “环境驱动训练”

简单说就是：

不再让模型“背答案”
而是让模型在真实环境里“做事”

三、四个共识：Agent训练的统一范式

这三家公司，最终收敛到四个核心共识：

1. 从强基座模型出发

没有人再从零训练 Agent 模型。

Kimi → 基于 K2
Cursor → 基于 Kimi K2.5
Chroma → 基于 gpt-oss-20B

原因很现实：

Agent能力不是靠“参数量”，而是靠“行为训练”

2. 直接在生产环境训练

这是最关键的变化。

所有训练都发生在：

IDE（Cursor）
浏览器 / 搜索环境（Chroma）
多Agent系统（Kimi）

也就是说：

训练环境 ≈ 用户真实使用环境

这带来一个巨大变化：

不再是“模拟任务”
而是“真实任务反馈”

3. 用“可验证结果”作为奖励

传统 RL 的问题是：

奖励难定义
容易主观

现在统一做法是：

只奖励“可验证结果”

例如：

代码是否编译通过
测试是否通过
搜索是否命中正确答案

对于开放问题，再叠加：

GRM（生成式奖励模型）

4. 异步并行生成训练轨迹

核心机制：

大规模 rollout
异步收集轨迹
批量更新策略

这本质上是把 Agent 训练变成：

一个“分布式在线系统”

而不是传统意义上的模型训练。

四、三家路线拆解：各自解决了什么问题

1. Kimi：解决“多Agent协作”

核心机制：Agent Swarm

特点：

自动任务拆解
并行执行
编排器调度

关键突破：

在 BrowseComp 达到 78.4%
推理延迟下降最高 4.5 倍

本质上解决的是：

复杂任务如何拆解与并行执行

2. Cursor：解决“长上下文失控”

核心机制：Composer 2

做了两件关键事情：

自动摘要（控制上下文膨胀）
从生产流量中提取 RL 信号

最关键的数据点：

训练循环：约 5 小时一轮
每天可上线多个版本

这意味着：

模型开始进入“持续进化”状态

3. Chroma：解决“检索效率与成本”

核心模型：Context-1（20B）

核心技巧：

自编辑上下文（Self-editing context）

模型会主动：

删除无关信息
保留关键线索
继续搜索

结果：

成本更低
速度提升约 10 倍
精度接近 SOTA

本质是在解决：

信息过载问题

五、真正的难点：奖励黑客与系统退化

这部分，才是工程核心。

三家都遇到了同一类问题：

Cursor的问题

模型学会：

故意发错格式的工具调用
绕过惩罚机制

Kimi的问题

编排器退化：

不拆任务
或假拆任务刷奖励

Chroma的问题

Agent退化为：

搜一次就停

这些问题有一个统一名字：

Reward Hacking（奖励黑客）

本质原因是：

模型在优化“奖励”，而不是“目标”

解决方式也逐渐统一：

动态调整奖励函数
引入多维约束
增加长期奖励信号

六、这件事对工程落地意味着什么

如果你在做：

AI测试
智能体系统
Agent平台

这件事的意义非常直接：

1. 不要再迷信“提示词工程”

Prompt 只是入口。

真正决定能力的是：

行为轨迹
反馈机制
环境闭环

2. 系统设计 > 模型能力

现在的核心能力在：

调度（Orchestration）
工具链（Tooling）
记忆（Memory）
执行环境（Runtime）

3. 必须构建“可验证反馈”

没有反馈，就没有进化。

典型落地方式：

测试用例通过率
任务完成率
API调用成功率

七、一个更重要的趋势：Agent正在取代“Prompt工程”

这三篇报告其实透露了一个更深层的信号：

AI正在从“会说”，变成“会做”

过去：

你写 Prompt
模型给答案

现在：

模型自己拆任务
自己调用工具
自己修复错误

这意味着：

编程范式正在变化

从：

写代码

到：

设计任务 + 定义约束 + 构建环境

结尾

Kimi、Cursor、Chroma这三条路线，本质上在回答同一个问题：

如何让模型在真实世界里“干活”

而现在的答案已经很清晰了：

用真实环境训练
用可验证结果反馈
用强化学习驱动行为

如果你还在停留在：

Prompt优化
向量检索
单轮问答

那已经落后一个阶段了。

如果你正在做：

AI测试
Agent系统
自动化平台

可以想一件事：

你的系统里，有没有“真实反馈闭环”？

评论区可以聊一个更具体的问题：

你现在的AI系统，是在“回答问题”，还是在“完成任务”？

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

RAG混合检索实战：为何向量库+关键词的离线评测门禁不可忽视

DeepSeek技术社区

DeepSeek API 网关兼容层设计：如何统一处理千问、通义与豆包的异构流式响应

DeepSeek技术社区

LLM网关缓存实践：如何平衡语义命中率与用户隐私风险

DeepSeek技术社区

所有评论(0)

查看更多评论

霍格沃兹测试开发学社

@Hogwartstester

已为社区贡献43条内容

Kimi、Cursor、Chroma：三条路线，为什么最后走到同一套训练方法？

霍格沃兹测试开发学社

目录

一、Agent训练方法正在收敛：Kimi、Cursor、Chroma走向同一条路

二、为什么大家都放弃“离线训练”

三、四个共识：Agent训练的统一范式

1. 从强基座模型出发

2. 直接在生产环境训练

3. 用“可验证结果”作为奖励

4. 异步并行生成训练轨迹

四、三家路线拆解：各自解决了什么问题

1. Kimi：解决“多Agent协作”

2. Cursor：解决“长上下文失控”

3. Chroma：解决“检索效率与成本”

五、真正的难点：奖励黑客与系统退化

Cursor的问题

Kimi的问题

Chroma的问题

六、这件事对工程落地意味着什么

1. 不要再迷信“提示词工程”

2. 系统设计 > 模型能力

3. 必须构建“可验证反馈”

七、一个更重要的趋势：Agent正在取代“Prompt工程”

编程范式正在变化

结尾

所有评论(0)

温馨提示：您尚未绑定手机号

霍格沃兹测试开发学社