关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集

目录

  1. Agent训练方法正在收敛:Kimi、Cursor、Chroma走向同一条路

  2. 为什么大家都放弃“离线训练”,转向生产环境

  3. 四个共识:Agent训练的统一范式

  4. 三家路线拆解:各自解决了什么问题

  5. 真正的难点:奖励黑客与系统退化

  6. 这件事对工程落地意味着什么

  7. 一个更重要的趋势:Agent正在取代“Prompt工程”


一、Agent训练方法正在收敛:Kimi、Cursor、Chroma走向同一条路

最近一个很有意思的现象:

前 Hugging Face 技术负责人、现谷歌 DeepMind 资深工程师 Philipp Schmid 对比了三份最新 Agent 模型技术报告,发现

  • Kimi(K2.5)

  • Cursor(Composer 2)

  • Chroma(Context-1)

三家完全独立的团队,最后用的训练方法几乎一样。

这不是巧合。

这说明一件事:

Agent 训练,已经从“探索阶段”,进入“收敛阶段”。

换句话说:行业已经找到了一条可行路径。


二、为什么大家都放弃“离线训练”

过去做大模型,核心思路是:

  • 构建高质量数据集

  • 离线训练

  • 上线推理

但 Agent 完全不同。

Agent 的核心问题不是“回答对不对”,而是:

  • 能不能完成任务

  • 能不能调用工具

  • 能不能持续推进流程

这些能力:

离线数据几乎无法覆盖。

所以现在的转变是:

从“数据驱动训练” → “环境驱动训练”

简单说就是:

  • 不再让模型“背答案”

  • 而是让模型在真实环境里“做事”


三、四个共识:Agent训练的统一范式

这三家公司,最终收敛到四个核心共识:

1. 从强基座模型出发

没有人再从零训练 Agent 模型。

  • Kimi → 基于 K2

  • Cursor → 基于 Kimi K2.5

  • Chroma → 基于 gpt-oss-20B

原因很现实:

Agent能力不是靠“参数量”,而是靠“行为训练”


2. 直接在生产环境训练

这是最关键的变化。

所有训练都发生在:

  • IDE(Cursor)

  • 浏览器 / 搜索环境(Chroma)

  • 多Agent系统(Kimi)

也就是说:

训练环境 ≈ 用户真实使用环境

这带来一个巨大变化:

  • 不再是“模拟任务”

  • 而是“真实任务反馈”


3. 用“可验证结果”作为奖励

传统 RL 的问题是:

  • 奖励难定义

  • 容易主观

现在统一做法是:

只奖励“可验证结果”

例如:

  • 代码是否编译通过

  • 测试是否通过

  • 搜索是否命中正确答案

对于开放问题,再叠加:

  • GRM(生成式奖励模型)


4. 异步并行生成训练轨迹

核心机制:

  • 大规模 rollout

  • 异步收集轨迹

  • 批量更新策略

这本质上是把 Agent 训练变成:

一个“分布式在线系统”

而不是传统意义上的模型训练。


四、三家路线拆解:各自解决了什么问题

1. Kimi:解决“多Agent协作”

核心机制:Agent Swarm

特点:

  • 自动任务拆解

  • 并行执行

  • 编排器调度

关键突破:

  • 在 BrowseComp 达到 78.4%

  • 推理延迟下降最高 4.5 倍

本质上解决的是:

复杂任务如何拆解与并行执行


2. Cursor:解决“长上下文失控”

核心机制:Composer 2

做了两件关键事情:

  • 自动摘要(控制上下文膨胀)

  • 从生产流量中提取 RL 信号

最关键的数据点:

  • 训练循环:约 5 小时一轮

  • 每天可上线多个版本

这意味着:

模型开始进入“持续进化”状态


3. Chroma:解决“检索效率与成本”

核心模型:Context-1(20B)

核心技巧:

自编辑上下文(Self-editing context)

模型会主动:

  • 删除无关信息

  • 保留关键线索

  • 继续搜索

结果:

  • 成本更低

  • 速度提升约 10 倍

  • 精度接近 SOTA

本质是在解决:

信息过载问题


五、真正的难点:奖励黑客与系统退化

这部分,才是工程核心。

三家都遇到了同一类问题:

Cursor的问题

模型学会:

  • 故意发错格式的工具调用

  • 绕过惩罚机制


Kimi的问题

编排器退化:

  • 不拆任务

  • 或假拆任务刷奖励


Chroma的问题

Agent退化为:

  • 搜一次就停


这些问题有一个统一名字:

Reward Hacking(奖励黑客)

本质原因是:

模型在优化“奖励”,而不是“目标”

解决方式也逐渐统一:

  • 动态调整奖励函数

  • 引入多维约束

  • 增加长期奖励信号


六、这件事对工程落地意味着什么

如果你在做:

  • AI测试

  • 智能体系统

  • Agent平台

这件事的意义非常直接:

1. 不要再迷信“提示词工程”

Prompt 只是入口。

真正决定能力的是:

  • 行为轨迹

  • 反馈机制

  • 环境闭环


2. 系统设计 > 模型能力

现在的核心能力在:

  • 调度(Orchestration)

  • 工具链(Tooling)

  • 记忆(Memory)

  • 执行环境(Runtime)


3. 必须构建“可验证反馈”

没有反馈,就没有进化。

典型落地方式:

  • 测试用例通过率

  • 任务完成率

  • API调用成功率


七、一个更重要的趋势:Agent正在取代“Prompt工程”

这三篇报告其实透露了一个更深层的信号:

AI正在从“会说”,变成“会做”

过去:

  • 你写 Prompt

  • 模型给答案

现在:

  • 模型自己拆任务

  • 自己调用工具

  • 自己修复错误

这意味着:

编程范式正在变化

从:

  • 写代码

到:

  • 设计任务 + 定义约束 + 构建环境


结尾

Kimi、Cursor、Chroma这三条路线,本质上在回答同一个问题:

如何让模型在真实世界里“干活”

而现在的答案已经很清晰了:

  • 用真实环境训练

  • 用可验证结果反馈

  • 用强化学习驱动行为

如果你还在停留在:

  • Prompt优化

  • 向量检索

  • 单轮问答

那已经落后一个阶段了。


如果你正在做:

  • AI测试

  • Agent系统

  • 自动化平台

可以想一件事:

你的系统里,有没有“真实反馈闭环”?

评论区可以聊一个更具体的问题:

你现在的AI系统,是在“回答问题”,还是在“完成任务”?

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐