最近在技术社区看到一个案例:某团队在使用Claude Code时,通过维护一个CLAUDE.md文件,把代码生成的准确率从41%提升到了89%。一个markdown文件带来这么大的变化,值得仔细看看背后的逻辑。

做AI Agent开发的人都清楚准确率是核心指标。一个Agent如果经常犯错,用户很快就会失去信任,然后回到手动操作。但准确率也是个很难优化的指标,不像性能那样可以通过加机器来解决,涉及模型理解、上下文管理、错误恢复等多个维度。Claude Code这个案例给了一个有意思的视角:与其期待模型本身变得更聪明,不如给它更好的工作指引。

CLAUDE.md本质上是一个上下文文档,告诉模型这个项目的代码风格是什么、哪些地方容易出错、遇到问题时应该怎么处理、有哪些约束条件必须遵守。看起来简单,但这些信息对模型来说是关键的决策依据。假设要让模型生成一个React组件,没有CLAUDE.md的话,用class组件还是function组件、TypeScript还是JavaScript、useState还是useReducer,模型随便选。但如果CLAUDE.md里明确写了"项目统一使用function组件+TypeScript+useReducer",输出就会一致得多。一致性带来准确率提升。

Claude Code的场景相对简单,因为它主要在代码生成这个单一任务上工作。把视角扩大到通用AI Agent,准确率问题会更复杂。以GUI Agent为例,这类Agent需要操作图形界面来完成用户任务,比如"帮我在浏览器里搜索某个产品,然后把价格整理成表格"。这个过程中可能犯的错误包括理解错误(用户说"搜索某个产品",Agent理解成了具体产品名还是产品类型)、操作错误(点错了按钮或在错误的输入框里输入)、状态错误(页面还没加载完就开始操作)、以及累积错误(前面步骤的小错误在后面被放大)。每种错误类型需要不同的解决策略。

解决准确率问题,业界逐渐形成了一个共识:不能只靠模型本身的推理能力,需要引入显式的验证机制。think-act-verify循环是一个被验证有效的模式——think阶段理解当前状态并规划下一步行动,act阶段执行具体操作,verify阶段检查结果是否符合预期,不符合就回退或重试。这个模式的关键在于verify环节。传统的Agent往往是think-act-think-act一直往前冲,遇到问题才回头。think-act-verify会在每一步都主动验证,把错误控制在早期。

假设Agent需要点击一个"提交"按钮,传统模式是识别按钮位置然后直接点击,然后继续下一步。think-act-verify模式会在点击之后验证页面是否跳转到了成功页面,如果验证失败就重新识别按钮位置。第二种模式显然更可靠,因为它在每一步都有检查点。

Mano-P是一个开源的GUI Agent项目,在OSWorld基准测试的专项模型类别中取得了58.2%的成功率,比第二名的45.0%高出13.2个百分点。这个成绩的实现,think-act-verify循环是关键因素之一。在100个真实任务的macOS GUI测试中(MacBook Pro M5 16GB环境),Mano-CUA Thinking-4B版本达到56.0%的pass rate,比Instruct-4B版本的47.0%高出9个百分点,但平均步数多了4步。这说明Thinking版本在每一步都做了更多的验证和思考,虽然步骤多了,但整体准确率提升了。另一个有意思的数据是Mano-CUA 1.1+Bash配置达到了90.0%的pass rate,说明允许Agent使用命令行工具作为备选方案可以显著提升复杂任务的成功率。

除了运行时的验证机制,训练方法对准确率也有很大影响。Mano-P采用了三阶段训练:SFT(用标注好的数据教模型基本操作能力)、Offline RL(从历史数据中学习什么操作会带来好的结果)、Online RL(在真实环境中试错,持续优化)。在线强化学习是准确率提升的关键,模型在真实环境中执行任务,成功完成会得到正反馈,失败会得到负反馈,这种反馈比静态标注数据更有效,因为它反映了真实的用户场景。这和Claude Code的案例有相似之处,CLAUDE.md本质上也是一种反馈机制,把项目中的经验和教训沉淀下来,告诉模型"这样做会更好"。

如果也在做AI Agent开发,几个建议:重视上下文文档,给模型一个清晰的工作指引,包含项目的核心约束、常见错误和处理方式、优先级规则。引入验证机制,在关键节点加入验证逻辑,操作后检查页面状态,生成后验证格式是否符合要求。收集真实反馈,建立反馈机制让用户可以标记Agent的错误,用这些数据来优化模型。考虑多阶段训练,如果条件允许不要只用SFT,在线强化学习往往比静态数据效果更好。

准确率优化是个系统工程,涉及模型选择、上下文管理、验证机制、训练方法等多个方面。Claude Code的案例说明有时候不需要等待模型本身变强,通过更好的工程实践就能带来显著提升。对这个方向感兴趣的话可以看看Mano-P项目(https://github.com/Mininglamp-AI/Mano-P),实现了think-act-verify循环和在线强化学习,在OSWorld基准测试中取得了不错的成绩。欢迎Star和贡献。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐