Claude Code准确率从41%升到89%，一个CLAUDE.md文件带来的变化

Mininglamp_2718

158人浏览 · 2026-06-26 17:49:06

Mininglamp_2718 · 2026-06-26 17:49:06 发布

最近在技术社区看到一个案例：某团队在使用Claude Code时，通过维护一个CLAUDE.md文件，把代码生成的准确率从41%提升到了89%。一个markdown文件带来这么大的变化，值得仔细看看背后的逻辑。

做AI Agent开发的人都清楚准确率是核心指标。一个Agent如果经常犯错，用户很快就会失去信任，然后回到手动操作。但准确率也是个很难优化的指标，不像性能那样可以通过加机器来解决，涉及模型理解、上下文管理、错误恢复等多个维度。Claude Code这个案例给了一个有意思的视角：与其期待模型本身变得更聪明，不如给它更好的工作指引。

CLAUDE.md本质上是一个上下文文档，告诉模型这个项目的代码风格是什么、哪些地方容易出错、遇到问题时应该怎么处理、有哪些约束条件必须遵守。看起来简单，但这些信息对模型来说是关键的决策依据。假设要让模型生成一个React组件，没有CLAUDE.md的话，用class组件还是function组件、TypeScript还是JavaScript、useState还是useReducer，模型随便选。但如果CLAUDE.md里明确写了"项目统一使用function组件+TypeScript+useReducer"，输出就会一致得多。一致性带来准确率提升。

Claude Code的场景相对简单，因为它主要在代码生成这个单一任务上工作。把视角扩大到通用AI Agent，准确率问题会更复杂。以GUI Agent为例，这类Agent需要操作图形界面来完成用户任务，比如"帮我在浏览器里搜索某个产品，然后把价格整理成表格"。这个过程中可能犯的错误包括理解错误（用户说"搜索某个产品"，Agent理解成了具体产品名还是产品类型）、操作错误（点错了按钮或在错误的输入框里输入）、状态错误（页面还没加载完就开始操作）、以及累积错误（前面步骤的小错误在后面被放大）。每种错误类型需要不同的解决策略。

解决准确率问题，业界逐渐形成了一个共识：不能只靠模型本身的推理能力，需要引入显式的验证机制。think-act-verify循环是一个被验证有效的模式——think阶段理解当前状态并规划下一步行动，act阶段执行具体操作，verify阶段检查结果是否符合预期，不符合就回退或重试。这个模式的关键在于verify环节。传统的Agent往往是think-act-think-act一直往前冲，遇到问题才回头。think-act-verify会在每一步都主动验证，把错误控制在早期。

假设Agent需要点击一个"提交"按钮，传统模式是识别按钮位置然后直接点击，然后继续下一步。think-act-verify模式会在点击之后验证页面是否跳转到了成功页面，如果验证失败就重新识别按钮位置。第二种模式显然更可靠，因为它在每一步都有检查点。

Mano-P是一个开源的GUI Agent项目，在OSWorld基准测试的专项模型类别中取得了58.2%的成功率，比第二名的45.0%高出13.2个百分点。这个成绩的实现，think-act-verify循环是关键因素之一。在100个真实任务的macOS GUI测试中（MacBook Pro M5 16GB环境），Mano-CUA Thinking-4B版本达到56.0%的pass rate，比Instruct-4B版本的47.0%高出9个百分点，但平均步数多了4步。这说明Thinking版本在每一步都做了更多的验证和思考，虽然步骤多了，但整体准确率提升了。另一个有意思的数据是Mano-CUA 1.1+Bash配置达到了90.0%的pass rate，说明允许Agent使用命令行工具作为备选方案可以显著提升复杂任务的成功率。

除了运行时的验证机制，训练方法对准确率也有很大影响。Mano-P采用了三阶段训练：SFT（用标注好的数据教模型基本操作能力）、Offline RL（从历史数据中学习什么操作会带来好的结果）、Online RL（在真实环境中试错，持续优化）。在线强化学习是准确率提升的关键，模型在真实环境中执行任务，成功完成会得到正反馈，失败会得到负反馈，这种反馈比静态标注数据更有效，因为它反映了真实的用户场景。这和Claude Code的案例有相似之处，CLAUDE.md本质上也是一种反馈机制，把项目中的经验和教训沉淀下来，告诉模型"这样做会更好"。

如果也在做AI Agent开发，几个建议：重视上下文文档，给模型一个清晰的工作指引，包含项目的核心约束、常见错误和处理方式、优先级规则。引入验证机制，在关键节点加入验证逻辑，操作后检查页面状态，生成后验证格式是否符合要求。收集真实反馈，建立反馈机制让用户可以标记Agent的错误，用这些数据来优化模型。考虑多阶段训练，如果条件允许不要只用SFT，在线强化学习往往比静态数据效果更好。

准确率优化是个系统工程，涉及模型选择、上下文管理、验证机制、训练方法等多个方面。Claude Code的案例说明有时候不需要等待模型本身变强，通过更好的工程实践就能带来显著提升。对这个方向感兴趣的话可以看看Mano-P项目（https://github.com/Mininglamp-AI/Mano-P），实现了think-act-verify循环和在线强化学习，在OSWorld基准测试中取得了不错的成绩。欢迎Star和贡献。