Headroom的中文文本适配方案,让CC/Codex节约30%-60%token
最近在 AI coding / agent 圈子里,Headroom(GitHub 5.2 万+ stars)是个挺值得关注的项目。它做的事很直接:把长上下文先整理、压缩、路由一下,让 agent 少读一些,但还能继续干活。工具输出、日志、文件、RAG chunks 这些内容,在进模型前就先被处理掉了。
但我们发现一个现实问题:中文主导项目没有被很好照顾(headroom没做中文压缩的专门适配,这也是为什么它在英文社区很火,但在中文社区则相对传播有限):Headroom 的文本压缩链路主要面向英文/通用 agent traces,对中文自然语言没有专门适配。中文说明、交接、排障记录这类内容,很多时候并不能被有效压缩,而这类中文内容里经常混着路径、命令、端口、模型名、脚本名,这些东西一旦压坏,agent 就没法继续用。
所以我们做了 headroom-zh。它的目标很简单:在保留 Headroom 原有能力的基础上,给中文主导内容补一条更合适的处理链路,让中文项目里的上下文压缩也能真正可用。
你在这个项目里最终得到的体验,大概是这样:
- 中文/中英混合长文档、handoff、日志、排障说明,能先被压缩再交给 agent
- 路径、命令、模型名、端口这些关键锚点会尽量保留
- 不是“给人看的摘要”,而是“给 agent 继续干活的上下文”
- 在 Codex、Claude Code 这类工作流里,能明显减少无效阅读
我们在真实 demo (服务器+本地双端验证)里已经跑通了中文review场景(14,342 bytes -> 4,200 bytes)并完成了初步效果评测(95%情况下不掉效果),同时保住后续 agent 还需要的关键信息。
如果你已经了解 Headroom,那你会更容易看懂 headroom-zh 在补什么;如果你还不了解,也没关系,记住一句话就够了:
让包含中文内容的项目,也能在 Claude Code / Codex 中显著降低 token 消耗。
项目已完全开源,地址:github.com/Hust-wahaha…
项目正在全力维护+优化,如果觉得有用,欢迎点个 star⭐(如果发现bug或想提出建议,欢迎发issue和PR)
也欢迎任何补充建议和你觉得有用的其他方案推荐与分析,如rtk,context-mode,magic-context等,可以在本文章下方评论。
作者:geigeiILOVEYOU
链接:https://juejin.cn/post/7656286434068447270
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
更多推荐



所有评论(0)