3个爆火Claude Code工具深度解析:看似同类,实则分属不同赛道
CE的核心价值,就是补齐了gstack和Superpowers缺失的“经验沉淀”环节,它的核心循环是“brainstorm(头脑风暴)→ plan(规划)→ work(执行)→ review(审查)→ compound(复利沉淀)”,前四步和Superpowers类似,但更深入,而第五步“compound”,才是它的灵魂。菜谱本是“指数级沉淀”,用得越久,经验越丰富,Agent越懂你的项目——这也
3个爆火Claude Code工具深度解析:看似同类,实则分属不同赛道
近期,三款Claude Code工具强势出圈,分别是Garry Tan的gstack(54.6K ⭐)、Jesse Vincent的Superpowers(121K ⭐)以及Every Inc的Compound Engineering(简称CE,11.5K ⭐)。很多人盲目跟风全量安装,却忽略了一个关键事实:这三款工具看似都是AI辅助编码工具,实则定位截然不同,解决的是编码全流程中三个完全不同的核心问题。
用一个通俗的厨房比喻,就能快速理清它们的区别:gstack是兼具决策力与品控力的主厨+试菜员,负责定方向、查质量;Superpowers是规范流程的厨房操作手册,确保每一步都有章可循;CE则是沉淀经验的菜谱本,让所有人都能借鉴过往、规避踩坑。三者各司其职,单独使用只能解决部分问题,搭配使用才能发挥最大价值。
先搞懂:Agent架构的四层核心职责(读懂工具的底层逻辑)
要理解这三款工具的差异,首先要明确Anthropic在2025年11月工程博客中提出的Agent架构核心——长时间运行的Agent,需由“任务拆解的初始化Agent”和“负责执行的编码Agent”组成。我们可以用餐厅运营逻辑,将其扩展为更易理解的四层职责:
-
主厨(规划层):决定菜单,明确“做什么”,对应编码中的需求规划与方向决策;
-
厨房团队(执行层):按照要求做菜,对应编码中的任务落地与代码编写;
-
独立试菜员(评估层):检查菜品质量,对应编码中的测试与审查——核心原则是“做的人不查,查的人不做”,避免自我评估的过度乐观;
-
交班笔记(跨会话状态):留给下一班的工作衔接,对应编码中的经验沉淀与上下文延续。
这四层职责中,“评估与沉淀”是容易被忽略的关键,而三款工具的差异,本质就是对这四层职责的侧重不同。
逐个拆解:三款工具的核心定位与优劣
gstack:聚焦决策+测试,做“把方向、控质量”的核心
gstack的核心优势的在于规划(决策层)和评估(测试层),相当于给编码工作安了“双保险”,确保一开始就走对路、做出来的东西合格。
它的两个核心命令,就是“主厨”的核心能力:/plan-ceo-review从产品角度审核,判断“这个功能值得做吗?”;/plan-eng-review从架构角度审核,判断“这个代码以后会不会出问题?”,只有两道关都通过,才能正式启动编码,从源头规避无用功。
实用技巧:用AI采访,精准锁定需求
在运行/office-hours命令前,给AI输入这样一段提示词,能大幅提升效率:“我要开始这个项目了。采访我,直到你对‘我真正想要什么’有 95% 的把握,而不是‘我觉得我应该想要什么’。”
核心逻辑很简单:让AI主动问你,比你被动给AI写提示词更高效。很多项目失败的根源,就是一开始就没理清真实需求,而AI的主动采访,能帮你挖透需求本质,避免走偏。
核心亮点:真实浏览器端到端测试
Anthropic的测试数据显示,基于浏览器的端到端测试,比单纯的代码级检查效果好得多。据Garry Tan透露,他用这套方案60天交付了60万行生产代码,日均1-2万行,同时还能全职运营YC(数据为作者自述,仅供参考)。
但gstack的短板也很明显:缺乏经验沉淀。就像有顶级主厨和试菜员,却没有菜谱本,当天遇到的问题、踩过的坑,不会被记录下来,下次换团队、新启动会话,还是会重复踩坑,无法实现经验复用。
Superpowers:规范流程,却缺“记忆”的工具
Superpowers能拿下121K星,核心优势在于“流程化”——它将编码流程固化为“头脑风暴→规划→执行→审查”四步,让很多人从“和AI随便聊、即兴编码”,升级为“用流程规范AI、高效编码”。
相当于把一个人人即兴发挥的“野厨房”,变成了有规范菜谱、备菜清单的“标准厨房”,还加入了子Agent驱动开发,配备独立的规格审查员和代码质量审查员,进一步提升编码规范性。
但它有一个致命硬伤:知识不沉淀。每次会话的上下文、遇到的问题、解决方法,都会随着会话结束而消失,下次启动新会话,相当于“从零开始”,之前的经验和教训完全无法复用——这也是CE应运而生的核心原因。
Compound Engineering(CE):补齐经验沉淀,实现“知识复利”
CE的核心价值,就是补齐了gstack和Superpowers缺失的“经验沉淀”环节,它的核心循环是“brainstorm(头脑风暴)→ plan(规划)→ work(执行)→ review(审查)→ compound(复利沉淀)”,前四步和Superpowers类似,但更深入,而第五步“compound”,才是它的灵魂。
规划阶段:不盲目猜测,靠历史数据说话
CE在规划阶段,会派出并行的研究Agent,主动扫描你的项目历史、代码库模式、git提交记录——就像新厨师设计菜单前,先翻完过去三个月的退菜投诉,摸清问题所在,而不是凭感觉猜测,从源头减少踩坑。
审查阶段:6人评审团,全方位把控质量
在审查阶段,CE会启动动态审查团,至少包含6个常驻审查员,再根据代码变更量增加条件审查员,分别从正确性、安全性、性能、测试、可维护性、对抗性六个维度,出具独立审查报告——相当于同时让美食评论家、卫生检查员、顾客评审团一起品菜,确保质量无死角。
灵魂步骤:/ce:compound,实现经验复利
当你修完一个bug、完成一个功能后,运行/ce:compound命令,它会同时启动5个子Agent,完成经验沉淀:
-
上下文分析器:追踪整个对话,提取问题类型和涉及的组件;
-
方案提取器:记录“什么不行、什么行”,以及问题根因和最终修复方案;
-
相关文档查找器:搜索现有知识库,避免重复记录;
-
预防策略师:识别如何规避这类问题,避免再次踩坑;
-
分类器:给学习内容打标签、分类,方便后续搜索复用。
所有结果会被合并到docs/solutions/目录下,形成结构化、可搜索的经验库。比如你花几小时调试好一个边缘运行时兼容性bug,CE会自动记录完整过程;三周后遇到类似问题,规划阶段的研究Agent会自动找到这条记录,把几小时的调试压缩成几分钟,大幅提升效率。
关键区别:交班笔记 vs 菜谱本(理解沉淀的核心价值)
Anthropic提出的progress文件,就像餐厅的“交班笔记”,是今晚留给明早的衔接内容,线性传递,解决的是“工作连续性”问题;而CE的docs/solutions/,就像餐厅的“菜谱本”,是每个员工入职必看、日常必翻的经验手册,任何人、任何时间都能搜索复用,解决的是“经验积累”问题。
两者的本质区别的:交班笔记是“线性传递”,经验积累速度慢;菜谱本是“指数级沉淀”,用得越久,经验越丰富,Agent越懂你的项目——这也是“compound”(复利)一词的核心含义:每个任务的输出,除了代码,还有可复用的经验。
实操指南:三款工具怎么用才高效?
三款工具没有绝对的“优劣”,只有“适配场景”,核心原则是:新手不贪多,先精通一个;老手可组合,发挥协同价值。
新手用法
刚开始接触,建议先选一个主框架(gstack或CE),用熟其核心功能后,再考虑补充其他工具。三个一起用容易出现流程冲突、命令重叠,反而降低效率。
进阶组合用法(推荐有经验的用户)
按照以下流程操作,既能保证需求准确、代码合格,又能实现经验沉淀,提升后续效率:
-
明确需求:用“95%把握度”提示词,让AI采访你,挖透真实需求;
-
/office-hours(gstack):向AI描述当前项目,接受挑战,完善需求细节;
-
/plan-ceo-review(gstack):产品层面审核,确认“值得做”;
-
/plan-eng-review(gstack):架构层面审核,确认“不会炸”;
-
/ce:brainstorm(CE):进一步探索需求,梳理潜在解决方案;
-
/ce:plan(CE):让研究Agent扫描项目历史,输出详细执行计划;
-
/ce:work(CE):带着任务追踪,落地代码编写;
-
/ce:review(CE):启动动态审查团,全方位把控代码质量;
-
/qa(gstack):通过真实浏览器测试,最终验证代码可用性;
-
/ce:compound(CE):沉淀本次经验,更新知识库;
-
正式发布。
简单总结:第1-4步,确保“做对的东西”;第5-9步,确保“把东西做对”;第10步,确保“下次做得更快”,形成完整的编码闭环。
本文由 mdnice 多平台发布
更多推荐



所有评论(0)