Agent 的“思考预算”问题:为什么 Claude Code 变笨不是 bug,是 feature

2026 年 2 月,编程圈发生了一件让很多开发者“破防”的事:Claude Code 开始变笨了。

这不是我一个人的感觉。AMD AI 部门高级总监 Stella Laurenzo 直接用数据把这件事给锤了。她分析了 6,852 份 Claude Code 会话文件、17,871 个思考块、超过 23 万次工具调用,得出了一个让人后背发凉的结论:Claude 的思考深度,从 2 月份开始暴跌了 67%

中位思考长度从 2,200 字符缩水到了 600 字符。以前的 Claude 会老老实实读代码、查依赖、翻头文件、看测试,然后再下手改。现在的它呢?三分之一的情况下直接上手改,连文件内容都懒得看一眼

我估计很多人跟我当时的反应一样:“这破玩意儿是不是坏了?”

但今天我认真翻了一圈资料才发现:这不是 bug,这是 Anthropic 故意做的 feature。你感受到的“变笨”,其实是 AI 行业正在发生的一场沉默革命——思考预算的显性化与分层化

从“感觉它变笨了”到“数据证明它变笨了”

先把这个故事讲完整。

2026 年 2 月初,Anthropic 发布了 Claude Opus 4.6,当时业内一片好评——推理深度惊人、先调研再动手、长上下文处理稳定,AMD 内部团队甚至用它在一个周末就把 19 万行遗留代码全部 merge 上线。

但发布仅仅几周后,社交媒体上的抱怨开始集中爆发。有人说 Claude 变得“懒惰与健忘,甚至在基础逻辑里反复撞墙”。Reddit 上更有人吐槽:“Claude 感觉没那么有意识了,像被做了脑叶切除术”。

面对全网的声讨,Anthropic 官方团队的回应出人意料:他们辩称从未削弱模型,种种异常表现只是为了帮用户节省 Token 而做出的默认配置优化

这话乍一听像狡辩,但 Stella Laurenzo 的数据分析印证了一个关键事实:变笨背后有明确的技术原因。

时间线:三个关键变化

2026 年 2 月到 3 月,Claude Code 悄悄经历了三个重要调整:

变化一(2 月 9 日):Opus 4.6 引入“自适应思考” 。以前的 Claude 在每一轮对话中都会分配固定的思考预算(thinking budget),像是一个每次都要花完固定预算的“勤奋员工”。但 Opus 4.6 开始支持 adaptive thinking——让模型自己决定这一轮要花多少时间去思考。官方说法是:与其每轮都给固定预算,不如让模型根据任务复杂度自己判断,这在整体上反而效果更好。

变化二(2 月中旬):思考内容被隐藏。Anthropic 悄悄上线了一个叫 redact-thinking-2026-02-12 的 header,用于在 UI 和存储的会话记录中隐藏 Claude 的思考过程。这就是为什么很多人发现自己看不到 Claude 的“内心独白”了。Claude Code 负责人 Boris Cherny 后来解释:这只是 UI 层面的改动,因为大部分用户根本不看思考摘要,隐藏它们可以减少延迟。

变化三(3 月 3 日):默认“努力程度”下调到中等。Anthropic 把 Claude Code 的默认 effort level 从原来的水平调到了 medium(85/100) ,官方称之为“智能—延迟曲线上的最佳平衡点”。问题在于,对于做复杂工程任务的用户来说,这个“最佳平衡点”更像是直接掉进了坑里。

这三个变化叠加在一起,用户看到的画面是:Claude 思考变少了、思考内容也看不到了、默认设置也被调低了。这不就是“变笨”吗?

但“变笨”真的是 bug 吗?不,这是 AI Agent 的“思考预算”从理想走向现实

这里我们要聊一个关键概念:思考预算(thinking budget)

什么是思考预算?简单来说,AI Agent 在给出最终回答之前,会在内部进行多轮推理和验证——这些“思考步骤”不是免费的,它们消耗 Token,也就是消耗真金白银的算力成本。

在 AI 发展的早期阶段,模型提供方为了打出“最强能力”的旗号,往往会过度配置思考预算。这也是为什么 2026 年 1 月的 Claude Opus 4.6 能做到“思考深度惊人、research-first”——因为那时候它在燃烧大量算力来换取用户体验。

但这种模式不可持续。原因很简单:

第一,算力瓶颈是真实存在的。 Avasant 研究总监 Chandrika Dutt 分析指出:“这本质上是算力和成本问题。复杂的工程任务需要消耗大量计算资源,包括中间推理步骤。随着使用量的攀升,系统已无法为每一个请求维持如此高强度的算力投入”。

第二,用户群体出现了明显的分化。 有些人用 Claude Code 做内核开发、硬件调试,一跑就是 30 分钟以上;有些人只是用它补个函数、写个正则表达式。把所有人的默认思考预算都拉满,对于轻量用户来说是浪费,对于重度用户来说可能仍然不够。

第三,付费意愿和成本之间存在巨大的 gap。 银河证券 2025 年的报告显示,AI Agent 行业的平均用户获取成本高达 50 美元/用户,而平均用户生命周期价值仅为 20-30 美元。换句话说,大多数 Agent 产品目前还没实现盈利,烧钱换口碑的模式迟早要结束。

所以 Anthropic 做的事情,本质上是在把“思考预算”从一个隐性的、统一的、不可配置的参数,变成一个显性的、分层的、可配置的功能

这不是“把产品做坏了”,而是 AI Agent 从实验品走向商业产品的必经之路。你感受到的“变笨”,是厂商从“不计成本地证明技术可行性”阶段进入了“精细化运营和分层服务”阶段。

官方回应为什么让人更愤怒?信任问题比技术问题更大

但这里有一个更大的问题:为什么 Anthropic 的官方回应不但没有平息怒火,反而让用户更生气了?

因为关键不在“做了什么”,而在“怎么做的”。

从 2 月中旬到 4 月初,Anthropic 从未提前公告任何重大变更。大量付费用户在毫不知情的情况下,订阅费用一分没少,模型却被悄然节流。直到 AMD AI 总监亲自下场用数据实锤,Claude Code 负责人 Boris Cherny 才出来回应,表示 adaptive thinking 是“有意优化”而非 bug,用户若想改善效果,可以手动把 effort 调到 high。

更让人不爽的是,Anthropic 随后宣布将优先为 Teams 和 Enterprise 用户测试默认为 high effort 的版本。这摆明了在说:想用好东西?多掏钱。有评论一针见血地指出:“这个决策似乎暗示思考深度的调整更关乎利润,而非用户体验”。

所以用户生气的点不是“产品变差了”,而是“产品变差了但你偷偷摸摸不告诉我,等被发现了还说是为我好”。

怎样把 Claude Code 的“脑子”找回来?

好了,吐槽完了,说点实际的。如果你的 Claude Code 也出现了“思考变浅、敷衍了事”的症状,下面这几招可以把它的脑子找回来。

第一招:手动拉高 effort level

最简单的办法:在会话里敲 /effort high/effort max。你也可以在 shell 里设置环境变量 CLAUDE_CODE_EFFORT_LEVEL=max,这样所有新会话都默认用最高推理强度。

第二招:用“魔法词”触发扩展思考

Anthropic 官方文档里藏了一个有趣的提示:在 prompt 中加入“think”这个词可以触发扩展思考模式,系统内部会根据关键词的强度分配不同的 Token 预算:

  • think” → 4,000 token 预算
  • think hard” / “megathink” → 10,000 token 预算
  • ultrathink” / “think super hard” → 32,000 token 预算

Simon Willison 甚至逆向分析了 Claude Code 的混淆代码,确认了这个机制确实存在。在 prompt 里加一句“ultrathink this carefully”,模型会自动分配更长的思考预算。

第三招:关掉自适应思考(如果你遇到幻觉问题)

Boris 承认,adaptive thinking 在某些特定轮次中存在“思考预算分配不足”的 bug——那些 Claude 产生幻觉的轮次(编造 GitHub SHA、假包名、错误 API 版本),都是零推理 token 的情况。

如果你频繁遇到这种问题,可以用环境变量强制关闭自适应思考:

CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

这会恢复为固定的思考预算,而不是让模型自己决定每轮的思考深度。

第四招:让思考摘要重新可见

如果你怀念看到 Claude “内心独白”的感觉,可以在 settings.json 中设置:

{
  "showThinkingSummaries": true
}

这样思考内容就不会被隐藏了。

大趋势:思考预算正在成为 AI Agent 的核心竞争力

Claude Code 的这场风波只是冰山一角。整个 AI Agent 行业正在从“模型能力竞赛”进入“思考预算管理竞赛”。

Google Gemini 系列 提供了 thinking_budget 参数,可以让开发者精确控制推理 token 的数量;Gemini 3 系列还支持 thinking_level(High/Medium/Low/Minimal)的分级设置。

学术圈 也在探索类似方案。卡耐基梅隆大学的团队提出了 BudgetThinker 框架,通过在推理过程中周期性地向模型插入“剩余 token 预算”的控制信号,让模型学会在预算约束下保持推理质量。另一个名为 Budget-Aware Value Tree (BAVT) 的方案,则把多步推理建模成一棵动态搜索树,每一步都基于价值估算来分配预算。

本质上,大家都在解决同一个问题:如何在有限的算力预算内,让 AI Agent 做出足够好的决策。

未来,一个好的 AI Agent 不只是“能想多深”,而是“知道什么时候该想多深”。思考预算管理的精细化程度,会成为区分“玩具”和“工具”的关键分界线。

最后的感受

写到这里,我有两个很深的感受。

第一个感受是,Claude Code 的“变笨”事件暴露了 AI 产品的一个核心矛盾:能力越强,用户对“降级”的感知就越痛苦。 当你让用户尝过“思考 2,200 字符”的深度之后,任何低于这个水准的表现都会被感知为“降智”。但现实是,那种不计成本的深度推理,从商业上根本不可持续。

第二个感受是,这件事也暴露了 AI 产品经理和用户之间的巨大认知鸿沟。从产品经理的角度看,adaptive thinking + medium effort 是一次漂亮的“成本-质量平衡优化”;从用户的角度看,就是“我花了同样的钱,买了个更差的东西,还瞒着我”。后者不是技术问题,是信任问题。

作为开发者,我们需要的不是一个“永远把思考预算拉满”的 Agent,那既不现实也不合理。我们需要的是一个透明的、可控的思考预算体系——让我知道 Agent 现在用了多少“脑力”,让我能根据任务复杂度主动调高或调低,让我对自己的 Token 账单有掌控感。

所以回到标题的那个问题:Claude Code 变笨到底是不是 bug?技术上,它是 Anthropic 在产品化道路上不得不做的一次平衡调整——在这个意义上,它确实是 feature。但产品化和用户体验之间的那道裂缝,不是靠“这是 feature 不是 bug”这句话能填平的。

作为用户,我们可以用上面那四招把 Claude 的脑子找回来。但作为行业观察者,我更期待看到的,是一个真正把思考预算透明化、可控化、产品化的 AI Agent 新时代。

那不是让 Agent 变笨,而是让它在该聪明的时候聪明,在该省钱的时候省钱

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐