Agent 的“思考预算”问题：为什么 Claude Code 变笨不是 bug，是 feature

如果你怀念看到 Claude “内心独白”的感觉，可以在这样思考内容就不会被隐藏了。写到这里，我有两个很深的感受。能力越强，用户对“降级”的感知就越痛苦。当你让用户尝过“思考 2,200 字符”的深度之后，任何低于这个水准的表现都会被感知为“降智”。但现实是，那种不计成本的深度推理，从商业上根本不可持续。第二个感受是，这件事也暴露了 AI 产品经理和用户之间的巨大认知鸿沟。从产品经理的角度看，ad

慕容卡卡

271人浏览 · 2026-04-16 21:57:25

慕容卡卡 · 2026-04-16 21:57:25 发布

Agent 的“思考预算”问题：为什么 Claude Code 变笨不是 bug，是 feature

2026 年 2 月，编程圈发生了一件让很多开发者“破防”的事：Claude Code 开始变笨了。

这不是我一个人的感觉。AMD AI 部门高级总监 Stella Laurenzo 直接用数据把这件事给锤了。她分析了 6,852 份 Claude Code 会话文件、17,871 个思考块、超过 23 万次工具调用，得出了一个让人后背发凉的结论：Claude 的思考深度，从 2 月份开始暴跌了 67% 。

中位思考长度从 2,200 字符缩水到了 600 字符。以前的 Claude 会老老实实读代码、查依赖、翻头文件、看测试，然后再下手改。现在的它呢？三分之一的情况下直接上手改，连文件内容都懒得看一眼。

我估计很多人跟我当时的反应一样：“这破玩意儿是不是坏了？”

但今天我认真翻了一圈资料才发现：这不是 bug，这是 Anthropic 故意做的 feature。你感受到的“变笨”，其实是 AI 行业正在发生的一场沉默革命——思考预算的显性化与分层化。

从“感觉它变笨了”到“数据证明它变笨了”

先把这个故事讲完整。

2026 年 2 月初，Anthropic 发布了 Claude Opus 4.6，当时业内一片好评——推理深度惊人、先调研再动手、长上下文处理稳定，AMD 内部团队甚至用它在一个周末就把 19 万行遗留代码全部 merge 上线。

但发布仅仅几周后，社交媒体上的抱怨开始集中爆发。有人说 Claude 变得“懒惰与健忘，甚至在基础逻辑里反复撞墙”。Reddit 上更有人吐槽：“Claude 感觉没那么有意识了，像被做了脑叶切除术”。

面对全网的声讨，Anthropic 官方团队的回应出人意料：他们辩称从未削弱模型，种种异常表现只是为了帮用户节省 Token 而做出的默认配置优化。

这话乍一听像狡辩，但 Stella Laurenzo 的数据分析印证了一个关键事实：变笨背后有明确的技术原因。

时间线：三个关键变化

2026 年 2 月到 3 月，Claude Code 悄悄经历了三个重要调整：

变化一（2 月 9 日）：Opus 4.6 引入“自适应思考” 。以前的 Claude 在每一轮对话中都会分配固定的思考预算（thinking budget），像是一个每次都要花完固定预算的“勤奋员工”。但 Opus 4.6 开始支持 adaptive thinking——让模型自己决定这一轮要花多少时间去思考。官方说法是：与其每轮都给固定预算，不如让模型根据任务复杂度自己判断，这在整体上反而效果更好。

变化二（2 月中旬）：思考内容被隐藏。Anthropic 悄悄上线了一个叫 redact-thinking-2026-02-12 的 header，用于在 UI 和存储的会话记录中隐藏 Claude 的思考过程。这就是为什么很多人发现自己看不到 Claude 的“内心独白”了。Claude Code 负责人 Boris Cherny 后来解释：这只是 UI 层面的改动，因为大部分用户根本不看思考摘要，隐藏它们可以减少延迟。

变化三（3 月 3 日）：默认“努力程度”下调到中等。Anthropic 把 Claude Code 的默认 effort level 从原来的水平调到了 medium（85/100） ，官方称之为“智能—延迟曲线上的最佳平衡点”。问题在于，对于做复杂工程任务的用户来说，这个“最佳平衡点”更像是直接掉进了坑里。

这三个变化叠加在一起，用户看到的画面是：Claude 思考变少了、思考内容也看不到了、默认设置也被调低了。这不就是“变笨”吗？

但“变笨”真的是 bug 吗？不，这是 AI Agent 的“思考预算”从理想走向现实

这里我们要聊一个关键概念：思考预算（thinking budget）。

什么是思考预算？简单来说，AI Agent 在给出最终回答之前，会在内部进行多轮推理和验证——这些“思考步骤”不是免费的，它们消耗 Token，也就是消耗真金白银的算力成本。

在 AI 发展的早期阶段，模型提供方为了打出“最强能力”的旗号，往往会过度配置思考预算。这也是为什么 2026 年 1 月的 Claude Opus 4.6 能做到“思考深度惊人、research-first”——因为那时候它在燃烧大量算力来换取用户体验。

但这种模式不可持续。原因很简单：

第一，算力瓶颈是真实存在的。 Avasant 研究总监 Chandrika Dutt 分析指出：“这本质上是算力和成本问题。复杂的工程任务需要消耗大量计算资源，包括中间推理步骤。随着使用量的攀升，系统已无法为每一个请求维持如此高强度的算力投入”。

第二，用户群体出现了明显的分化。 有些人用 Claude Code 做内核开发、硬件调试，一跑就是 30 分钟以上；有些人只是用它补个函数、写个正则表达式。把所有人的默认思考预算都拉满，对于轻量用户来说是浪费，对于重度用户来说可能仍然不够。

第三，付费意愿和成本之间存在巨大的 gap。 银河证券 2025 年的报告显示，AI Agent 行业的平均用户获取成本高达 50 美元/用户，而平均用户生命周期价值仅为 20-30 美元。换句话说，大多数 Agent 产品目前还没实现盈利，烧钱换口碑的模式迟早要结束。

所以 Anthropic 做的事情，本质上是在把“思考预算”从一个隐性的、统一的、不可配置的参数，变成一个显性的、分层的、可配置的功能。

这不是“把产品做坏了”，而是 AI Agent 从实验品走向商业产品的必经之路。你感受到的“变笨”，是厂商从“不计成本地证明技术可行性”阶段进入了“精细化运营和分层服务”阶段。

官方回应为什么让人更愤怒？信任问题比技术问题更大

但这里有一个更大的问题：为什么 Anthropic 的官方回应不但没有平息怒火，反而让用户更生气了？

因为关键不在“做了什么”，而在“怎么做的”。

从 2 月中旬到 4 月初，Anthropic 从未提前公告任何重大变更。大量付费用户在毫不知情的情况下，订阅费用一分没少，模型却被悄然节流。直到 AMD AI 总监亲自下场用数据实锤，Claude Code 负责人 Boris Cherny 才出来回应，表示 adaptive thinking 是“有意优化”而非 bug，用户若想改善效果，可以手动把 effort 调到 high。

更让人不爽的是，Anthropic 随后宣布将优先为 Teams 和 Enterprise 用户测试默认为 high effort 的版本。这摆明了在说：想用好东西？多掏钱。有评论一针见血地指出：“这个决策似乎暗示思考深度的调整更关乎利润，而非用户体验”。

所以用户生气的点不是“产品变差了”，而是“产品变差了但你偷偷摸摸不告诉我，等被发现了还说是为我好”。

怎样把 Claude Code 的“脑子”找回来？

好了，吐槽完了，说点实际的。如果你的 Claude Code 也出现了“思考变浅、敷衍了事”的症状，下面这几招可以把它的脑子找回来。

第一招：手动拉高 effort level

最简单的办法：在会话里敲 /effort high 或 /effort max。你也可以在 shell 里设置环境变量 CLAUDE_CODE_EFFORT_LEVEL=max，这样所有新会话都默认用最高推理强度。

第二招：用“魔法词”触发扩展思考

Anthropic 官方文档里藏了一个有趣的提示：在 prompt 中加入“think”这个词可以触发扩展思考模式，系统内部会根据关键词的强度分配不同的 Token 预算：

“think” → 4,000 token 预算
“think hard” / “megathink” → 10,000 token 预算
“ultrathink” / “think super hard” → 32,000 token 预算

Simon Willison 甚至逆向分析了 Claude Code 的混淆代码，确认了这个机制确实存在。在 prompt 里加一句“ultrathink this carefully”，模型会自动分配更长的思考预算。

第三招：关掉自适应思考（如果你遇到幻觉问题）

Boris 承认，adaptive thinking 在某些特定轮次中存在“思考预算分配不足”的 bug——那些 Claude 产生幻觉的轮次（编造 GitHub SHA、假包名、错误 API 版本），都是零推理 token 的情况。

如果你频繁遇到这种问题，可以用环境变量强制关闭自适应思考：

CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1

这会恢复为固定的思考预算，而不是让模型自己决定每轮的思考深度。

第四招：让思考摘要重新可见

如果你怀念看到 Claude “内心独白”的感觉，可以在 settings.json 中设置：

{
  "showThinkingSummaries": true
}

这样思考内容就不会被隐藏了。

大趋势：思考预算正在成为 AI Agent 的核心竞争力

Claude Code 的这场风波只是冰山一角。整个 AI Agent 行业正在从“模型能力竞赛”进入“思考预算管理竞赛”。

Google Gemini 系列 提供了 thinking_budget 参数，可以让开发者精确控制推理 token 的数量；Gemini 3 系列还支持 thinking_level（High/Medium/Low/Minimal）的分级设置。

学术圈 也在探索类似方案。卡耐基梅隆大学的团队提出了 BudgetThinker 框架，通过在推理过程中周期性地向模型插入“剩余 token 预算”的控制信号，让模型学会在预算约束下保持推理质量。另一个名为 Budget-Aware Value Tree (BAVT) 的方案，则把多步推理建模成一棵动态搜索树，每一步都基于价值估算来分配预算。

本质上，大家都在解决同一个问题：如何在有限的算力预算内，让 AI Agent 做出足够好的决策。

未来，一个好的 AI Agent 不只是“能想多深”，而是“知道什么时候该想多深”。思考预算管理的精细化程度，会成为区分“玩具”和“工具”的关键分界线。