Claude Code 升级 4.7 后，同样的代码 token 翻了快一半，你的配额还够用吗？

现在拆开了，模型能分别注意到每个部分。核心原因不是单价变了，而是同样的会话内容变成了更多的 token，缓存读取是大头，平均缓存前缀从 86K token 涨到了 115K，每轮都多读这些 token，80 轮下来差距就出来了。如果工作场景对指令精度要求高，复杂的多步骤任务、严格的格式要求、长链路的自动化流程，4.7 的改进是有价值的，少一次格式错误可能省下好几轮重试的 token。Max 的配额

Sitin涛哥

640人浏览 · 2026-04-20 22:01:05

Sitin涛哥 · 2026-04-20 22:01:05 发布

点击上方卡片关注我

设置星标学习更多AI出海知识

上周 Anthropic 发了 Claude Opus 4.7，升级指南里有一句不太起眼的话：“新 tokenizer 使用的 token 数大约是 4.6 的 1.0 到 1.35 倍。”

听起来没什么，但有人拿真实数据测了一遍，发现官方给的范围太保守了。

实测数据

claudecodecamp 的作者用 Anthropic 官方的 count_tokens API，拿同一份内容分别过 4.6 和 4.7 的 tokenizer，纯粹比较 token 数量的差异。

先看 Claude Code 用户日常接触最多的内容类型：

CLAUDE.md 文件（5KB）：4.6 是 1399 个 token，4.7 是 2021 个。涨了 44.5%。

用户 prompt：涨 37.3%。Markdown 博客文章：涨 36.8%，Git commit log：涨 34.4%，终端输出：涨 29.1%。Python stack trace：涨 25.0%。代码 diff：涨 21.2%。

七类内容加权平均：1.325 倍。

再看 12 种标准内容类型：

涨幅最大的：英文技术文档 1.47 倍，Shell 脚本 1.39 倍，TypeScript 1.36 倍。

涨幅最小的：中文 1.01 倍，日文 1.01 倍，CSV 数据 1.07 倍。

一个规律很明显：英文和代码涨得最多，中日韩文几乎没变。

为什么 token 变多了

tokenizer 的核心是 BPE（Byte-Pair Encoding），简单说就是把常见的字符组合合并成一个 token，出现频率越高的组合合并得越长。

4.7 的 tokenizer 反过来做了，把一些长合并拆短了。

直观感受：英文的每 token 字符数从 4.33 降到了 3.60。TypeScript 从 3.66 降到 2.69，同样的文本，切成了更多更小的碎片。

代码比英文散文受影响更大，原因是代码里重复的高频字符串多——关键字、import 语句、变量名，这些正好是 BPE 会合并成长 token 的东西。拆短之后，这些地方涨幅最大。

中日韩文没怎么变，说明新 tokenizer 主要改了拉丁字母和代码相关的词表，非拉丁部分基本保留了。

Anthropic 为什么要这么做

同样的内容多花 token，价格不变，配额不变，Anthropic 显然是拿 token 换了什么别的东西。

官方说法：更精确的指令跟随，特别是在低 effort 模式下，模型不会默默地把一个条目的指令泛化到另一个条目上。

原理不难理解：token 越短，attention 能关注到的粒度越细，以前一个长 token 可能把 import 和后面的模块名粘在一起，模型只能整体理解。现在拆开了，模型能分别注意到每个部分。

这位作者还跑了 IFEval 测试来验证，结果：严格模式下 4.7 比 4.6 高了 5 个百分点（85% → 90%）。宽松模式持平。

提升不大，但方向一致，真正分出胜负的场景是多约束链式指令，比如一个 prompt 同时要求全大写、包含特定词、控制字数、指定格式，4.6 容易在其中一个约束上翻车，4.7 更稳。

一次会话贵了多少

作者算了一笔很实在的账，假设一次 80 轮的 Claude Code 会话：

4.6 的成本：大约 $6.65。

4.7 的成本：大约 8.76。

贵了 20% 到 30%。

核心原因不是单价变了，而是同样的会话内容变成了更多的 token，缓存读取是大头，平均缓存前缀从 86K token 涨到了 115K，每轮都多读这些 token，80 轮下来差距就出来了。

对 Max 用户的影响更大

API 用户受的是成本影响，Max 计划的用户受的是配额影响。

Max 的配额按 token 数算，不按美元算，同样的工作量消耗更多 token，意味着你的 5 小时窗口更快用完。

一个在 4.6 上能跑满窗口的会话，换到 4.7 可能提前耗尽配额。

缓存也受影响

第一次用 4.7 必须冷启动，Anthropic 的缓存按模型分区，从 4.6 切到 4.7 会让所有缓存前缀失效，而且冷启动写入的前缀比 4.6 大 30% 到 45%。

缓存体积按比例增长，CLAUDE.md 部分多了 44.5% 的 token，每轮缓存读取也多读这么多。

历史 token 数不再可比，如果你的监控或计费是基于历史 token 数做基线的，切模型当天会看到一个阶跃变化。

值不值

这是一个典型的工程权衡：用更多的 token 换更精确的指令跟随。

如果工作场景对指令精度要求高，复杂的多步骤任务、严格的格式要求、长链路的自动化流程，4.7 的改进是有价值的，少一次格式错误可能省下好几轮重试的 token。

如果主要做简单的问答或者短会话，这个 20-30% 的成本增加可能感知不明显。

一个实用建议：如果你用 API，可以自己跑一下 count_tokens 对比，看看你的典型输入在两个模型之间的差距是多少。

三行 Python 就能测：

from anthropic import Anthropic
client = Anthropic()

for model in ["claude-opus-4-6", "claude-opus-4-7"]:
    r = client.messages.count_tokens(
        model=model,
        messages=[{"role": "user", "content": your_text}],
    )
    print(f"{model}: {r.input_tokens} tokens")

这样你能精确知道自己的场景受多大影响，而不是看别人的平均数。

我们出海社区终于有自己的网站了！

欢迎关注，这个账号还会持续分享更多AI编程、出海工具、实战经验、踩坑记录。

想了解更多可以加我 vx: 257735 聊。