点击上方卡片关注我

设置星标 学习更多AI出海知识

上周 Anthropic 发了 Claude Opus 4.7,升级指南里有一句不太起眼的话:“新 tokenizer 使用的 token 数大约是 4.6 的 1.0 到 1.35 倍。”

听起来没什么,但有人拿真实数据测了一遍,发现官方给的范围太保守了。

实测数据

claudecodecamp 的作者用 Anthropic 官方的 count_tokens API,拿同一份内容分别过 4.6 和 4.7 的 tokenizer,纯粹比较 token 数量的差异。

先看 Claude Code 用户日常接触最多的内容类型:

CLAUDE.md 文件(5KB):4.6 是 1399 个 token,4.7 是 2021 个。涨了 44.5%。

用户 prompt:涨 37.3%。Markdown 博客文章:涨 36.8%,Git commit log:涨 34.4%,终端输出:涨 29.1%。Python stack trace:涨 25.0%。代码 diff:涨 21.2%。

七类内容加权平均:1.325 倍。

再看 12 种标准内容类型:

涨幅最大的:英文技术文档 1.47 倍,Shell 脚本 1.39 倍,TypeScript 1.36 倍。

涨幅最小的:中文 1.01 倍,日文 1.01 倍,CSV 数据 1.07 倍。

一个规律很明显:英文和代码涨得最多,中日韩文几乎没变。

为什么 token 变多了

tokenizer 的核心是 BPE(Byte-Pair Encoding),简单说就是把常见的字符组合合并成一个 token,出现频率越高的组合合并得越长。

4.7 的 tokenizer 反过来做了,把一些长合并拆短了。

直观感受:英文的每 token 字符数从 4.33 降到了 3.60。TypeScript 从 3.66 降到 2.69,同样的文本,切成了更多更小的碎片。

代码比英文散文受影响更大,原因是代码里重复的高频字符串多——关键字、import 语句、变量名,这些正好是 BPE 会合并成长 token 的东西。拆短之后,这些地方涨幅最大。

中日韩文没怎么变,说明新 tokenizer 主要改了拉丁字母和代码相关的词表,非拉丁部分基本保留了。

Anthropic 为什么要这么做

同样的内容多花 token,价格不变,配额不变,Anthropic 显然是拿 token 换了什么别的东西。

官方说法:更精确的指令跟随,特别是在低 effort 模式下,模型不会默默地把一个条目的指令泛化到另一个条目上。

原理不难理解:token 越短,attention 能关注到的粒度越细,以前一个长 token 可能把 import 和后面的模块名粘在一起,模型只能整体理解。现在拆开了,模型能分别注意到每个部分。

这位作者还跑了 IFEval 测试来验证,结果:严格模式下 4.7 比 4.6 高了 5 个百分点(85% → 90%)。宽松模式持平。

提升不大,但方向一致,真正分出胜负的场景是多约束链式指令,比如一个 prompt 同时要求全大写、包含特定词、控制字数、指定格式,4.6 容易在其中一个约束上翻车,4.7 更稳。

一次会话贵了多少

作者算了一笔很实在的账,假设一次 80 轮的 Claude Code 会话:

4.6 的成本:大约 $6.65。

4.7 的成本:大约  8.76。

贵了 20% 到 30%。

核心原因不是单价变了,而是同样的会话内容变成了更多的 token,缓存读取是大头,平均缓存前缀从 86K token 涨到了 115K,每轮都多读这些 token,80 轮下来差距就出来了。

对 Max 用户的影响更大

API 用户受的是成本影响,Max 计划的用户受的是配额影响。

Max 的配额按 token 数算,不按美元算,同样的工作量消耗更多 token,意味着你的 5 小时窗口更快用完。

一个在 4.6 上能跑满窗口的会话,换到 4.7 可能提前耗尽配额。

缓存也受影响

第一次用 4.7 必须冷启动,Anthropic 的缓存按模型分区,从 4.6 切到 4.7 会让所有缓存前缀失效,而且冷启动写入的前缀比 4.6 大 30% 到 45%。

缓存体积按比例增长,CLAUDE.md 部分多了 44.5% 的 token,每轮缓存读取也多读这么多。

历史 token 数不再可比,如果你的监控或计费是基于历史 token 数做基线的,切模型当天会看到一个阶跃变化。

值不值

这是一个典型的工程权衡:用更多的 token 换更精确的指令跟随。

如果工作场景对指令精度要求高,复杂的多步骤任务、严格的格式要求、长链路的自动化流程,4.7 的改进是有价值的,少一次格式错误可能省下好几轮重试的 token。

如果主要做简单的问答或者短会话,这个 20-30% 的成本增加可能感知不明显。

一个实用建议:如果你用 API,可以自己跑一下 count_tokens 对比,看看你的典型输入在两个模型之间的差距是多少。

三行 Python 就能测:

from anthropic import Anthropic
client = Anthropic()

for model in ["claude-opus-4-6", "claude-opus-4-7"]:
    r = client.messages.count_tokens(
        model=model,
        messages=[{"role": "user", "content": your_text}],
    )
    print(f"{model}: {r.input_tokens} tokens")

这样你能精确知道自己的场景受多大影响,而不是看别人的平均数。

我们出海社区终于有自己的网站了!

欢迎关注,这个账号还会持续分享更多AI编程、出海工具、实战经验、踩坑记录。

想了解更多可以加我 vx: 257735 聊。

图片

出海赚钱案例:一个人做了个开源UI库,不融资不投广告,45天30万美元

出海建站必备:一小时搞定自建邮件,免费!

OpenClaw 真香!我让它每天帮我干这些活

出海赚钱案例:一个人用 PHP 做到月入 17 万美金,利润率 99%!

(2026年最新)Codex CLI 国内使用全攻略:终端 + VSCode + Cursor + Opencode 四种姿势全搞定

从海外公司注册到 Stripe 收款,跑通了出海收付款全流程(实操分享)

玩转 Claude Code Hooks:让自动化渗透到每个环节

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐