Claude Opus 4.8 上手实测:比起 4.7 到底好在哪?
Anthropic 在 5月28号发了 Opus 4.8。我前后对比用了两天,这篇文章把实际体验和差异拆开说。价格完全一样:输入 $5/百万 tokens,输出 $25/百万 tokens。但 Opus 4.8 多了一个 fast mode。开启后速度大概是普通模式的 2.5 倍,单价降到正常的三分之一。之前 Opus 4.7 也有 fast mode,但价格折扣没这么大。对高频调用场景来说,这个
Claude Opus 4.8 上手实测:比起 4.7 到底好在哪?
Anthropic 在 5月28号发了 Opus 4.8。我前后对比用了两天,这篇文章把实际体验和差异拆开说。
Opus 4.8 和 4.7 的核心差异
1. 定价没变,但速度选项变了
价格完全一样:输入 $5/百万 tokens,输出 $25/百万 tokens。
但 Opus 4.8 多了一个 fast mode。开启后速度大概是普通模式的 2.5 倍,单价降到正常的三分之一。之前 Opus 4.7 也有 fast mode,但价格折扣没这么大。对高频调用场景来说,这个变化很实在——同样的预算能跑的量翻了一倍多。
2. 上下文从 2M 降到 1M,但实际感受反而更好
4.7 的宣传规格是 2M 上下文窗口,4.8 降到了 1M。
听起来像是缩水——但实际用下来,1M 在日常场景完全够用,而 token 利用率更高了。Anthropic 官方的说法是 4.8 在 coding 任务上用和 4.7 默认差不多的 token 量,但效果更好。我自己测试了同一个 50 万 tokens 的代码库分析任务,4.8 的理解准确度确实更高,幻觉更少。
3. 最大输出从 64K 涨到 128K
这个很实用。之前用 4.7 生成长代码文件时常被 64K 的硬限制截断,需要分块写。4.8 的 128K 输出让单次生成覆盖的范围大了很多,少了很多"再生成另一半"的折腾。
4. Agent 决策质量提升:诚实度是最大亮点
这是 4.8 最让我意外的一个变化。
之前用 4.7 做 agent 任务时,最头疼的问题是模型有时候会"自信满满地给你一个错的答案"。它不是故意犯错,而是它不会主动说"这个我不确定"。
4.8 在这点上变化明显。Anthropic 的内部评测显示,让模型自查代码缺陷时,4.8 的漏报率比 4.7 低了大约 4 倍。我在实际项目中测试了一个 bug 检测任务——让两个模型分别审查同一段有 3 个隐藏 bug 的 Python 代码。4.7 报出了 2 个,漏了 1 个。4.8 全部找到,还额外指出了一处潜在的性能问题。
看起来不是什么惊天动地的提升,但做 agent 开发的人应该懂——模型愿意说"不确定"和不自知地给错误答案,在自动化流程里差别非常大。
5. Dynamic Workflows:确实能处理更复杂的事了
这个是 Claude Code 的新功能,目前还在 research preview。简单说就是 4.8 可以自己拆任务,然后同时开很多个子 agent 并行干活,最后汇总验证。
我试了一个比较狠的场景:把一个中型 Django 项目(大概 300 多个文件)中所有的 HttpResp换成 JsonResp,同时更新对应的测试。以前手动做至少一两天,要拆好多 PR。用 Dynamic Workflows 跑了一遍——它自己拆了 47 个子任务,并行执行了 12 轮,最终一次性完成了迁移。测试全过。
当然这个对测试覆盖率要求比较高,项目本身测试不够的话它也没法验证结果。
6. Effort Control:按需分配算力
4.8 默认是 high effort,复杂任务可以调到 extra 甚至 max,模型会花更多 token 来换取更好的结果。简单对话也可以用低 effort 模式省 token。
基准测试数据对比
几个关键数据拉出来看一下:
| 指标 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| SWE-bench (代码修复) | ~65% | 69.2% |
| 代码缺陷自查漏报率 | 基准 | 降低约 4 倍 |
| Fast mode 速度 | 1x | 2.5x |
| Fast mode 价格 | 基准 | 降至 1/3 |
| 上下文窗口 | 2M | 1M |
| 最大输出 | 64K | 128K |
| 知识截止 | 2025年8月 | 2026年1月 |
SWE-bench 从 ~65% 到 69.2% 不是那种"暴涨"式的进步。但如果你真用它写代码,诚实度的提升+输出上限翻倍,两个加在一起,日常能用的场景范围确实大了不少。
我的建议
- 复杂 agent 任务 / 自动化编码 / 代码库级迁移:值得切换,4.8 的稳定性和判断力提升是实打实的。
- 日常对话 / 简单文本生成:Sonnet 4.6 其实已经够好够快,不用为了换而换。
- 长代码文件生成:128K 输出上限是刚需,如果你经常被截断烦恼,值得切。
国内调用的方式,我用的是中转站,因为官方接口在国内直接调有区域限制。Base URL 填中转站的地址,模型名选 claude-opus-4-8 就行,和之前的用法一样。
4.8 是个稳扎稳打的迭代升级。没有特别爆炸的突破,但诚实度提升和输出上限翻倍这两项,在日常编码中用两天就能感受到区别。
更多推荐



所有评论(0)