Claude Opus 4.8 上手实测：比起 4.7 到底好在哪？

Anthropic 在 5月28号发了 Opus 4.8。我前后对比用了两天，这篇文章把实际体验和差异拆开说。价格完全一样：输入 $5/百万 tokens，输出 $25/百万 tokens。但 Opus 4.8 多了一个 fast mode。开启后速度大概是普通模式的 2.5 倍，单价降到正常的三分之一。之前 Opus 4.7 也有 fast mode，但价格折扣没这么大。对高频调用场景来说，这个

kkevinnn1

331人浏览 · 2026-05-29 14:18:24

kkevinnn1 · 2026-05-29 14:18:24 发布

Claude Opus 4.8 上手实测：比起 4.7 到底好在哪？

Anthropic 在 5月28号发了 Opus 4.8。我前后对比用了两天，这篇文章把实际体验和差异拆开说。

Opus 4.8 和 4.7 的核心差异

1. 定价没变，但速度选项变了

价格完全一样：输入 $5/百万 tokens，输出 $25/百万 tokens。

但 Opus 4.8 多了一个 fast mode。开启后速度大概是普通模式的 2.5 倍，单价降到正常的三分之一。之前 Opus 4.7 也有 fast mode，但价格折扣没这么大。对高频调用场景来说，这个变化很实在——同样的预算能跑的量翻了一倍多。

2. 上下文从 2M 降到 1M，但实际感受反而更好

4.7 的宣传规格是 2M 上下文窗口，4.8 降到了 1M。

听起来像是缩水——但实际用下来，1M 在日常场景完全够用，而 token 利用率更高了。Anthropic 官方的说法是 4.8 在 coding 任务上用和 4.7 默认差不多的 token 量，但效果更好。我自己测试了同一个 50 万 tokens 的代码库分析任务，4.8 的理解准确度确实更高，幻觉更少。

3. 最大输出从 64K 涨到 128K

这个很实用。之前用 4.7 生成长代码文件时常被 64K 的硬限制截断，需要分块写。4.8 的 128K 输出让单次生成覆盖的范围大了很多，少了很多"再生成另一半"的折腾。

4. Agent 决策质量提升：诚实度是最大亮点

这是 4.8 最让我意外的一个变化。

之前用 4.7 做 agent 任务时，最头疼的问题是模型有时候会"自信满满地给你一个错的答案"。它不是故意犯错，而是它不会主动说"这个我不确定"。

4.8 在这点上变化明显。Anthropic 的内部评测显示，让模型自查代码缺陷时，4.8 的漏报率比 4.7 低了大约 4 倍。我在实际项目中测试了一个 bug 检测任务——让两个模型分别审查同一段有 3 个隐藏 bug 的 Python 代码。4.7 报出了 2 个，漏了 1 个。4.8 全部找到，还额外指出了一处潜在的性能问题。

看起来不是什么惊天动地的提升，但做 agent 开发的人应该懂——模型愿意说"不确定"和不自知地给错误答案，在自动化流程里差别非常大。

5. Dynamic Workflows：确实能处理更复杂的事了

这个是 Claude Code 的新功能，目前还在 research preview。简单说就是 4.8 可以自己拆任务，然后同时开很多个子 agent 并行干活，最后汇总验证。

我试了一个比较狠的场景：把一个中型 Django 项目（大概 300 多个文件）中所有的 HttpResp换成 JsonResp，同时更新对应的测试。以前手动做至少一两天，要拆好多 PR。用 Dynamic Workflows 跑了一遍——它自己拆了 47 个子任务，并行执行了 12 轮，最终一次性完成了迁移。测试全过。

当然这个对测试覆盖率要求比较高，项目本身测试不够的话它也没法验证结果。

6. Effort Control：按需分配算力

4.8 默认是 high effort，复杂任务可以调到 extra 甚至 max，模型会花更多 token 来换取更好的结果。简单对话也可以用低 effort 模式省 token。

基准测试数据对比

几个关键数据拉出来看一下：

指标	Opus 4.7	Opus 4.8
SWE-bench (代码修复)	~65%	69.2%
代码缺陷自查漏报率	基准	降低约 4 倍
Fast mode 速度	1x	2.5x
Fast mode 价格	基准	降至 1/3
上下文窗口	2M	1M
最大输出	64K	128K
知识截止	2025年8月	2026年1月