Claude Opus 4.8 上手实测:比起 4.7 到底好在哪?

Anthropic 在 5月28号发了 Opus 4.8。我前后对比用了两天,这篇文章把实际体验和差异拆开说。


Opus 4.8 和 4.7 的核心差异

1. 定价没变,但速度选项变了

价格完全一样:输入 $5/百万 tokens,输出 $25/百万 tokens。

但 Opus 4.8 多了一个 fast mode。开启后速度大概是普通模式的 2.5 倍,单价降到正常的三分之一。之前 Opus 4.7 也有 fast mode,但价格折扣没这么大。对高频调用场景来说,这个变化很实在——同样的预算能跑的量翻了一倍多。

2. 上下文从 2M 降到 1M,但实际感受反而更好

4.7 的宣传规格是 2M 上下文窗口,4.8 降到了 1M。

听起来像是缩水——但实际用下来,1M 在日常场景完全够用,而 token 利用率更高了。Anthropic 官方的说法是 4.8 在 coding 任务上用和 4.7 默认差不多的 token 量,但效果更好。我自己测试了同一个 50 万 tokens 的代码库分析任务,4.8 的理解准确度确实更高,幻觉更少。

3. 最大输出从 64K 涨到 128K

这个很实用。之前用 4.7 生成长代码文件时常被 64K 的硬限制截断,需要分块写。4.8 的 128K 输出让单次生成覆盖的范围大了很多,少了很多"再生成另一半"的折腾。

4. Agent 决策质量提升:诚实度是最大亮点

这是 4.8 最让我意外的一个变化。

之前用 4.7 做 agent 任务时,最头疼的问题是模型有时候会"自信满满地给你一个错的答案"。它不是故意犯错,而是它不会主动说"这个我不确定"。

4.8 在这点上变化明显。Anthropic 的内部评测显示,让模型自查代码缺陷时,4.8 的漏报率比 4.7 低了大约 4 倍。我在实际项目中测试了一个 bug 检测任务——让两个模型分别审查同一段有 3 个隐藏 bug 的 Python 代码。4.7 报出了 2 个,漏了 1 个。4.8 全部找到,还额外指出了一处潜在的性能问题。

看起来不是什么惊天动地的提升,但做 agent 开发的人应该懂——模型愿意说"不确定"和不自知地给错误答案,在自动化流程里差别非常大。

5. Dynamic Workflows:确实能处理更复杂的事了

这个是 Claude Code 的新功能,目前还在 research preview。简单说就是 4.8 可以自己拆任务,然后同时开很多个子 agent 并行干活,最后汇总验证。

我试了一个比较狠的场景:把一个中型 Django 项目(大概 300 多个文件)中所有的 HttpResp换成 JsonResp,同时更新对应的测试。以前手动做至少一两天,要拆好多 PR。用 Dynamic Workflows 跑了一遍——它自己拆了 47 个子任务,并行执行了 12 轮,最终一次性完成了迁移。测试全过。

当然这个对测试覆盖率要求比较高,项目本身测试不够的话它也没法验证结果。

6. Effort Control:按需分配算力

4.8 默认是 high effort,复杂任务可以调到 extra 甚至 max,模型会花更多 token 来换取更好的结果。简单对话也可以用低 effort 模式省 token。


基准测试数据对比

几个关键数据拉出来看一下:

指标 Opus 4.7 Opus 4.8
SWE-bench (代码修复) ~65% 69.2%
代码缺陷自查漏报率 基准 降低约 4 倍
Fast mode 速度 1x 2.5x
Fast mode 价格 基准 降至 1/3
上下文窗口 2M 1M
最大输出 64K 128K
知识截止 2025年8月 2026年1月

SWE-bench 从 ~65% 到 69.2% 不是那种"暴涨"式的进步。但如果你真用它写代码,诚实度的提升+输出上限翻倍,两个加在一起,日常能用的场景范围确实大了不少。


我的建议

  • 复杂 agent 任务 / 自动化编码 / 代码库级迁移:值得切换,4.8 的稳定性和判断力提升是实打实的。
  • 日常对话 / 简单文本生成:Sonnet 4.6 其实已经够好够快,不用为了换而换。
  • 长代码文件生成:128K 输出上限是刚需,如果你经常被截断烦恼,值得切。

国内调用的方式,我用的是中转站,因为官方接口在国内直接调有区域限制。Base URL 填中转站的地址,模型名选 claude-opus-4-8 就行,和之前的用法一样。

4.8 是个稳扎稳打的迭代升级。没有特别爆炸的突破,但诚实度提升和输出上限翻倍这两项,在日常编码中用两天就能感受到区别。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐