Anthropic发布Claude Opus 4.7：性能提升、安全分级，新策略能否成竞争优势？

但迁移指南提到两个成本变化，新的tokenizer可能让相同输入变成1.0到1.35倍的token，在强思考模式下，尤其是agent的多轮对话，模型会思考更多，输出的token也可能更多。Opus 4.7不是最强的模型，Anthropic也没把它包装成最强的，它是在能力、安全、成本之间的平衡点，是否真的平衡，要等市场验证。AI写代码不稀奇，稀缺的是AI审自己的代码，/ultrareview像是An

IT界那些事儿

210人浏览 · 2026-04-17 09:16:24

IT界那些事儿 · 2026-04-17 09:16:24 发布

Anthropic发布Claude Opus 4.7：性能提升、安全分级，新策略能否成竞争优势？

别的AI厂商发模型，总会宣扬产品的强大，Anthropic却表示“有更强的，但先不能给”。2026年4月17日，Anthropic发布了Claude Opus 4.7。此次发布官方博客按部就班列出跑分、能力提升和应用场景，不过仔细阅读公告会发现一些不寻常之处。Opus 4.7紧跟Anthropic的Project Glasswing和Mythos Preview之后，而上周Mythos Preview因网络安全能力过强，暂时限制发布，所以Opus 4.7被明确定位为“第一款用来测试新网络安全护栏的公开模型”，官方还称在训练过程中实验性地削弱了其网络安全能力。

Opus 4.7的性能如何？

常规性能

Opus 4.7在多个基准测试上超过Opus 4.6，尤其在高级软件工程任务上。官方图表显示，在SWE - Bench Verified上，Opus 4.7为87.6%，Opus 4.6为80.8%；在更难的SWE - Bench Pro上，Opus 4.7为64.3%，Opus 4.6为53.4%；在Terminal - Bench 2.0上，Opus 4.7为69.4%，Opus 4.6为65.4%；Finance agent v11上，Opus 4.7为64.4%，Opus 4.6为60.1%。这意味着可以把更复杂的编程工作交给Opus 4.7，它会更严谨地处理长时间运行的任务，更精确地遵循指令，还会在汇报前验证输出。

早期测试反馈

指令遵循能力：Opus 4.7会严格按字面意思理解指令，而之前的模型往往松散解读或跳过某些部分。这虽看似好事，但可能带来麻烦，会让一些旧提示词失效。以前Claude会“会意”，能自动补全模糊指令的真实意图或忽略不太重要、冲突、不清楚的要求，很多用户的提示词是基于旧模型习惯调整的。但Opus 4.7更倾向严格按字面执行，导致旧提示词里被忽略的小细节会被执行，模糊表达会被直接理解，结果模型虽更强，但输出与用户预期不同。
多模态支持：Opus 4.7可以接受长边最高2576像素的图像，约3.75兆像素，是之前Claude模型的三倍多。这不是普通的“识图能力”升级，而是为让AI能看懂软件界面，服务于Anthropic的Computer Use功能。其视觉升级是为让agent能看懂软件界面，若看不清密集表格、终端输出、设计稿细节、代码截图，agent操作能力再强也无用。
实际工作表现：内部测试显示，Opus 4.7在金融分析任务上比Opus 4.6更有效，能产出更严谨的分析和模型、更专业的演示文稿，以及更紧密的跨任务整合。它在GPQAval - AA这个覆盖金融、法律等领域的第三方评估中也是最高分。
记忆能力：Opus 4.7更会使用基于文件系统的记忆，能在长周期、多会话的工作中记住重要笔记，后续任务需要的前置信息更少。这在官方公告里不显眼，但可能是长期使用中最关键的更新特性，能跨会话记住项目约束、用户偏好、架构决策和上次失败原因的agent，才可能从“聪明临时工”变成“稳定同事”。

安全性和对齐

Opus 4.7和Opus 4.6的整体表现相似，在诚实度和抵抗恶意提示注入攻击的能力上有所提升，在给出危害建议的能力上有所下降，如如何制作使用管制刀具这类问题。官方对齐评估结论是，这个模型“基本对齐且值得信赖，但行为上还不完全理想”。

价格

Opus 4.7和Opus 4.6价格保持一致，输入每百万token 5美元，输出每百万token 25美元。但迁移指南提到两个成本变化，新的tokenizer可能让相同输入变成1.0到1.35倍的token，在强思考模式下，尤其是agent的多轮对话，模型会思考更多，输出的token也可能更多。所以名义上价格没变，但使用多了会变贵。过去模型计费主要看输入输出长度，现在还要看思考的等级、任务预算、agent跑的轮数、工具失败后有无继续推理。Anthropic新增的x - high effort和task budgets，说明高端模型的使用方式正走当年云计算的逻辑，用户买的不是一次回答，而是为一个会思考、会试错、会验证的任务过程付费。

Anthropic为何会发布阉割模型？

Opus 4.7的真正卖点之一是它没有完全释放能力，这看似反直觉，但可能是下一代模型公司的常态。模型越接近真实生产环境，越不能只追求更强，要知道哪些事能做、哪些不能做、哪些用户能开放更多权限、哪些请求必须拦住。

Anthropic在发布Opus 4.7的同时，推出了Cyber Verification Program，该项目本质上是给能力分级。普通用户拿到的是有护栏的Opus，经过验证的安全专家才能申请更宽的网络安全用途，模型会自动检测和阻止那些表明禁止或高风险网络安全用途的请求。Anthropic称会从Opus 4.7的真实部署中学习，为未来Mythos级别模型的广泛发布做准备。

过去几年，AI公司竞争逻辑是“我比你强”，跑分更高、参数更多、能做的事更复杂。但当模型能力达到临界点后，这个逻辑失效。一个在网络安全测试中表现太好的模型，可能被恶意使用；一个完全不设限的agent，可能在用户不知情的情况下做出危险决策。Anthropic选择先把最强的模型锁起来，用稍弱但足够好的模型测试安全机制，这是主动选择，“克制”本身成了产品差异化的一部分。

这个策略能否成功，取决于市场是否认可“谨慎”概念。如果用户只在乎“能不能做到”，Anthropic做法会显得保守；但如果企业客户开始重视“会不会出事”，这种分级发布、主动削弱某些能力的做法，反而可能成为竞争优势。

此外，在发布Opus 4.7的同时，Anthropic还更新了Claude Code，新增了auto mode和/ultrareview功能。

auto mode

不是模型自动选型，而是权限选项，允许Claude替用户做一些权限决策，让长任务少被打断，风险低于完全跳过权限确认。它针对的是agent产品的核心矛盾，过去AI只是回答问题，权限少，现在要改代码、读文件等，每一步都有风险。若每个操作都要用户确认，agent自主性就失去意义；若完全放手，用户又担心AI做出不可逆错误决策。auto mode本质是在“别烦我”和“别乱来”之间找平衡，会根据操作风险级别，决定是自动执行、提示用户还是要求明确授权，这是agent从“能干什么”到“能不能用”的巨大飞跃。

/ultrareview

是专门的代码审查会话，读取变更并指出bug和设计问题。这说明AI编程进入第二阶段，让AI自己审查自己生成的代码。AI写代码不稀奇，稀缺的是AI审自己的代码，/ultrareview像是Anthropic给Claude Code补上的第二双眼睛，一个agent负责写，另一个更谨慎的会话负责审。可以猜到这两个功能是高频功能，因为本质上是所有使用Claude Code的程序员过去干的活。生成代码只是开发流程一部分，审查、测试、重构、文档同样重要，AI若能参与整个流程，才可能真正改变软件开发方式。

官方在迁移指南里提醒用户，Opus 4.7的token使用可能增加，但实际编程评估中整体效率反而提升，说明他们优化的是完成任务的总成本。一个agent如果第一次就把事情做对，即使单次调用贵一点，总成本也比反复试错低，这是更成熟的产品思路。早期AI产品追求“便宜”和“快”，现在开始追求“靠谱”。Opus 4.7不是最强的模型，Anthropic也没把它包装成最强的，它是在能力、安全、成本之间的平衡点，是否真的平衡，要等市场验证。至少在发布策略上，Anthropic给出了新思路，有时候“不做什么”比“能做什么”更重要。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐