Anthropic发布Claude Opus 4.7:性能提升、安全分级,新策略能否成竞争优势?
但迁移指南提到两个成本变化,新的tokenizer可能让相同输入变成1.0到1.35倍的token,在强思考模式下,尤其是agent的多轮对话,模型会思考更多,输出的token也可能更多。Opus 4.7不是最强的模型,Anthropic也没把它包装成最强的,它是在能力、安全、成本之间的平衡点,是否真的平衡,要等市场验证。AI写代码不稀奇,稀缺的是AI审自己的代码,/ultrareview像是An

Anthropic发布Claude Opus 4.7:性能提升、安全分级,新策略能否成竞争优势?
别的AI厂商发模型,总会宣扬产品的强大,Anthropic却表示“有更强的,但先不能给”。2026年4月17日,Anthropic发布了Claude Opus 4.7。此次发布官方博客按部就班列出跑分、能力提升和应用场景,不过仔细阅读公告会发现一些不寻常之处。Opus 4.7紧跟Anthropic的Project Glasswing和Mythos Preview之后,而上周Mythos Preview因网络安全能力过强,暂时限制发布,所以Opus 4.7被明确定位为“第一款用来测试新网络安全护栏的公开模型”,官方还称在训练过程中实验性地削弱了其网络安全能力。
Opus 4.7的性能如何?
常规性能
Opus 4.7在多个基准测试上超过Opus 4.6,尤其在高级软件工程任务上。官方图表显示,在SWE - Bench Verified上,Opus 4.7为87.6%,Opus 4.6为80.8%;在更难的SWE - Bench Pro上,Opus 4.7为64.3%,Opus 4.6为53.4%;在Terminal - Bench 2.0上,Opus 4.7为69.4%,Opus 4.6为65.4%;Finance agent v11上,Opus 4.7为64.4%,Opus 4.6为60.1%。这意味着可以把更复杂的编程工作交给Opus 4.7,它会更严谨地处理长时间运行的任务,更精确地遵循指令,还会在汇报前验证输出。
早期测试反馈
-
指令遵循能力:Opus 4.7会严格按字面意思理解指令,而之前的模型往往松散解读或跳过某些部分。这虽看似好事,但可能带来麻烦,会让一些旧提示词失效。以前Claude会“会意”,能自动补全模糊指令的真实意图或忽略不太重要、冲突、不清楚的要求,很多用户的提示词是基于旧模型习惯调整的。但Opus 4.7更倾向严格按字面执行,导致旧提示词里被忽略的小细节会被执行,模糊表达会被直接理解,结果模型虽更强,但输出与用户预期不同。
-
多模态支持:Opus 4.7可以接受长边最高2576像素的图像,约3.75兆像素,是之前Claude模型的三倍多。这不是普通的“识图能力”升级,而是为让AI能看懂软件界面,服务于Anthropic的Computer Use功能。其视觉升级是为让agent能看懂软件界面,若看不清密集表格、终端输出、设计稿细节、代码截图,agent操作能力再强也无用。
-
实际工作表现:内部测试显示,Opus 4.7在金融分析任务上比Opus 4.6更有效,能产出更严谨的分析和模型、更专业的演示文稿,以及更紧密的跨任务整合。它在GPQAval - AA这个覆盖金融、法律等领域的第三方评估中也是最高分。
-
记忆能力:Opus 4.7更会使用基于文件系统的记忆,能在长周期、多会话的工作中记住重要笔记,后续任务需要的前置信息更少。这在官方公告里不显眼,但可能是长期使用中最关键的更新特性,能跨会话记住项目约束、用户偏好、架构决策和上次失败原因的agent,才可能从“聪明临时工”变成“稳定同事”。
安全性和对齐
Opus 4.7和Opus 4.6的整体表现相似,在诚实度和抵抗恶意提示注入攻击的能力上有所提升,在给出危害建议的能力上有所下降,如如何制作使用管制刀具这类问题。官方对齐评估结论是,这个模型“基本对齐且值得信赖,但行为上还不完全理想”。
价格
Opus 4.7和Opus 4.6价格保持一致,输入每百万token 5美元,输出每百万token 25美元。但迁移指南提到两个成本变化,新的tokenizer可能让相同输入变成1.0到1.35倍的token,在强思考模式下,尤其是agent的多轮对话,模型会思考更多,输出的token也可能更多。所以名义上价格没变,但使用多了会变贵。过去模型计费主要看输入输出长度,现在还要看思考的等级、任务预算、agent跑的轮数、工具失败后有无继续推理。Anthropic新增的x - high effort和task budgets,说明高端模型的使用方式正走当年云计算的逻辑,用户买的不是一次回答,而是为一个会思考、会试错、会验证的任务过程付费。
Anthropic为何会发布阉割模型?
Opus 4.7的真正卖点之一是它没有完全释放能力,这看似反直觉,但可能是下一代模型公司的常态。模型越接近真实生产环境,越不能只追求更强,要知道哪些事能做、哪些不能做、哪些用户能开放更多权限、哪些请求必须拦住。
Anthropic在发布Opus 4.7的同时,推出了Cyber Verification Program,该项目本质上是给能力分级。普通用户拿到的是有护栏的Opus,经过验证的安全专家才能申请更宽的网络安全用途,模型会自动检测和阻止那些表明禁止或高风险网络安全用途的请求。Anthropic称会从Opus 4.7的真实部署中学习,为未来Mythos级别模型的广泛发布做准备。
过去几年,AI公司竞争逻辑是“我比你强”,跑分更高、参数更多、能做的事更复杂。但当模型能力达到临界点后,这个逻辑失效。一个在网络安全测试中表现太好的模型,可能被恶意使用;一个完全不设限的agent,可能在用户不知情的情况下做出危险决策。Anthropic选择先把最强的模型锁起来,用稍弱但足够好的模型测试安全机制,这是主动选择,“克制”本身成了产品差异化的一部分。
这个策略能否成功,取决于市场是否认可“谨慎”概念。如果用户只在乎“能不能做到”,Anthropic做法会显得保守;但如果企业客户开始重视“会不会出事”,这种分级发布、主动削弱某些能力的做法,反而可能成为竞争优势。
此外,在发布Opus 4.7的同时,Anthropic还更新了Claude Code,新增了auto mode和/ultrareview功能。
auto mode
不是模型自动选型,而是权限选项,允许Claude替用户做一些权限决策,让长任务少被打断,风险低于完全跳过权限确认。它针对的是agent产品的核心矛盾,过去AI只是回答问题,权限少,现在要改代码、读文件等,每一步都有风险。若每个操作都要用户确认,agent自主性就失去意义;若完全放手,用户又担心AI做出不可逆错误决策。auto mode本质是在“别烦我”和“别乱来”之间找平衡,会根据操作风险级别,决定是自动执行、提示用户还是要求明确授权,这是agent从“能干什么”到“能不能用”的巨大飞跃。
/ultrareview
是专门的代码审查会话,读取变更并指出bug和设计问题。这说明AI编程进入第二阶段,让AI自己审查自己生成的代码。AI写代码不稀奇,稀缺的是AI审自己的代码,/ultrareview像是Anthropic给Claude Code补上的第二双眼睛,一个agent负责写,另一个更谨慎的会话负责审。可以猜到这两个功能是高频功能,因为本质上是所有使用Claude Code的程序员过去干的活。生成代码只是开发流程一部分,审查、测试、重构、文档同样重要,AI若能参与整个流程,才可能真正改变软件开发方式。
官方在迁移指南里提醒用户,Opus 4.7的token使用可能增加,但实际编程评估中整体效率反而提升,说明他们优化的是完成任务的总成本。一个agent如果第一次就把事情做对,即使单次调用贵一点,总成本也比反复试错低,这是更成熟的产品思路。早期AI产品追求“便宜”和“快”,现在开始追求“靠谱”。Opus 4.7不是最强的模型,Anthropic也没把它包装成最强的,它是在能力、安全、成本之间的平衡点,是否真的平衡,要等市场验证。至少在发布策略上,Anthropic给出了新思路,有时候“不做什么”比“能做什么”更重要。
更多推荐



所有评论(0)