Anthropic深夜发布Claude Opus 4.7:编程能力碾压GPT-5.4,视觉暴涨3倍,但Token消耗成最大悬念

 

北京时间2026年4月16日深夜,Anthropic正式发布了其最新旗舰AI模型——Claude Opus 4.7。

 

官方宣称这是目前“最强公开可用AI模型”,本次升级直击高端软件工程、金融分析、多模态视觉与长期任务一致性四大场景,在编程和工具调用等核心能力上大幅领先GPT-5.4与Gemini 3.1 Pro。

 

下面带你全面解析Opus 4.7,包括:与前代Opus 4.6及竞品的详细横向对比、视觉能力升级、安全与对齐策略、定价与Token消耗变化,以及给开发者的迁移避坑建议。

 

🔥 核心升级一:编程能力大跃升,SWE-bench登顶

 

Opus 4.7本次最大的升级点在高级软件工程领域,官方明确表示,如今可以放心地将此前需要人工严密把关的最复杂编码任务交给它处理。

 

先看硬核数据:在软件工程领域公认的权威基准测试SWE-bench Pro上,Opus 4.7取得了64.3% 的惊人成绩,相比Opus 4.6的53.4%提升了近11个百分点,同时大幅领先GPT-5.4的57.7%和Gemini 3.1 Pro的54.2%。在更细化的SWE-bench Verified测试中,Opus 4.7更是达到87.6%,同样碾压Gemini 3.1 Pro的80.6%。

 

在开发者实际使用的CursorBench(IDE内自主编程能力测试)中,Opus 4.7取得了70% 的成绩,比Opus 4.6的58%提升了12个百分点。早期测试者反馈,该模型能在规划阶段自行发现逻辑错误,执行速度远超以往版本。值得一提的是,Opus 4.7是首个通过Anthropic“隐式需求测试”的模型——不需要明确告诉它该用哪些工具,它能自己推断出应该采取什么行动。

 

🧠 多维度横向对比:没有全能之王

 

Opus 4.7很强,但它并不是所有维度上的绝对第一。在多语言MMMLU测试中Gemini 3.1 Pro以92.6%领先(Opus 4.7为91.5%),在科学推理GPQA中GPT-5.4 Pro以94.4%略胜一筹(Opus 4.7为94.2%),在搜索能力BrowseComp中GPT-5.4 Pro的89.3%更是大幅领先Opus 4.7的79.3%。

 

这意味着:AI模型之间的竞争,已经从“谁更强”变成了“谁在你的场景里更强” 。具体到你的使用场景,盲目跟风选最强的模型,可能会花冤枉钱——在编程场景下Opus 4.7是绝对王者,但如果你主要做多语言问答或搜索类任务,Gemini 3.1 Pro或GPT-5.4 Pro可能是更好的选择。

 

🖼️ 视觉能力:分辨率翻3倍,多模态工作流全新升级

 

Opus 4.7的视觉升级力度堪称“质变”。新模型支持最长边达2576像素的图像(约375万像素),是Opus 4.6(1568像素,115万像素)的3倍以上。每张图片的最大token消耗从约1600跃升至约4784,坐标映射也从“需缩放计算”改为1:1像素对应,大幅简化了视觉定位的难度。

 

在自主渗透测试XBOW中,Opus 4.7的视觉准确性从Opus 4.6的54.5%直接飙升至98.5%——近乎翻倍的提升,足以说明这次视觉升级的实战价值。这意味着它能可靠地读取密集截图的计算机使用代理、从复杂图表中精确提取数据,以及完成需要像素级精度的科学、法律文档处理工作。

 

⚙️ 推理效率:新增xhigh努力等级,提供更精细控制

 

Opus 4.7引入了全新的xhigh(extra high)努力等级,介于原来的high和max之间,为用户提供了更细粒度的成本与推理深度权衡控制。

 

新版本采用了Adaptive Thinking(自适应思考)机制——模型会根据任务复杂度动态决定投入多少推理token,简单查询快速响应,复杂调试则深度分析,有效缓解了Opus 4.6被诟病的“过度思考”问题。在Claude Code中,xhigh已成为默认设置,官方建议在编程和Agent场景下从high或xhigh开始测试。

 

🛡️ 安全与对齐:主动压制网络安全能力

 

Opus 4.7是Anthropic“玻璃翼计划”(Project Glasswing)框架下第一个正式落地的模型。与Mythos Preview不同,Anthropic在训练Opus 4.7时刻意降低了它的网络攻防能力,其网络漏洞复现得分从Opus 4.6的73.1%有所回落。

 

这一“主动降级”的逻辑在于:先在能力较弱的模型上验证安全拦截机制是否有效,再逐步向更强的Mythos级模型开放。Opus 4.7配备了自动检测和拦截高危网络安全请求的防护机制。真正的安全研究人员可通过Cyber Verification Program加入白名单,合法使用更强的网络安全能力。

 

💰 定价与Token消耗:价格不变,但实际成本可能增加

 

好消息是:API定价与Opus 4.6完全相同——输入$5/百万tokens,输出$25/百万tokens。

 

但有两处关键变化需要注意:

 

1. 新版分词器:Opus 4.7采用了更新的tokenizer,相同内容的token消耗可能是原来的1.0~1.35倍(取决于内容类型)。

2. 更多思考token:在xhigh和max努力等级下,模型会进行更充分的“思考”,尤其在Agent场景的后续交互轮次中,这虽然提升了可靠性,但会产生更多输出token。

 

这意味着虽然单价不变,同等任务的Token消耗量可能会增加最多35%。建议开发者在使用时通过努力等级参数、调整任务预算或提示模型更简洁来控制token使用量。

 

🎯 我的判断与建议

 

Opus 4.7是一次定位极为精准的升级,主要体现在以下三点:

 

1. 编程场景独步天下:SWE-bench和CursorBench大幅领先竞品,如果你主要用AI写代码和做代码审查,Opus 4.7是目前最值得升级的选择。

2. 并非“全能冠军” :在多语言、科学推理、搜索等维度上,GPT-5.4和Gemini 3.1 Pro仍有自己的优势领地。选模型要看场景,不是看排名。

3. 迁移成本需要精算:新版分词器导致的token消耗增加(0-35%)加上更多思考token,让实际成本成为一个需要认真评估的变量。

 

Opus 4.7现已在Claude.ai官网、API、Amazon Bedrock、Google Vertex AI和Microsoft Foundry平台全面上线。从Opus 4.6迁移时,建议先在小范围任务上测试实际的token消耗量,同时重新审视你的prompt——新模型对指令的理解更“字面化”,旧的宽松提示可能会产生意外结果。

 

另外,Opus 4.7并不是Anthropic的全部底牌。被官方称为“全方位超越Opus 4.7”的Claude Mythos Preview已经存在,目前仅供苹果、微软、谷歌等顶级机构试用。Opus 4.7这个0.1版本号的真实含义是——A社还没掏出真正的王牌。

 

你对这次升级怎么看?欢迎在评论区分享你的使用体验~

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐