当AI学会“顶嘴“——Opus 4.7的靠谱，比聪明更值钱

Claude Opus 4.7 昨天凌晨上线。卖点不是跑分涨了多少，而是它回答前会先自己验一遍，遇到有问题的指令还敢顶嘴。编程测试跳到 64.3%，分辨率翻了三倍，价格不变。开发者的评价就一个词：靠谱。

香蕉AEcru

395人浏览 · 2026-04-18 12:15:00

香蕉AEcru · 2026-04-18 12:15:00 发布

过去两年，AI 公司比的是谁的模型跑分高。每发一个新版本，满屏都是"又一次颠覆"“史上最强”。但真正拿 AI 干活的人知道，最让人头疼的从来不是它不够聪明——是它不够靠谱。写完代码不检查有没有 bug，分析完数据里面有两个数是自己编的，跑个长任务跑到一半开始"幻觉"。聪明是够聪明，但你得一直盯着它，像带实习生。

昨天凌晨，Anthropic 发了 Claude Opus 4.7。没有发布会，没有预热，博客一发模型就上线了。但这一次，开发者社区的反应有点不一样。没有人喊"革命性突破"，没人说"颠覆一切"。大家用的是一个很朴素的词：靠谱。

它会在交作业之前，先自己检查一遍

Opus 4.7 最大的变化，藏在很多人不会注意的地方：回答你之前，先自己验一遍。

以前的模型就像那种特别聪明但从来不检查作业的学生——答题速度快，正确率看运气。你让它写段代码，它三秒给你吐出来，跑一下发现有个变量名拼错。让它分析个数据，信心满满给出一堆结论，其中两个数字跟原始数据对不上。

Opus 4.7 换了个路子。生成答案之后、返回给你之前，它会跑一轮内部验证。代码能不能编译？逻辑前后矛盾不矛盾？引用的数据有没有根据？发现有问题，自己先改了再给你。

在这里插入图片描述

Devin 背后的公司 Cognition，CEO Scott Wu 的原话是：“Opus 4.7 能连续干好几个小时不跑偏，遇到卡点会自己想办法突破，不会像之前的模型那样直接停下来。” Rakuten 在自家 Rakuten-SWE-Bench 上测的结果更猛，生产环境问题解决率是 Opus 4.6 的 3 倍，代码和测试质量都有两位数百分比的提升。

它会"顶嘴"

还有一个更微妙的变化：它在技术讨论中会反驳你。

不是那种"抱歉我不能这样做"的机械拒绝。而是你给的指令有问题，它会指出来。你让它走一条明显绕远的路，它可能建议一条更短的。你写的 prompt 前后矛盾，它不会再装没看见，会提醒你哪个地方冲突了。

Hugging Face 上不少开发者的反馈指向同一个感受：它不再是一个只会说"好的老板"的执行机器，更像一个会跟你讨论、帮你想清楚的同事。

这个特性其实是双刃剑。Anthropic 自己也提醒了：从 Opus 4.6 迁移到 4.7，你之前的 prompt 可能会跑出不同的结果。因为 4.6 会"灵活理解"你的指令（说白了就是忽略模糊的部分），而 4.7 会按字面意思严格执行。以前能凑合跑的草台班子 prompt，现在可能直接翻车。

简单说：你得重新调教一下自己写 prompt 的习惯。

几个硬数字

光说"靠谱"太空。看看具体数据：

编程能力方面，SWE-bench Pro（真实 GitHub issue 修复测试）从 53.4% 跳到 64.3%，目前所有公开模型里最高。Cursor CEO Michael Truell 在 CursorBench 上测的结果是从 58% 到 70%，他的评价是"断档的领先"。

工具调用方面，Notion AI 负责人 Sarah Sachs 给出的数据：多步工作流性能提升 14%，工具调用出错率砍掉约三分之二。原话是：“这是第一次感觉它像个真正的队友。”

法律文书处理，Harvey 在 BigLaw Bench 上跑了 90.9%。金融分析，Finance Agent v1.1 基准 64.4%，超过所有竞品。

但也有退步。BrowseComp（网页浏览综合测试）掉了 4.4 个百分点。如果你的工作流重度依赖 AI 上网搜资料再综合分析，4.7 在这一点上不如 4.6，GPT-5.4 和 Gemini 3.1 Pro 反而更合适。升了那么多，唯独搜索退了，有点邪门。

视觉能力翻了三倍多

这个升级容易被忽略，但对实际使用影响很大。

Opus 4.7 支持最高 2576 像素长边的图像输入，分辨率约 375 万像素，是之前模型的三倍多。XBOW CEO Oege de Moor 给出的数据：视觉感知基准测试从 54.5% 直接飙到 98.5%——他的原话是"彻底解决了主要痛点"。

实际感受是什么？你给它一张密密麻麻的技术图表、一份小字看不清的财务报表截图、一个嵌套了七八层的软件界面，以前它可能看漏关键细节，现在基本不会了。

记忆能力也有提升。跨会话的场景下，如果 Agent 维护了笔记文件或结构化的记忆存储，4.7 在利用这些已有信息做新任务时，表现得比前代好很多。简单说就是，你昨天跟它交代过的上下文，它今天记得更牢了。

一家公司发了"不是自己最强"的模型

行业格局方面，有个有意思的背景。

就在一周前，Anthropic 放出了 Claude Mythos，但没对公众开放，只在 Project Glasswing 计划下给了少数网络安全公司用。Anthropic 自己承认：Opus 4.7 在能力上不如 Mythos。

一个公司发布新模型，同时告诉你"这不是我们能做的最强的"。在 AI 行业，这种操作挺少见。背后的原因是安全。据 CNBC 报道，Mythos 级别的模型在网络安全攻防方面的能力太强，直接放开有风险。所以 Anthropic 的策略是先在 Opus 4.7 上部署安全防护措施，验证有效后再考虑逐步释放更强的能力。

CNBC 的标题很直接：“Anthropic 发布 Claude Opus 4.7——一个’风险更低’的模型。”

在这里插入图片描述

另一边，OpenAI 的 GPT-5.4、Google 的 Gemini 3.1 Pro 也在同赛道。但这次发布后，开发者社区讨论的焦点不再是"谁跑分最高"，而是"谁最稳定"。Reddit r/LocalLLaMA 和 Hacker News 上的热帖已经在印证这个趋势。

价格和迁移成本

聊完安全策略，说说钱。

价格和 Opus 4.6 一样：输入每百万 token 5 美元，输出 25 美元。官方没涨价。但实际花费可能会变高。新的分词器处理同样文本，token 数可能不变，也可能多出最多 35%。加上模型在高推理档位下"想得更多"，输出 token 也会增加。换来的是更靠谱的结果，但账单可能比之前略高。

API 端的新功能：新增了 xhigh（超高级）推理档位，填在 high 和 max 之间的大空档；task budgets 进入公测，可以给 Claude 设定 token 总预算让它自己分配。Claude Code 里加了 /ultrareview 命令，专门跑一轮独立的代码审查，Pro 和 Max 用户各送 3 次免费额度。

我的判断

如果你是开发者，特别是做复杂编程、多步工作流、或者需要 AI 长时间自主跑任务的——Opus 4.7 值得立刻切过去。它在"把活干完、干对"这件事上，是目前公开可用的模型里最好的。Cursor 已经接入了，GitHub Copilot 也在逐步上线。

如果你不是开发者，在 claude.ai 上已经可以直接用了，不需要做任何配置。

但有个提醒：如果你的工作流重度依赖网页搜索和综合分析，4.7 在这一点上反而退步了，建议先别急着切。

这次发布后，社交媒体上讨论最多的不是某个跑分数字，而是："我终于可以给 AI 一个难活，然后去做别的事，不用一直盯着了。"当开发者开始用"放心交出去"来形容一个 AI 模型——这个行业比拼的维度，真的在变。靠谱，正在成为比聪明更值钱的东西。

扣 1 = 信了，今天就去试
扣 2 = 不急，等别人踩完坑再说

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

Claude Code接入国产模型的唯一捷径找到了！小米原生（免费送百亿taken）、阿里直连、DeepSeek百万上下文！

2026年5月最新的8款国产大模型（DeepSeek V4、Kimi K2.6、Qwen3.5-Plus、豆包Seed 2.0 Pro、智谱GLM-5.1、小米MiMo V2.5-Pro、文心ERNIE 5.1、混元Hy3 preview）接入Claude Code的能力，从代码性能、上下文长度、价格、Agent支持等维度对比，并提供具体配置参数与选型建议。

DeepSeek技术社区

做了个 Claude Code/Codex/Gemini 国内平替平台aikopen

我越来越觉得：AI Coding 不会替代程序员。AI 协作能力而不是单纯手写代码速度。CodexGeminiCursorDevinWindsurf欢迎一起交流。也想看看：大家现在真实 AI Coding 使用场景到底是什么。

DeepSeek技术社区

2026 年度 GEO 服务行业影响力榜单：技术硬实力与用户口碑双维度专业评级

该系统已无缝覆盖 15 + 全球主流 AI 搜索平台，涵盖 ChatGPT、Gemini、Perplexity、DeepSeek、豆包、Kimi、腾讯元宝等，同时具备 20 + 全球主流语种的本地化适配能力，可覆盖全球 20+AI 搜索平台，核心护城河是跨模型的通用共识分发协议，一次接入、全平台生效。公司拥有 12 个全球办公节点，横跨亚洲、欧洲、北美三大洲，以上海全球总部为核心，同步布局深圳、武