当AI学会“顶嘴“——Opus 4.7的靠谱,比聪明更值钱
Claude Opus 4.7 昨天凌晨上线。卖点不是跑分涨了多少,而是它回答前会先自己验一遍,遇到有问题的指令还敢顶嘴。编程测试跳到 64.3%,分辨率翻了三倍,价格不变。开发者的评价就一个词:靠谱。
过去两年,AI 公司比的是谁的模型跑分高。每发一个新版本,满屏都是"又一次颠覆"“史上最强”。但真正拿 AI 干活的人知道,最让人头疼的从来不是它不够聪明——是它不够靠谱。写完代码不检查有没有 bug,分析完数据里面有两个数是自己编的,跑个长任务跑到一半开始"幻觉"。聪明是够聪明,但你得一直盯着它,像带实习生。
昨天凌晨,Anthropic 发了 Claude Opus 4.7。没有发布会,没有预热,博客一发模型就上线了。但这一次,开发者社区的反应有点不一样。没有人喊"革命性突破",没人说"颠覆一切"。大家用的是一个很朴素的词:靠谱。
它会在交作业之前,先自己检查一遍
Opus 4.7 最大的变化,藏在很多人不会注意的地方:回答你之前,先自己验一遍。
以前的模型就像那种特别聪明但从来不检查作业的学生——答题速度快,正确率看运气。你让它写段代码,它三秒给你吐出来,跑一下发现有个变量名拼错。让它分析个数据,信心满满给出一堆结论,其中两个数字跟原始数据对不上。
Opus 4.7 换了个路子。生成答案之后、返回给你之前,它会跑一轮内部验证。代码能不能编译?逻辑前后矛盾不矛盾?引用的数据有没有根据?发现有问题,自己先改了再给你。

Devin 背后的公司 Cognition,CEO Scott Wu 的原话是:“Opus 4.7 能连续干好几个小时不跑偏,遇到卡点会自己想办法突破,不会像之前的模型那样直接停下来。” Rakuten 在自家 Rakuten-SWE-Bench 上测的结果更猛,生产环境问题解决率是 Opus 4.6 的 3 倍,代码和测试质量都有两位数百分比的提升。
它会"顶嘴"
还有一个更微妙的变化:它在技术讨论中会反驳你。
不是那种"抱歉我不能这样做"的机械拒绝。而是你给的指令有问题,它会指出来。你让它走一条明显绕远的路,它可能建议一条更短的。你写的 prompt 前后矛盾,它不会再装没看见,会提醒你哪个地方冲突了。
Hugging Face 上不少开发者的反馈指向同一个感受:它不再是一个只会说"好的老板"的执行机器,更像一个会跟你讨论、帮你想清楚的同事。
这个特性其实是双刃剑。Anthropic 自己也提醒了:从 Opus 4.6 迁移到 4.7,你之前的 prompt 可能会跑出不同的结果。因为 4.6 会"灵活理解"你的指令(说白了就是忽略模糊的部分),而 4.7 会按字面意思严格执行。以前能凑合跑的草台班子 prompt,现在可能直接翻车。
简单说:你得重新调教一下自己写 prompt 的习惯。
几个硬数字
光说"靠谱"太空。看看具体数据:
编程能力方面,SWE-bench Pro(真实 GitHub issue 修复测试)从 53.4% 跳到 64.3%,目前所有公开模型里最高。Cursor CEO Michael Truell 在 CursorBench 上测的结果是从 58% 到 70%,他的评价是"断档的领先"。
工具调用方面,Notion AI 负责人 Sarah Sachs 给出的数据:多步工作流性能提升 14%,工具调用出错率砍掉约三分之二。原话是:“这是第一次感觉它像个真正的队友。”
法律文书处理,Harvey 在 BigLaw Bench 上跑了 90.9%。金融分析,Finance Agent v1.1 基准 64.4%,超过所有竞品。
但也有退步。BrowseComp(网页浏览综合测试)掉了 4.4 个百分点。如果你的工作流重度依赖 AI 上网搜资料再综合分析,4.7 在这一点上不如 4.6,GPT-5.4 和 Gemini 3.1 Pro 反而更合适。升了那么多,唯独搜索退了,有点邪门。
视觉能力翻了三倍多
这个升级容易被忽略,但对实际使用影响很大。
Opus 4.7 支持最高 2576 像素长边的图像输入,分辨率约 375 万像素,是之前模型的三倍多。XBOW CEO Oege de Moor 给出的数据:视觉感知基准测试从 54.5% 直接飙到 98.5%——他的原话是"彻底解决了主要痛点"。
实际感受是什么?你给它一张密密麻麻的技术图表、一份小字看不清的财务报表截图、一个嵌套了七八层的软件界面,以前它可能看漏关键细节,现在基本不会了。
记忆能力也有提升。跨会话的场景下,如果 Agent 维护了笔记文件或结构化的记忆存储,4.7 在利用这些已有信息做新任务时,表现得比前代好很多。简单说就是,你昨天跟它交代过的上下文,它今天记得更牢了。
一家公司发了"不是自己最强"的模型
行业格局方面,有个有意思的背景。
就在一周前,Anthropic 放出了 Claude Mythos,但没对公众开放,只在 Project Glasswing 计划下给了少数网络安全公司用。Anthropic 自己承认:Opus 4.7 在能力上不如 Mythos。
一个公司发布新模型,同时告诉你"这不是我们能做的最强的"。在 AI 行业,这种操作挺少见。背后的原因是安全。据 CNBC 报道,Mythos 级别的模型在网络安全攻防方面的能力太强,直接放开有风险。所以 Anthropic 的策略是先在 Opus 4.7 上部署安全防护措施,验证有效后再考虑逐步释放更强的能力。
CNBC 的标题很直接:“Anthropic 发布 Claude Opus 4.7——一个’风险更低’的模型。”

另一边,OpenAI 的 GPT-5.4、Google 的 Gemini 3.1 Pro 也在同赛道。但这次发布后,开发者社区讨论的焦点不再是"谁跑分最高",而是"谁最稳定"。Reddit r/LocalLLaMA 和 Hacker News 上的热帖已经在印证这个趋势。
价格和迁移成本
聊完安全策略,说说钱。
价格和 Opus 4.6 一样:输入每百万 token 5 美元,输出 25 美元。官方没涨价。但实际花费可能会变高。新的分词器处理同样文本,token 数可能不变,也可能多出最多 35%。加上模型在高推理档位下"想得更多",输出 token 也会增加。换来的是更靠谱的结果,但账单可能比之前略高。
API 端的新功能:新增了 xhigh(超高级)推理档位,填在 high 和 max 之间的大空档;task budgets 进入公测,可以给 Claude 设定 token 总预算让它自己分配。Claude Code 里加了 /ultrareview 命令,专门跑一轮独立的代码审查,Pro 和 Max 用户各送 3 次免费额度。
我的判断
如果你是开发者,特别是做复杂编程、多步工作流、或者需要 AI 长时间自主跑任务的——Opus 4.7 值得立刻切过去。它在"把活干完、干对"这件事上,是目前公开可用的模型里最好的。Cursor 已经接入了,GitHub Copilot 也在逐步上线。
如果你不是开发者,在 claude.ai 上已经可以直接用了,不需要做任何配置。
但有个提醒:如果你的工作流重度依赖网页搜索和综合分析,4.7 在这一点上反而退步了,建议先别急着切。
这次发布后,社交媒体上讨论最多的不是某个跑分数字,而是:"我终于可以给 AI 一个难活,然后去做别的事,不用一直盯着了。"当开发者开始用"放心交出去"来形容一个 AI 模型——这个行业比拼的维度,真的在变。靠谱,正在成为比聪明更值钱的东西。
扣 1 = 信了,今天就去试
扣 2 = 不急,等别人踩完坑再说
更多推荐
所有评论(0)