# Claude Opus 4.7全网翻车,背后藏着Anthropic最疯狂的豪赌 上周四凌晨,我正在用Claude Opus 4.6写一个比较复杂的后端服务——涉及数据库迁移、中间件重写和三个微服务的接口对齐。代码跑了大概40分钟,整体很顺,中间只纠了两次逻辑错误。我心想,AI编程终于到了"基本能放心用"的阶段了。 然后Opus 4.7发布,一夜之间,一切都变了。 不是变好。 ## 升级?降级? 4月17号,Anthropic放出Opus 4.7,官方博客写得漂亮:编程能力大幅提升、视觉理解升级到375万像素、新增xhigh努力级别、Claude Code加了/ultrareview命令……看起来是一次全方位的跃升。 Reddit上的ClaudeAI社区却炸了。 一个付费订阅老用户直接写了篇檄文,标题就叫《Claude Opus 4.7是一个严重的倒退,而不是升级》。评论区几百条回复,基本都是同一个意思——**还我4.6**。 出问题了。 ## 三个让人破防的"breaking change" 搞了两天各种测试之后,我发现问题主要集中在三块: ### 1. Token消耗暗涨35% Anthropic的迁移指南里藏了一行小字:新分词器改进了文本处理方式,同样的输入可能映射为1.0~1.35倍的token。 翻译成人话:**API价格没变,但同样的内容你得多付最多35%的钱。** 这还不算完。拿同一张设计稿喂给4.6和4.7,输入token直接飙到3倍多。有人算了笔账——月账单直接翻倍,因为官方通篇都在吹视觉能力提升,一个字没提这玩意儿吃token跟喝水似的。 Medium上有篇分析文章说得特别到位:Anthropic发了6条使用建议,只字不提最关键的三个breaking change。这不是疏忽,这是策略。 ### 2. 长上下文检索直接崩了 这块的数据最离谱。 长上下文检索评测(Needle in a Haystack),Opus 4.6能拿到78.3%的分数。Opus 4.7呢?**32.2%**。 直接腰斩都不止。 Anthropic的解释是:"新模型遇到缺信息会直接报错,不像以前那样瞎编。"但用户实际试下来,信息明明白白在上下文里放着,它也能给你漏掉。做法律合同审查的、金融研报分析的——慎用。你敢信一个80页的PDF里明明写了关键条款,它愣是告诉你"没找到"? 说实话,我遇到这个bug的时候也懵了。排查了半小时,反复确认文本确实在上下文里,不是幻觉。是模型自己检索不到。 ### 3. 写作能力全面退化 这块的吐槽最密集。 写作用户反馈Opus 4.7现在满嘴"稳稳接住""压实闭环""拉齐认知"这种大厂黑话。破折号乱用,续写内容干巴巴。一个做内容运营的朋友跟我吐槽:"以前用它改文案,现在改它的文案花两倍时间。" 思考过程还被藏了。Opus 4.7默认不输出推理摘要,想看逻辑得手动加命令。复杂任务出错时,你根本不知道它哪一步想岔了,排查成本直接翻倍。有人说官方是怕被蒸馏——可能吧,但开发者体验是真的喂了狗。 ## 为什么会这样? 翻了一堆测试报告和官方System Card之后,我大概理清了。 Anthropic在Opus 4.7上做了一个非常激进的决策:**把模型能力重心几乎全部押在了编程和Agent场景**。 SWE-bench Verified得分从80.8%提升到更高水平(这个确实强,没人否认),Terminal-Bench、GPQA Diamond这些硬核技术指标全部提升。新增的xhigh努力等级、/ultrareview命令、auto mode——全都是给开发者和Agent工作流准备的。 代价呢?写作、检索、联网搜索这些"软技能"被牺牲了。 BrowseComp评测(Agent搜索能力),Opus 4.7从4.6的83.7%掉到79.3%,被GPT-5.4的89.3%甩开一大截。这就不只是"退了一小步"了。 说白了,Anthropic选了边。他们赌的是:**未来最有价值的市场是AI编程和企业自动化Agent,而不是帮人写文案和做摘要。** 这个赌注对不对?短期看肯定是挨骂的,长期……不好说。 ## 然后是Claude Mythos——那个"太危险所以不发布"的怪物 就在Opus 4.7翻车的同一天,我注意到了另一件事。很多人可能光顾着吐槽4.7,忽略了4月早些时候的一条更炸裂的消息: **Anthropic发布了一个叫Claude Mythos的模型,然后说:这东西太强了,我们不对外卖。** 这事儿比Opus 4.7的翻车有意思多了。 Mythos有多离谱?看一下数据: - SWE-bench Verified:**93.9%**(Opus 4.6是80.8%,GPT-5.4大约84%) - SWE-bench Pro:**77.8%**(比Opus 4.6的53.4%提高了将近25个百分点) - Cybench(网络安全CTF):**100%**,Anthropic说这个benchmark"已经不再有信息量了" - 数学奥赛USAMO 2026:**97.6%**(Opus 4.6是42.3%……从42%跳到97%,你品品) 泄露的内部文件显示模型参数约10万亿,训练成本传闻100亿美元。 但这不是重点。重点是——**Mythos在没有任何人类干预的情况下,自主发现了数千个零日漏洞**。 一个藏了27年的OpenBSD远程崩溃漏洞,它找到了。一个在FFmpeg里沉睡了16年的安全隐患,被自动化fuzzing跑了500万次都没发现的,它找到了。多个Linux内核高危漏洞,它也找到了。 然后Anthropic做了一个所有人都没想到的决定:不发布。 他们搞了个"玻璃翼计划"(Project Glasswing),拉上AWS、Apple、Google、Microsoft、Linux基金会等50多家机构,让这些公司先用Mythos扫描和修复自家系统。还砸了1亿美元API额度和400万美元捐给开源社区。 Anthropic的网络安全负责人Newton Cheng原话是:"我们不打算公开发布Claude Mythos Preview,因为它的网络安全能力。" CEO Dario Amodei的说法更有意思:"搞砸了的危险是显而易见的,但如果搞对了,我们有机会创造一个比AI出现之前更安全的互联网和世界。" ## 便宜模型也能做?别急 故事到这里,你以为就是"AI太强了人类完蛋"的剧本? 36氪上有一篇来自安全初创公司AISLE的文章,给整件事泼了一盆冷水。 AISLE从2025年中期就开始用AI给开源软件找漏洞,累计修复了180多个被社区认可的安全漏洞。Mythos发布后,他们做了一个很锐利的测试:**把Mythos找到的那些漏洞,拿给一堆便宜小模型跑。** 结果? **DeepSeek R1找到了同样的漏洞,精确度最高。** 一个成本只有0.11美元/百万token的小模型也找到了。 另一个藏了27年的漏洞,GPT-OSS-120b一次就复现了整个攻击路径,还提出了跟Anthropic实际修复方案基本一致的补丁。Kimi K2也出色完成,只需要三次简单的API调用。 等一下,那Mythos有什么了不起的? AISLE的答案是:**厉害的是"从头到尾的自主性",而不是"单步找漏洞的能力"。** 便宜模型是被喂了可疑代码才找到bug的——等于告诉它"看看这里有没有问题"。而Mythos能自己从几十万个文件里找到值得深入检查的地方,提出假设,验证问题,写出攻击代码,全程自动。 这个"全程自动"的价值主要来自工程设计,而不是模型智能本身。把"找漏洞"这件事拆开看:大范围扫描→深入检查→判断严重程度→写补丁。"找出问题"这一步,便宜模型已经够用了。真正难的是怎么串成一条可靠的工作流水线。 AISLE的结论很精彩:**一千个还行的侦探把每个房间都查一遍,可能比一个天才侦探逐个去找效率更高。** 当然,这话也只说了一半。Anthropic做的是把"流水线"和"最强模型"结合在一起——这两者不是互斥的。未来大概率是"强模型+好工程"的组合胜出,而不是二选一。 ## 回过头来看Opus 4.7 理解了Mythos的存在之后,Opus 4.7的很多决策突然就说得通了。 Anthropic手里有一个能搞网络安全的怪物模型,他们的资源重心显然在Mythos和Project Glasswing上。Opus 4.7更像是给开发者群体的一个"中间产物"——编程能力确实提升了(这是Mythos技术下放的结果),但其他方面被挤占了。 新分词器涨token消耗,可能是为了适配更大模型的架构。思考过程被隐藏,可能是为了防止蒸馏(毕竟Mythos太强了,他们现在对模型泄露极其敏感)。长上下文检索退化,可能是新的检索架构还没完全调好就被推出来了。 我不是在给Anthropic洗地——实际上我觉得他们的沟通做得极差。迁移指南里藏着breaking change不主动说,官方博客一个字不提token消耗上涨,长上下文退化这种致命问题在System Card里一笔带过。开发者社区炸了之后才开始在评论区"补充说明"。 这种操作,像极了产品经理偷偷上线一个需求,出了bug再补文档。 ## 我的建议 如果你是日常用Claude的开发者: - **编程场景**:升级到4.7,确实更强。特别是复杂多步任务,4.7的自验证能力和xhigh模式真的有用 - **写作/摘要/长文档**:**暂时别升级**。4.6在这些场景下仍然明显更好。等Anthropic修复检索问题再说 - **Agent/自动化**:看情况。搜索能力退化了,如果你的Agent重度依赖联网搜索,可能反而不如4.6 - **API用户**:做好成本预算。同样的请求,token消耗可能多10%~35%,再加上思考量增加带来的输出token暴涨 如果你关心行业趋势: - Anthropic正在从一个"做通用AI助手"的公司,转变成一个"做AI安全基础设施"的公司。Mythos和Glasswing项目暴露了他们的真正野心 - Opus 4.7的翻车不是偶然,是战略取舍。他们赌的是"编程和Agent"赛道,不care写作用户 - 这场AI竞赛已经不只是比模型参数了。怎么把模型能力包装成工程化产品,才是真正的护城河。AISLE用便宜模型找到同样漏洞的案例说明了这一点 对了,还有一件事——黑客界传奇人物George Hotz(geohot,当年破解iPhone和PS3的那位)公开质疑Mythos的"颠覆性"是被过度包装的。他的观点是:本质仍然是工具提速,不是能力跃迁。 这话有道理,但也不完全对。当一个"工具"能自主运行10个小时完成从侦察到攻击的全流程时,"提速"和"跃迁"的界限已经模糊了。 总之,2026年4月的Anthropic给我们上了生动的一课:**AI公司发布新产品,不等于你的生活会变好。它可能只是在帮别人(或者帮自己)赚钱。** 至于用户?写好你的prompt,守好你的钱包,别当小白鼠。 有问题评论区聊。你对Opus 4.7怎么看?升级了还是回退了?
Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐