Claude Opus 4.7全网翻车，背后藏着Anthropic最疯狂的豪赌

Opus 4.7更像是给开发者群体的一个"中间产物"——编程能力确实提升了（这是Mythos技术下放的结果），但其他方面被挤占了。总之，2026年4月的Anthropic给我们上了生动的一课：**AI公司发布新产品，不等于你的生活会变好。对了，还有一件事——黑客界传奇人物George Hotz（geohot，当年破解iPhone和PS3的那位）公开质疑Mythos的"颠覆性"是被过度包装的。一个在

武雄（小星Ai）

511人浏览 · 2026-04-21 08:04:53

武雄（小星Ai） · 2026-04-21 08:04:53 发布

# Claude Opus 4.7全网翻车，背后藏着Anthropic最疯狂的豪赌上周四凌晨，我正在用Claude Opus 4.6写一个比较复杂的后端服务——涉及数据库迁移、中间件重写和三个微服务的接口对齐。代码跑了大概40分钟，整体很顺，中间只纠了两次逻辑错误。我心想，AI编程终于到了"基本能放心用"的阶段了。然后Opus 4.7发布，一夜之间，一切都变了。不是变好。 ## 升级？降级？ 4月17号，Anthropic放出Opus 4.7，官方博客写得漂亮：编程能力大幅提升、视觉理解升级到375万像素、新增xhigh努力级别、Claude Code加了/ultrareview命令……看起来是一次全方位的跃升。 Reddit上的ClaudeAI社区却炸了。一个付费订阅老用户直接写了篇檄文，标题就叫《Claude Opus 4.7是一个严重的倒退，而不是升级》。评论区几百条回复，基本都是同一个意思——**还我4.6**。出问题了。 ## 三个让人破防的"breaking change" 搞了两天各种测试之后，我发现问题主要集中在三块： ### 1. Token消耗暗涨35% Anthropic的迁移指南里藏了一行小字：新分词器改进了文本处理方式，同样的输入可能映射为1.0~1.35倍的token。翻译成人话：**API价格没变，但同样的内容你得多付最多35%的钱。** 这还不算完。拿同一张设计稿喂给4.6和4.7，输入token直接飙到3倍多。有人算了笔账——月账单直接翻倍，因为官方通篇都在吹视觉能力提升，一个字没提这玩意儿吃token跟喝水似的。 Medium上有篇分析文章说得特别到位：Anthropic发了6条使用建议，只字不提最关键的三个breaking change。这不是疏忽，这是策略。 ### 2. 长上下文检索直接崩了这块的数据最离谱。长上下文检索评测（Needle in a Haystack），Opus 4.6能拿到78.3%的分数。Opus 4.7呢？**32.2%**。直接腰斩都不止。 Anthropic的解释是："新模型遇到缺信息会直接报错，不像以前那样瞎编。"但用户实际试下来，信息明明白白在上下文里放着，它也能给你漏掉。做法律合同审查的、金融研报分析的——慎用。你敢信一个80页的PDF里明明写了关键条款，它愣是告诉你"没找到"？说实话，我遇到这个bug的时候也懵了。排查了半小时，反复确认文本确实在上下文里，不是幻觉。是模型自己检索不到。 ### 3. 写作能力全面退化这块的吐槽最密集。写作用户反馈Opus 4.7现在满嘴"稳稳接住""压实闭环""拉齐认知"这种大厂黑话。破折号乱用，续写内容干巴巴。一个做内容运营的朋友跟我吐槽："以前用它改文案，现在改它的文案花两倍时间。" 思考过程还被藏了。Opus 4.7默认不输出推理摘要，想看逻辑得手动加命令。复杂任务出错时，你根本不知道它哪一步想岔了，排查成本直接翻倍。有人说官方是怕被蒸馏——可能吧，但开发者体验是真的喂了狗。 ## 为什么会这样？翻了一堆测试报告和官方System Card之后，我大概理清了。 Anthropic在Opus 4.7上做了一个非常激进的决策：**把模型能力重心几乎全部押在了编程和Agent场景**。 SWE-bench Verified得分从80.8%提升到更高水平（这个确实强，没人否认），Terminal-Bench、GPQA Diamond这些硬核技术指标全部提升。新增的xhigh努力等级、/ultrareview命令、auto mode——全都是给开发者和Agent工作流准备的。代价呢？写作、检索、联网搜索这些"软技能"被牺牲了。 BrowseComp评测（Agent搜索能力），Opus 4.7从4.6的83.7%掉到79.3%，被GPT-5.4的89.3%甩开一大截。这就不只是"退了一小步"了。说白了，Anthropic选了边。他们赌的是：**未来最有价值的市场是AI编程和企业自动化Agent，而不是帮人写文案和做摘要。** 这个赌注对不对？短期看肯定是挨骂的，长期……不好说。 ## 然后是Claude Mythos——那个"太危险所以不发布"的怪物就在Opus 4.7翻车的同一天，我注意到了另一件事。很多人可能光顾着吐槽4.7，忽略了4月早些时候的一条更炸裂的消息： **Anthropic发布了一个叫Claude Mythos的模型，然后说：这东西太强了，我们不对外卖。** 这事儿比Opus 4.7的翻车有意思多了。 Mythos有多离谱？看一下数据： - SWE-bench Verified：**93.9%**（Opus 4.6是80.8%，GPT-5.4大约84%） - SWE-bench Pro：**77.8%**（比Opus 4.6的53.4%提高了将近25个百分点） - Cybench（网络安全CTF）：**100%**，Anthropic说这个benchmark"已经不再有信息量了" - 数学奥赛USAMO 2026：**97.6%**（Opus 4.6是42.3%……从42%跳到97%，你品品）泄露的内部文件显示模型参数约10万亿，训练成本传闻100亿美元。但这不是重点。重点是——**Mythos在没有任何人类干预的情况下，自主发现了数千个零日漏洞**。一个藏了27年的OpenBSD远程崩溃漏洞，它找到了。一个在FFmpeg里沉睡了16年的安全隐患，被自动化fuzzing跑了500万次都没发现的，它找到了。多个Linux内核高危漏洞，它也找到了。然后Anthropic做了一个所有人都没想到的决定：不发布。他们搞了个"玻璃翼计划"（Project Glasswing），拉上AWS、Apple、Google、Microsoft、Linux基金会等50多家机构，让这些公司先用Mythos扫描和修复自家系统。还砸了1亿美元API额度和400万美元捐给开源社区。 Anthropic的网络安全负责人Newton Cheng原话是："我们不打算公开发布Claude Mythos Preview，因为它的网络安全能力。" CEO Dario Amodei的说法更有意思："搞砸了的危险是显而易见的，但如果搞对了，我们有机会创造一个比AI出现之前更安全的互联网和世界。" ## 便宜模型也能做？别急故事到这里，你以为就是"AI太强了人类完蛋"的剧本？ 36氪上有一篇来自安全初创公司AISLE的文章，给整件事泼了一盆冷水。 AISLE从2025年中期就开始用AI给开源软件找漏洞，累计修复了180多个被社区认可的安全漏洞。Mythos发布后，他们做了一个很锐利的测试：**把Mythos找到的那些漏洞，拿给一堆便宜小模型跑。** 结果？ **DeepSeek R1找到了同样的漏洞，精确度最高。** 一个成本只有0.11美元/百万token的小模型也找到了。另一个藏了27年的漏洞，GPT-OSS-120b一次就复现了整个攻击路径，还提出了跟Anthropic实际修复方案基本一致的补丁。Kimi K2也出色完成，只需要三次简单的API调用。等一下，那Mythos有什么了不起的？ AISLE的答案是：**厉害的是"从头到尾的自主性"，而不是"单步找漏洞的能力"。** 便宜模型是被喂了可疑代码才找到bug的——等于告诉它"看看这里有没有问题"。而Mythos能自己从几十万个文件里找到值得深入检查的地方，提出假设，验证问题，写出攻击代码，全程自动。这个"全程自动"的价值主要来自工程设计，而不是模型智能本身。把"找漏洞"这件事拆开看：大范围扫描→深入检查→判断严重程度→写补丁。"找出问题"这一步，便宜模型已经够用了。真正难的是怎么串成一条可靠的工作流水线。 AISLE的结论很精彩：**一千个还行的侦探把每个房间都查一遍，可能比一个天才侦探逐个去找效率更高。** 当然，这话也只说了一半。Anthropic做的是把"流水线"和"最强模型"结合在一起——这两者不是互斥的。未来大概率是"强模型+好工程"的组合胜出，而不是二选一。 ## 回过头来看Opus 4.7 理解了Mythos的存在之后，Opus 4.7的很多决策突然就说得通了。 Anthropic手里有一个能搞网络安全的怪物模型，他们的资源重心显然在Mythos和Project Glasswing上。Opus 4.7更像是给开发者群体的一个"中间产物"——编程能力确实提升了（这是Mythos技术下放的结果），但其他方面被挤占了。新分词器涨token消耗，可能是为了适配更大模型的架构。思考过程被隐藏，可能是为了防止蒸馏（毕竟Mythos太强了，他们现在对模型泄露极其敏感）。长上下文检索退化，可能是新的检索架构还没完全调好就被推出来了。我不是在给Anthropic洗地——实际上我觉得他们的沟通做得极差。迁移指南里藏着breaking change不主动说，官方博客一个字不提token消耗上涨，长上下文退化这种致命问题在System Card里一笔带过。开发者社区炸了之后才开始在评论区"补充说明"。这种操作，像极了产品经理偷偷上线一个需求，出了bug再补文档。 ## 我的建议如果你是日常用Claude的开发者： - **编程场景**：升级到4.7，确实更强。特别是复杂多步任务，4.7的自验证能力和xhigh模式真的有用 - **写作/摘要/长文档**：**暂时别升级**。4.6在这些场景下仍然明显更好。等Anthropic修复检索问题再说 - **Agent/自动化**：看情况。搜索能力退化了，如果你的Agent重度依赖联网搜索，可能反而不如4.6 - **API用户**：做好成本预算。同样的请求，token消耗可能多10%~35%，再加上思考量增加带来的输出token暴涨如果你关心行业趋势： - Anthropic正在从一个"做通用AI助手"的公司，转变成一个"做AI安全基础设施"的公司。Mythos和Glasswing项目暴露了他们的真正野心 - Opus 4.7的翻车不是偶然，是战略取舍。他们赌的是"编程和Agent"赛道，不care写作用户 - 这场AI竞赛已经不只是比模型参数了。怎么把模型能力包装成工程化产品，才是真正的护城河。AISLE用便宜模型找到同样漏洞的案例说明了这一点对了，还有一件事——黑客界传奇人物George Hotz（geohot，当年破解iPhone和PS3的那位）公开质疑Mythos的"颠覆性"是被过度包装的。他的观点是：本质仍然是工具提速，不是能力跃迁。这话有道理，但也不完全对。当一个"工具"能自主运行10个小时完成从侦察到攻击的全流程时，"提速"和"跃迁"的界限已经模糊了。总之，2026年4月的Anthropic给我们上了生动的一课：**AI公司发布新产品，不等于你的生活会变好。它可能只是在帮别人（或者帮自己）赚钱。** 至于用户？写好你的prompt，守好你的钱包，别当小白鼠。有问题评论区聊。你对Opus 4.7怎么看？升级了还是回退了？