GPT-5.5横空出世！碾压Opus 4.7夺回AI王座

纪果日报

312人浏览 · 2026-04-24 19:22:09

纪果日报 · 2026-04-24 19:22:09 发布

北京时间2026年4月24日，硅谷传来重磅消息——OpenAI正式发布GPT-5.5，这款被内部称为"土豆"（Spud）的新一代旗舰模型，以全方位优势碾压竞争对手Claude Opus 4.7，正式夺回AI大模型王座。

此次发布的GPT-5.5标志着AI大模型竞争进入全新阶段。在多项权威基准测试中，GPT-5.5实现了"全榜第一"的惊人成绩。最引人注目的编程领域表现尤为突出：在Terminal-Bench 2.0全链路Agent工程实力测试中，GPT-5.5以82.7%的得分遥遥领先，而对手Claude Opus 4.7仅为69.4%，差距达13个百分点。OpenAI内部Expert-SWE评测中，GPT-5.5同样以73.1%的成绩超越GPT-5.4的68.5%。

"GPT-5.5既聪明又快速，"OpenAI创始人山姆·奥特曼评价道。该模型在保持与GPT-5.4相同输出速度的同时，每个任务使用的token量显著降低，实现了更强的token效率。

在知识工作领域，GDPval评估显示GPT-5.5得分为84.9%，高于Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。更令人惊叹的是科研突破——GPT-5.5协助数学家发现了拉姆齐数领域的新证明，并在Lean语言中得到形式化验证，这一成果在组合数学领域极为罕见。

OpenAI首席执行官格雷格·布罗克曼表示："这朝着一种全新的计算机工作方式迈出了一步。"据官方数据，公司内部85%的员工每周使用Codex，财务部门利用GPT-5.5处理近7万页税务文件，效率较往年提前两周完成。

定价方面，GPT-5.5 API价格为每百万输入Token 5美元、输出Token 30美元，较GPT-5.4翻倍上涨。OpenAI解释称，虽然单价提升，但实际使用token量减少30%，整体成本仍具竞争力。

2026年4月16日，Claude Opus 4.7曾在SWE-Bench Pro上从GPT-5.4手中夺走编程王座；仅8天后，GPT-5.5发布即实现绝地反击。这场AI竞赛的胜负手，已从单纯跑分转向"AI如何替人干活"的Agent化办公领域。

此次更新，GPT-5.5已在ChatGPT和Codex中正式上线，标志着AI Agent时代正式到来。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

cover

只要13个单词，就能给ChatGPT“下毒”？「美版贴吧」Reddit，正沦为AI“投毒基地”

DeepSeek技术社区

cover

OpenCode Go 深度实测：十美元包月调用十二款开源编程模型，MiniMax M3 限时三倍额度

DeepSeek技术社区

Gemini API 支持语音流式生成：AI 应用正在从聊天框走向实时工作流

Google 在 2026-06-17 的 Gemini API 更新中加入语音生成流式支持。这个小更新背后，是 AI 应用从“生成一段回答”走向“实时交互、Agent 编排、可观测工作流”的架构变化。

DeepSeek技术社区

所有评论(0)

查看更多评论

纪果日报

已为社区贡献14条内容