2026年4月24日凌晨,OpenAI 正式发布 GPT-5.5——这次发布面向「Agent 时代」的全新基座模型跃升。从编程到科研,从知识工作到计算机操控,GPT-5.5 都有非常优秀的表现。但与此同时,翻倍的 API 价格和仍未解决的幻觉问题,也引来不少争议。

本文将带你逐层拆解 GPT-5.5 的每一个核心突破,看清数字背后的真实含义。

从我个人来看,国内的各大厂商似乎更加强了工程上的智能体联合推进,国外的各大厂商则是兼顾(也可能国内产品的拼智力拼不过吧)。


一、发布背景:8天攻防战,OpenAI 的紧急回应

2026 年的 AI 竞赛已经进入白热化。4 月 16 日,Anthropic 用 Claude Opus 4.7 在 SWE-Bench Pro 上突袭夺走编程王座;Google 的 Gemini 3.1 Pro 也在部分视觉推理上表现强势。OpenAI 感受到了前所未有的压力。

仅仅 8 天后,GPT-5.5 正式登场。

4月16日 Anthropic 发布 Claude Opus 4.7<br/>SWE-Bench Pro 夺冠 4月22日 GPT-5.5 意外现身 Codex CLI 终端<br/>被 Reddit 用户曝光 4月23日 OpenAI 发布 ChatGPT Images 2.0<br/>同日推出 GPT-5.5 4月24日 GPT-5.5 正式向付费用户开放 2026年4月 AI 模型攻防时间线

OpenAI 总裁 Greg Brockman 强调,GPT-5.5 的核心突破在于——

用户无需精心管理每一步,只需把一个杂乱、涉及多个环节的任务交给 GPT-5.5,它就能自主规划、调用工具、检查成果、应对模糊情况,并持续推进。

这不是一句宣传语。从基准测试到真实工作流数据,GPT-5.5 确实在「一次把事情做完」这件事上,迈出了质的飞跃。


二、核心定位:Agent 时代的「原生大脑」

2.1 从「对话工具」到「自主执行者」

GPT-5.5 的官方定位是 「面向实际工作和智能体的新型智能」。和今年很多厂商的发布方向一样,直接面向 Agent 场景

模糊指令

自主规划

调用工具

检查结果

是否完成?

自我修正

任务完成

2.2 四大核心能力跃升

能力维度 GPT-5.4 GPT-5.5 跃升本质
Agentic Coding 需要逐步指导 自主规划、端到端交付 从「编码助手」到「自主工程师」
计算机使用 基础点击操作 跨应用流转、上下文保持 从「遥控器」到「虚拟员工」
知识工作 生成文档/表格 理解意图、跨工具整合 从「模板填充」到「业务分析师」
科学研究 辅助分析 发现新数学证明 从「工具」到「研究合作者」

三、编程能力:新王登基,但王冠有裂缝

3.1 Terminal-Bench 2.0:碾压级胜利

Terminal-Bench 2.0 测试的是 全链路 Agent 工程实力——给模型一个终端环境和一个模糊目标,让它自己规划路径、调工具、写脚本、处理报错、反复迭代。

模型 Terminal-Bench 2.0
GPT-5.5 82.7%
GPT-5.4 75.1%
Claude Opus 4.7 69.4%
Gemini 3.1 Pro 68.5%

⚡ GPT-5.5 比 Claude Opus 4.7 高出 13.3 个百分点,完全碾压。

3.2 Expert-SWE:长周期任务的突破

OpenAI 内部的 Expert-SWE 评测,专门测试那些 人类预估中位完成时间 20 小时 的长周期编程任务。GPT-5.5 拿到 73.1%,GPT-5.4 为 68.5%。

Cursor CEO Michael Truell 给出实测反馈:

“GPT-5.5 比 GPT-5.4 明显更聪明、更持续,编程性能更强,工具使用更可靠。对于复杂、长时间运行的任务,它能坚持到底不中途停下。”

3.3 SWE-Bench Pro:唯一的短板

但在业界公认最能反映真实 GitHub 问题解决能力的 SWE-Bench Pro 上:

模型 SWE-Bench Pro
Claude Opus 4.7 64.3%
GPT-5.5 58.6%
GPT-5.4 57.7%
Gemini 3.1 Pro 54.2%

GPT-5.5 仍然落后 Opus 4.7 5.7 个百分点

不过 OpenAI 在这个数据旁边标了一个星号,注明:

Anthropic 报告称在部分问题子集上存在过拟合(记忆)迹象。

Codex 研究员直言:SWE-Bench 已不能衡量顶尖编程能力了。 这个 benchmark 测的是单次 patch 提交,而 GPT-5.5 的真正优势在于 端到端的工程交付——从实现、重构到调试、测试和验证,一气呵成。

3.4 完整 Benchmark 对比一览

评测项 GPT-5.5 GPT-5.4 Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% 69.4% 68.5%
Expert-SWE(内部) 73.1% 68.5%
GDPval 84.9% 83.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% 78.0%
ARC-AGI-2 85.0% 73.3% 75.8% 77.1%
SWE-Bench Pro(公开) 58.6% 57.7% 64.3% 54.2%

解读:前五项 GPT-5.5 全面领先,唯一落后的 SWE-Bench Pro 恰恰是 OpenAI 二月份还在力推的「最不容易刷榜」的 benchmark。


四、智能体能力:AI 独立接管电脑的时代

4.1 OSWorld:真实电脑操控

OSWorld-Verified 测试模型能否 独立操控真实电脑环境——点击、输入、在不同应用间切换。GPT-5.5 得分 78.7%,与 Claude Opus 4.7 的 78.0% 基本持平。

但更重要的是实际场景中的表现。在 Codex 中,GPT-5.5 可以:

  • 直接与 Web 应用交互:测试流程、点击页面、截取屏幕
  • 生成高质量文档:电子表格、PPT、财务模型
  • 跨工具流转:在浏览器和本地软件之间无缝切换

4.2 Tau2-bench:复杂客服工作流

在不做 prompt 调整的情况下,GPT-5.5 在 Tau2-bench Telecom 上直接拿到 98.0%,GPT-5.4 是 92.8%。

💡 这意味着在没有针对性优化的情况下,就能处理多轮对话、查询系统、执行操作——几乎完美的客服自动化。(https://www.ithome.com/0/942/841.htm)

4.3 OpenAI 内部真实使用数据

部门 使用场景 效果
全公司 85%+ 员工每周使用 Codex 跨部门渗透
财务团队 审查 24,771 份 K-1 税表(71,637 页) 比去年提前 2 周 完成
公关部门 分析六个月演讲邀约数据,搭建评分框架 低风险请求自动走 Slack AI 处理
市场团队 每周业务报告自动生成 每周节省 5-10 小时

五、科研能力:最让人意外的部分

如果说编程是意料之中的进步,那 科研 则是 GPT-5.5 最令人震惊的突破。

5.1 发现拉姆齐数新证明

GPT-5.5 的一个内部版本配合自定义工作流,发现了一个关于拉姆齐数(Ramsey Numbers)的新数学证明,并在 Lean 语言中完成了形式化验证。

拉姆齐数是组合数学的核心研究对象——通俗地说,就是一个网络大到什么程度,才一定会出现某种规律性结构。这个领域的新结果极其罕见,技术难度极高。

我没看这个论文,太专业了看不懂,感兴趣的可以看看
论文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

5.2 科研基准测试

评测 GPT-5.5 GPT-5.4 Claude Opus 4.7 说明
GeneBench 25.0% 19.0% 多阶段遗传学数据分析
GeneBench (Pro) 33.2% Pro 版本更强
BixBench 80.5% 生物信息学,所有已公开分数中第一
FrontierMath Tier 4 35.4% 27.1% 22.9% 陶哲轩等策划的最难数学题
FrontierMath Tier 1-3 51.7% 43.8% 相对简单的数学题

关键发现:FrontierMath Tier 4 的差距是 12.5 个百分点,而 Tier 1-3 的差距只有 7.9 个百分点。越到数学前沿,GPT-5.5 的优势越悬殊。

5.3 真实科研案例

免疫学教授 Derya Unutmaz(Jackson 基因医学实验室)用 GPT-5.5 Pro 分析了一个含 62 个样本、近 28,000 个基因的表达数据集,得到一份详尽的研究报告:

“这项工作我的团队做需要几个月。”

数学家 Bartosz Naskręcki(波兹南·密茨凯维奇大学)在 Codex 中 仅用 11 分钟,就从一个单一 prompt 构建了一个代数几何可视化应用。


六、Token 效率革命:更强却更省

这是 GPT-5.5 最被低估的突破。过去每一次模型升级,「更强」和「更慢/更贵」几乎是打包出售的。GPT-5.5 打破了这个规律。

6.1 核心效率指标

指标 数据 对比
每 Token 延迟 与 GPT-5.4 持平 更大模型,速度不降
Token 生成速度 提升 20%+ 负载均衡优化
Codex 任务 Token 消耗 显著减少 完成相同任务更省
NVIDIA GB200 上百万 Token 成本 降至前代 1/35 基础设施层面
每兆瓦 Token 输出量 提升 50 倍 能效飞跃

6.2 Artificial Analysis 智能指数

在第三方评测 Artificial Analysis Intelligence Index(10 项 eval 加权平均)上,GPT-5.5 在 同等输出 token 量下智能得分最高,token 总消耗明显低于其他模型。

💡 两种解读方式:

  • 获得相同的分数,GPT-5.5 消耗 token 约为竞品的 一半
  • 消耗同样的 token,GPT-5.5 完成的任务 更多
Artificial Analysis Coding Index:智能 vs 成本 1 2 3 4 5 成本效率 100 90 80 70 60 50 40 30 20 10 0 智能水平

DoNews


七、英伟达深度合作:从芯片到应用的垂直整合

GPT-5.5 的发布离不开 OpenAI 与英伟达的深度合作。Sam Altman 亲自晒出与黄仁勋的交流邮件。

7.1 NVIDIA GB200 NVL72 部署

GPT-5.5 运行于 NVIDIA GB200 NVL72 机架级系统,为 Codex 提供核心算力支撑。

部署指标 数据
系统平台 GB200 NVL72 机架级
NVIDIA 内部用户 10,000+ 员工
覆盖部门 工程、产品、法务、市场等
百万 Token 成本 降至前代 1/35
每兆瓦输出 提升 50 倍

7.2 实际效果

原本耗时 数天 的调试周期缩短至 数小时;复杂多文件代码库的实验周期从 数周 压缩至 一夜之间。团队甚至能通过自然语言提示实现端到端功能交付。

NVIDIA 工程师的评价更为直白:

“失去 GPT-5.5 的访问权限感觉就像断了一条手臂。”

题外话:近期也获悉在电力方面,Open AI 与各大厂商展开了激烈的角逐,Open AI 一家公司几乎吃掉全美年发电的 6%


八、安全框架:第一次在能力对话里认真占一席

这次 OpenAI 给 GPT-5.5 的安全框架写了相当大的篇幅。

8.1 Preparedness Framework 评估

在 OpenAI 的 Preparedness Framework 中,GPT-5.5 的网络安全和生物/化学能力被评为 “High” 级别(未到 Critical)。

8.2 Trusted Access for Cyber 计划

OpenAI 推出了 分层访问 机制:

访问层级 对象 权限
标准版 所有用户 部署更严格的分类器,部分用户初期可能感觉「变保守了」
Trusted Access 经过认证的安全研究人员、关键基础设施防御者 访问限制较少的版本(chatgpt.com/cyber 申请)

这种分层访问的思路比较务实——**有能力就有风险,但完全锁死又等于让攻击者单方面受益。


九、定价:两年来最贵的 AI 模型

9.1 API 定价对比

模型 输入价格(/百万 Token) 输出价格(/百万 Token)
GPT-5.4 $2.50 $15.00
GPT-5.5 $5.00 $30.00
GPT-5.5 Pro $30.00 $180.00
Claude Opus 4.7 $5.00 $25.00

GPT-5.5 的价格相比 GPT-5.4 整整翻了一倍。这是两年来 OpenAI 第一次成为最贵的选项——输出端比 Anthropic 旗舰还贵 20%

9.2 值得上 GPT 5.5 吗

OpenAI 的解释是 token 效率提升,完成相同任务所用的 token 更少。这个说法在 Codex 场景下可能成立,但:

如果一个团队每月在 GPT-5.4 上花 10 万美元,切换到 GPT-5.5 后即使 token 用量减少 30%,月账单依然会涨到约 14 万美元

结论:GPT-5.5 是一个「你为更强的智能付更多的钱」的 溢价产品。GPT-5.4 大概率会继续作为性价比之选存在。


十、争议与不足:不完美的王冠

10.1 SWE-Bench Pro 落后

编程领域最重要的公开 benchmark 上,GPT-5.5 仍落后 Opus 4.7 近 6 个百分点。OpenAI 对此的回应是质疑对方过拟合,但这个质疑本身也引发了社区争议。

10.2 幻觉率仍高

社区第三方测试显示,GPT-5.5 的幻觉率约 86%(在某些事实性问答评测中),而 Claude Opus 系列约为 36%。这个差距是结构性的,短期难以弥合。

10.3 价格门槛

翻倍的 API 价格意味着中小企业和个人开发者的使用门槛显著提高。更强大的能力被更高的价格所限制,这本身就是一种「能力浪费」。


十一、开放与获取

版本 开放对象 价格
GPT-5.5(ChatGPT) Plus、Pro、Business、Enterprise 包含在订阅中
GPT-5.5(Codex) 同上 包含在订阅中
GPT-5.5 Pro(ChatGPT) Pro、Business、Enterprise 包含在订阅中
GPT-5.5 API 即将上线 $5/$30(输入/输出)
GPT-5.5 Pro API 即将上线 $30/$180(输入/输出)

十二、GPT 5.5 升级总结

GPT-5.5

编程能力

Terminal-Bench 2.0 碾压

Expert-SWE 长周期突破

SWE-Bench Pro 仍落后

智能体能力

OSWorld 真实电脑操控

Tau2-bench 98% 客服自动化

跨工具端到端交付

科研能力

发现拉姆齐数新证明

GeneBench/BixBench 领先

FrontierMath 前沿数学突破

Token 效率

成本降至 1/35

输出提升 50 倍

延迟持平

争议

价格翻倍

幻觉率仍高

SWE-Bench Pro 落后

GPT-5.5 在编程、智能体控制、长上下文处理、科研辅助,都有实质性提升。
但它也不是无懈可击——SWE-Bench Pro 上还不如 Opus 4.7,价格是两年来最贵,幻觉率与 Anthropic 的差距依然很大。

最终判断:如果是 Codex 里的 Agentic 编程工作流,GPT-5.5 可能真的值这个价;如果是普通对话场景,先等 API 开放、等价格降下来再说。

8 天一个来回。2026 年的 AI 竞赛,跑分只是前菜,Agent 化办公才是主战场

在解读完前两天 Kimi K2.6 以及今天的 GPT 5.5,我才真正意识到,谁先定义「AI 怎么替人干活」,谁就定义下一代系统。这个节奏,只会更快。


Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐