GPT-5.5 发布:Terminal-Bench 82.7%,OpenAI 今夜找回主场

标签:OpenAI、GPT-5.5、大模型评测、AI编程、Agent


4月23日深夜,OpenAI发布了GPT-5.5,内部代号依然是"Spud"。距上一代GPT-5.4发布只有七周。

这七周不太好过——Claude Opus 4.7把CursorBench干到了70%,GLM-5.1的开源版本SWE-bench Pro拿下58.4%,DeepSeek V4同日发布……OpenAI面临的压力已经不是来自一个方向了。

这次GPT-5.5的发布,数据看起来确实够硬。


一、基准测试结果:多项榜单第一

先看编程能力,这是大家最关心的:

测试项目 GPT-5.5 GPT-5.4 Claude Opus 4.7
Terminal-Bench 2.0 82.7% 75.1% 69.4%
Expert-SWE 73.1% 68.5%
SWE-Bench Pro 58.6% 64.3%⚠️

Terminal-Bench 2.0 比上一代高了7.6个百分点,比Claude Opus 4.7高了13.3个百分点。这项测试主要评估在终端环境中完成真实编程任务的能力,比传统SWE-bench更贴近实际工程场景。

SWE-Bench Pro这个项目GPT-5.5落后了,但OpenAI在报告里给Claude Opus 4.7的成绩标注了"可能存在过拟合(记忆)迹象"。这场争议短期内应该不会有定论——两家公司各有说法,得看独立测评机构的结论。

数学和科研能力方面:

测试项目 GPT-5.5 GPT-5.4 Claude Opus 4.7
FrontierMath Tier 4 35.4% 27.1% 22.9%
GeneBench 25.0% 19.0%
BixBench 80.5%

FrontierMath Tier 4由陶哲轩等顶级数学家出题,题目接近未发表研究的难度,GPT-5.5领先Opus 4.7超过12个百分点。BixBench是金融/商业分析基准,80.5%是所有已公开模型中的第一名。


二、Agent能力:这才是这次发布的重点

OpenAI把GPT-5.5定位为"Agent时代的原生大脑"。看几个数据:

OSWorld-Verified(计算机操作任务):78.7%  vs  Opus 4.7:78.0%
GDPval(知识型工作综合):84.9%  vs  Opus 4.7:80.3%  vs  Gemini 3.1 Pro:67.3%
Tau2-bench(多轮工具调用):98.0%

Tau2-bench 98%这个数字很突出——这个基准测的是多轮对话中连续调用工具、根据结果调整策略的能力,在真实Agent工作流中极为重要。


三、“每个任务用更少Token”:这个细节不容忽视

GPT-5.5速度与5.4持平,但完成同等任务消耗的Token量"显著降低"——OpenAI没有给出具体数字,但这个方向非常重要。

Token消耗量决定实际使用成本,也决定在有限上下文窗口内能处理多少信息。如果GPT-5.5能用更少的来回完成复杂任务,那么实际API账单会比官方定价看起来更有竞争力。


四、定价:比想象中贵

版本 输入 输出
GPT-5.5 $5/百万Token $30/百万Token
GPT-5.5 Pro $30/百万Token $180/百万Token
GPT-5.4(对比) $2.5/百万Token $15/百万Token

输出价格直接翻倍,GPT-5.5 Pro和Claude Opus 4.7价位相当(Opus 4.7是$5/$25)。对于大量调用的企业来说,这个涨价幅度需要好好算一算是否值得迁移。


五、一个值得关注的内部数据:85%员工用Codex

OpenAI在报告里提到一个内部数据:公司内部85%的员工跨部门使用Codex

这不只是营销话语,它传递了一个信号:GPT-5.5 + Codex的工作流在OpenAI内部已经是默认配置,而不是少数人的实验工具。当一家AI公司自己的产研人员日常依赖这套工具,它的实际能力大概率是真实的。


六、和DeepSeek V4的正面对比

同日,DeepSeek V4也发布了。两款模型的技术路线形成有趣对比:

维度 GPT-5.5 DeepSeek V4-Pro
定价(输入) $5/百万Token ¥12/百万Token(约$1.7)
SWE-Bench Pro 58.6%
Agentic Coding 领先 优于Anthropic Sonnet 4.5
硬件绑定 NVIDIA 支持NVIDIA + 华为昇腾
开源

两款模型不存在全面碾压的关系,更像是不同市场定位的产品:GPT-5.5主打最顶级性能和全球生态,DeepSeek V4主打开源、国产化适配和极低成本。

对于国内开发者,这两款模型能够同时存在并且都值得用,本身就是一件好事。


七、简单说几点个人判断

Terminal-Bench 82.7%是真的吓人。 在真实终端任务里,这意味着GPT-5.5能完成的编程工作已经超过大多数初中级工程师的日常任务量。

SWE-Bench Pro落后争议会持续。 这个基准在业界已经引发了多次"刷题"争议,短期内很难有一个所有人都认可的权威结论。

七周一个大版本的节奏是核心护城河。 技术领先可以被追赶,但高密度的迭代速度需要体系支撑——不只是算法,还有工程基础设施、数据飞轮、评测体系。这个护城河比单个版本的分数更难复制。


参考来源:36氪、钛媒体、Artificial Analysis综合智能指数、新浪财经

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐