GPT-5.5发布-Terminal-Bench-82.7-OpenAI找回主场

标签：OpenAI、GPT-5.5、大模型评测、AI编程、Agent4月23日深夜，OpenAI发布了GPT-5.5，内部代号依然是"Spud"。距上一代GPT-5.4发布只有七周。这七周不太好过——Claude Opus 4.7把CursorBench干到了70%，GLM-5.1的开源版本SWE-bench Pro拿下58.4%，DeepSeek V4同日发布……OpenAI面临的压力已经不是来

西里尤琦

308人浏览 · 2026-05-07 10:35:54

西里尤琦 · 2026-05-07 10:35:54 发布

GPT-5.5 发布：Terminal-Bench 82.7%，OpenAI 今夜找回主场

标签：OpenAI、GPT-5.5、大模型评测、AI编程、Agent

4月23日深夜，OpenAI发布了GPT-5.5，内部代号依然是"Spud"。距上一代GPT-5.4发布只有七周。

这七周不太好过——Claude Opus 4.7把CursorBench干到了70%，GLM-5.1的开源版本SWE-bench Pro拿下58.4%，DeepSeek V4同日发布……OpenAI面临的压力已经不是来自一个方向了。

这次GPT-5.5的发布，数据看起来确实够硬。

一、基准测试结果：多项榜单第一

先看编程能力，这是大家最关心的：

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7
Terminal-Bench 2.0	82.7%	75.1%	69.4%
Expert-SWE	73.1%	68.5%	—
SWE-Bench Pro	58.6%	—	64.3%⚠️

Terminal-Bench 2.0 比上一代高了7.6个百分点，比Claude Opus 4.7高了13.3个百分点。这项测试主要评估在终端环境中完成真实编程任务的能力，比传统SWE-bench更贴近实际工程场景。

SWE-Bench Pro这个项目GPT-5.5落后了，但OpenAI在报告里给Claude Opus 4.7的成绩标注了"可能存在过拟合（记忆）迹象"。这场争议短期内应该不会有定论——两家公司各有说法，得看独立测评机构的结论。

数学和科研能力方面：

测试项目	GPT-5.5	GPT-5.4	Claude Opus 4.7
FrontierMath Tier 4	35.4%	27.1%	22.9%
GeneBench	25.0%	19.0%	—
BixBench	80.5%	—	—

FrontierMath Tier 4由陶哲轩等顶级数学家出题，题目接近未发表研究的难度，GPT-5.5领先Opus 4.7超过12个百分点。BixBench是金融/商业分析基准，80.5%是所有已公开模型中的第一名。

二、Agent能力：这才是这次发布的重点

OpenAI把GPT-5.5定位为"Agent时代的原生大脑"。看几个数据：

OSWorld-Verified（计算机操作任务）：78.7%  vs  Opus 4.7：78.0%
GDPval（知识型工作综合）：84.9%  vs  Opus 4.7：80.3%  vs  Gemini 3.1 Pro：67.3%
Tau2-bench（多轮工具调用）：98.0%

Tau2-bench 98%这个数字很突出——这个基准测的是多轮对话中连续调用工具、根据结果调整策略的能力，在真实Agent工作流中极为重要。

三、“每个任务用更少Token”：这个细节不容忽视

GPT-5.5速度与5.4持平，但完成同等任务消耗的Token量"显著降低"——OpenAI没有给出具体数字，但这个方向非常重要。

Token消耗量决定实际使用成本，也决定在有限上下文窗口内能处理多少信息。如果GPT-5.5能用更少的来回完成复杂任务，那么实际API账单会比官方定价看起来更有竞争力。

四、定价：比想象中贵

版本	输入	输出
GPT-5.5	$5/百万Token	$30/百万Token
GPT-5.5 Pro	$30/百万Token	$180/百万Token
GPT-5.4（对比）	$2.5/百万Token	$15/百万Token

输出价格直接翻倍，GPT-5.5 Pro和Claude Opus 4.7价位相当（Opus 4.7是$5/$25）。对于大量调用的企业来说，这个涨价幅度需要好好算一算是否值得迁移。

五、一个值得关注的内部数据：85%员工用Codex

OpenAI在报告里提到一个内部数据：公司内部85%的员工跨部门使用Codex。

这不只是营销话语，它传递了一个信号：GPT-5.5 + Codex的工作流在OpenAI内部已经是默认配置，而不是少数人的实验工具。当一家AI公司自己的产研人员日常依赖这套工具，它的实际能力大概率是真实的。

六、和DeepSeek V4的正面对比

同日，DeepSeek V4也发布了。两款模型的技术路线形成有趣对比：

维度	GPT-5.5	DeepSeek V4-Pro
定价（输入）	$5/百万Token	¥12/百万Token（约$1.7）
SWE-Bench Pro	58.6%	—
Agentic Coding	领先	优于Anthropic Sonnet 4.5
硬件绑定	NVIDIA	支持NVIDIA + 华为昇腾
开源	否	是

两款模型不存在全面碾压的关系，更像是不同市场定位的产品：GPT-5.5主打最顶级性能和全球生态，DeepSeek V4主打开源、国产化适配和极低成本。

对于国内开发者，这两款模型能够同时存在并且都值得用，本身就是一件好事。

七、简单说几点个人判断

Terminal-Bench 82.7%是真的吓人。 在真实终端任务里，这意味着GPT-5.5能完成的编程工作已经超过大多数初中级工程师的日常任务量。

SWE-Bench Pro落后争议会持续。 这个基准在业界已经引发了多次"刷题"争议，短期内很难有一个所有人都认可的权威结论。

七周一个大版本的节奏是核心护城河。 技术领先可以被追赶，但高密度的迭代速度需要体系支撑——不只是算法，还有工程基础设施、数据飞轮、评测体系。这个护城河比单个版本的分数更难复制。

参考来源：36氪、钛媒体、Artificial Analysis综合智能指数、新浪财经

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

案例研究：Gemini + Creative Fabrica —— 揭秘多模态 Agent 如何重塑 3D 创意资产生产线

这不仅仅是一个技术升级工具，更是一个标志性案例：它展示了企业如何利用多模态大模型（LMM）将模糊的创意意图转化为精确的、工业级的参数化 3D 模型。传统的 3D 建模需要复杂的布线、贴图和参数调整。Creative Fabrica 利用 Gemini 的多模态能力，构建了一套“意图驱动”的生产管线。，从庞大的 Creative Fabrica 图库中学习“北欧风”的特征分布。生产出可商用的、高质量

DeepSeek技术社区

2026 AI 局势突变：国家大基金入场 DeepSeek，Kimi 2.0 豪掷 20 亿美元，大模型进入“内力”博弈时代

2026年中国AI行业迎来关键转折点，DeepSeek获得国家大基金450亿美元估值投资，月之暗面完成20亿美元B轮融资，标志AI竞争进入资本与算力的"内力"博弈阶段。技术层面，DeepSeek V4采用MoE架构实现1.6万亿参数的高效推理，Kimi K2.6则专注多智能体协同工作流。行业趋势显示：1)算力门槛提升至万卡级别；2)商业闭环开始形成；3)国家资本推动行业集中化。