6月下旬,OpenAI 做了一个不寻常的决定:把最新一代最强模型 Sol 锁在"限量预览"里,只向少数合作伙伴开放。

这不是因为算力不够。而是因为美国政府的出口管制要求它先别放

同一时期,Anthropic 的两款新模型上线72小时后被强制全球停用;智谱 GLM-5.2 在同一天全量开源。三天三件事,把"开源可控"和"闭源依赖"的分歧推到了台前。

本文把 GPT-5.6 系列放在全球 AI 竞争的框架下,逐一拆解。


一、GPT-5.6 三款模型:Sol、Terra、Luna

OpenAI 这次用了一套太阳系命名体系:

Sol(太阳)——旗舰中的旗舰。面向科研、编程、安全攻防、生物信息学等重任务场景,能力天花板最高。支持 150 万 Token 上下文窗口,原生支持 Agentic 工作流,是目前 OpenAI 最强的单模型。

Terra(地球)——日常开发的"主力机"。官方定位是性能与 GPT-5.5 相当,但价格砍半。本质上是性价比路线:不追求极限能力,但保证够用且便宜。

Luna(月亮)——轻量级。快速、便宜,面向高频短任务。定价直接打入中国市场和开源模型的价格带,意图很明显:把对价格敏感的用户圈进来。

一句话:Sol 冲高、Terra 守中、Luna 兜底,覆盖从科研到日常开发到批量处理的完整链条。
在这里插入图片描述
在这里插入图片描述

限量预览:最强的模型,反而"不能见光"

GPT-5.6 没有走全网上线的老路。OpenAI 在发布前与美国政府沟通了模型能力及发布计划,仅在有限预览阶段向少数可信伙伴开放。

OpenAI 自己的声明里有一句自相矛盾的话:一方面称这是"短期举措",另一方面又承认"政府审批式的模型开放机制不应成为长期默认模式"。

翻译一下:他们也知道这不正常,但目前只能这样。


二、Benchmark 数据:三款模型谁更强?

核心能力对标

根据已公开的测试数据:

Benchmark Sol Terra Luna 备注
TerminalBench ~92% (Sol Ultra) ~85% ~75% 终端复杂任务推理
SWE-bench Pro ~85%+ ~78%+ ~65%+ 软件工程基准
Cybersecurity 96.7% ~90% ~80% 网络安全任务完成度
Coding Workflow 优于 GPT-5.5 ≈ GPT-5.5 ≈ GPT-5.4 编程工作流
上下文窗口 150万 Token 200万 Token 128K Token 上下文长度

有几个细节值得注意:

Sol 的安全能力超出预期。 96.7% 的网络安全任务完成度意味着,在攻防演练、漏洞扫描这类高压场景下,它已经接近人类顶级安全专家的水平。但这也是一把双刃剑——同样的能力可以被用来攻击。

Terra 的上下文窗口反而超过 Sol。 200 万 Token 比 Sol 的 150 万还要大。这可能反映了 OpenAI 的策略判断:日常开发场景更需要读取完整代码库,而科研场景更需要推理深度。

Luna 的定价直接对标开源模型。 智谱 GLM-5.2 的输入定价约为 1.4 美元/百万 token,Luna 在相近区间。OpenAI 不想让开源模型在中国市场吃掉低价份额。

和上一代相比:差距有多大?

OpenAI 对外说法很保守:“Slightly better at coding workflows.”

但实际体验差异不小。Codex 的 ultrafast 模式实现了 2-3 倍提速,配合 Sol 的推理能力,编程体验从"能用"升级到了"好用"。

更大的变化在 Agentic 能力——模型不再是"你问一句我答一句",而是能理解复杂指令、自行规划步骤、跨工具调用,最终交付结果。这是从聊天助手到 AI 工程师的转变。


三、定价:OpenAI 把桌子掀了

GPT-5.6 系列定价

模型 输入价格 ($/百万 token) 输出价格 ($/百万 token) 定位
Sol 5 15 旗舰
Terra ~1.5 ~5 均衡
Luna ~0.5 ~1.5 轻量
GPT-5.5 Pro 30 180 超旗舰(仍在售)
GPT-5.5 ~5 ~15 标准版

在这里插入图片描述

跨竞品对比

模型 输入 ($/百万 token) 输出 ($/百万 token) 旗舰能力
GPT-5.6 Sol 5 15 最强旗舰
Claude Fable 5 / Mythos 5 ~10 ~50 紧随其后
智谱 GLM-5.2 (开源) ~1.4 ~4.4 开源第一
MiniMax M3 ~2-3 ~8-10 国产一线

几个关键观察:

  • Sol 的定价只有 Anthropic 旗舰模型的一半。这是主动压价——OpenAI 很清楚,只要把 Anthropic 的性价比优势拉下来,企业客户就没有迁移的动力。

  • Luna 的价格对标 GLM-5.2,但 GLM-5.2 是 MIT 开源模型,Luna 是闭源的。通常闭源应该有"溢价",OpenAI 反而定得更低——这是在堵住开源模型和国产模型的下沉空间

  • GPT-5.5 Pro 仍然在售,定价是 Sol 的 6 倍。这说明 OpenAI 在刻意制造阶梯式产品区隔:Pro 给不差钱的机构,Sol 给企业和高级用户,Terra 给大众开发者,Luna 给预算敏感的学生和初创公司。

"成本砍半、性能不降"意味着什么?

Terra 的性能与 GPT-5.5 相当,价格却减半。这反映了一个更深的趋势:大模型的能力增长已经开始超过成本增长的边际收益。

大部分场景不需要最强的模型。Terra 的存在就是在告诉市场:你不需要买法拉利,SUV 就够了。

对企业是利好,对厂商是信号——跟不上降价节奏的,会被淘汰。


四、Claude Fable 5 / Mythos 5:72 小时的生命周期

发布即终结

6月10日,Anthropic 发布了 Claude Fable 5 和 Mythos 5,首次采用"同一基础模型、双档安全配置"的策略:

  • Fable 5:面向所有用户,内置安全护栏
  • Mythos 5:满血版,解除安全和生物限制,仅对受信任用户开放

SWE-bench Pro 得分达到 80.3%,远超 GPT-5.5 的 58.6%。

被美国政府强制下架

上线 72 小时后,美国政府一纸出口管制令,要求全球停用。

这是AI 历史上首次已部署给数亿用户的商业大模型被强制召回

讽刺在于,Anthropic 此前对自己的安全护栏相当自信。但出口管制管的是"能不能卖",不是"怎么卖"——安全设计再完善,挡不住行政命令。

对行业的三个影响

第一,安全护栏不是护身符,出口管制才是真正的大棒。 不管 Safeguards 做得多好,只要涉及跨境分发,政府说了算。

第二,智谱 GLM-5.2 意外受益。 Anthropic 被禁的同一天(6月13日),智谱宣布 GLM-5.2 全量开源,提供 1M 上下文。港股当天暴涨近 48%。这是时机和实力的叠加。

第三,开源从"道德正确"变成"战略刚需"。 闭源模型可能被禁,但开源代码拦不住。


五、全球 AI 竞争格局

第一梯队:能力天花板

模型 厂商 核心优势 核心劣势
GPT-5.6 Sol OpenAI 能力最强、生态最广 受限限量、定价仍有争议
Claude Fable 5 / Mythos 5 Anthropic SWE-bench Pro 80.3%、Agentic 能力强 被禁、出口管制风险极高
Gemini 3.1 Pro Google 多模态、搜索集成 市场声量相对较弱

第二梯队:性价比选手

模型 厂商 核心优势 核心劣势
GPT-5.6 Terra OpenAI 性能≈GPT-5.5、价格减半 品牌认知仍需培育
GPT-5.6 Luna OpenAI 低价抢占下沉市场 能力有限、辨识度低
智谱 GLM-5.2 Zhipu AI MIT 开源、1M 上下文、价格极低 国际影响力不足、闭源竞品压制
MiniMax M3 MiniMax 中文场景优化 国际化程度弱

第三梯队:新兴力量

模型 厂商 状态
Kimi K2.7 Code 月之暗面 1.1T 参数,开源
DeepSeek V4 Pro DeepSeek 44 分(AI Index),有提升空间
Qwen-Max 阿里通义 国内一线

在这里插入图片描述


六、Agentic AI:GPT-5.6 真正改变的是什么?

Benchmark 分数代表"静态能力",Agentic 工作流才是真正的分水岭。

GPT-5.6 Sol 不再只是"回答问题"。它能:

  • 自主读取代码库,理解架构
  • 跨多个工具调用(浏览器、API、数据库)
  • 自行规划任务序列,遇到问题自动调整
  • 最终交付完整可运行的方案

Codex 的 ultrafast 模式把这个能力推到极致——2-3 倍的速度提升,让 Agent 循环的等待时间从"分钟级"降到"秒级"。
在这里插入图片描述

从"你和 AI 聊天"变成了"AI 替你打工"。你不是在问一个问题,而是在给它派一个项目。

这也是 OpenAI 把 Agentic 能力放在 Sol 上的原因——不是用来聊天的,是用来干活的。


七、风险与不确定性

供应不确定

限量预览意味着即使你有钱、有意愿,也不一定能用上。OpenAI 计划"在未来几周内"全面开放,但"几周"到底是几周,没人知道。

安全风险

Sol 的 96.7% 网络安全完成率既是优势也是隐患。能力越强,被滥用的风险越大。OpenAI 自己也承认当前的政府审批机制"不应成为长期默认模式"——潜台词是:这是妥协,不是自愿。

监管不确定

GPT-5.6 和 Claude Fable 5/Mythos 5 的遭遇说明一件事:在美国政府的出口管制框架下,没有哪款前沿模型是绝对安全的。 不管你产自哪里,只要技术够先进,就可能成为管制目标。


八、结论

GPT-5.6 给整个 AI 行业定下了一个新基准:

能力上,Sol 的 96.7% 安全能力和 150 万 Token 上下文把天花板又推高了一截。Terra 的价格减半,重新定义了性价比标准。

竞争上,Anthropic 的退出和智谱的崛起,让"开源 vs 闭源"从技术争论变成了生存问题。

趋势上,Agentic AI 从概念走向实战。模型不再是聊天工具,而是工作引擎。

选模型不用追热点:日常开发 Terra 够用,批量处理 Luna 更划算,只有真正需要顶级推理能力才值得上 Sol。

AI 的竞争才刚开始。


本文为个人研究,数据来源于公开报道和评测,不构成投资建议。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐