GPT-5.6 发布背后的算计：为什么最强的模型反而不让所有人用？

dozenyaoyida

124人浏览 · 2026-06-30 12:00:00

dozenyaoyida · 2026-06-30 12:00:00 发布

6月下旬，OpenAI 做了一个不寻常的决定：把最新一代最强模型 Sol 锁在"限量预览"里，只向少数合作伙伴开放。

这不是因为算力不够。而是因为美国政府的出口管制要求它先别放。

同一时期，Anthropic 的两款新模型上线72小时后被强制全球停用；智谱 GLM-5.2 在同一天全量开源。三天三件事，把"开源可控"和"闭源依赖"的分歧推到了台前。

本文把 GPT-5.6 系列放在全球 AI 竞争的框架下，逐一拆解。

一、GPT-5.6 三款模型：Sol、Terra、Luna

OpenAI 这次用了一套太阳系命名体系：

Sol（太阳）——旗舰中的旗舰。面向科研、编程、安全攻防、生物信息学等重任务场景，能力天花板最高。支持 150 万 Token 上下文窗口，原生支持 Agentic 工作流，是目前 OpenAI 最强的单模型。

Terra（地球）——日常开发的"主力机"。官方定位是性能与 GPT-5.5 相当，但价格砍半。本质上是性价比路线：不追求极限能力，但保证够用且便宜。

Luna（月亮）——轻量级。快速、便宜，面向高频短任务。定价直接打入中国市场和开源模型的价格带，意图很明显：把对价格敏感的用户圈进来。

一句话：Sol 冲高、Terra 守中、Luna 兜底，覆盖从科研到日常开发到批量处理的完整链条。
在这里插入图片描述

限量预览：最强的模型，反而"不能见光"

GPT-5.6 没有走全网上线的老路。OpenAI 在发布前与美国政府沟通了模型能力及发布计划，仅在有限预览阶段向少数可信伙伴开放。

OpenAI 自己的声明里有一句自相矛盾的话：一方面称这是"短期举措"，另一方面又承认"政府审批式的模型开放机制不应成为长期默认模式"。

翻译一下：他们也知道这不正常，但目前只能这样。

二、Benchmark 数据：三款模型谁更强？

核心能力对标

根据已公开的测试数据：

Benchmark	Sol	Terra	Luna	备注
TerminalBench	~92% (Sol Ultra)	~85%	~75%	终端复杂任务推理
SWE-bench Pro	~85%+	~78%+	~65%+	软件工程基准
Cybersecurity	96.7%	~90%	~80%	网络安全任务完成度
Coding Workflow	优于 GPT-5.5	≈ GPT-5.5	≈ GPT-5.4	编程工作流
上下文窗口	150万 Token	200万 Token	128K Token	上下文长度

有几个细节值得注意：

Sol 的安全能力超出预期。 96.7% 的网络安全任务完成度意味着，在攻防演练、漏洞扫描这类高压场景下，它已经接近人类顶级安全专家的水平。但这也是一把双刃剑——同样的能力可以被用来攻击。

Terra 的上下文窗口反而超过 Sol。 200 万 Token 比 Sol 的 150 万还要大。这可能反映了 OpenAI 的策略判断：日常开发场景更需要读取完整代码库，而科研场景更需要推理深度。

Luna 的定价直接对标开源模型。 智谱 GLM-5.2 的输入定价约为 1.4 美元/百万 token，Luna 在相近区间。OpenAI 不想让开源模型在中国市场吃掉低价份额。

和上一代相比：差距有多大？

OpenAI 对外说法很保守：“Slightly better at coding workflows.”

但实际体验差异不小。Codex 的 ultrafast 模式实现了 2-3 倍提速，配合 Sol 的推理能力，编程体验从"能用"升级到了"好用"。

更大的变化在 Agentic 能力——模型不再是"你问一句我答一句"，而是能理解复杂指令、自行规划步骤、跨工具调用，最终交付结果。这是从聊天助手到 AI 工程师的转变。

三、定价：OpenAI 把桌子掀了

GPT-5.6 系列定价

模型	输入价格 ($/百万 token)	输出价格 ($/百万 token)	定位
Sol	5	15	旗舰
Terra	~1.5	~5	均衡
Luna	~0.5	~1.5	轻量
GPT-5.5 Pro	30	180	超旗舰（仍在售）
GPT-5.5	~5	~15	标准版

在这里插入图片描述

跨竞品对比

模型	输入 ($/百万 token)	输出 ($/百万 token)	旗舰能力
GPT-5.6 Sol	5	15	最强旗舰
Claude Fable 5 / Mythos 5	~10	~50	紧随其后
智谱 GLM-5.2 (开源)	~1.4	~4.4	开源第一
MiniMax M3	~2-3	~8-10	国产一线

几个关键观察：

Sol 的定价只有 Anthropic 旗舰模型的一半。这是主动压价——OpenAI 很清楚，只要把 Anthropic 的性价比优势拉下来，企业客户就没有迁移的动力。
Luna 的价格对标 GLM-5.2，但 GLM-5.2 是 MIT 开源模型，Luna 是闭源的。通常闭源应该有"溢价"，OpenAI 反而定得更低——这是在堵住开源模型和国产模型的下沉空间。
GPT-5.5 Pro 仍然在售，定价是 Sol 的 6 倍。这说明 OpenAI 在刻意制造阶梯式产品区隔：Pro 给不差钱的机构，Sol 给企业和高级用户，Terra 给大众开发者，Luna 给预算敏感的学生和初创公司。

"成本砍半、性能不降"意味着什么？

Terra 的性能与 GPT-5.5 相当，价格却减半。这反映了一个更深的趋势：大模型的能力增长已经开始超过成本增长的边际收益。

大部分场景不需要最强的模型。Terra 的存在就是在告诉市场：你不需要买法拉利，SUV 就够了。

对企业是利好，对厂商是信号——跟不上降价节奏的，会被淘汰。

四、Claude Fable 5 / Mythos 5：72 小时的生命周期

发布即终结

6月10日，Anthropic 发布了 Claude Fable 5 和 Mythos 5，首次采用"同一基础模型、双档安全配置"的策略：

Fable 5：面向所有用户，内置安全护栏
Mythos 5：满血版，解除安全和生物限制，仅对受信任用户开放

SWE-bench Pro 得分达到 80.3%，远超 GPT-5.5 的 58.6%。

被美国政府强制下架

上线 72 小时后，美国政府一纸出口管制令，要求全球停用。

这是AI 历史上首次已部署给数亿用户的商业大模型被强制召回。

讽刺在于，Anthropic 此前对自己的安全护栏相当自信。但出口管制管的是"能不能卖"，不是"怎么卖"——安全设计再完善，挡不住行政命令。

对行业的三个影响

第一，安全护栏不是护身符，出口管制才是真正的大棒。 不管 Safeguards 做得多好，只要涉及跨境分发，政府说了算。

第二，智谱 GLM-5.2 意外受益。 Anthropic 被禁的同一天（6月13日），智谱宣布 GLM-5.2 全量开源，提供 1M 上下文。港股当天暴涨近 48%。这是时机和实力的叠加。

第三，开源从"道德正确"变成"战略刚需"。 闭源模型可能被禁，但开源代码拦不住。

五、全球 AI 竞争格局

第一梯队：能力天花板

模型	厂商	核心优势	核心劣势
GPT-5.6 Sol	OpenAI	能力最强、生态最广	受限限量、定价仍有争议
Claude Fable 5 / Mythos 5	Anthropic	SWE-bench Pro 80.3%、Agentic 能力强	被禁、出口管制风险极高
Gemini 3.1 Pro	Google	多模态、搜索集成	市场声量相对较弱

第二梯队：性价比选手

模型	厂商	核心优势	核心劣势
GPT-5.6 Terra	OpenAI	性能≈GPT-5.5、价格减半	品牌认知仍需培育
GPT-5.6 Luna	OpenAI	低价抢占下沉市场	能力有限、辨识度低
智谱 GLM-5.2	Zhipu AI	MIT 开源、1M 上下文、价格极低	国际影响力不足、闭源竞品压制
MiniMax M3	MiniMax	中文场景优化	国际化程度弱

第三梯队：新兴力量

模型	厂商	状态
Kimi K2.7 Code	月之暗面	1.1T 参数，开源
DeepSeek V4 Pro	DeepSeek	44 分（AI Index），有提升空间
Qwen-Max	阿里通义	国内一线

在这里插入图片描述

六、Agentic AI：GPT-5.6 真正改变的是什么？

Benchmark 分数代表"静态能力"，Agentic 工作流才是真正的分水岭。

GPT-5.6 Sol 不再只是"回答问题"。它能：

自主读取代码库，理解架构
跨多个工具调用（浏览器、API、数据库）
自行规划任务序列，遇到问题自动调整
最终交付完整可运行的方案

Codex 的 ultrafast 模式把这个能力推到极致——2-3 倍的速度提升，让 Agent 循环的等待时间从"分钟级"降到"秒级"。
在这里插入图片描述

从"你和 AI 聊天"变成了"AI 替你打工"。你不是在问一个问题，而是在给它派一个项目。

这也是 OpenAI 把 Agentic 能力放在 Sol 上的原因——不是用来聊天的，是用来干活的。

七、风险与不确定性

供应不确定

限量预览意味着即使你有钱、有意愿，也不一定能用上。OpenAI 计划"在未来几周内"全面开放，但"几周"到底是几周，没人知道。

安全风险

Sol 的 96.7% 网络安全完成率既是优势也是隐患。能力越强，被滥用的风险越大。OpenAI 自己也承认当前的政府审批机制"不应成为长期默认模式"——潜台词是：这是妥协，不是自愿。

监管不确定

GPT-5.6 和 Claude Fable 5/Mythos 5 的遭遇说明一件事：在美国政府的出口管制框架下，没有哪款前沿模型是绝对安全的。 不管你产自哪里，只要技术够先进，就可能成为管制目标。

八、结论

GPT-5.6 给整个 AI 行业定下了一个新基准：

能力上，Sol 的 96.7% 安全能力和 150 万 Token 上下文把天花板又推高了一截。Terra 的价格减半，重新定义了性价比标准。

竞争上，Anthropic 的退出和智谱的崛起，让"开源 vs 闭源"从技术争论变成了生存问题。

趋势上，Agentic AI 从概念走向实战。模型不再是聊天工具，而是工作引擎。

选模型不用追热点：日常开发 Terra 够用，批量处理 Luna 更划算，只有真正需要顶级推理能力才值得上 Sol。

AI 的竞争才刚开始。

本文为个人研究，数据来源于公开报道和评测，不构成投资建议。

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

AI时代下的前端求生之路

DeepSeek技术社区

2026 年有哪些真正适合学生写开题的 AI 辅助写作工具，实测无套路分享

DeepSeek技术社区

Learn Claude Code：从零搭建 AI Agent 的工程框架

GitHub上68k+Star项目learn-claude-code提供了一套20课教程，专注于为AI Agent构建完整的工作框架（Harness）。该框架包括工具层、知识层、观察层等功能模块，强调Agent的智能源于模型而非代码。教程从基础循环开始，逐步添加权限控制、任务拆分、记忆恢复等机制，最终实现多Agent协作。每课包含可运行代码和示意图，适合AI开发者学习如何搭建模型执行环境。项目配套