2026 年 6 月 26 日,OpenAI 以一种前所未有的方式发布了它的下一代旗舰模型。GPT-5.6 不是一款模型,而是一个三重奏:Sol(旗舰)、Terra(均衡)和 Luna(快速低价),三款模型同时亮相,且全部被美国政府在发布前预审。这是 OpenAI 历史上第一次以分层家族形态推出旗舰代际,也是第一次在发布当天就将安全评估——而非 benchmark 分数——置于产品叙事的中心。
安全评级成为发布叙事的主角
在 GPT-5.6 的发布博客中,最值得关注的不是 TerminalBench 的分数,而是一行简短的安全声明:根据 OpenAI 的 Preparedness Framework(准备框架),Sol、Terra 和 Luna 三款模型在网络安全与生物/化学两个维度上全部触及「High」风险等级。
这是 OpenAI 历史上第一个所有定价层级同时达到 High 评级的模型家族。此前的 GPT-5.5 仅在 bio 和 cyber 两个维度被评为 High,且只有旗舰一款模型;而 GPT-5.6 意味着,即便是最便宜的 Luna($1/$6 每百万 token),其生物和网络能力也足以触发最高级别的安全审查。
系统卡(System Card)显示,三款模型在 AI 自我改进(Self-Improvement)维度上均未触及 High 阈值,但 OpenAI 仍为每个模型层级实施了「量身定制的安全防护措施」。在 ExploitGym(由 UC Berkeley 与 OpenAI 及其他前沿实验室合作构建的基准测试)上,三款模型随着推理强度的提升均展现出显著的网络能力增长;在 ExploitBench 上,GPT-5.6 Sol 在与尚未发布的 Mythos Preview 模型竞争的同时,仅使用了约三分之一的输出 token。
这一安全优先的发布姿态,不是 OpenAI 单方面的选择,而是正在形成的行业惯例。
政府预审:从前沿模型的例外到标准程序
GPT-5.6 的发布方式本身就是一条新闻。OpenAI CEO Sam Altman 在给员工的备忘录中披露,特朗普政府要求 OpenAI 分阶段发布 GPT-5.6,初始访问仅限一小批经政府批准的「可信伙伴」——据报道约为 20 家组织。Altman 向《卫报》确认,政府将在此预览期内「客户接客户地批准访问」。
这距离 Anthropic 的 Fable 5 和 Mythos 5 被美国政府以出口管制为由强制下线仅过去了两周。6 月 12 日,Anthropic 在推出这两款模型三天后收到商务部指令,暂停所有外国公民(包括 Anthropic 的外籍员工)对这两款模型的访问。直到 6 月 26 日——GPT-5.6 发布当天——Mythos 5 才被部分恢复,仅对美国关键基础设施组织开放。
将这两件事放在一起看,一个清晰的模式正在成形:「政府预审」正在从偶发事件转变为前沿模型发布的标准前置程序。6 月 2 日特朗普签发的行政命令要求各联邦机构协作,建立新 AI 模型基准测试与能力评估的流程。虽然该命令名义上是「自愿」的——要求 AI 公司在发布前 30 天提交最先进模型供政府审查——但实践中,GPT-5.6 和 Mythos 5 的经历表明,不合作已不再是可选项。
OpenAI 在博客中措辞谨慎:「作为我们与美国政府持续沟通的一部分,我们在发布前预览了我们的计划和模型能力。应他们的要求,我们先从一个有限的预览开始。」这种「持续沟通」是否会固化为永久性的审查机制,将是 2026 年下半年最值得关注的 AI 治理议题。
三层架构:不止是 Opus/Sonnet/Haiku 的翻版
GPT-5.6 的三层架构表面上呼应了 Anthropic 的 Opus/Sonnet/Haiku 和 Google 的 Pro/Flash 路线,但有几个关键差异值得注意。
差异一:一个新的命名系统。 OpenAI 明确表示,这是为 GPT-5.6 引入的新命名体系:数字(5.6)标识模型代际,而 Sol、Terra、Luna 标识的是「持久的」能力层级——这些层级可以按自己的节奏独立演进。这意味着未来可能出现 GPT-5.7 Terra 或 GPT-6.0 Luna,层级与代际解耦。
差异二:Terra 的定位是「GPT-5.5 性能,半价」。 在 TerminalBench 2.1 上,Terra(84.3%)与 Anthropic 的被禁旗舰 Fable 5(84.3%)持平,而价格仅为 GPT-5.5 的一半($2.50/$15 vs GPT-5.5 的 $5/$30)。这不是中端模型的常规让步——它以更低的成本提供了上一代旗舰的能力。
差异三:Luna 的高基线。 即使是最便宜的 Luna($1/$6),在 TerminalBench 2.1 上也达到了 82.5%,超过了 Claude Opus 4.8(78.9%)。这意味着 OpenAI 的最低价模型在关键编码基准上击败了 Anthropic 的上上代旗舰。对高吞吐量应用场景而言,这不是一个「降级选择」,而是一个有竞争力的独立产品。
旗舰对决:Sol 对 Mythos 5
GPT-5.6 Sol 在 TerminalBench 2.1 上的表现是本次发布中最受关注的硬指标:
| 模型 | TerminalBench 2.1 得分 |
|---|---|
| GPT-5.6 Sol Ultra | 91.9% |
| GPT-5.6 Sol (Max) | 88.8% |
| Claude Mythos 5 | 88.0% |
| GPT-5.6 Terra / Claude Fable 5 | 84.3% |
| GPT-5.5 | 83.4% |
| GPT-5.6 Luna | 82.5% |
| Claude Opus 4.8 | 78.9% |
| Gemini 3.1 Pro Preview | 70.7% |
Sol 在 Max 模式下以 0.8 个百分点的优势领先 Mythos 5——这个差距处于同一模型两次运行之间的噪声带内,但在 AI 竞赛的话语体系中,即使是边际优势也被赋予了不成比例的叙事分量。Sol Ultra 模式下的 91.9% 则将竞争拉出了一个更有说服力的距离。
在 Agent's Last Exam 上,Sol 是唯一突破 50% 完成度的模型(50.9%)。在 SecureBio 生物学评估上,Sol 比 GPT-5.5 跃升了约 9 个百分点。在 GeneBench v1 上,Sol 在长周期基因组学分析中击败了 GPT-5.5,同时使用了更少的 token。
Ultra 模式:推理架构的新信号
GPT-5.6 引入了两个新的推理模式:Max Reasoning Effort(最大推理强度)和 Ultra Mode(超级模式)。
Max 模式给予模型更长的推理时间——这与 Anthropic 的「扩展思考」(Extended Thinking)和 Google 的「高推理」设置逻辑相似。但 Ultra 模式在架构层面更有趣:它将任务拆分给多个专门的子 agent 协作完成。在 OpenAI 的框架中,这不是一个外部编排层,而是模型内部的协作机制——模型可以将复杂任务分解为子任务,分配给专门的子 agent,然后合成最终响应。
这在架构上是一个值得关注的信号。此前,多 agent 协作通常需要一个外部编排器(如 AutoGen、CrewAI 或 LangGraph)。将这种能力折叠进模型内部,意味着开发者不需要在应用层构建复杂的 agent 拓扑就可以获得并行推理的优势。这对 coding、研究和多步规划等场景尤其有价值——Sol Ultra 的 91.9% 正是在这种模式下取得的。
代价是 token 消耗。Sol 的输出定价为 $30/百万 token,而 Ultra 模式通过派生子 agent 进一步放大了 token 用量。OpenAI 对此直言不讳——这是为「困难的、可并行化的工作」保留的工具。
加速代际更替:GPT-4.5 同日退役
在发布 GPT-5.6 的同一天,OpenAI 从 ChatGPT 中退役了 GPT-4.5。根据 OpenAI 帮助中心的发布说明:「自 2026 年 6 月 26 日起,GPT-4.5 不再在 ChatGPT 中可用,包括自定义 GPT。使用 GPT-4.5 的现有对话可以继续使用 GPT-5.5。」
这并非突然之举——OpenAI 在 5 月 28 日就已宣布了这一退役计划,给予 30 天的过渡期。但 GPT-5.6 发布与 GPT-4.5 退役在时间上的重合仍然传递了一个清晰的信号:OpenAI 正在以前所未有的速度压缩代际窗口。GPT-4.5 从 2025 年 2 月发布到退役仅一年半,而 GPT-4 到 GPT-4.5 的周期更长。随着模型迭代加速,旧模型的快速退场将成为常态而非例外。
一个更大的叙事
GPT-5.6 的发布是 OpenAI 有史以来最复杂、也最有信息密度的一次旗舰上新。它同时讲述了三个故事:
产品故事:一个模型家族覆盖从 $1 到 $30 的所有价格点,在每一个层级上提供有竞争力的能力。这是对「旗舰模型即单一产品」逻辑的根本性重写。
安全故事:所有层级同时触及 High 风险评级,安全评估成为发布叙事的主角而非附录。Preparedness Framework 从一个内部治理工具变成了面向公众的发布框架。
治理故事:美国政府正在确立对前沿模型发布的预审权,OpenAI 与 Anthropic 接连配合的事实表明,这不是一家公司的选择,而是一个行业的转折。
当这三条线索交织在一起,GPT-5.6 定义的不仅是 OpenAI 的下一代模型——它可能正在定义下一代模型发布的规则本身。

