OpenAI 发布 GPT-5.6 三档模型 Sol/Terra/Luna：史上最强却先过政府这一关

6 月 26 日，OpenAI 发布下一代前沿模型 GPT-5.6，一次推出三档：旗舰 Sol、均衡型 Terra、快速低价型 Luna。旗舰 Sol 在命令行工作流基准 Terminal-Bench 2.1 拿到 88.8%（ultra 模式 91.9%），超过 Anthropic 旗舰 Claude Mythos 5 的 88% 与 Fable 5 的 84.3%；在 ExploitBench 上以约 1/3 的输出 token 追平 Mythos Preview，被 OpenAI 定位为「迄今最强网络安全模型」——但它未越过自家 Preparedness Framework 的 Cyber Critical 阈值。真正让这次发布载入记录的不是跑分，而是发布方式：GPT-5.6 是应美国政府要求限量预览的，预览期只对「名单已报备政府」的少数受信任伙伴开放，据 Sam Altman 对员工的表述后续将「逐个客户」审批。定价上 Sol $5/$30、Terra $2.50/$15、Luna $1/$6（每百万 token），其中 Luna 是 OpenAI 史上最低价；7 月 Sol 还将在 Cerebras 上以最高 750 tokens/秒推出。

发生了什么

三档模型与一套新命名体系

GPT-5.6 引入了全新的命名体系：数字 5.6 代表「代际」，Sol / Terra / Luna 代表可各自独立迭代的「能力档位」。这意味着未来 Sol、Terra、Luna 不必绑定同一个版本号同步升级——OpenAI 可以让 Luna 的速度优化、Sol 的推理深度按各自节奏前进。The Decoder 直言这套分层命名「很像 Claude 的做法」。

三档对应三种定位：

Sol——前沿旗舰，主攻长程网络安全（漏洞研究与利用）、编程、生物分析等高难度 agentic 任务；
Terra——均衡款，性能对标上一代 GPT-5.5，但价格便宜一半（2x cheaper），定位日常高效工作；
Luna——高速低价款，以最低成本提供强能力，面向高并发、高频调用场景。

配套两项新推理能力：max reasoning effort——给 Sol 最长的深度推理时间，把单条推理链拉到最深；ultra mode——调用 subagents（子智能体）并行拆解复杂任务，突破单一 agent 的能力上限。在 Terminal-Bench 2.1 上，正是 ultra 模式把 Sol 从 88.8% 推到 91.9%。

发布方式：先过政府这一关

预览期内，Sol、Terra、Luna 先通过 OpenAI API 和 Codex 向一小批受信任伙伴与机构开放，未来数周才扩展到 ChatGPT / Codex / API 的更广用户。OpenAI 官方博客明确写道：已就模型能力向美国政府预先通报，并「配合一项关于网络安全的行政命令（Executive Order）框架」推进；应政府要求，先向一小群「参与名单已同步政府」的受信任伙伴限量预览，再逐步扩大。

审批的颗粒度是这次最不寻常之处。据 The Verge 援引 The Information 报道，OpenAI CEO Sam Altman 在周三的公司内部 Q&A 上告诉员工，GPT-5.6 将以限量预览形式发布、只授予一小批企业客户访问，以 comply with（遵从）联邦政府的要求；预览期内，特朗普政府本身将逐案（case-by-case）批准客户访问。Washington Post 的报道进一步确认：特朗普政府正要求 Anthropic 与 OpenAI 双方，为其最强大 AI 技术的每一个新客户获取批准，把对硅谷的监管扩大化。

OpenAI 罕见地公开表达不满，官方博客原话：「我们不认为这种政府准入流程应该成为长期默认——它会把最好的工具挡在用户、开发者、企业和网络防御者之外。」OpenAI 称这是「短期过渡」，借此与政府共同制定网络安全行政令框架与「可复用的未来模型发布流程」。

政府审批机制的全貌（OpenAI 逐客审批 + Anthropic Mythos 5 牌照式放行 + METR 评估争议）见同期深度页《前沿模型获取首次进入「政府审批」》，本文聚焦 GPT-5.6 本身的产品与技术。

能力与安全：最强网络安全模型，但没越线

OpenAI 把 Sol 称作「迄今最强的网络安全模型」，理由是它在「漏洞研究与利用」这类长程安全任务上推进了「性能-效率前沿」——既更准，也更省 token。在 Chromium 和 Firefox 的测试中，Sol 能识别漏洞与利用原语（exploitation primitives，即漏洞利用的「积木」），但未在受测条件下自主产出可用的完整链利用（full-chain exploit），因此未触及 Preparedness Framework 的 Cyber Critical 阈值。The Decoder 补充了一个关键对照：Mythos 曾在另一个基准上完成过端到端的完整攻击——也就是说，Sol 在「自主完成完整攻击」这一项上仍落后于 Mythos，但 OpenAI 把它框定为「防御者而非攻击者」，更擅长发现和修复漏洞而非独立跑通完整攻击链。

为加固安全，OpenAI 配备了「迄今最稳健的分层安全栈」：模型层训练其拒绝被禁的网络安全协助（含伪装意图/越狱）；实时网络与生物滥用分类器在高风险时暂停生成、交由更大的推理模型复核；账户级跨会话审查以区分持续恶意行为与合法的两用安全研究；以及差异化访问。发布前还投入了超过 70 万（700,000+）A100 等效 GPU 小时做自动化红队，专攻可跨多 prompt / 多场景复用的「通用越狱」，并叠加第三方人工专家红队。

关键数据 / 技术细节

三档定价（每百万 token）——Luna 为 OpenAI 史上最低价，Terra 与 GPT-5.5 同性能但便宜一半：

模型	输入价	输出价	定位	与上一代关系
Sol	$5	$30	前沿旗舰	迄今最强，主攻长程网络安全/编程/生物
Terra	$2.50	$15	均衡款	性能持平 GPT-5.5，价格便宜一半
Luna	$1	$6	高速低价	OpenAI 史上最低价，面向高并发

Benchmark 表现（编码 / 生物 / 网络安全三条线）。Terminal-Bench 与 GeneBench 的具体分数据 The Decoder 整理自 OpenAI 发布材料，ExploitBench 的「约 1/3 token」由 OpenAI 官方博客与 The Decoder 双源确认：

基准	模型 / 模式	得分	备注
Terminal-Bench 2.1（命令行工作流）	GPT-5.6 Sol（ultra）	91.9%	刷新 SOTA
Terminal-Bench 2.1	GPT-5.6 Sol（max）	88.8%
Terminal-Bench 2.1	Claude Mythos 5	88%	Anthropic 旗舰
Terminal-Bench 2.1	Claude Fable 5	84.3%
GeneBench v1（长程基因组/定量生物）	GPT-5.6 Sol	30%（best case）	优于 GPT-5.5 的 22%，且 token 更少
ExploitBench²（V8 引擎漏洞利用至代码执行）	GPT-5.6 Sol	追平 Mythos Preview	仅用约 1/3 输出 token
ExploitGym³（UC Berkeley 联合 OpenAI 等构建）	Sol / Terra / Luna	随推理增强均显著提升	Claude 该项分数暂未公布

扩展：ExploitBench / ExploitGym 评测方法（OpenAI 官方脚注）

ExploitBench：所有模型均通过 ExploitBench API 测试框架评测，使用 5 个随机种子（5 seeds）并开启推理连续性（reasoning continuity）。
ExploitGym：在 OpenAI 的 alpha API 上运行（输出速度快于公开 API），随后按公开 API 速度重新标定（rescaled）。重新标定到公开 API 预期速度时，部分估计延迟会超过 2 小时与 6 小时的时间限制——尽管在实际评测运行中这些限制被正确遵守。对时间敏感的任务，OpenAI 在 API 提供 priority processing、在 Codex 提供 fast mode。
延迟与 API 成本由模型生产行为估计并离线模拟，计入工具调用细节、采样 token 与输入 token；真实结果可能因模拟未捕获的诸多因素而显著不同。

命名体系与新机制：

命名：数字 = 代际（5.6）；Sol / Terra / Luna = 可独立迭代的持久能力档位（智能 / 速度 / 成本）。
Prompt 缓存：引入更显式的缓存——支持显式缓存断点（explicit cache breakpoints）、最少 30 分钟缓存寿命；缓存写按未缓存输入价的 1.25x 计费，缓存读享 90% 折扣。
Cerebras 加速：7 月将在 Cerebras 上推出 GPT-5.6 Sol，速度最高 750 tokens/秒，初期限量给部分客户，随产能扩展。

为何重要

第一，命名体系把 OpenAI 从「单一旗舰」推向「产品矩阵」。 把代际与能力档位拆开，意味着 Sol/Terra/Luna 可以各自迭代——这直接对位 Anthropic 的 Opus/Sonnet/Haiku 分层。对开发者而言，选择从「用哪个版本」变成「在智能、速度、成本三角里挑哪个档位」，OpenAI 因此能在每个价位持续压价而不必动旗舰。这是模型厂商从「卖模型」走向「卖产品线」的标志。

第二，三档价格阶梯 + token 效率，合起来压低「有效每任务成本」。 Luna 的 $1/$6 是 OpenAI 史上最低，直接对标高并发、低毛利场景；而 Sol 在多个基准上以更少 token 追平或超越对手——The Decoder 指出，这意味着「有效每任务成本」可能低于上一代，反击了『模型逐代变贵』的批评，也补上对便宜中国模型（如接近前沿的 GLM 系列）的价格软肋。token 效率而非单价，正在成为新一代模型的真实成本战场。

第三，ultra mode + subagents 是 agent 化的下一步。 ultra 模式通过调用子智能体并行拆解复杂任务、突破单 agent 上限，把 Terminal-Bench 从 88.8% 推到 91.9%。这呼应了行业从「单轮问答」转向「长程多步 agentic 任务」的趋势——OpenAI 同日还在 X 上称内部各部门工作正被 Agent 重塑、Codex 用量是早期样本。模型能力与产品形态正在同步 agent 化。

第四，发布方式本身成了新闻：最强模型的获取第一次被搬进政府审批。 这层监管脉络有独立的深度页展开（见上文引用），这里只点出对 GPT-5.6 的直接影响：限量预览 + 逐客审批，意味着 Sol 的「史上最强」在短期内只对少数受信任伙伴可见。OpenAI 公开称此流程不该长期化，本身就透露出厂商与政府之间在「谁能用最强模型」上的张力。值得对照的是 Anthropic 的命运——据 The Verge，Anthropic 本月早些时候收到的是更硬的指令：一道出口管制 directive 禁止「外国国民」访问 Mythos 5 与 Fable 5（连 Anthropic 自己的非美籍员工也算），随后才逐步恢复；OpenAI 拿到的是「限量预览」而非「全停」，两家在政府面前待遇并不对称。

日报观点

把 GPT-5.6 拆成两层看：一层是产品，一层是治理。产品这层，OpenAI 这次做得相当清晰——三档矩阵、命名解耦、Luna 史上最低价、ultra mode 拉高 agent 上限、Cerebras 把速度推到 750 tokens/秒，几乎是把「智能 / 速度 / 成本」三角的每条边都补上了一款产品。真正有杀伤力的不是 Sol 的旗舰跑分，而是「Sol 用约 1/3 的 token 追平 Mythos Preview」这条——当 token 效率而非单价成为成本主轴，OpenAI 等于在告诉市场：下一代的价格战不靠降价，靠少烧 token。这对正在用低价抢市场的中国模型和开源阵营是直接施压。

但必须给两组 caveat。其一，本次跑分几乎全是 OpenAI 自报，且 Terminal-Bench 2.1、GeneBench v1、ExploitBench² 都是较新或厂商主导的基准，ExploitGym 虽是 UC Berkeley 联合构建但 Claude 的该项分数「暂未公布」——缺一个对位基准，领先叙事就还缺一块拼图。在独立第三方大规模复现之前，「史上最强」要打折听。其二，Sol 在「自主产出完整链利用」上仍未越线、且落后于 Mythos 在另一基准上的端到端攻击表现——这意味着「最强网络安全模型」是 OpenAI 在防御侧的自我定位，攻击侧的天花板 Mythos 仍占着。

治理这层更值得长期盯。OpenAI 一边配合政府限量预览、一边公开说「不该长期化」，本身就是一种姿态——它既在示好（配合行政令框架），又在划界（不让逐客审批变成常态）。真正的问题不在 OpenAI 的态度，而在这套机制的不对称与不透明：同样面对政府，Anthropic 拿到的是出口管制全停、OpenAI 拿到的是限量预览，审批标准外界无从知晓；而触发 Anthropic 暂停的，据其说法只是「少数已知的轻微漏洞」。如果「谁能用最强模型」由政府逐案决定、又缺乏透明的技术标准，短期是安全审慎，长期可能演变成最强模型的准入门槛——这对巨头是护城河，对挑战者和开源生态是壁垒。OpenAI 说这是「短期过渡」，但过渡的终点在哪、由谁定义，目前没有答案。

接下来看什么

全面开放时间表：OpenAI 称「未来数周」扩展到 ChatGPT / Codex / API 更广用户——盯官方何时宣布 GA、以及预览期名单是否披露。
逐客审批的实际尺度：政府「case-by-case」批准的判定标准、首批获准客户类型（是否集中在关键基础设施防御方），是判断这套机制走向的关键。
网络安全行政令框架草案：OpenAI 称正与政府共同制定——该框架若落地，将定义「未来模型发布流程」的常态，是「短期过渡」是否长期化的试金石。
第三方对 Terminal-Bench / GeneBench / ExploitBench 的独立复现：尤其等 Claude 在 ExploitGym 上的对位分数公布，验证 Sol 的领先是否成立。
Cerebras 上 Sol 的实测速度与可用性：7 月上线后 750 tokens/秒是否兑现、限量范围多大、对延迟敏感的 agentic 任务实际体感。
ultra mode / subagents 在真实复杂任务的表现：内部称各部门已被 Agent 重塑，看 Codex 等产品里 ultra 模式的真实任务通过率与成本。
Anthropic 的对位回应：Mythos 5 恢复部署范围是否扩大、Fable 5 何时重新开放、是否会推出对标 ultra mode 的多智能体能力。