AI 日报
头条

OpenAI 发布 GPT-5.6 三档模型 Sol/Terra/Luna:史上最强却先过政府这一关

OpenAI 推出 GPT-5.6 系列,新命名体系把『代际』(5.6) 与『能力档位』(Sol/Terra/Luna) 拆开,三档可各自迭代。旗舰 Sol 在 Terminal-Bench 2.1 拿到 88.8%(ultra 91.9%),超过 Claude Mythos 5 的 88% 与 Fable 5 的 84.3%;ExploitBench 上以约 1/3 的输出 token 追平 Mythos Preview,被称『迄今最强网络安全模型』但未越过 Preparedness 的 Cyber Critical 阈值。本次发布应美国政府要求限量预览、逐客审批——OpenAI 公开称此流程『不该长期化』。定价 Sol $5/$30、Terra $2.50/$15、Luna $1/$6(每百万 token),Luna 为 OpenAI 史上最低价;7 月 Sol 将在 Cerebras 上以最高 750 tokens/秒推出。

2026年6月27日 · 周六 · 深度调研

6 月 26 日,OpenAI 发布下一代前沿模型 GPT-5.6,一次推出三档:旗舰 Sol、均衡型 Terra、快速低价型 Luna。旗舰 Sol 在命令行工作流基准 Terminal-Bench 2.1 拿到 88.8%(ultra 模式 91.9%),超过 Anthropic 旗舰 Claude Mythos 5 的 88% 与 Fable 5 的 84.3%;在 ExploitBench 上以约 1/3 的输出 token 追平 Mythos Preview,被 OpenAI 定位为「迄今最强网络安全模型」——但它未越过自家 Preparedness Framework 的 Cyber Critical 阈值。真正让这次发布载入记录的不是跑分,而是发布方式:GPT-5.6 是应美国政府要求限量预览的,预览期只对「名单已报备政府」的少数受信任伙伴开放,据 Sam Altman 对员工的表述后续将「逐个客户」审批。定价上 Sol $5/$30、Terra $2.50/$15、Luna $1/$6(每百万 token),其中 Luna 是 OpenAI 史上最低价;7 月 Sol 还将在 Cerebras 上以最高 750 tokens/秒推出。

发生了什么

三档模型与一套新命名体系

GPT-5.6 引入了全新的命名体系:数字 5.6 代表「代际」,Sol / Terra / Luna 代表可各自独立迭代的「能力档位」。这意味着未来 Sol、Terra、Luna 不必绑定同一个版本号同步升级——OpenAI 可以让 Luna 的速度优化、Sol 的推理深度按各自节奏前进。The Decoder 直言这套分层命名「很像 Claude 的做法」。

三档对应三种定位:

配套两项新推理能力:max reasoning effort——给 Sol 最长的深度推理时间,把单条推理链拉到最深;ultra mode——调用 subagents(子智能体)并行拆解复杂任务,突破单一 agent 的能力上限。在 Terminal-Bench 2.1 上,正是 ultra 模式把 Sol 从 88.8% 推到 91.9%

发布方式:先过政府这一关

预览期内,Sol、Terra、Luna 先通过 OpenAI API 和 Codex 向一小批受信任伙伴与机构开放,未来数周才扩展到 ChatGPT / Codex / API 的更广用户。OpenAI 官方博客明确写道:已就模型能力向美国政府预先通报,并「配合一项关于网络安全的行政命令(Executive Order)框架」推进;应政府要求,先向一小群「参与名单已同步政府」的受信任伙伴限量预览,再逐步扩大。

审批的颗粒度是这次最不寻常之处。据 The Verge 援引 The Information 报道,OpenAI CEO Sam Altman 在周三的公司内部 Q&A 上告诉员工,GPT-5.6 将以限量预览形式发布、只授予一小批企业客户访问,以 comply with(遵从)联邦政府的要求;预览期内,特朗普政府本身将逐案(case-by-case)批准客户访问。Washington Post 的报道进一步确认:特朗普政府正要求 Anthropic OpenAI 双方,为其最强大 AI 技术的每一个新客户获取批准,把对硅谷的监管扩大化。

OpenAI 罕见地公开表达不满,官方博客原话:「我们不认为这种政府准入流程应该成为长期默认——它会把最好的工具挡在用户、开发者、企业和网络防御者之外。」OpenAI 称这是「短期过渡」,借此与政府共同制定网络安全行政令框架与「可复用的未来模型发布流程」。

政府审批机制的全貌(OpenAI 逐客审批 + Anthropic Mythos 5 牌照式放行 + METR 评估争议)见同期深度页《前沿模型获取首次进入「政府审批」》,本文聚焦 GPT-5.6 本身的产品与技术。

能力与安全:最强网络安全模型,但没越线

OpenAI 把 Sol 称作「迄今最强的网络安全模型」,理由是它在「漏洞研究与利用」这类长程安全任务上推进了「性能-效率前沿」——既更准,也更省 token。在 Chromium 和 Firefox 的测试中,Sol 能识别漏洞与利用原语(exploitation primitives,即漏洞利用的「积木」),但未在受测条件下自主产出可用的完整链利用(full-chain exploit),因此未触及 Preparedness Framework 的 Cyber Critical 阈值。The Decoder 补充了一个关键对照:Mythos 曾在另一个基准上完成过端到端的完整攻击——也就是说,Sol 在「自主完成完整攻击」这一项上仍落后于 Mythos,但 OpenAI 把它框定为「防御者而非攻击者」,更擅长发现和修复漏洞而非独立跑通完整攻击链。

为加固安全,OpenAI 配备了「迄今最稳健的分层安全栈」:模型层训练其拒绝被禁的网络安全协助(含伪装意图/越狱);实时网络与生物滥用分类器在高风险时暂停生成、交由更大的推理模型复核;账户级跨会话审查以区分持续恶意行为与合法的两用安全研究;以及差异化访问。发布前还投入了超过 70 万(700,000+)A100 等效 GPU 小时做自动化红队,专攻可跨多 prompt / 多场景复用的「通用越狱」,并叠加第三方人工专家红队。

关键数据 / 技术细节

三档定价(每百万 token)——Luna 为 OpenAI 史上最低价,Terra 与 GPT-5.5 同性能但便宜一半:

模型输入价输出价定位与上一代关系
Sol$5$30前沿旗舰迄今最强,主攻长程网络安全/编程/生物
Terra$2.50$15均衡款性能持平 GPT-5.5,价格便宜一半
Luna$1$6高速低价OpenAI 史上最低价,面向高并发

Benchmark 表现(编码 / 生物 / 网络安全三条线)。Terminal-Bench 与 GeneBench 的具体分数据 The Decoder 整理自 OpenAI 发布材料,ExploitBench 的「约 1/3 token」由 OpenAI 官方博客与 The Decoder 双源确认:

基准模型 / 模式得分备注
Terminal-Bench 2.1(命令行工作流)GPT-5.6 Sol(ultra)91.9%刷新 SOTA
Terminal-Bench 2.1GPT-5.6 Sol(max)88.8%
Terminal-Bench 2.1Claude Mythos 588%Anthropic 旗舰
Terminal-Bench 2.1Claude Fable 584.3%
GeneBench v1(长程基因组/定量生物)GPT-5.6 Sol30%(best case)优于 GPT-5.5 的 22%,且 token 更少
ExploitBench²(V8 引擎漏洞利用至代码执行)GPT-5.6 Sol追平 Mythos Preview仅用约 1/3 输出 token
ExploitGym³(UC Berkeley 联合 OpenAI 等构建)Sol / Terra / Luna随推理增强均显著提升Claude 该项分数暂未公布
扩展:ExploitBench / ExploitGym 评测方法(OpenAI 官方脚注)
  • ExploitBench:所有模型均通过 ExploitBench API 测试框架评测,使用 5 个随机种子(5 seeds)并开启推理连续性(reasoning continuity)。
  • ExploitGym:在 OpenAI 的 alpha API 上运行(输出速度快于公开 API),随后按公开 API 速度重新标定(rescaled)。重新标定到公开 API 预期速度时,部分估计延迟会超过 2 小时与 6 小时的时间限制——尽管在实际评测运行中这些限制被正确遵守。对时间敏感的任务,OpenAI 在 API 提供 priority processing、在 Codex 提供 fast mode。
  • 延迟与 API 成本由模型生产行为估计并离线模拟,计入工具调用细节、采样 token 与输入 token;真实结果可能因模拟未捕获的诸多因素而显著不同。

命名体系与新机制

为何重要

第一,命名体系把 OpenAI 从「单一旗舰」推向「产品矩阵」。 把代际与能力档位拆开,意味着 Sol/Terra/Luna 可以各自迭代——这直接对位 Anthropic 的 Opus/Sonnet/Haiku 分层。对开发者而言,选择从「用哪个版本」变成「在智能、速度、成本三角里挑哪个档位」,OpenAI 因此能在每个价位持续压价而不必动旗舰。这是模型厂商从「卖模型」走向「卖产品线」的标志。

第二,三档价格阶梯 + token 效率,合起来压低「有效每任务成本」。 Luna 的 $1/$6 是 OpenAI 史上最低,直接对标高并发、低毛利场景;而 Sol 在多个基准上以更少 token 追平或超越对手——The Decoder 指出,这意味着「有效每任务成本」可能低于上一代,反击了『模型逐代变贵』的批评,也补上对便宜中国模型(如接近前沿的 GLM 系列)的价格软肋。token 效率而非单价,正在成为新一代模型的真实成本战场。

第三,ultra mode + subagents 是 agent 化的下一步。 ultra 模式通过调用子智能体并行拆解复杂任务、突破单 agent 上限,把 Terminal-Bench 从 88.8% 推到 91.9%。这呼应了行业从「单轮问答」转向「长程多步 agentic 任务」的趋势——OpenAI 同日还在 X 上称内部各部门工作正被 Agent 重塑、Codex 用量是早期样本。模型能力与产品形态正在同步 agent 化。

第四,发布方式本身成了新闻:最强模型的获取第一次被搬进政府审批。 这层监管脉络有独立的深度页展开(见上文引用),这里只点出对 GPT-5.6 的直接影响:限量预览 + 逐客审批,意味着 Sol 的「史上最强」在短期内只对少数受信任伙伴可见。OpenAI 公开称此流程不该长期化,本身就透露出厂商与政府之间在「谁能用最强模型」上的张力。值得对照的是 Anthropic 的命运——据 The Verge,Anthropic 本月早些时候收到的是更硬的指令:一道出口管制 directive 禁止「外国国民」访问 Mythos 5 与 Fable 5(连 Anthropic 自己的非美籍员工也算),随后才逐步恢复;OpenAI 拿到的是「限量预览」而非「全停」,两家在政府面前待遇并不对称。

日报观点

把 GPT-5.6 拆成两层看:一层是产品,一层是治理。产品这层,OpenAI 这次做得相当清晰——三档矩阵、命名解耦、Luna 史上最低价、ultra mode 拉高 agent 上限、Cerebras 把速度推到 750 tokens/秒,几乎是把「智能 / 速度 / 成本」三角的每条边都补上了一款产品。真正有杀伤力的不是 Sol 的旗舰跑分,而是「Sol 用约 1/3 的 token 追平 Mythos Preview」这条——当 token 效率而非单价成为成本主轴,OpenAI 等于在告诉市场:下一代的价格战不靠降价,靠少烧 token。这对正在用低价抢市场的中国模型和开源阵营是直接施压。

但必须给两组 caveat。其一,本次跑分几乎全是 OpenAI 自报,且 Terminal-Bench 2.1、GeneBench v1、ExploitBench² 都是较新或厂商主导的基准,ExploitGym 虽是 UC Berkeley 联合构建但 Claude 的该项分数「暂未公布」——缺一个对位基准,领先叙事就还缺一块拼图。在独立第三方大规模复现之前,「史上最强」要打折听。其二,Sol 在「自主产出完整链利用」上仍未越线、且落后于 Mythos 在另一基准上的端到端攻击表现——这意味着「最强网络安全模型」是 OpenAI 在防御侧的自我定位,攻击侧的天花板 Mythos 仍占着。

治理这层更值得长期盯。OpenAI 一边配合政府限量预览、一边公开说「不该长期化」,本身就是一种姿态——它既在示好(配合行政令框架),又在划界(不让逐客审批变成常态)。真正的问题不在 OpenAI 的态度,而在这套机制的不对称与不透明:同样面对政府,Anthropic 拿到的是出口管制全停、OpenAI 拿到的是限量预览,审批标准外界无从知晓;而触发 Anthropic 暂停的,据其说法只是「少数已知的轻微漏洞」。如果「谁能用最强模型」由政府逐案决定、又缺乏透明的技术标准,短期是安全审慎,长期可能演变成最强模型的准入门槛——这对巨头是护城河,对挑战者和开源生态是壁垒。OpenAI 说这是「短期过渡」,但过渡的终点在哪、由谁定义,目前没有答案。

接下来看什么

一手来源