6 月 26 日,OpenAI 发布下一代前沿模型 GPT-5.6,一次推出三档:旗舰 Sol、均衡型 Terra、快速低价型 Luna。旗舰 Sol 在命令行工作流基准 Terminal-Bench 2.1 拿到 88.8%(ultra 模式 91.9%),超过 Anthropic 旗舰 Claude Mythos 5 的 88% 与 Fable 5 的 84.3%;在 ExploitBench 上以约 1/3 的输出 token 追平 Mythos Preview,被 OpenAI 定位为「迄今最强网络安全模型」——但它未越过自家 Preparedness Framework 的 Cyber Critical 阈值。真正让这次发布载入记录的不是跑分,而是发布方式:GPT-5.6 是应美国政府要求限量预览的,预览期只对「名单已报备政府」的少数受信任伙伴开放,据 Sam Altman 对员工的表述后续将「逐个客户」审批。定价上 Sol $5/$30、Terra $2.50/$15、Luna $1/$6(每百万 token),其中 Luna 是 OpenAI 史上最低价;7 月 Sol 还将在 Cerebras 上以最高 750 tokens/秒推出。
发生了什么
三档模型与一套新命名体系
GPT-5.6 引入了全新的命名体系:数字 5.6 代表「代际」,Sol / Terra / Luna 代表可各自独立迭代的「能力档位」。这意味着未来 Sol、Terra、Luna 不必绑定同一个版本号同步升级——OpenAI 可以让 Luna 的速度优化、Sol 的推理深度按各自节奏前进。The Decoder 直言这套分层命名「很像 Claude 的做法」。
三档对应三种定位:
- Sol——前沿旗舰,主攻长程网络安全(漏洞研究与利用)、编程、生物分析等高难度 agentic 任务;
- Terra——均衡款,性能对标上一代 GPT-5.5,但价格便宜一半(2x cheaper),定位日常高效工作;
- Luna——高速低价款,以最低成本提供强能力,面向高并发、高频调用场景。
配套两项新推理能力:max reasoning effort——给 Sol 最长的深度推理时间,把单条推理链拉到最深;ultra mode——调用 subagents(子智能体)并行拆解复杂任务,突破单一 agent 的能力上限。在 Terminal-Bench 2.1 上,正是 ultra 模式把 Sol 从 88.8% 推到 91.9%。
发布方式:先过政府这一关
预览期内,Sol、Terra、Luna 先通过 OpenAI API 和 Codex 向一小批受信任伙伴与机构开放,未来数周才扩展到 ChatGPT / Codex / API 的更广用户。OpenAI 官方博客明确写道:已就模型能力向美国政府预先通报,并「配合一项关于网络安全的行政命令(Executive Order)框架」推进;应政府要求,先向一小群「参与名单已同步政府」的受信任伙伴限量预览,再逐步扩大。
审批的颗粒度是这次最不寻常之处。据 The Verge 援引 The Information 报道,OpenAI CEO Sam Altman 在周三的公司内部 Q&A 上告诉员工,GPT-5.6 将以限量预览形式发布、只授予一小批企业客户访问,以 comply with(遵从)联邦政府的要求;预览期内,特朗普政府本身将逐案(case-by-case)批准客户访问。Washington Post 的报道进一步确认:特朗普政府正要求 Anthropic 与 OpenAI 双方,为其最强大 AI 技术的每一个新客户获取批准,把对硅谷的监管扩大化。
OpenAI 罕见地公开表达不满,官方博客原话:「我们不认为这种政府准入流程应该成为长期默认——它会把最好的工具挡在用户、开发者、企业和网络防御者之外。」OpenAI 称这是「短期过渡」,借此与政府共同制定网络安全行政令框架与「可复用的未来模型发布流程」。
政府审批机制的全貌(OpenAI 逐客审批 + Anthropic Mythos 5 牌照式放行 + METR 评估争议)见同期深度页《前沿模型获取首次进入「政府审批」》,本文聚焦 GPT-5.6 本身的产品与技术。
能力与安全:最强网络安全模型,但没越线
OpenAI 把 Sol 称作「迄今最强的网络安全模型」,理由是它在「漏洞研究与利用」这类长程安全任务上推进了「性能-效率前沿」——既更准,也更省 token。在 Chromium 和 Firefox 的测试中,Sol 能识别漏洞与利用原语(exploitation primitives,即漏洞利用的「积木」),但未在受测条件下自主产出可用的完整链利用(full-chain exploit),因此未触及 Preparedness Framework 的 Cyber Critical 阈值。The Decoder 补充了一个关键对照:Mythos 曾在另一个基准上完成过端到端的完整攻击——也就是说,Sol 在「自主完成完整攻击」这一项上仍落后于 Mythos,但 OpenAI 把它框定为「防御者而非攻击者」,更擅长发现和修复漏洞而非独立跑通完整攻击链。
为加固安全,OpenAI 配备了「迄今最稳健的分层安全栈」:模型层训练其拒绝被禁的网络安全协助(含伪装意图/越狱);实时网络与生物滥用分类器在高风险时暂停生成、交由更大的推理模型复核;账户级跨会话审查以区分持续恶意行为与合法的两用安全研究;以及差异化访问。发布前还投入了超过 70 万(700,000+)A100 等效 GPU 小时做自动化红队,专攻可跨多 prompt / 多场景复用的「通用越狱」,并叠加第三方人工专家红队。
关键数据 / 技术细节
三档定价(每百万 token)——Luna 为 OpenAI 史上最低价,Terra 与 GPT-5.5 同性能但便宜一半:
| 模型 | 输入价 | 输出价 | 定位 | 与上一代关系 |
|---|---|---|---|---|
| Sol | $5 | $30 | 前沿旗舰 | 迄今最强,主攻长程网络安全/编程/生物 |
| Terra | $2.50 | $15 | 均衡款 | 性能持平 GPT-5.5,价格便宜一半 |
| Luna | $1 | $6 | 高速低价 | OpenAI 史上最低价,面向高并发 |
Benchmark 表现(编码 / 生物 / 网络安全三条线)。Terminal-Bench 与 GeneBench 的具体分数据 The Decoder 整理自 OpenAI 发布材料,ExploitBench 的「约 1/3 token」由 OpenAI 官方博客与 The Decoder 双源确认:
| 基准 | 模型 / 模式 | 得分 | 备注 |
|---|---|---|---|
| Terminal-Bench 2.1(命令行工作流) | GPT-5.6 Sol(ultra) | 91.9% | 刷新 SOTA |
| Terminal-Bench 2.1 | GPT-5.6 Sol(max) | 88.8% | |
| Terminal-Bench 2.1 | Claude Mythos 5 | 88% | Anthropic 旗舰 |
| Terminal-Bench 2.1 | Claude Fable 5 | 84.3% | |
| GeneBench v1(长程基因组/定量生物) | GPT-5.6 Sol | 30%(best case) | 优于 GPT-5.5 的 22%,且 token 更少 |
| ExploitBench²(V8 引擎漏洞利用至代码执行) | GPT-5.6 Sol | 追平 Mythos Preview | 仅用约 1/3 输出 token |
| ExploitGym³(UC Berkeley 联合 OpenAI 等构建) | Sol / Terra / Luna | 随推理增强均显著提升 | Claude 该项分数暂未公布 |
扩展:ExploitBench / ExploitGym 评测方法(OpenAI 官方脚注)
- ExploitBench:所有模型均通过 ExploitBench API 测试框架评测,使用 5 个随机种子(5 seeds)并开启推理连续性(reasoning continuity)。
- ExploitGym:在 OpenAI 的 alpha API 上运行(输出速度快于公开 API),随后按公开 API 速度重新标定(rescaled)。重新标定到公开 API 预期速度时,部分估计延迟会超过 2 小时与 6 小时的时间限制——尽管在实际评测运行中这些限制被正确遵守。对时间敏感的任务,OpenAI 在 API 提供 priority processing、在 Codex 提供 fast mode。
- 延迟与 API 成本由模型生产行为估计并离线模拟,计入工具调用细节、采样 token 与输入 token;真实结果可能因模拟未捕获的诸多因素而显著不同。
命名体系与新机制:
- 命名:数字 = 代际(5.6);Sol / Terra / Luna = 可独立迭代的持久能力档位(智能 / 速度 / 成本)。
- Prompt 缓存:引入更显式的缓存——支持显式缓存断点(explicit cache breakpoints)、最少 30 分钟缓存寿命;缓存写按未缓存输入价的 1.25x 计费,缓存读享 90% 折扣。
- Cerebras 加速:7 月将在 Cerebras 上推出 GPT-5.6 Sol,速度最高 750 tokens/秒,初期限量给部分客户,随产能扩展。
为何重要
第一,命名体系把 OpenAI 从「单一旗舰」推向「产品矩阵」。 把代际与能力档位拆开,意味着 Sol/Terra/Luna 可以各自迭代——这直接对位 Anthropic 的 Opus/Sonnet/Haiku 分层。对开发者而言,选择从「用哪个版本」变成「在智能、速度、成本三角里挑哪个档位」,OpenAI 因此能在每个价位持续压价而不必动旗舰。这是模型厂商从「卖模型」走向「卖产品线」的标志。
第二,三档价格阶梯 + token 效率,合起来压低「有效每任务成本」。 Luna 的 $1/$6 是 OpenAI 史上最低,直接对标高并发、低毛利场景;而 Sol 在多个基准上以更少 token 追平或超越对手——The Decoder 指出,这意味着「有效每任务成本」可能低于上一代,反击了『模型逐代变贵』的批评,也补上对便宜中国模型(如接近前沿的 GLM 系列)的价格软肋。token 效率而非单价,正在成为新一代模型的真实成本战场。
第三,ultra mode + subagents 是 agent 化的下一步。 ultra 模式通过调用子智能体并行拆解复杂任务、突破单 agent 上限,把 Terminal-Bench 从 88.8% 推到 91.9%。这呼应了行业从「单轮问答」转向「长程多步 agentic 任务」的趋势——OpenAI 同日还在 X 上称内部各部门工作正被 Agent 重塑、Codex 用量是早期样本。模型能力与产品形态正在同步 agent 化。
第四,发布方式本身成了新闻:最强模型的获取第一次被搬进政府审批。 这层监管脉络有独立的深度页展开(见上文引用),这里只点出对 GPT-5.6 的直接影响:限量预览 + 逐客审批,意味着 Sol 的「史上最强」在短期内只对少数受信任伙伴可见。OpenAI 公开称此流程不该长期化,本身就透露出厂商与政府之间在「谁能用最强模型」上的张力。值得对照的是 Anthropic 的命运——据 The Verge,Anthropic 本月早些时候收到的是更硬的指令:一道出口管制 directive 禁止「外国国民」访问 Mythos 5 与 Fable 5(连 Anthropic 自己的非美籍员工也算),随后才逐步恢复;OpenAI 拿到的是「限量预览」而非「全停」,两家在政府面前待遇并不对称。
把 GPT-5.6 拆成两层看:一层是产品,一层是治理。产品这层,OpenAI 这次做得相当清晰——三档矩阵、命名解耦、Luna 史上最低价、ultra mode 拉高 agent 上限、Cerebras 把速度推到 750 tokens/秒,几乎是把「智能 / 速度 / 成本」三角的每条边都补上了一款产品。真正有杀伤力的不是 Sol 的旗舰跑分,而是「Sol 用约 1/3 的 token 追平 Mythos Preview」这条——当 token 效率而非单价成为成本主轴,OpenAI 等于在告诉市场:下一代的价格战不靠降价,靠少烧 token。这对正在用低价抢市场的中国模型和开源阵营是直接施压。
但必须给两组 caveat。其一,本次跑分几乎全是 OpenAI 自报,且 Terminal-Bench 2.1、GeneBench v1、ExploitBench² 都是较新或厂商主导的基准,ExploitGym 虽是 UC Berkeley 联合构建但 Claude 的该项分数「暂未公布」——缺一个对位基准,领先叙事就还缺一块拼图。在独立第三方大规模复现之前,「史上最强」要打折听。其二,Sol 在「自主产出完整链利用」上仍未越线、且落后于 Mythos 在另一基准上的端到端攻击表现——这意味着「最强网络安全模型」是 OpenAI 在防御侧的自我定位,攻击侧的天花板 Mythos 仍占着。
治理这层更值得长期盯。OpenAI 一边配合政府限量预览、一边公开说「不该长期化」,本身就是一种姿态——它既在示好(配合行政令框架),又在划界(不让逐客审批变成常态)。真正的问题不在 OpenAI 的态度,而在这套机制的不对称与不透明:同样面对政府,Anthropic 拿到的是出口管制全停、OpenAI 拿到的是限量预览,审批标准外界无从知晓;而触发 Anthropic 暂停的,据其说法只是「少数已知的轻微漏洞」。如果「谁能用最强模型」由政府逐案决定、又缺乏透明的技术标准,短期是安全审慎,长期可能演变成最强模型的准入门槛——这对巨头是护城河,对挑战者和开源生态是壁垒。OpenAI 说这是「短期过渡」,但过渡的终点在哪、由谁定义,目前没有答案。
接下来看什么
- 全面开放时间表:OpenAI 称「未来数周」扩展到 ChatGPT / Codex / API 更广用户——盯官方何时宣布 GA、以及预览期名单是否披露。
- 逐客审批的实际尺度:政府「case-by-case」批准的判定标准、首批获准客户类型(是否集中在关键基础设施防御方),是判断这套机制走向的关键。
- 网络安全行政令框架草案:OpenAI 称正与政府共同制定——该框架若落地,将定义「未来模型发布流程」的常态,是「短期过渡」是否长期化的试金石。
- 第三方对 Terminal-Bench / GeneBench / ExploitBench 的独立复现:尤其等 Claude 在 ExploitGym 上的对位分数公布,验证 Sol 的领先是否成立。
- Cerebras 上 Sol 的实测速度与可用性:7 月上线后 750 tokens/秒是否兑现、限量范围多大、对延迟敏感的 agentic 任务实际体感。
- ultra mode / subagents 在真实复杂任务的表现:内部称各部门已被 Agent 重塑,看 Codex 等产品里 ultra 模式的真实任务通过率与成本。
- Anthropic 的对位回应:Mythos 5 恢复部署范围是否扩大、Fable 5 何时重新开放、是否会推出对标 ultra mode 的多智能体能力。