OpenAI 放出 GPT-5.6 三档预览 Sol/Terra/Luna:换了命名体系,Terra 性价比翻倍,但先报备了美国政府
GPT-5.6 改用 Sol/Terra/Luna 三档能力位;Terra 性价比对上代翻倍,Sol 刷新 Terminal-Bench 2.1,但预览先报备了美国政府。
6 月 26 日,OpenAI 发布博客「Previewing GPT-5.6 Sol」,启动 GPT-5.6 系列的「有限预览(limited preview)」。这一代最显眼的变化不在参数,而在命名体系:OpenAI 用 Sol(旗舰)/ Terra(均衡)/ Luna(低价快速) 三档替代旧命名,并把规则讲明白——数字代表「代数」,Sol/Terra/Luna 代表可独立迭代的「能力档位」。定价上三档拉开梯度(每百万 token,输入/输出):Sol $5 / $30、Terra $2.50 / $15、Luna $1 / $6;其中官方主打的一句是 Terra 性能对标上代 GPT-5.5,但价格便宜 2 倍。Benchmark 上,OpenAI 自报 Sol 在 Terminal-Bench 2.1 创 SOTA,并在网络安全基准 ExploitBench 上以约 1/3 输出 tokens 即与 Mythos Preview 竞争。但本次发布真正反常的一点不是技术:应美国政府要求,OpenAI 先做小范围预览、参与方已向政府报备,更广泛的开放要等「未来数周」;7 月还将在 Cerebras 上线 Sol,速度最高达 750 tokens/秒。
发生了什么
命名换体系:数字管「代数」,名字管「档位」
GPT-5.6 这一代,OpenAI 改了模型的命名逻辑。过去 OpenAI 的型号叠了一堆后缀(mini、turbo、各种 effort 等级),用户很难一眼分清「这是新一代」还是「同一代里的小档」。这次 OpenAI 把两件事拆开:数字(5.6)代表代数,每次换代整体能力前移;Sol / Terra / Luna 代表能力档位,可以在同一代里独立迭代。三档的定位很清楚:
- Sol——旗舰,对应最强推理与最高价位,配套 max reasoning effort(给它最长的推理时间)和 ultra 模式(借助 subagents 加速复杂任务、超越单 agent 的上限)。
- Terra——日常均衡档,官方称性能对标上一代 GPT-5.5,但价格便宜 2 倍,是这次最直接的性价比武器。
- Luna——快速低价档,在最低成本下保持较强能力,对应高吞吐、低延迟、价格敏感的场景。
这套命名的好处是把「换代」与「分档」解耦:以后 OpenAI 可以只升 Terra 而不动 Sol,或反过来,用户也能按「我要旗舰还是要便宜」直接选档,而不用记一长串后缀。
三档定价与新计费机制
定价是这次最硬的事实。三档按能力拉开梯度(每百万 token):
- Sol:输入 $5 / 输出 $30
- Terra:输入 $2.50 / 输出 $15
- Luna:输入 $1 / 输出 $6
配套的是更可预测的 prompt caching:支持显式 cache breakpoints(开发者自己标记缓存断点)、缓存最短存活 30 分钟;GPT-5.6 及后续模型的 cache 写入按未缓存输入价的 1.25x 计费,cache 读取仍享 90% 折扣。对高频复用长上下文(系统提示、长文档、代码库)的应用,这套机制意味着「第一次写缓存略贵、后续命中很便宜」,账单结构会更可控。
Benchmark:主打「性能-效率前沿」(多为自报)
OpenAI 这次反复强调的不是「绝对最强」,而是「性能-效率前沿」——用更少 token 做到相近或更好的结果。三类基准:
- 编码:Sol 在 Terminal-Bench 2.1 上创 SOTA,覆盖命令行规划、迭代、工具协同。
- 生物:在 GeneBench v1(长程基因组与定量生物分析)上比 GPT-5.5 更强,且用更少 tokens。
- 网络安全:在长程安全任务(漏洞研究与利用)上推进性能-效率前沿,在 ExploitBench 上以约 1/3 输出 tokens 即与 Mythos Preview 竞争;在与 UC Berkeley 及 OpenAI 等前沿实验室合作的 ExploitGym 上,Sol/Terra/Luna 随推理增强均显著提升网络能力。
需要明确:这些数字基本来自 OpenAI 自测。Terminal-Bench 虽有公开榜单,但博客未附第三方榜单截图;ExploitBench、GeneBench、ExploitGym 多为实验室内部或合作基准,缺乏广泛复现。它们更适合当方向性信号,而非已被外部坐实的定论。
安全:未跨 Cyber Critical 阈值,红队烧了 70 万 GPU 小时
OpenAI 称 Sol 配备「迄今最强安全栈」。在其 Preparedness Framework 下,Sol 未跨越 Cyber Critical 阈值——在 Chromium/Firefox 测试中能识别 bug 与利用原语(exploit 构件),但在受测条件下未能自主产出可用的完整链 exploit。防护是分层的:模型内训练拒绝、生成时实时的网络/生物滥用分类器(高风险时暂停生成、交由更大推理模型复审)、账号级审查、差异化访问、监控与持续测试。为找「通用越狱」,自动化红队投入超 70 万 A100 等效 GPU 小时,另有第三方人类专家红队参与。
可用性:先报备政府,再小范围预览
这是本次最不寻常的部分。预览期先通过 API 与 Codex 面向少量受信合作伙伴/组织开放,计划「未来数周」向 ChatGPT/Codex/API 更广泛开放。背景是:应美国政府要求,OpenAI 先做小范围预览,参与方已向政府报备。OpenAI 同时表态——不认为这种政府审批流程应成为长期默认,正与政府推进 cyber 行政令框架与可复用的发布流程。此外,7 月将在 Cerebras 上线 Sol,速度最高达 750 tokens/秒,初期仅限部分客户。
关键数据 / 技术细节
三档模型定价与定位对照——一眼看清梯度与卖点:
| 档位 | 输入(/百万 token) | 输出(/百万 token) | 定位 | 关键卖点 |
|---|---|---|---|---|
| Sol | $5 | $30 | 旗舰最强推理 | max reasoning effort + ultra(subagents) |
| Terra | $2.50 | $15 | 日常均衡 | 对标上代 GPT-5.5,便宜 2 倍 |
| Luna | $1 | $6 | 快速低价 | 最低成本保持较强能力 |
Benchmark 摘要(均为 OpenAI 自报,待第三方复现):
| 领域 | 基准 | OpenAI 自报结果 | 可核验性 |
|---|---|---|---|
| 编码 | Terminal-Bench 2.1 | Sol 创 SOTA(命令行规划/迭代/工具协同) | 有公开榜单,博客未附名次截图 |
| 网络安全 | ExploitBench | Sol 以约 1/3 输出 tokens 与 Mythos Preview 竞争 | 实验室/合作基准,缺广泛复现 |
| 网络安全 | ExploitGym(与 UC Berkeley 等合作) | 三档随推理增强均显著提升网络能力 | 合作基准 |
| 生物 | GeneBench v1 | 比 GPT-5.5 更强且用更少 tokens | 内部/合作基准 |
prompt caching 计费规则:
| 项目 | 规则 |
|---|---|
| cache breakpoints | 支持显式标记缓存断点 |
| 缓存存活 | 最短 30 分钟 |
| cache 写入 | 按未缓存输入价的 1.25x 计费 |
| cache 读取 | 享 90% 折扣 |
扩展:安全栈与发布流程细节(OpenAI 官方)
- Preparedness Framework 结论:Sol 未跨越 Cyber Critical 阈值;在 Chromium/Firefox 测试中能识别 bug 与 exploit 构件,但受测条件下未自主产出可用完整链 exploit。
- 分层防护:① 模型内训练拒绝;② 生成时实时网络/生物滥用分类器,高风险时暂停生成并交更大推理模型复审;③ 账号级审查;④ 差异化访问;⑤ 监控与持续测试。
- 红队:自动化红队投入 >70 万 A100 等效 GPU 小时寻找通用越狱;另有第三方人类专家红队。
- 政府报备:应美国政府要求先做小范围预览,参与方已报备政府;OpenAI 称不应成为长期默认,正推进 cyber 行政令框架与可复用发布流程。
- Cerebras:7 月上线 Sol,最高 750 tokens/秒,初期仅限部分客户。
- 注:以上 benchmark 与安全结论均为 OpenAI 厂商自报,具体分值/方法需查后续 System Card,本文不展开第三方复现。
为何重要
第一,命名换代是一次「让用户更好选档」的产品工程,背后是定价策略的重排。 把「代数」和「能力档」解耦后,OpenAI 真正想优化的是单位智能的价格梯度。三档清晰对应「要最强(Sol)/ 要够用又便宜(Terra)/ 要快又最便宜(Luna)」三种需求,开发者可以按任务把负载分流到不同档,而不是要么全用旗舰、要么全用 mini。Terra「对标上代、便宜 2 倍」这句话的潜台词是:上一代旗舰级的能力,正在变成这一代的中间档价格——这是推理成本持续下行的又一次兑现,也是 OpenAI 对竞争对手低价档的正面回应。
第二,「性能-效率前沿」是比「绝对最强」更聪明的叙事,但也更难被外部验证。 当各家旗舰在绝对能力上越来越难拉开差距,「用更少 token 做到相近结果」就成了新的竞争维度——它直接关系到客户的真实账单。Sol 在 ExploitBench 上「约 1/3 输出 tokens」与对手竞争、在 GeneBench 上「更少 tokens」超越上代,讲的都是这个故事。问题在于,效率类声明比单点 SOTA 更依赖测试设置(同样的任务、同样的 effort、同样的成功判定),而这些细节官方披露有限,外部复现门槛更高。这套叙事对 OpenAI 有利,但也最需要第三方坐实。
第三,真正的「新闻」是发布流程:监管开始直接介入前沿模型的上线节奏。 把时间线拉开看——Anthropic 在 6 月 12 日因政府要求暂停 Fable 5 / Mythos 5 访问,OpenAI 在 6 月 26 日以「应政府要求、先报备、再小范围预览」的方式放出 GPT-5.6。这不是孤例,而是一个正在成形的趋势:前沿模型的发布,正从「厂商自主决定」转向「与政府协调」。OpenAI 一边配合、一边明确表态「不认为这应成为长期默认」,并推动「可复用发布流程」——这是在为未来的发布节奏争取一个可预期的制度框架,避免每次都要单独报备。对整个行业,这意味着「能力领先」之外,「能不能、何时能上线」开始变成一个监管变量。
第四,对不同人群的影响是分化的。 对开发者,三档定价 + 新 caching 机制提供了更细的成本调节旋钮,Terra 很可能成为「默认主力档」;但 benchmark 自报、预览受限,意味着「能不能用、好不好用」短期内只能小范围验证。对企业买方,「性能-效率前沿」和价格下行是利好,但「有限预览 + 政府报备」抬高了规划的不确定性——你不知道广泛可用的确切时点。对竞争对手,Terra/Luna 的低价档是直接压力;对政策方,OpenAI 主动报备 + 推动框架,既是配合也是博弈,监管尺度仍在形成中。
这次发布有两层值得分开看。表层是一次干净利落的产品升级:命名变清楚了、价格梯度拉开了、Terra 把上代旗舰能力压到了中间档价位、caching 计费更可控——这些都是扎实的工程进步,对开发者实打实有用。但如果只盯着这一层,会错过更重要的里层信号:GPT-5.6 是在「应美国政府要求、先报备、再小范围预览」的框架下放出来的,而这距离 Anthropic 因政府要求暂停 Fable 5/Mythos 5 才过去两周。两件事连起来,说明前沿模型的发布权正在从厂商单方面,悄悄变成厂商与政府的协调结果。 这才是这条新闻里最该被记住的部分。
但必须给足 caveat。其一,这是「有限预览」而非正式发布。「预览」「未来数周」「初期仅限部分客户」这些措辞意味着:现在能拿到的人极少,绝大多数开发者短期内连试都试不到,更谈不上把它放进生产。把它当「OpenAI 公布了方向和定价」来读是准确的,当「GPT-5.6 已经可用」来读则会高估现状。其二,benchmark 几乎全是 OpenAI 自报。Terminal-Bench 2.1 的 SOTA、ExploitBench 的「约 1/3 输出 tokens」、GeneBench 的「更少 tokens」——方向可信,但具体名次、分值、测试设置都没附第三方印证;尤其「效率前沿」类声明对测试条件极敏感,在独立复现之前,这些数字是营销与事实的混合体。其三,「便宜 2 倍」的对标口径不透明。Terra「对标上代 GPT-5.5」到底是对标哪些任务、用什么 effort、按什么成功判定,官方没逐项说清;它很可能在很多场景成立,但「等于上代旗舰」这种直觉式理解需要开发者自己用真实负载去验,别直接当结论。其四,政府报备是一把双刃剑。它一方面说明 OpenAI 在配合监管、对外姿态克制;另一方面,报备的具体内容、政府介入的法律依据与边界全是黑箱,外部无法核验审批的真实尺度——OpenAI 自己也明说「不希望这成为长期默认」,足见这套流程目前是临时、博弈中的状态,而非稳定制度。
一句话:GPT-5.6 在产品层是一次漂亮的「性价比 + 命名」升级,Terra 尤其值得期待;但它在治理层留下的问号更大——当「先报备政府」成为前沿发布的前置步骤,行业竞争的变量就不再只是「谁更强」,而多了一个「谁、在什么条件下、被允许上线」。真正的答案,要等预览之外的广泛开放、以及第三方把那些自报数字跑一遍之后,才会清楚。
接下来看什么
- Terra/Luna 的性价比实测:「对标上代、便宜 2 倍」在开发者真实工作负载上能否复现——这是判断本次发布含金量的第一关,也是 Terra 能否成为「默认主力档」的关键。
- benchmark 的第三方印证:Terminal-Bench 2.1 公开榜单上 Sol 的实际名次与分值,以及非 OpenAI 方对 ExploitBench/GeneBench 结果的独立复现。
- 广泛开放的确切时点:「未来数周」向 ChatGPT/Codex/API 开放究竟落在何时;有限预览期外,普通开发者何时能真正用上。
- Cerebras 上的 Sol:750 tokens/秒 在更多客户、更长上下文下能否保持,以及对应定价——这关系到「高速推理」是噱头还是可规模化的能力。
- 政府报备的后续:这套「先报备」流程会否成为前沿模型发布的常态,OpenAI 推动的「可复用发布流程」与 cyber 行政令框架进展如何——这是行业治理走向的风向标。
- ultra 模式与 max reasoning effort 的成本账:借助 subagents 的 ultra 模式在长程任务上烧多少 token、效果是否值回 Sol 的价差,会决定它是旗舰光环还是真正常用的能力。
- prompt caching 新计费的真实影响:写 1.25x / 读 90% 折扣 / 30 分钟存活,对高频长上下文应用的账单到底是省还是增,需要实际跑量验证。