头条

OpenAI 放出 GPT-5.6 三档预览 Sol/Terra/Luna：换了命名体系，Terra 性价比翻倍，但先报备了美国政府

GPT-5.6 改用 Sol/Terra/Luna 三档能力位；Terra 性价比对上代翻倍，Sol 刷新 Terminal-Bench 2.1，但预览先报备了美国政府。

2026年6月28日 · 周日深度报告中置信重要度 5/5

#OpenAI #GPT-5.6 #Sol #Terra #Luna #模型发布 #Terminal-Bench #Cerebras #AI 安全 #prompt caching

Research Pack

核心问题

OpenAI 用 Sol/Terra/Luna 三档能力位重做 GPT-5.6 的命名与定价，并在编码/安全基准上主打『性能-效率前沿』——这到底改变了什么？为什么这次发布要先报备美国政府、只做小范围预览？

为什么是现在

前沿厂商正进入密集竞速：Anthropic 5 月发 Opus 4.8、6 月发 Fable 5/Mythos 5，并在 6 月 12 日因政府要求暂停访问。OpenAI 此时放出 GPT-5.6 三档，一方面用 Terra『对标上代、便宜 2 倍』和 Luna 低价档在性价比上回应竞争，另一方面以『有限预览 + 政府报备』的姿态，把发布节奏主动嵌进正在收紧的监管框架——抢身位与控风险同时进行。

关键数字

$5 / $30
Sol 定价（每百万 token）

$2.50 / $15
Terra 定价（每百万 token）

$1 / $6
Luna 定价（每百万 token）

约 1/3
ExploitBench 输出 tokens

6 月 26 日，OpenAI 发布博客「Previewing GPT-5.6 Sol」，启动 GPT-5.6 系列的「有限预览（limited preview）」。这一代最显眼的变化不在参数，而在命名体系：OpenAI 用 Sol（旗舰）/ Terra（均衡）/ Luna（低价快速） 三档替代旧命名，并把规则讲明白——数字代表「代数」，Sol/Terra/Luna 代表可独立迭代的「能力档位」。定价上三档拉开梯度（每百万 token，输入/输出）：Sol $5 / $30、Terra $2.50 / $15、Luna $1 / $6；其中官方主打的一句是 Terra 性能对标上代 GPT-5.5，但价格便宜 2 倍。Benchmark 上，OpenAI 自报 Sol 在 Terminal-Bench 2.1 创 SOTA，并在网络安全基准 ExploitBench 上以约 1/3 输出 tokens 即与 Mythos Preview 竞争。但本次发布真正反常的一点不是技术：应美国政府要求，OpenAI 先做小范围预览、参与方已向政府报备，更广泛的开放要等「未来数周」；7 月还将在 Cerebras 上线 Sol，速度最高达 750 tokens/秒。

发生了什么

命名换体系：数字管「代数」，名字管「档位」

GPT-5.6 这一代，OpenAI 改了模型的命名逻辑。过去 OpenAI 的型号叠了一堆后缀（mini、turbo、各种 effort 等级），用户很难一眼分清「这是新一代」还是「同一代里的小档」。这次 OpenAI 把两件事拆开：数字（5.6）代表代数，每次换代整体能力前移；Sol / Terra / Luna 代表能力档位，可以在同一代里独立迭代。三档的定位很清楚：

Sol——旗舰，对应最强推理与最高价位，配套 max reasoning effort（给它最长的推理时间）和 ultra 模式（借助 subagents 加速复杂任务、超越单 agent 的上限）。
Terra——日常均衡档，官方称性能对标上一代 GPT-5.5，但价格便宜 2 倍，是这次最直接的性价比武器。
Luna——快速低价档，在最低成本下保持较强能力，对应高吞吐、低延迟、价格敏感的场景。

这套命名的好处是把「换代」与「分档」解耦：以后 OpenAI 可以只升 Terra 而不动 Sol，或反过来，用户也能按「我要旗舰还是要便宜」直接选档，而不用记一长串后缀。

三档定价与新计费机制

定价是这次最硬的事实。三档按能力拉开梯度（每百万 token）：

Sol：输入 $5 / 输出 $30
Terra：输入 $2.50 / 输出 $15
Luna：输入 $1 / 输出 $6

配套的是更可预测的 prompt caching：支持显式 cache breakpoints（开发者自己标记缓存断点）、缓存最短存活 30 分钟；GPT-5.6 及后续模型的 cache 写入按未缓存输入价的 1.25x 计费，cache 读取仍享 90% 折扣。对高频复用长上下文（系统提示、长文档、代码库）的应用，这套机制意味着「第一次写缓存略贵、后续命中很便宜」，账单结构会更可控。

Benchmark：主打「性能-效率前沿」（多为自报）

OpenAI 这次反复强调的不是「绝对最强」，而是「性能-效率前沿」——用更少 token 做到相近或更好的结果。三类基准：

编码：Sol 在 Terminal-Bench 2.1 上创 SOTA，覆盖命令行规划、迭代、工具协同。
生物：在 GeneBench v1（长程基因组与定量生物分析）上比 GPT-5.5 更强，且用更少 tokens。
网络安全：在长程安全任务（漏洞研究与利用）上推进性能-效率前沿，在 ExploitBench 上以约 1/3 输出 tokens 即与 Mythos Preview 竞争；在与 UC Berkeley 及 OpenAI 等前沿实验室合作的 ExploitGym 上，Sol/Terra/Luna 随推理增强均显著提升网络能力。

需要明确：这些数字基本来自 OpenAI 自测。Terminal-Bench 虽有公开榜单，但博客未附第三方榜单截图；ExploitBench、GeneBench、ExploitGym 多为实验室内部或合作基准，缺乏广泛复现。它们更适合当方向性信号，而非已被外部坐实的定论。

安全：未跨 Cyber Critical 阈值，红队烧了 70 万 GPU 小时

OpenAI 称 Sol 配备「迄今最强安全栈」。在其 Preparedness Framework 下，Sol 未跨越 Cyber Critical 阈值——在 Chromium/Firefox 测试中能识别 bug 与利用原语（exploit 构件），但在受测条件下未能自主产出可用的完整链 exploit。防护是分层的：模型内训练拒绝、生成时实时的网络/生物滥用分类器（高风险时暂停生成、交由更大推理模型复审）、账号级审查、差异化访问、监控与持续测试。为找「通用越狱」，自动化红队投入超 70 万 A100 等效 GPU 小时，另有第三方人类专家红队参与。

可用性：先报备政府，再小范围预览

这是本次最不寻常的部分。预览期先通过 API 与 Codex 面向少量受信合作伙伴/组织开放，计划「未来数周」向 ChatGPT/Codex/API 更广泛开放。背景是：应美国政府要求，OpenAI 先做小范围预览，参与方已向政府报备。OpenAI 同时表态——不认为这种政府审批流程应成为长期默认，正与政府推进 cyber 行政令框架与可复用的发布流程。此外，7 月将在 Cerebras 上线 Sol，速度最高达 750 tokens/秒，初期仅限部分客户。

关键数据 / 技术细节

三档模型定价与定位对照——一眼看清梯度与卖点：

档位	输入（/百万 token）	输出（/百万 token）	定位	关键卖点
Sol	$5	$30	旗舰最强推理	max reasoning effort + ultra（subagents）
Terra	$2.50	$15	日常均衡	对标上代 GPT-5.5，便宜 2 倍
Luna	$1	$6	快速低价	最低成本保持较强能力

Benchmark 摘要（均为 OpenAI 自报，待第三方复现）：

领域	基准	OpenAI 自报结果	可核验性
编码	Terminal-Bench 2.1	Sol 创 SOTA（命令行规划/迭代/工具协同）	有公开榜单，博客未附名次截图
网络安全	ExploitBench	Sol 以约 1/3 输出 tokens 与 Mythos Preview 竞争	实验室/合作基准，缺广泛复现
网络安全	ExploitGym（与 UC Berkeley 等合作）	三档随推理增强均显著提升网络能力	合作基准
生物	GeneBench v1	比 GPT-5.5 更强且用更少 tokens	内部/合作基准

prompt caching 计费规则：

项目	规则
cache breakpoints	支持显式标记缓存断点
缓存存活	最短 30 分钟
cache 写入	按未缓存输入价的 1.25x 计费
cache 读取	享 90% 折扣

扩展：安全栈与发布流程细节（OpenAI 官方）

Preparedness Framework 结论：Sol 未跨越 Cyber Critical 阈值；在 Chromium/Firefox 测试中能识别 bug 与 exploit 构件，但受测条件下未自主产出可用完整链 exploit。
分层防护：① 模型内训练拒绝；② 生成时实时网络/生物滥用分类器，高风险时暂停生成并交更大推理模型复审；③ 账号级审查；④ 差异化访问；⑤ 监控与持续测试。
红队：自动化红队投入 >70 万 A100 等效 GPU 小时寻找通用越狱；另有第三方人类专家红队。
政府报备：应美国政府要求先做小范围预览，参与方已报备政府；OpenAI 称不应成为长期默认，正推进 cyber 行政令框架与可复用发布流程。
Cerebras：7 月上线 Sol，最高 750 tokens/秒，初期仅限部分客户。
注：以上 benchmark 与安全结论均为 OpenAI 厂商自报，具体分值/方法需查后续 System Card，本文不展开第三方复现。

为何重要

第一，命名换代是一次「让用户更好选档」的产品工程，背后是定价策略的重排。 把「代数」和「能力档」解耦后，OpenAI 真正想优化的是单位智能的价格梯度。三档清晰对应「要最强（Sol）/ 要够用又便宜（Terra）/ 要快又最便宜（Luna）」三种需求，开发者可以按任务把负载分流到不同档，而不是要么全用旗舰、要么全用 mini。Terra「对标上代、便宜 2 倍」这句话的潜台词是：上一代旗舰级的能力，正在变成这一代的中间档价格——这是推理成本持续下行的又一次兑现，也是 OpenAI 对竞争对手低价档的正面回应。

第二，「性能-效率前沿」是比「绝对最强」更聪明的叙事，但也更难被外部验证。 当各家旗舰在绝对能力上越来越难拉开差距，「用更少 token 做到相近结果」就成了新的竞争维度——它直接关系到客户的真实账单。Sol 在 ExploitBench 上「约 1/3 输出 tokens」与对手竞争、在 GeneBench 上「更少 tokens」超越上代，讲的都是这个故事。问题在于，效率类声明比单点 SOTA 更依赖测试设置（同样的任务、同样的 effort、同样的成功判定），而这些细节官方披露有限，外部复现门槛更高。这套叙事对 OpenAI 有利，但也最需要第三方坐实。

第三，真正的「新闻」是发布流程：监管开始直接介入前沿模型的上线节奏。 把时间线拉开看——Anthropic 在 6 月 12 日因政府要求暂停 Fable 5 / Mythos 5 访问，OpenAI 在 6 月 26 日以「应政府要求、先报备、再小范围预览」的方式放出 GPT-5.6。这不是孤例，而是一个正在成形的趋势：前沿模型的发布，正从「厂商自主决定」转向「与政府协调」。OpenAI 一边配合、一边明确表态「不认为这应成为长期默认」，并推动「可复用发布流程」——这是在为未来的发布节奏争取一个可预期的制度框架，避免每次都要单独报备。对整个行业，这意味着「能力领先」之外，「能不能、何时能上线」开始变成一个监管变量。

第四，对不同人群的影响是分化的。 对开发者，三档定价 + 新 caching 机制提供了更细的成本调节旋钮，Terra 很可能成为「默认主力档」；但 benchmark 自报、预览受限，意味着「能不能用、好不好用」短期内只能小范围验证。对企业买方，「性能-效率前沿」和价格下行是利好，但「有限预览 + 政府报备」抬高了规划的不确定性——你不知道广泛可用的确切时点。对竞争对手，Terra/Luna 的低价档是直接压力；对政策方，OpenAI 主动报备 + 推动框架，既是配合也是博弈，监管尺度仍在形成中。

早报观点

这次发布有两层值得分开看。表层是一次干净利落的产品升级：命名变清楚了、价格梯度拉开了、Terra 把上代旗舰能力压到了中间档价位、caching 计费更可控——这些都是扎实的工程进步，对开发者实打实有用。但如果只盯着这一层，会错过更重要的里层信号：GPT-5.6 是在「应美国政府要求、先报备、再小范围预览」的框架下放出来的，而这距离 Anthropic 因政府要求暂停 Fable 5/Mythos 5 才过去两周。两件事连起来，说明前沿模型的发布权正在从厂商单方面，悄悄变成厂商与政府的协调结果。 这才是这条新闻里最该被记住的部分。

但必须给足 caveat。其一，这是「有限预览」而非正式发布。「预览」「未来数周」「初期仅限部分客户」这些措辞意味着：现在能拿到的人极少，绝大多数开发者短期内连试都试不到，更谈不上把它放进生产。把它当「OpenAI 公布了方向和定价」来读是准确的，当「GPT-5.6 已经可用」来读则会高估现状。其二，benchmark 几乎全是 OpenAI 自报。Terminal-Bench 2.1 的 SOTA、ExploitBench 的「约 1/3 输出 tokens」、GeneBench 的「更少 tokens」——方向可信，但具体名次、分值、测试设置都没附第三方印证；尤其「效率前沿」类声明对测试条件极敏感，在独立复现之前，这些数字是营销与事实的混合体。其三，「便宜 2 倍」的对标口径不透明。Terra「对标上代 GPT-5.5」到底是对标哪些任务、用什么 effort、按什么成功判定，官方没逐项说清；它很可能在很多场景成立，但「等于上代旗舰」这种直觉式理解需要开发者自己用真实负载去验，别直接当结论。其四，政府报备是一把双刃剑。它一方面说明 OpenAI 在配合监管、对外姿态克制；另一方面，报备的具体内容、政府介入的法律依据与边界全是黑箱，外部无法核验审批的真实尺度——OpenAI 自己也明说「不希望这成为长期默认」，足见这套流程目前是临时、博弈中的状态，而非稳定制度。

一句话：GPT-5.6 在产品层是一次漂亮的「性价比 + 命名」升级，Terra 尤其值得期待；但它在治理层留下的问号更大——当「先报备政府」成为前沿发布的前置步骤，行业竞争的变量就不再只是「谁更强」，而多了一个「谁、在什么条件下、被允许上线」。真正的答案，要等预览之外的广泛开放、以及第三方把那些自报数字跑一遍之后，才会清楚。

接下来看什么

Terra/Luna 的性价比实测：「对标上代、便宜 2 倍」在开发者真实工作负载上能否复现——这是判断本次发布含金量的第一关，也是 Terra 能否成为「默认主力档」的关键。
benchmark 的第三方印证：Terminal-Bench 2.1 公开榜单上 Sol 的实际名次与分值，以及非 OpenAI 方对 ExploitBench/GeneBench 结果的独立复现。
广泛开放的确切时点：「未来数周」向 ChatGPT/Codex/API 开放究竟落在何时；有限预览期外，普通开发者何时能真正用上。
Cerebras 上的 Sol：750 tokens/秒在更多客户、更长上下文下能否保持，以及对应定价——这关系到「高速推理」是噱头还是可规模化的能力。
政府报备的后续：这套「先报备」流程会否成为前沿模型发布的常态，OpenAI 推动的「可复用发布流程」与 cyber 行政令框架进展如何——这是行业治理走向的风向标。
ultra 模式与 max reasoning effort 的成本账：借助 subagents 的 ultra 模式在长程任务上烧多少 token、效果是否值回 Sol 的价差，会决定它是旗舰光环还是真正常用的能力。
prompt caching 新计费的真实影响：写 1.25x / 读 90% 折扣 / 30 分钟存活，对高频长上下文应用的账单到底是省还是增，需要实际跑量验证。

Claim Audit

GPT-5.6 用 Sol/Terra/Luna 三档能力位替代旧命名，把『代数』与『能力档』解耦：数字升级代表换代，名字代表可独立迭代的档位

置信度：high

新命名能否长期稳定、用户能否快速建立心智，要看后续是否出现『同代不同档跳价/跳能力』的混乱；这是产品沟通问题，不是技术问题。

Terra 是本次最具杀伤力的一档——官方称性能对标上代 GPT-5.5，但价格便宜 2 倍

置信度：medium

『对标上代』与『便宜 2 倍』均为 OpenAI 自报，未见第三方独立复现；『对标』指哪些任务、用什么 effort 设置，官方未逐项披露，实际等效性需开发者实测。

Sol 在编码与网络安全基准上推进『性能-效率前沿』，但这些数字几乎全是 OpenAI 自测

置信度：low

Terminal-Bench 虽有公开榜单，但官方博客给出的具体名次/分值未附第三方榜单截图；ExploitBench/GeneBench/ExploitGym 多为实验室内部或合作基准，缺乏广泛复现，应当作方向性信号而非定论。

本次预览最反常的不是技术，而是流程：应美国政府要求先做小范围预览，参与方已报备政府

置信度：high

这与 6 月 Anthropic Fable 5/Mythos 5 因政府要求暂停访问构成同一趋势，但具体报备内容、政府介入的法律依据与边界均未公开，外部无法核验审批的实际尺度。

Timeline

2026-05-28

Anthropic 发布 Claude Opus 4.8 强化 agentic 能力（前沿厂商竞速背景）

2026-06-09

Anthropic 发布 Fable 5 / Mythos 5 两档模型，前沿能力进一步抬升

2026-06-12

Anthropic 就美国政府要求暂停 Fable 5 / Mythos 5 访问——监管开始直接介入前沿模型发布节奏

2026-06-26

OpenAI 发布博客『Previewing GPT-5.6 Sol』，启动 Sol/Terra/Luna 三档有限预览，先经 API 与 Codex 面向少量受信合作伙伴开放

2026-07（计划）

Sol 将在 Cerebras 上线，速度最高 750 tokens/秒，初期仅限部分客户；ChatGPT/Codex/API 更广泛开放定于『未来数周』

Sources

official · OpenAI 官方博客：Previewing GPT-5.6 Sol official · OpenAI 新闻索引 benchmark · Terminal-Bench 官方榜单页 primary · Cerebras 官方 Inference 页 official · OpenAI 平台文档：Prompt caching official · OpenAI Preparedness Framework

Watch Next

三档定价与能力是否如官方所述稳定对应——尤其 Terra『对标上代、便宜 2 倍』在开发者真实工作负载上的等效性复现
Terminal-Bench 2.1 公开榜单上 Sol 的实际名次与分值，以及第三方（非 OpenAI）对 ExploitBench/GeneBench 结果的复现
ChatGPT/Codex/API 的『未来数周』广泛开放究竟落在何时；有限预览期外的真实可用性
Cerebras 上 Sol 的 750 tokens/秒在更多客户、更长上下文下能否保持，以及定价
美国政府报备流程的后续：是否成为前沿模型发布的常态，OpenAI 推动的『可复用发布流程』与 cyber 行政令框架进展
ultra 模式（借助 subagents）与 max reasoning effort 的实际成本-收益——长程任务烧多少 token、效果是否值回价差
prompt caching 新计费（写 1.25x / 读 90% 折扣 / 30 分钟存活）对高频长上下文应用的真实账单影响