GPT-5.6 三档齐发：Sol/Terra/Luna 有限预览

6 月 26 日，OpenAI 发布新一代模型 GPT-5.6，一次性推出三个固定档位：旗舰 Sol、均衡 Terra、低价 Luna。Sol 新增 max 与 ultra 两种推理模式，其中 Sol Ultra 在 Terminal-Bench 2.1 命令行编程基准上拿到 91.9%，领先 Claude Mythos 5（88%）与 Gemini 3.1 Pro Preview（70.7%）。但本次发布最受关注的不是模型本身，而是发布方式——应美国政府要求，GPT-5.6 仅向约 20 家经政府审批的合作伙伴有限预览，普通开发者与 ChatGPT 用户暂不可用。

发生了什么

GPT-5.6 启用了新的命名规则：数字代表代际，Sol / Terra / Luna 代表三个固定能力档位，灵感取自太阳、地球、月亮。Sol 是最强旗舰；Terra 性能接近上一代 GPT-5.5，但价格砍半，定位日常开发；Luna 主打便宜快速，面向高吞吐场景。

Sol 这次新增两种模式：

max 模式：让模型花更长时间做深度推理；
ultra 模式：调用多个子 agent 并行处理复杂任务，相当于让模型自己拆分工作、分配给一组 AI 执行再汇总。

在 OpenAI 公布的 Terminal-Bench 2.1（测试命令行工作流的编程基准）上，Sol Ultra 91.9%、Sol 88.8%，Claude Mythos 5 为 88%，Google Gemini 3.1 Pro Preview 为 70.7%。网络安全方面，Sol 在 ExploitBench 上用约三分之一的 token 就达到了 Mythos Preview 的水平。

API 定价（每百万 token，输入/输出）：

档位	输入	输出
Sol	5 美元	30 美元
Terra	2.5 美元	15 美元
Luna	1 美元	6 美元

7 月还将上线 Cerebras 硬件加速版本，推理速度可达每秒 750 个 token。

安全是这次发布的大篇幅主题。OpenAI 称投入超过 70 万 A100 等效 GPU 小时做自动化红队测试，专门寻找能跨场景通用的越狱攻击；模型内置拒绝机制，实时分类器在生成过程中检测网络安全与生物领域的滥用，可疑输出会被暂停并交由更大的推理模型复审。按 OpenAI 自有的准备度框架评估，Sol 的网络安全能力被定级为”高”，但未达”关键”——它能找到浏览器漏洞和利用原语（构建攻击的基础组件），但在测试条件下无法自主完成完整攻击链。OpenAI 把这解读为积极信号：模型更擅长帮防守方找洞、修补，而非帮攻击方搞破坏。

为何重要

第一，发布方式本身就是信号。 前沿模型首次以”政府审批 + 名单制”的方式亮相。过去 OpenAI 发新模型，开发者当天就能调 API、ChatGPT 用户当周就能在产品里用上；这次变成约 20 家审批合作伙伴的”特权预览”，其余人排队等几周，ChatGPT 用户更是没有明确时间表。据 Axios 报道，下周会新增更多客户。无论初衷是安全合规还是政治博弈，结果都一样：前沿能力的获取被加了一道政府门槛。

第二，三档定价直接下压中端市场。 Terra 性能逼近 GPT-5.5、价格腰斩，对跑大量推理的团队是真金白银的节省；Luna 把每百万 token 拉到 1/6 美元档，瞄准高吞吐场景。这意味着上一代旗舰能力正在快速贬值成”白菜价日用品”，中端 API 市场的价格战会进一步加剧。

第三，ultra 模式把”AI 管理 AI”摆上台面。 让模型自己拆解、分配、汇总多步骤任务，开发者不必再手搭 agent 编排框架——这与 Anthropic 在 Claude 上推 agent 能力、Cursor 在 IDE 里做 background agent 是同一个方向，都在抢占”AI 自己调度 AI”的位置。谁先把多 agent 协作做成稳定默认能力，谁就拿住下一层开发范式。

日报观点

这次发布真正的分水岭不在基准分数，而在”名单制预览”本身。GPT-5.6 Sol 把 Terminal-Bench 推到 91.9%、能找浏览器漏洞和利用原语，模型确实在变强；但当一个前沿模型要由政府点名约 20 家伙伴才能用，行业讨论的重心就已经从”谁更强”滑向”谁能用”。这未必是坏事——能找洞的模型优先供给防守方，逻辑上说得通；但代价是前沿能力短期内的获取不平等被制度化了，被选中的伙伴获得一段难以复制的先发窗口，而开源生态和普通开发者只能在墙外等。

更值得警惕的是先例。如果”政府审批”从这次特例变成前沿发布的常规关卡，受益最大的是已有合规通道的头部厂商，受损的是模型民主化的叙事。OpenAI 把 Sol 的网络能力定级为”高而非关键”并主动说”更利于防守”，是一种聪明的自我定调——既回应了监管焦虑，又把双刃剑包装成了盾牌。但这个判断是否成立，预览期之外还要靠真实攻防来证伪。我的判断是：基准分会被很快追平，而”谁有资格用最强模型”这道门槛，才是这一轮真正会被记住的改变。

接下来看什么

开放节奏：盯 OpenAI 几周内的扩名单动作，以及 ChatGPT 用户何时能用上 Sol——这是判断”名单制”是过渡还是常态的关键。
Ultra 模式的真实稳定性：预览期看合作伙伴反馈，多 agent 并行是否真能稳定收口复杂任务，还是只在基准题上漂亮。
安全定级的市场检验：Sol 网络安全”高而非关键”的判断，在真实攻防中是否成立——预览期就是验证窗口。
Cerebras 加速版落地：7 月每秒 750 token 的推理速度能否兑现，会改变实时交互类应用的体验基线。