6 月 26 日,OpenAI 发布新一代模型 GPT-5.6,一次性推出三个固定档位:旗舰 Sol、均衡 Terra、低价 Luna。Sol 新增 max 与 ultra 两种推理模式,其中 Sol Ultra 在 Terminal-Bench 2.1 命令行编程基准上拿到 91.9%,领先 Claude Mythos 5(88%)与 Gemini 3.1 Pro Preview(70.7%)。但本次发布最受关注的不是模型本身,而是发布方式——应美国政府要求,GPT-5.6 仅向约 20 家经政府审批的合作伙伴有限预览,普通开发者与 ChatGPT 用户暂不可用。
发生了什么
GPT-5.6 启用了新的命名规则:数字代表代际,Sol / Terra / Luna 代表三个固定能力档位,灵感取自太阳、地球、月亮。Sol 是最强旗舰;Terra 性能接近上一代 GPT-5.5,但价格砍半,定位日常开发;Luna 主打便宜快速,面向高吞吐场景。
Sol 这次新增两种模式:
- max 模式:让模型花更长时间做深度推理;
- ultra 模式:调用多个子 agent 并行处理复杂任务,相当于让模型自己拆分工作、分配给一组 AI 执行再汇总。
在 OpenAI 公布的 Terminal-Bench 2.1(测试命令行工作流的编程基准)上,Sol Ultra 91.9%、Sol 88.8%,Claude Mythos 5 为 88%,Google Gemini 3.1 Pro Preview 为 70.7%。网络安全方面,Sol 在 ExploitBench 上用约三分之一的 token 就达到了 Mythos Preview 的水平。
API 定价(每百万 token,输入/输出):
| 档位 | 输入 | 输出 |
|---|---|---|
| Sol | 5 美元 | 30 美元 |
| Terra | 2.5 美元 | 15 美元 |
| Luna | 1 美元 | 6 美元 |
7 月还将上线 Cerebras 硬件加速版本,推理速度可达每秒 750 个 token。
安全是这次发布的大篇幅主题。OpenAI 称投入超过 70 万 A100 等效 GPU 小时做自动化红队测试,专门寻找能跨场景通用的越狱攻击;模型内置拒绝机制,实时分类器在生成过程中检测网络安全与生物领域的滥用,可疑输出会被暂停并交由更大的推理模型复审。按 OpenAI 自有的准备度框架评估,Sol 的网络安全能力被定级为”高”,但未达”关键”——它能找到浏览器漏洞和利用原语(构建攻击的基础组件),但在测试条件下无法自主完成完整攻击链。OpenAI 把这解读为积极信号:模型更擅长帮防守方找洞、修补,而非帮攻击方搞破坏。
为何重要
第一,发布方式本身就是信号。 前沿模型首次以”政府审批 + 名单制”的方式亮相。过去 OpenAI 发新模型,开发者当天就能调 API、ChatGPT 用户当周就能在产品里用上;这次变成约 20 家审批合作伙伴的”特权预览”,其余人排队等几周,ChatGPT 用户更是没有明确时间表。据 Axios 报道,下周会新增更多客户。无论初衷是安全合规还是政治博弈,结果都一样:前沿能力的获取被加了一道政府门槛。
第二,三档定价直接下压中端市场。 Terra 性能逼近 GPT-5.5、价格腰斩,对跑大量推理的团队是真金白银的节省;Luna 把每百万 token 拉到 1/6 美元档,瞄准高吞吐场景。这意味着上一代旗舰能力正在快速贬值成”白菜价日用品”,中端 API 市场的价格战会进一步加剧。
第三,ultra 模式把”AI 管理 AI”摆上台面。 让模型自己拆解、分配、汇总多步骤任务,开发者不必再手搭 agent 编排框架——这与 Anthropic 在 Claude 上推 agent 能力、Cursor 在 IDE 里做 background agent 是同一个方向,都在抢占”AI 自己调度 AI”的位置。谁先把多 agent 协作做成稳定默认能力,谁就拿住下一层开发范式。
这次发布真正的分水岭不在基准分数,而在”名单制预览”本身。GPT-5.6 Sol 把 Terminal-Bench 推到 91.9%、能找浏览器漏洞和利用原语,模型确实在变强;但当一个前沿模型要由政府点名约 20 家伙伴才能用,行业讨论的重心就已经从”谁更强”滑向”谁能用”。这未必是坏事——能找洞的模型优先供给防守方,逻辑上说得通;但代价是前沿能力短期内的获取不平等被制度化了,被选中的伙伴获得一段难以复制的先发窗口,而开源生态和普通开发者只能在墙外等。
更值得警惕的是先例。如果”政府审批”从这次特例变成前沿发布的常规关卡,受益最大的是已有合规通道的头部厂商,受损的是模型民主化的叙事。OpenAI 把 Sol 的网络能力定级为”高而非关键”并主动说”更利于防守”,是一种聪明的自我定调——既回应了监管焦虑,又把双刃剑包装成了盾牌。但这个判断是否成立,预览期之外还要靠真实攻防来证伪。我的判断是:基准分会被很快追平,而”谁有资格用最强模型”这道门槛,才是这一轮真正会被记住的改变。
接下来看什么
- 开放节奏:盯 OpenAI 几周内的扩名单动作,以及 ChatGPT 用户何时能用上 Sol——这是判断”名单制”是过渡还是常态的关键。
- Ultra 模式的真实稳定性:预览期看合作伙伴反馈,多 agent 并行是否真能稳定收口复杂任务,还是只在基准题上漂亮。
- 安全定级的市场检验:Sol 网络安全”高而非关键”的判断,在真实攻防中是否成立——预览期就是验证窗口。
- Cerebras 加速版落地:7 月每秒 750 token 的推理速度能否兑现,会改变实时交互类应用的体验基线。