AI 日报
头条

GPT-5.6 三档齐发:Sol/Terra/Luna 有限预览

OpenAI 发布 GPT-5.6 系列,分旗舰 Sol、均衡 Terra、低价 Luna 三档,Sol 新增 max/ultra 推理模式,Ultra 在 Terminal-Bench 2.1 达 91.9%;应美国政府要求仅向约 20 家审批合作伙伴有限预览,普通开发者与 ChatGPT 用户暂不可用。

2026年6月26日 · 周五 · 深度调研

6 月 26 日,OpenAI 发布新一代模型 GPT-5.6,一次性推出三个固定档位:旗舰 Sol、均衡 Terra、低价 Luna。Sol 新增 max 与 ultra 两种推理模式,其中 Sol Ultra 在 Terminal-Bench 2.1 命令行编程基准上拿到 91.9%,领先 Claude Mythos 5(88%)与 Gemini 3.1 Pro Preview(70.7%)。但本次发布最受关注的不是模型本身,而是发布方式——应美国政府要求,GPT-5.6 仅向约 20 家经政府审批的合作伙伴有限预览,普通开发者与 ChatGPT 用户暂不可用

发生了什么

GPT-5.6 启用了新的命名规则:数字代表代际,Sol / Terra / Luna 代表三个固定能力档位,灵感取自太阳、地球、月亮。Sol 是最强旗舰;Terra 性能接近上一代 GPT-5.5,但价格砍半,定位日常开发;Luna 主打便宜快速,面向高吞吐场景。

Sol 这次新增两种模式:

在 OpenAI 公布的 Terminal-Bench 2.1(测试命令行工作流的编程基准)上,Sol Ultra 91.9%、Sol 88.8%,Claude Mythos 5 为 88%,Google Gemini 3.1 Pro Preview 为 70.7%。网络安全方面,Sol 在 ExploitBench 上用约三分之一的 token 就达到了 Mythos Preview 的水平。

API 定价(每百万 token,输入/输出):

档位输入输出
Sol5 美元30 美元
Terra2.5 美元15 美元
Luna1 美元6 美元

7 月还将上线 Cerebras 硬件加速版本,推理速度可达每秒 750 个 token。

安全是这次发布的大篇幅主题。OpenAI 称投入超过 70 万 A100 等效 GPU 小时做自动化红队测试,专门寻找能跨场景通用的越狱攻击;模型内置拒绝机制,实时分类器在生成过程中检测网络安全与生物领域的滥用,可疑输出会被暂停并交由更大的推理模型复审。按 OpenAI 自有的准备度框架评估,Sol 的网络安全能力被定级为”高”,但未达”关键”——它能找到浏览器漏洞和利用原语(构建攻击的基础组件),但在测试条件下无法自主完成完整攻击链。OpenAI 把这解读为积极信号:模型更擅长帮防守方找洞、修补,而非帮攻击方搞破坏。

为何重要

第一,发布方式本身就是信号。 前沿模型首次以”政府审批 + 名单制”的方式亮相。过去 OpenAI 发新模型,开发者当天就能调 API、ChatGPT 用户当周就能在产品里用上;这次变成约 20 家审批合作伙伴的”特权预览”,其余人排队等几周,ChatGPT 用户更是没有明确时间表。据 Axios 报道,下周会新增更多客户。无论初衷是安全合规还是政治博弈,结果都一样:前沿能力的获取被加了一道政府门槛。

第二,三档定价直接下压中端市场。 Terra 性能逼近 GPT-5.5、价格腰斩,对跑大量推理的团队是真金白银的节省;Luna 把每百万 token 拉到 1/6 美元档,瞄准高吞吐场景。这意味着上一代旗舰能力正在快速贬值成”白菜价日用品”,中端 API 市场的价格战会进一步加剧。

第三,ultra 模式把”AI 管理 AI”摆上台面。 让模型自己拆解、分配、汇总多步骤任务,开发者不必再手搭 agent 编排框架——这与 Anthropic 在 Claude 上推 agent 能力、Cursor 在 IDE 里做 background agent 是同一个方向,都在抢占”AI 自己调度 AI”的位置。谁先把多 agent 协作做成稳定默认能力,谁就拿住下一层开发范式。

日报观点

这次发布真正的分水岭不在基准分数,而在”名单制预览”本身。GPT-5.6 Sol 把 Terminal-Bench 推到 91.9%、能找浏览器漏洞和利用原语,模型确实在变强;但当一个前沿模型要由政府点名约 20 家伙伴才能用,行业讨论的重心就已经从”谁更强”滑向”谁能用”。这未必是坏事——能找洞的模型优先供给防守方,逻辑上说得通;但代价是前沿能力短期内的获取不平等被制度化了,被选中的伙伴获得一段难以复制的先发窗口,而开源生态和普通开发者只能在墙外等。

更值得警惕的是先例。如果”政府审批”从这次特例变成前沿发布的常规关卡,受益最大的是已有合规通道的头部厂商,受损的是模型民主化的叙事。OpenAI 把 Sol 的网络能力定级为”高而非关键”并主动说”更利于防守”,是一种聪明的自我定调——既回应了监管焦虑,又把双刃剑包装成了盾牌。但这个判断是否成立,预览期之外还要靠真实攻防来证伪。我的判断是:基准分会被很快追平,而”谁有资格用最强模型”这道门槛,才是这一轮真正会被记住的改变。

接下来看什么

一手来源