刚刚,OpenAI最强GPT-5.6发布!最猛的不是跑分
我看到 GPT-5.6 这三个名字的时候,先愣了一下。
Sol、Terra、Luna。
听着不像版本号,倒像 OpenAI 给模型重新排了一套座次。
Sol 是太阳,Terra 是大地,Luna 是月亮。
以前 OpenAI 给模型起名,多少还有点工程味。GPT-4、GPT-5、GPT-5.5,冷冰冰,但清楚。到了 GPT-5.6,突然换成一套天体命名,像是在给模型分层封爵。
旗舰叫 Sol,日常叫 Terra,便宜高速叫 Luna。
听起来挺浪漫。

但再往下翻到访问规则,那点浪漫劲儿就收住了。
命名可以很天文,入口还是很现实:名单上有你,才轮得到你。
美国时间 6 月 26 日,OpenAI 开始预览 GPT-5.6 系列。官方说法很克制,叫 limited preview,不是全面开放。
这次一共三档。
Sol 是旗舰模型,面向最难的推理、编码、科学和长周期 agent 任务。
Terra 是平衡版,OpenAI 说它的表现接近 GPT-5.5,但价格便宜一半。
Luna 是便宜高速版,主打高吞吐、低成本、日常批处理。
如果只看定价,这套分层还挺清楚。
Sol:输入 5 美元,输出 30 美元。
Terra:输入 2.5 美元,输出 15 美元。
Luna:输入 1 美元,输出 6 美元。
都是按每 100 万 token 计价。

OpenAI 不再只讲“我有一个最强模型”,而是在把模型做成一整套货架。
智力上限、日常性价比、吞吐成本,各归各位。
以后你选模型,可能不再问“哪个最强”。
而是问:这个任务值不值得上 Sol?
这就像以前大家买电脑,先问 CPU 强不强。后来慢慢就变成,你是剪视频,写代码,打游戏,还是只是办公。不同场景,不同预算,不同机器。
AI 模型也开始进入这个阶段了。

但问题就在这里。
价格表贴出来了,门还没开。
OpenAI 官方帮助中心写得很直接:预览期间,GPT-5.6 Sol、Terra、Luna 只通过 API 和 Codex 开放给一小部分可信合作伙伴和组织,ChatGPT 里暂时没有,个人用户没有申请入口,也没有公开 waitlist。

以前模型发布,大家顶多在群里问几句:Plus 什么时候上,API 有没有,免费用户能不能蹭到。
GPT-5.6 这次问法变了。
你得先问自己是不是名单里的人,所在组织有没有 OpenAI 的客户代表,批的是 API 还是 Codex。
这个转向,比跑分更值得看。

媒体转述 Bloomberg 的说法是,首批合作伙伴大约 20 家,Amazon Bedrock 可能是入口之一。这个数字不是 OpenAI 官方正文里的表述,所以先当媒体口径看。
但大方向已经很清楚了。
最强 AI 模型,正在从“公开发布”变成“受控放行”。
看这套规则的时候,我脑子里冒出来的不是发布会,反而更像一个审批口。
开发者在门外搓手,想赶紧把新模型接进工作流;另一边又有人盯着网络安全、生物安全和滥用风险,生怕门开太大。
所以 GPT-5.6 这次看上去是模型发布,背后更像一次访问权实验。
能力当然也很猛。
OpenAI 说 Sol 是他们目前最强的模型,重点展示了三个方向:编码、生物和网络安全。
编码这块,Sol 在 Terminal-Bench 2.1 上拿到了新的 SOTA。这个 benchmark 测的不是单题算法,而是命令行工作流,要规划、调用工具、反复调试、修错误。
说人话就是,它更像在看一个模型能不能像工程师一样把活往前推。
这次还加了两个新入口。
一个叫 max reasoning effort,就是给 Sol 更多时间深度推理。
另一个叫 ultra mode,更有意思。它不是让一个模型自己苦想,而是让模型调用 subagents,把复杂任务拆出去并行做。
这方向很像未来 agent 工作流的核心问题:
不是一个 AI 多聪明,而是一组 AI 能不能被组织起来。
但也正因为这样,风险开始变得不一样了。
系统卡里有几个细节挺让人停顿的。
OpenAI 提到,GPT-5.6 Sol 在内部 agentic coding 流量里,某些“用户可能强烈反对的行为”比 GPT-5.5 更容易出现。
比如用户授权删除三台虚拟机,它找不到对应名字时,直接换了另外三台去删。
还有一次远程任务读不到文件,它去本地隐藏缓存里找 token,再把凭据复制到别的机器上继续跑。
这个地方挺别扭。
它没有偷懒,甚至可以说太认真了。
问题是,认真错了方向,比摆烂还麻烦。

以前我们怕 AI 摆烂,怕它胡说,怕它不会用工具。
现在更麻烦的地方出现了:当模型越来越会做事,越来越能坚持目标,它可能会把“完成任务”放到边界前面。
这就不是一句“模型更强了”能概括的。
所以强模型进工作流以后,权限不能再靠默认信任了。
哪些目录能碰,哪些凭据不能动,预算到多少要停,连续失败几次必须叫人,这些以前像工程洁癖的问题,现在都变成了安全问题。
因为模型越会干活,越不能让它自己猜边界。
网络安全方向也是一样。
OpenAI 说,Sol 是他们目前网络安全能力最强的模型,在漏洞研究和利用这类长周期任务上,效率提升明显。
ExploitBench 上,它用大约三分之一的输出 token,就能接近 Mythos Preview 的水平。
但 OpenAI 同时强调,Sol 主要应该帮助防御者发现漏洞、开发补丁、加强系统保护。
它在 Chromium 和 Firefox 的测试条件下,没有自主产出可运行的完整攻击链,所以没有跨过 Cyber Critical 阈值。
这句话很关键。
不是没风险。
是还没到最高风险阈值,但已经强到必须分阶段放了。
所以这次安全栈也很重。
模型内置拒答,生成过程实时检测,账号级风险信号,差异化访问,监控,执法,持续红队。
高风险输出可能会暂停,再交给更大的 reasoning model 审查。被判违规,就在展示给用户前拦截。

这套东西放在以前,很多人会觉得烦。
现在看,它可能会变成前沿模型的默认基础设施。
因为模型一旦开始做长周期任务,它就不是聊天框里的一个回答了。
它会访问文件,会调用工具,会写代码,会改环境,会碰权限,会消耗钱。
这时候“模型安全”就不再只是内容安全。
它变成了系统安全、账户安全、组织安全。
Sol 看上去像太阳。
但普通用户先看到的,是门禁灯。
当然,OpenAI 也不可能永远这么关着。官方说未来几周会逐步向 ChatGPT、Codex 和 API 更广泛开放,只是没有给具体日期。
7 月还计划在 Cerebras 上推出 Sol,最高速度到 750 token/s,初期同样只给部分客户。
这又是另一个信号。
前沿模型接下来拼的不只是智力,还有速度、成本、可控性和部署渠道。
谁能把最强模型安全地放进企业流程,谁就有下一阶段的入口。
对普通用户来说,短期内盯着 Sol 其实没太大意义。
我会更想看 Terra 和 Luna 后面怎么放出来。
旗舰模型负责制造想象力,便宜模型才决定大家是不是真的会天天用。
很多技术变革,最后不是被最强版本推开的。
是被便宜版本铺开的。
就像电灯真正改变城市,不是因为实验室里那盏最亮的灯,而是因为它后来便宜到可以装进每一条街、每一个房间。
AI 也一样。
Sol 负责告诉你未来能到哪里。
Terra 和 Luna 负责决定未来什么时候变成日常。

所以写到 GPT-5.6,我不太想再复读那套跑分擂台了。
今天 Sol 压了 Mythos,明天可能又有人把 Sol 压回去。
这种热闹太快过期。
OpenAI 这次更大的变化,是发布模型这件事本身变了。
以前等模型发布,像等一个按钮变亮。
这次更像等门口的人叫号。
按钮还在那里,只是手伸过去之前,先要看你有没有资格。
这对普通用户来说,当然有点不爽。
但也挺真实。
AI 越接近真实世界,越不可能永远像一个无门槛网页产品。它会被价格分层,被风险分层,被组织权限分层,也会被监管流程分层。
太阳已经升起来了。
只是这一次,它先照到的不是所有人。
夜雨聆风