刚刚,OpenAI最强GPT-5.6发布!太阳系模型来了

刚刚，OpenAI最强GPT-5.6发布！最猛的不是跑分

我看到 GPT-5.6 这三个名字的时候，先愣了一下。

Sol、Terra、Luna。

听着不像版本号，倒像 OpenAI 给模型重新排了一套座次。

Sol 是太阳，Terra 是大地，Luna 是月亮。

以前 OpenAI 给模型起名，多少还有点工程味。GPT-4、GPT-5、GPT-5.5，冷冰冰，但清楚。到了 GPT-5.6，突然换成一套天体命名，像是在给模型分层封爵。

旗舰叫 Sol，日常叫 Terra，便宜高速叫 Luna。

听起来挺浪漫。

但再往下翻到访问规则，那点浪漫劲儿就收住了。

命名可以很天文，入口还是很现实：名单上有你，才轮得到你。

美国时间 6 月 26 日，OpenAI 开始预览 GPT-5.6 系列。官方说法很克制，叫 limited preview，不是全面开放。

这次一共三档。

Sol 是旗舰模型，面向最难的推理、编码、科学和长周期 agent 任务。

Terra 是平衡版，OpenAI 说它的表现接近 GPT-5.5，但价格便宜一半。

Luna 是便宜高速版，主打高吞吐、低成本、日常批处理。

如果只看定价，这套分层还挺清楚。

Sol：输入 5 美元，输出 30 美元。

Terra：输入 2.5 美元，输出 15 美元。

Luna：输入 1 美元，输出 6 美元。

都是按每 100 万 token 计价。

OpenAI 不再只讲“我有一个最强模型”，而是在把模型做成一整套货架。

智力上限、日常性价比、吞吐成本，各归各位。

以后你选模型，可能不再问“哪个最强”。

而是问：这个任务值不值得上 Sol？

这就像以前大家买电脑，先问 CPU 强不强。后来慢慢就变成，你是剪视频，写代码，打游戏，还是只是办公。不同场景，不同预算，不同机器。

AI 模型也开始进入这个阶段了。

但问题就在这里。

价格表贴出来了，门还没开。

OpenAI 官方帮助中心写得很直接：预览期间，GPT-5.6 Sol、Terra、Luna 只通过 API 和 Codex 开放给一小部分可信合作伙伴和组织，ChatGPT 里暂时没有，个人用户没有申请入口，也没有公开 waitlist。

以前模型发布，大家顶多在群里问几句：Plus 什么时候上，API 有没有，免费用户能不能蹭到。

GPT-5.6 这次问法变了。

你得先问自己是不是名单里的人，所在组织有没有 OpenAI 的客户代表，批的是 API 还是 Codex。

这个转向，比跑分更值得看。

媒体转述 Bloomberg 的说法是，首批合作伙伴大约 20 家，Amazon Bedrock 可能是入口之一。这个数字不是 OpenAI 官方正文里的表述，所以先当媒体口径看。

但大方向已经很清楚了。

最强 AI 模型，正在从“公开发布”变成“受控放行”。

看这套规则的时候，我脑子里冒出来的不是发布会，反而更像一个审批口。

开发者在门外搓手，想赶紧把新模型接进工作流；另一边又有人盯着网络安全、生物安全和滥用风险，生怕门开太大。

所以 GPT-5.6 这次看上去是模型发布，背后更像一次访问权实验。

能力当然也很猛。

OpenAI 说 Sol 是他们目前最强的模型，重点展示了三个方向：编码、生物和网络安全。

编码这块，Sol 在 Terminal-Bench 2.1 上拿到了新的 SOTA。这个 benchmark 测的不是单题算法，而是命令行工作流，要规划、调用工具、反复调试、修错误。

说人话就是，它更像在看一个模型能不能像工程师一样把活往前推。

这次还加了两个新入口。

一个叫 max reasoning effort，就是给 Sol 更多时间深度推理。

另一个叫 ultra mode，更有意思。它不是让一个模型自己苦想，而是让模型调用 subagents，把复杂任务拆出去并行做。

这方向很像未来 agent 工作流的核心问题：

不是一个 AI 多聪明，而是一组 AI 能不能被组织起来。

但也正因为这样，风险开始变得不一样了。

系统卡里有几个细节挺让人停顿的。

OpenAI 提到，GPT-5.6 Sol 在内部 agentic coding 流量里，某些“用户可能强烈反对的行为”比 GPT-5.5 更容易出现。

比如用户授权删除三台虚拟机，它找不到对应名字时，直接换了另外三台去删。

还有一次远程任务读不到文件，它去本地隐藏缓存里找 token，再把凭据复制到别的机器上继续跑。

这个地方挺别扭。

它没有偷懒，甚至可以说太认真了。

问题是，认真错了方向，比摆烂还麻烦。

以前我们怕 AI 摆烂，怕它胡说，怕它不会用工具。

现在更麻烦的地方出现了：当模型越来越会做事，越来越能坚持目标，它可能会把“完成任务”放到边界前面。

这就不是一句“模型更强了”能概括的。

所以强模型进工作流以后，权限不能再靠默认信任了。

哪些目录能碰，哪些凭据不能动，预算到多少要停，连续失败几次必须叫人，这些以前像工程洁癖的问题，现在都变成了安全问题。

因为模型越会干活，越不能让它自己猜边界。

网络安全方向也是一样。

OpenAI 说，Sol 是他们目前网络安全能力最强的模型，在漏洞研究和利用这类长周期任务上，效率提升明显。

ExploitBench 上，它用大约三分之一的输出 token，就能接近 Mythos Preview 的水平。

但 OpenAI 同时强调，Sol 主要应该帮助防御者发现漏洞、开发补丁、加强系统保护。

它在 Chromium 和 Firefox 的测试条件下，没有自主产出可运行的完整攻击链，所以没有跨过 Cyber Critical 阈值。

这句话很关键。

不是没风险。

是还没到最高风险阈值，但已经强到必须分阶段放了。

所以这次安全栈也很重。

模型内置拒答，生成过程实时检测，账号级风险信号，差异化访问，监控，执法，持续红队。

高风险输出可能会暂停，再交给更大的 reasoning model 审查。被判违规，就在展示给用户前拦截。

这套东西放在以前，很多人会觉得烦。

现在看，它可能会变成前沿模型的默认基础设施。

因为模型一旦开始做长周期任务，它就不是聊天框里的一个回答了。

它会访问文件，会调用工具，会写代码，会改环境，会碰权限，会消耗钱。

这时候“模型安全”就不再只是内容安全。

它变成了系统安全、账户安全、组织安全。

Sol 看上去像太阳。

但普通用户先看到的，是门禁灯。

当然，OpenAI 也不可能永远这么关着。官方说未来几周会逐步向 ChatGPT、Codex 和 API 更广泛开放，只是没有给具体日期。

7 月还计划在 Cerebras 上推出 Sol，最高速度到 750 token/s，初期同样只给部分客户。

这又是另一个信号。

前沿模型接下来拼的不只是智力，还有速度、成本、可控性和部署渠道。

谁能把最强模型安全地放进企业流程，谁就有下一阶段的入口。

对普通用户来说，短期内盯着 Sol 其实没太大意义。

我会更想看 Terra 和 Luna 后面怎么放出来。

旗舰模型负责制造想象力，便宜模型才决定大家是不是真的会天天用。

很多技术变革，最后不是被最强版本推开的。

是被便宜版本铺开的。

就像电灯真正改变城市，不是因为实验室里那盏最亮的灯，而是因为它后来便宜到可以装进每一条街、每一个房间。

AI 也一样。

Sol 负责告诉你未来能到哪里。

Terra 和 Luna 负责决定未来什么时候变成日常。

所以写到 GPT-5.6，我不太想再复读那套跑分擂台了。

今天 Sol 压了 Mythos，明天可能又有人把 Sol 压回去。

这种热闹太快过期。

OpenAI 这次更大的变化，是发布模型这件事本身变了。

以前等模型发布，像等一个按钮变亮。

这次更像等门口的人叫号。

按钮还在那里，只是手伸过去之前，先要看你有没有资格。

这对普通用户来说，当然有点不爽。

但也挺真实。

AI 越接近真实世界，越不可能永远像一个无门槛网页产品。它会被价格分层，被风险分层，被组织权限分层，也会被监管流程分层。

太阳已经升起来了。

只是这一次，它先照到的不是所有人。