安全卡页面点开的一瞬间,最先跳出来的是三个名字:Sol、Terra、Luna。benchmark 图还在后面,第一屏已经先把产品线摆出来了。
这一次,OpenAI 没有只给 GPT-5.6 后面再接一个熟悉的版本号。它在 Deployment Safety Hub 上发布的《GPT-5.6 Preview System Card》里,把 GPT-5.6 写成一个三档模型家族:Sol 是旗舰,Terra 是更低成本的能力档,Luna 是速度最快、成本最省的一档。
对每天盯着 API 名称、模型选择器和账单页的人来说,这个变化很有信号感。以后你选的可能不再只是“5.6”,而是“5.6 里的哪一档”。

三个名字,其实是三种账单心态
OpenAI 在安全卡开头的描述很直接:GPT-5.6 是由 Sol、Terra、Luna 组成的新模型家族。
Sol 被称为新的旗舰模型。它承担最高能力预期,尤其会被拿去看复杂编码、网络安全、生物与化学相关任务,以及更长链路的 Agent 工作。
Terra 的定位更像日常主力档:能力足够强,成本更低。很多团队真正会反复纠结的,往往就是这一档。产品经理不会天天让最贵模型跑所有请求,开发者也会盯着延迟、token、失败率和月末账单。
Luna 则被写成最快、成本效率最高的模型。它面向的场景更清楚:大量请求、轻任务、客服草稿、批量改写、简单代码辅助、摘要和分类。一次调用便宜一点,乘上几百万次请求,账单差距就会变得很刺眼。
这套命名最像手机产品线:旗舰、主力、轻量。用户不需要每次重新理解一串模型代号,开发者也更容易在配置文件里解释:“这里用 Luna,那里换 Terra,关键任务再上 Sol。”
发布节奏先收紧:小范围预览,再等更大开放
安全卡写明,OpenAI 计划在未来几周让 GPT-5.6 Sol、Terra、Luna 更广泛可用。但在当前阶段,它先从一小组可信合作伙伴开始有限预览,相关参与方已与美国政府共享。
这也是这次消息最容易引发讨论的地方。
Hacker News 在 6 月 26 日收录了 OpenAI 官方介绍页,标题为“Previewing GPT‑5.6 Sol: a next-generation model”,截至我核验时有 1105 points、722 条评论。另一个直接指向安全卡的条目在 6 月 26 日发布,6 月 27 日又出现一次收录。社区关注点很集中:谁能先用、政府审核会怎样影响模型发布、企业客户会不会比普通用户更早拿到能力。
The Verge 早一天报道称,美国政府会按客户逐案批准预览访问。Decrypt、The Hacker News 和 9to5Mac 后续也都围绕“有限预览”“美国政府要求”“未来几周扩大开放”这条线做了报道。
这意味着,GPT-5.6 现在更像是站在门口:名字、分层、安全卡都已经摆出来了,普通用户和大多数开发者还没真正把它放进自己的工作流。
安全卡里最硬的一段,是网络安全与生物化学风险
OpenAI 在系统卡里给 Sol、Terra、Luna 的风险评级很高:三者在 Cybersecurity、Biological and Chemical 两个类别里都被作为 High capability 处理;在 AI Self-Improvement 上,没有达到 High 阈值。
这个细节值得放大看。
OpenAI 还写到,这是它第一次让模型家族里更小、更快的成员也拿到某个跟踪类别的 High capability designation。换句话说,风险管理不只盯旗舰 Sol,Terra 和 Luna 也进入了同一套更严的安全框架。
安全卡里提到,GPT-5.6 Sol 和 Terra 能找到漏洞和部分 exploit 组件,但在网络安全测试中,还不能针对加固目标完成自主、端到端攻击。OpenAI 同时承认,在 Agentic coding 任务的相关评估里,GPT-5.6 比 GPT-5.5 更容易出现“超出用户意图”的行为,包括尝试执行用户没有要求的动作,不过绝对比例仍然较低。
这一段很适合开发者记下来。更强的模型会更主动,也会更有坚持劲。放进代码仓库、CI、远程环境和自动化脚本时,权限、确认弹窗、沙箱和审计日志会变得更重要。
700,000

A100e GPU 小时,花在找越狱上
OpenAI 在安全卡里写了一个很具体的数字:超过 700,000 A100e GPU hours,被用于自动寻找 universal jailbreaks。
这个数字放在普通读者眼里可能有点抽象。换成工作现场,就是一大堆算力被投入到“怎样把模型绕开、怎样让防线失效、怎样在长对话和工具调用里诱导模型出错”的压力测试里。
GPT-5.6 的安全栈也被写得更复杂:模型本身经过安全训练;Sol 和 Terra 会配合新的 activation classifiers,在敏感领域监控生成过程并中途介入;部分对话会被扫描,越界输出会被实时阻断;系统还会跨对话寻找单次聊天里看不出来的异常模式。
这不是“发布前跑几套测试题”那么简单。OpenAI 正在把前沿模型发布做成一套持续运行的风控系统。

Sol 的强项会先被安全圈、代码圈盯上
The Hacker News 的报道把重点放在网络安全能力上:Sol 是最强的一档,Terra 在效率和能力之间取平衡,Luna 更偏速度和成本。报道还提到,OpenAI 将 GPT-5.6 Sol 描述为面向网络安全任务最有能力的模型之一,并强调防守用途。
OpenAI 安全卡里也列出了外部评估。Irregular 对 GPT-5.6 Sol 做了三组进攻型网络安全评估:FrontierCyber、CyScenarioBench 和 Atomic Challenges。结果显示,Sol 在 FrontierCyber 中完成 19/197 个挑战,在 CyScenarioBench 中完成 7/11 个长链路挑战,并完成全部 22 个中高难度 Atomic challenges。OpenAI 对这部分的表述是:GPT-5.6 Sol 的 offensive-cyber capability 与 GPT-5.5 大致持平或略强。

METR 也在 6 月 26 日发布了 GPT-5.6 Sol 的预部署评估摘要。它的出现让这次发布多了一层外部评估语境:模型能力越接近真实任务,评估就越不能只靠官方漂亮图表,还要看独立机构怎样拆任务、怎样测风险。
价格和入口,现在还缺一块拼图
9to5Mac 的文章提到 GPT-5.6 会升级 ChatGPT 和 Codex,并把三档模型与 intelligence、speed、cost 的选择联系起来。但截至这篇稿子写作时,我没有在 OpenAI 安全卡里看到面向普通用户的完整价格表,也没有看到所有账号都能直接选择 GPT-5.6 的公开入口说明。
这会让很多人暂时停在“知道它来了,但还不能马上用”的状态。
企业客户会关心预览资格。开发者会等模型 ID、API 价格、上下文窗口、速率限制、工具调用支持和 Codex 里的实际表现。普通 ChatGPT 用户更在意一个简单问题:模型选择器里什么时候出现 Sol、Terra、Luna,Plus、Pro、Team、Enterprise 分别能用哪一档。
这几个答案还没完全落地,GPT-5.6 的热度就会先在社区和媒体里发酵。
OpenAI 正在把“一个模型”拆成“一个货架”
GPT-5.6 最值得看的地方,不只是 Sol 有多强。更关键的动作,是 OpenAI 把新一代模型摆成了清晰的三档货架。
旗舰 Sol 负责能力上限,Terra 负责日常性价比,Luna 负责速度和成本。安全发布则从“直接全量上线”变成有限预览、可信伙伴、外部评估、安全卡、持续红队测试一起推进。
这对用户并不全是轻松消息。模型名字更好懂了,选择也更多了;同时,账单、权限、合规和可用性会一起进来。以后团队里争论的可能会变成:某个按钮、某条流水线、某个 Agent,到底该挂 Sol、Terra,还是 Luna。
如果你现在想追这件事,先看 OpenAI Deployment Safety Hub 那张安全卡就够了。那里已经把三档命名、预览节奏、主要风险和安全措施写得很清楚。至于真正的使用体验,还得等模型入口、价格和更多开发者实测补齐。
夜雨聆风