约2800字,建议阅读7分钟
GPT系列过去三年的套路大家都熟:参数再大一点,数据再多一点,算力再猛一点。每次升级都是这个配方。
4月14日不一样了。
代号"Spud(土豆)"的GPT-6全球发布。OpenAI为它砍掉Sora,终止和迪士尼10亿美元的合作,产品部门改名"AGI部署部"。全公司梭哈。
Altman在东京提过一嘴:"GPT-5和GPT-6大量用强化学习,目标是发现新的科学规律,不只是回答问题。"当时没人在意,现在回看,他其实已经把牌亮了。
旧路走到头了
GPT-5.4很好用,但越用越觉得哪里不对。
你让它看图说话,它经常翻车,因为图像能力是后接上去的,跟文本理解走的不是一套东西。你让它推理个稍微复杂的问题,回答洋洋洒洒一大篇,逻辑全是破绽——它只有快思考,没有慢思考。你今天跟它聊过的事,明天它全忘了,每次对话都是陌生人。
这三个问题不是小修小补能解决的,得从架构层面动刀。
GPT-6的思路:多模态不应该是拼盘,推理不应该是单车道。就像交响乐不是各奏各的,得有人指挥。
Symphony架构
原生多模态
这是最大的变化。文本、图像、音频、视频从第一天就在同一个向量空间里设计的。模型看到一张图和读到一段文字,走的是同一套理解流程。
之前的做法像什么呢?像在中文书里夹了几页英文翻译,看着内容都有了,但中英文之间的微妙对应关系丢了大半。现在从根上就是同一种语言。
双系统推理
借用了心理学里快思考/慢思考的框架。System-1快速生成,System-2在关键节点做逻辑校验和多步推导。
实际效果就是:它终于学会了想清楚再说。以前你问它一个需要三步推理的问题,它第一步就跑偏,后面的推导全废。现在System-2会在关键岔路口停下来检查一遍。
200万Token上下文
GPT-5.4和Claude Opus 4.6的两倍。150万字,两部《三体》的体量。
这个数字听起来像在堆参数,但实际体验差别很大。以前你喂一份50页的财报进去,它只能记住前半部分,后半部分的结论跟前文对不上。现在不用拆了,整份丢进去。
工程上的取舍
全量双系统推理算力扛不住,OpenAI用了两个办法。
MoE(混合专家架构):5到6万亿参数,实际激活的只有10%左右。像一个大型律所,不需要所有律师同时出庭,哪个案子派哪个团队。System-2只在需要深度推理的时候启动,平时System-1顶着。
性能涨了40%,定价没涨。输入2.5美元/百万Token,输出12美元/百万Token,跟GPT-5.4一样。内部原话是"神话级别的智能,Sonnet级别的定价"。
ChatGPT、Codex、Atlas浏览器合并成一个桌面应用,不用在工具之间切来切去了。
几个关键数字
编程、推理、智能体任务,整体性能比GPT-5.4高出40%以上。5到6万亿参数,训练投入超20亿美元,用了约10万张H100 GPU。18个月研发,3月17日预训练完成,到4月14日发布,间隔不到一个月。
最后这个细节值得注意。一般大模型预训练完成后还要几个月做对齐和安全,GPT-6这么快上线,要么是后训练流程大幅优化了,要么就是OpenAI急了。
对普通人意味着什么
上班族最直接的感受会是:终于不用每次对话都重新描述一遍需求了。GPT-6有持久记忆,记得住你的写作风格、常用格式、上次的上下文。说一句"按上周的格式写周报"它就知道你说的是什么格式。
程序员的体验变化可能最大。GPT-6不只能补全代码,能理解整个项目结构,从需求到实现到测试自主完成全流程。Codex整合之后,它更像一个能独立干活的初级程序员,而不是一个高级补全工具。
一个人做小生意、搞自媒体的,GPT-6的多步智能体能力能帮你省掉好几个岗位。市场调研、文案撰写、数据整理、客户回复,一个AI跑通。不是每个环节都做到完美,但对一个人干活的来说够用了。
说点冷静的
OpenAI把Sora砍了,把迪士尼合作停了,所有资源压在GPT-6上。赢了,重回王座。输了,后面很难讲。Altman说GPT-6的目标是"发现新的科学规律",这话听着振奋,但离普通人的日常还有距离。
定价没涨是好事,可每月几十美元的Pro订阅对只写写文案的人来说还是没必要。免费版够用的话,不急着升级。
另外,预训练到发布不到一个月,安全和对齐做到什么程度,现在谁也不知道。这个得等发布后看实际表现。
最后
GPT-6做了件有意思的事:它没在老路上继续堆参数,而是重新想了AI该怎么思考。快慢双系统,原生多模态,跨会话记忆,每一个都是对之前做法的纠偏。
Yann LeCun说过,真正的智能不是记住更多数据,是理解世界运作的方式。GPT-6到底理解了多少,4月14日之后才知道。
你觉得GPT-6会给你的工作带来什么变化?评论区聊。上手体验我会尽快分享。
夜雨聆风