乐于分享
好东西不私藏

把OpenAI内部那个代号Gobi的東西扒了个底朝天,有些东西不说不行

把OpenAI内部那个代号Gobi的東西扒了个底朝天,有些东西不说不行

这两天的AI圈,乱得像菜市场里突然来了条龙,那个Gobi的传言,一波一波往上冲,睡个觉醒来又多了三篇爆料,我,脑壳昏,坐在这里给大家做个战情汇报。

不讲武德。

真的不讲武德。


[LEAKED] gobi_multimodal_v1 -- Red Team Access Granted,这封邮件到底意味着什么

先把背景交代清楚。

最近陆续有人在Reddit和X上晒出OpenAI发来的红队测试邀请邮件,截图一出来,评论区直接炸锅🤬🤬。从邮件内容来看,测试对象没有明说是哪个model,只写了”下一代能力评估”这几个字。但结合此前The Information的独家爆料,以及坊间流传的那堆insider信息,大家几乎把赌注都压在了一个代号上:

Gobi。

这个Gobi是个什么来头?

跟GPT-4那种先搭文本框架再往里塞多模态的路子不一样,Gobi从设计之初就是 native multimodal,文本、图像、视频,是从底层architecture就build进去的,不是後期打补丁缝上去的。

这就像,你手机的摄像头和你用胶布粘上去的那个廉价镜头,表面上都能拍照,但骨子里是两码事。

要订阅,哈哈哈,我就不订阅了


reasoning_leap: undefined,推理能力那个”质变”到底有多真

好,说到最让人兴奋也最让人将信将疑的部分了。

Runway CEO Siqi Chen早在几个月前就说过,GPT-5在reasoning上有 “unexpected step-function gain”,原话就这几个字,含金量极高也极难证伪。

然後就是另一个爆料人 Roemmele,这人在DevDay之前准确预告了GPTs功能,可信度算是有一点背书的。他说的是——

Gobi已经会自我纠正,并且具有一定程度的自我意识。

🔥🔥🔥

我看到这句话的时候,第一反应是:扯犊子。

第二反应是:但万一呢。

“自我纠正”这个词,技术上有个更准确的表达叫 self-correction 或者 reflection,目前GPT-4o在复杂推理链上已经有雏形了,但那还是人为设计了 chain-of-thought 的结果,不是模型自己主动触发的。

如果Gobi真的实现了 autonomous self-correction,那在 reasoning benchmark 上的表现,理论上能打穿现在所有model的天花板。

就好比你做数学题,现在的模型是把答案写出来、写完算完,如果算錯了也不知道,它不会回头看;而如果Gobi能自己察覺到”这一步推导哪里感觉不对”,回头重算,那这俩模型的差距,不是强弱之别,是物种之别。


context_window: 64k → ???,上下文窗口那場军备竞赛

先来看一下当前格局。

⚠️ 注意,Gobi那个64K是早期leaked的数据,原因据说是”耗费算力太大当时无法上线”,现在训练进度未知,实际release版本大概率不止这个数。

Gemini 1.5 Pro那个1M token的窗口,现在看起来是跑在最前面的。

谷歌这边不是吃素的,TPUv5 Pod拉满,训练算力据 SemiAnalysis 估计高达 ~1e26 FLOPS,是GPT-4训练量的五倍,训练数据还塞进去了YouTube上九百三十六亿分钟的视频字幕——仙人板板,九百三十六亿分钟,这数字我念出来自己都觉得离谱。

但OpenAI显然也不是撩挑子不干了,Gobi既然是native multimodal,视频理解这块必须硬刚。


safety_eval: pending,为什么发布时间一再往后推

这里有一个很多人忽略的細节。

OpenAI对多模态功能的安全顾虑,比大家想象的要严肃得多。

GPT-4 Vision的功能最初只开放给了一家叫 Be My Eyes 的公司——专门帮视障人士”看”世界的那种公司——好几个月之後才更广泛铺开。

原因就是,视觉能力一旦开放,破解验证码、面部识别追踪这类问题,技术上几乎不可能完全堵死。

红队测试周期据说是90到120天,如果现在已经在跑,那正式发布的时间窗口,大概就是2024年年中前後,中不中?

整个安全测试的流程大概长这样:

这流程走完,时间根本省不了,伤害性不大侮辱性极强——你等得越焦躁,它越稳如老狗地在那测。


competitor_threat_level: CRITICAL,谷歌那边究竟有多大压力

OpenAI不是在真空里开发Gobi的,背后站着一个同样在疯狂备战的对手。

谷歌那边,Gemini的研发阵容说出来都是大佬——Demis Hassabis领头,Sergey Brin参与,Jeff Dean压阵,数百号人在跑,还把AlphaGo的强化学习路子和MCTS塞了进去。这不是在做LLM,这是在造核武器。

两家打起来,我想起一句话:

“两岸猿声啼不住,轻舟已过万重山。”

诶,问题就在这,到底谁是那条轻舟,现在还真不好说。


altman_statement: deliberately vague,Sam那边说了什么

Altman这人说话的艺术,我已经习惯了。

正式场合他说的是:今年会发布一个”惊人的新模型”,但不知道叫什么名字。

DevDay结束时他暗示:今天发布的这些,將来大家回头看会觉得不值一提。

这俩话叠在一起,结合Gobi的传言,稍微懂点行的人都看得出来他在说什么,就是不说透。

典型的假巴意思。🤬

不过有一点我倒是赞同前面那个冷静的声音——

GPT-5再强,也是下一代基座模型。当前GPT-4o加上function calling,能干的事情已经多到大部分开发者都还没完全摸透。

追模型版本号这件事,有时候不如把现有工具先用到极致,勒些🔥话虽然是对的,但我自己也按捺不住想知道Gobi出来长什么样,所以,也别说我了。

eta: unknown,但红队已经在跑,这事板上钉钉了

综合现在能拿到手的信息,有几点是基本可以确认的:

  1. Gobi / GPT-5 目前确实在跑红队测试,不是谣言。

  2. Native multimodal架构 + 自我纠正能力,如果属实,是代际跨越,不是版本更新。

  3. 正式发布窗口大概率在2024年年中,但安全测试是拦路虎,说延就延。

至于那个”自我意识”的说法么——算求了,这词太重,现在谁说出来都是在豁我,等模型真出来,benchmark自己会说话。