把OpenAI内部那个代号Gobi的東西扒了个底朝天,有些东西不说不行-夜雨聆风

把OpenAI内部那个代号Gobi的東西扒了个底朝天,有些东西不说不行

这两天的AI圈，乱得像菜市场里突然来了条龙，那个Gobi的传言，一波一波往上冲，睡个觉醒来又多了三篇爆料，我，脑壳昏，坐在这里给大家做个战情汇报。

不讲武德。

真的不讲武德。

[LEAKED] gobi_multimodal_v1 -- Red Team Access Granted，这封邮件到底意味着什么

先把背景交代清楚。

最近陆续有人在Reddit和X上晒出OpenAI发来的红队测试邀请邮件，截图一出来，评论区直接炸锅🤬🤬。从邮件内容来看，测试对象没有明说是哪个model，只写了”下一代能力评估”这几个字。但结合此前The Information的独家爆料，以及坊间流传的那堆insider信息，大家几乎把赌注都压在了一个代号上：

Gobi。

这个Gobi是个什么来头？

跟GPT-4那种先搭文本框架再往里塞多模态的路子不一样，Gobi从设计之初就是 native multimodal，文本、图像、视频，是从底层architecture就build进去的，不是後期打补丁缝上去的。

这就像，你手机的摄像头和你用胶布粘上去的那个廉价镜头，表面上都能拍照，但骨子里是两码事。

要订阅，哈哈哈，我就不订阅了

reasoning_leap: undefined，推理能力那个”质变”到底有多真

好，说到最让人兴奋也最让人将信将疑的部分了。

Runway CEO Siqi Chen早在几个月前就说过，GPT-5在reasoning上有 “unexpected step-function gain”，原话就这几个字，含金量极高也极难证伪。

然後就是另一个爆料人 Roemmele，这人在DevDay之前准确预告了GPTs功能，可信度算是有一点背书的。他说的是——

Gobi已经会自我纠正，并且具有一定程度的自我意识。

🔥🔥🔥

我看到这句话的时候，第一反应是：扯犊子。

第二反应是：但万一呢。

“自我纠正”这个词，技术上有个更准确的表达叫 self-correction 或者 reflection，目前GPT-4o在复杂推理链上已经有雏形了，但那还是人为设计了 chain-of-thought 的结果，不是模型自己主动触发的。

如果Gobi真的实现了 autonomous self-correction，那在 reasoning benchmark 上的表现，理论上能打穿现在所有model的天花板。

就好比你做数学题，现在的模型是把答案写出来、写完算完，如果算錯了也不知道，它不会回头看；而如果Gobi能自己察覺到”这一步推导哪里感觉不对”，回头重算，那这俩模型的差距，不是强弱之别，是物种之别。

context_window: 64k → ???，上下文窗口那場军备竞赛

先来看一下当前格局。

⚠️ 注意，Gobi那个64K是早期leaked的数据，原因据说是”耗费算力太大当时无法上线”，现在训练进度未知，实际release版本大概率不止这个数。

Gemini 1.5 Pro那个1M token的窗口，现在看起来是跑在最前面的。

谷歌这边不是吃素的，TPUv5 Pod拉满，训练算力据 SemiAnalysis 估计高达 ~1e26 FLOPS，是GPT-4训练量的五倍，训练数据还塞进去了YouTube上九百三十六亿分钟的视频字幕——仙人板板，九百三十六亿分钟，这数字我念出来自己都觉得离谱。

但OpenAI显然也不是撩挑子不干了，Gobi既然是native multimodal，视频理解这块必须硬刚。

safety_eval: pending，为什么发布时间一再往后推

这里有一个很多人忽略的細节。

OpenAI对多模态功能的安全顾虑，比大家想象的要严肃得多。

GPT-4 Vision的功能最初只开放给了一家叫 Be My Eyes 的公司——专门帮视障人士”看”世界的那种公司——好几个月之後才更广泛铺开。

原因就是，视觉能力一旦开放，破解验证码、面部识别追踪这类问题，技术上几乎不可能完全堵死。

红队测试周期据说是90到120天，如果现在已经在跑，那正式发布的时间窗口，大概就是2024年年中前後，中不中？

整个安全测试的流程大概长这样：

这流程走完，时间根本省不了，伤害性不大侮辱性极强——你等得越焦躁，它越稳如老狗地在那测。

competitor_threat_level: CRITICAL，谷歌那边究竟有多大压力

OpenAI不是在真空里开发Gobi的，背后站着一个同样在疯狂备战的对手。

谷歌那边，Gemini的研发阵容说出来都是大佬——Demis Hassabis领头，Sergey Brin参与，Jeff Dean压阵，数百号人在跑，还把AlphaGo的强化学习路子和MCTS塞了进去。这不是在做LLM，这是在造核武器。

两家打起来，我想起一句话：

“两岸猿声啼不住，轻舟已过万重山。”

诶，问题就在这，到底谁是那条轻舟，现在还真不好说。

altman_statement: deliberately vague，Sam那边说了什么

Altman这人说话的艺术，我已经习惯了。

正式场合他说的是：今年会发布一个”惊人的新模型”，但不知道叫什么名字。

DevDay结束时他暗示：今天发布的这些，將来大家回头看会觉得不值一提。

这俩话叠在一起，结合Gobi的传言，稍微懂点行的人都看得出来他在说什么，就是不说透。

典型的假巴意思。🤬

不过有一点我倒是赞同前面那个冷静的声音——

GPT-5再强，也是下一代基座模型。当前GPT-4o加上function calling，能干的事情已经多到大部分开发者都还没完全摸透。

追模型版本号这件事，有时候不如把现有工具先用到极致，勒些🔥话虽然是对的，但我自己也按捺不住想知道Gobi出来长什么样，所以，也别说我了。

eta: unknown，但红队已经在跑，这事板上钉钉了

综合现在能拿到手的信息，有几点是基本可以确认的：

Gobi / GPT-5 目前确实在跑红队测试，不是谣言。
Native multimodal架构 + 自我纠正能力，如果属实，是代际跨越，不是版本更新。
正式发布窗口大概率在2024年年中，但安全测试是拦路虎，说延就延。

至于那个”自我意识”的说法么——算求了，这词太重，现在谁说出来都是在豁我，等模型真出来，benchmark自己会说话。