# 今天AI圈,太特么热闹了

我不太确定从哪说起。

因为今天的信息量太大了，大到我一早上刷完，脑子还有点嗡嗡的。

xAI正式宣布抛弃JAX GPU，转向自研训练框架。OpenAI搞了个实时翻译模型，70多种语言随便说，现场翻译。DeepMind CEO Hassabis出来说AGI最快三年内到。Codex终于支持Windows了。ChatGPT上线了对话目录功能。小米开源了ControlFoley，一个能让你给视频"指哪打哪"配声音的模型。

还有阿里云跟UEFA签了多年的AI合作。还有Qwen-VLA。还有Adam's Law告诉你用高频词写Prompt比堆高级词汇管用。

太多了。

我先说最炸的那条吧。

事情是这样的

今天凌晨，SemiAnalysis丢了一颗炸弹出来。

xAI，也就是马斯克那个号称建了全世界最大超算集群的公司，正式**抛弃了JAX GPU框架**，转向自己的训练框架。你说这事儿有多离谱？GPU行业的最大客户，自己说自己不跟你玩了。

他们搞了个叫「Grok Build」的东西，自己训练自己玩。

消息出来之后，整个AI infra圈子都在讨论。因为JAX这东西，不是随便一个小公司搞的，是Google的亲儿子。那段时间为了保证xAI能用好JAX，NVIDIA的JAX团队过去两年全部主力996，几乎全员专注支持xAI。

结果呢？还是失败了。

据SemiAnalysis报道，xAI的JAX堆栈MFU（模型算力利用率）低于10%。

10%是什么概念？

就是100块钱买的电，90块都浪费了。就像你买了一台法拉利，结果只能推到加油站，因为发动机在睡觉。

NVIDIA那个JAX团队拼了两年命，最后是这个结果。

我当时就愣住了。

你想吧，全球最强的GPU公司，派了自己最精锐的JAX团队，全身心去支持全球最大的GPU客户之一，996干了两年。结果客户说算了，我自己来吧。

这话听着是不是有点耳熟？

就像你花两年时间追一个特别好看的人，每天送早餐、帮写作业、陪晚自习，最后人家说谢谢，我想一个人呆着。

还顺便回手掏走了你的方法。

但我更想聊的是这个

你说这件事，表面上看就是xAI觉得JAX不行，自己写了个框架。

但是再往深里想一层呢？

JAX是Google的。NVIDIA的JAX团队全力支持xAI用了JAX。结果xAI用完以后MFU不到10%，自己撸袖子写了一个新的。这就意味着什么？

意味着 "巨头的最佳实践"，在真正的场景面前，可能只是一坨看起来很美的代码。

这事儿在AI infra圈子里其实早有迹象。很多在xAI或者其他超大集群里干活的人，私下聊天的时候经常说一句话：

"JAX在paper上很好，在生产上很痛。"

MFU太低、调试困难、跟硬件的配合远没有理论那么丝滑。这些东西你在Google发的技术博客里看不到，只有真正上了万卡集群，开始跑模型的时候，才明白问题在哪。

这让我想起了以前在币圈特别流行的一句话：

"纸上DeFi，线下TradFi。"

在PPT上、在白皮书里，一切都是美好的、去中心化的、流水线式的。等你真正拿真金白银去玩的时候，发现还是那套老东西好用。

现在的AI infra也在走这条路。开源生态里，JAX的理论性能被吹得天花乱坠，但在真正的超大规模生产环境中，问题一个接一个地浮现出来。

xAI用了两年时间，花了不知道多少钱，最后得出结论：我自己的比你的好使。

这尼玛就是最好的广告。

转过头来看别的

但今天不止这一件事。

OpenAI发了个实时翻译模型，叫gpt-realtime-translate。你对着它说任何一种语言，70多种输入语言，它直接给你翻成13种输出语言说出来。而且GDB自己发推说，这个功能已经在智能眼镜上跑了。

智能眼镜。

你敢信？？？

今年是2026年，实时翻译已经在眼镜上了。以前我们在科幻电影里看到的无缝沟通，已经开始悄悄变成现实了。你戴个眼镜去日本出差，对方说日语你听到的是中文。虽然现在的体验肯定没有那么丝滑，但方向已经很明白了。

还有Codex终于支持Windows了。这个也是大消息。Codex之前只能在macOS上跑，Windows用户只能干瞪眼。现在OpenAI自己宣布了，Windows的Computer Use功能正式上线。

这是AI编程智能体全面铺开的信号。All in Codex。

ChatGPT也更新了，对话目录功能上线。就是那种，你问了一个很简单的问题结果聊了100多轮，现在ChatGPT会自动给你生成目录，让你能快速定位到之前聊过的某一段。

看着是个小功能对吧？

但对我来说，这个才是今天最打动我的更新。

因为用过ChatGPT的人都知道那种痛苦。你本来就想问一句"帮我查一下明天北京的天气"，结果聊着聊着开始讨论气候变化、碳排放、北极熊、然后甚至开始吵架。等你想回去找那段"北极熊的数量数据"的时候，简直想死。

这个目录功能，说白了就是给那些「只问一句却聊成史诗」的对话框，一个体面退出的方式。ChatGPT团队说的那句话特别对："For every ChatGPT conversation that started as 'one quick thing' and became a full on saga..."

我太懂了。

还有人说了句狠话

今天DeepMind的CEO Hassabis也出来说话了。

他说AGI的开发速度远超预期，**最快2029年到2030年，AGI就会到来。

这个话从Hassabis嘴里说出来，分量完全不一样。他是AlphaGo和AlphaFold的领导者，是整个DeepMind的掌舵人。他不是那些天天喊着AGI马上来然后卖课的网红，他是真正站在AI最前沿的人。

他说这话的意思是：他看到了。

他看到了什么？他说现在的AI智能体是未来更强智能的预演。随着多模态和自主决策能力成熟，三年内迎来AGI关键突破已非科幻。

但他说了一个更有意思的东西。

全球社会对AGI到来的准备严重不足。**

这话其实比"AGI三年内到来"更值得琢磨。你想想，Hassabis这个人不是什么危言耸听的人，他甚至被认为是AI行业里比较偏谨慎的那个。他说出"准备严重不足"，那可能真的不够。

我们现在在讨论的，已经不是"AI能不能替代我的工作"这种级别的问题了。

是AI来了以后，整个社会怎么运转的问题。

当然还有两件事让我忍不住

小米今天开源了个好东西，ControlFoley。一个可控视频音效生成模型。

简单说就是，你拍了个视频，想让里面出现什么样的声音，你说一声就行。或者你给个参考音频，它照着那个感觉来配。比如你拍了一段短视频，想让背景有下雨的声音，或者敲键盘的声音，或者随便什么音效，直接说就行。

而且它是开原的，代码、模型权重、在线Demo全放出来了。

一个做手机的公司，在AI音效生成上做到开源SOTA。这事儿本身就很有意思。说明现在AI能力的门槛确实在降低，你不需要是一个AI公司才能做出顶级的AI东西。

另外还有一个很有意思的研究成果，叫**Adam's Law**。

FaceMind团队用100种语言和四大核心任务做实验，发现了一个很反直觉的事情：用高频词写Prompt，效果比用高级词汇好得多。

什么意思呢？就是你不要觉得自己在写Prompt的时候，用那些高大上、冷门、看起来很厉害的词汇会让模型更听话。恰恰相反，用最普通、最日常、最经常出现的词，效果最好。

原因也很朴素：模型在训练数据里见过这些词太多次了，它最熟悉这个概率空间。你在它最熟悉的地方让它工作，它当然干得最好。

这个道理说起来好像很简单，但你去看网上的Prompt教程，全都在教你"用词要精准、要专业、要结构化"。

Adam's Law说：别折腾了，说人话就行。

我觉得这是今天最实用的那条新闻了，没有之一。

绕了一圈回来

说回xAI这件事。

今天还有一个很有意思的报道，Cognition的Scott Wu出来说，AI编程智能体不应该取代人类。Devvin的创始人亲口说的。

这个行业里最顶尖的人，在AGI门槛越来越近的时候，反复强调的是同一件事：**别急着替代人，先想想怎么帮到人。**

xAI放弃JAX，不是放弃AI。而是要自己掌控自己的命运。Hassabis说AGI要来了，但准备不足。Scott Wu说智能体不该取代人。

所有这些话放在一起，我读出来的信息其实是：

AI行业自己也在摸索。没有人真的知道最佳实践是什么。巨头也在踩坑，框架也在迭代，所谓的"最优解"可能过三个月就变了。

我们每个人其实都一样。今天学了个新Prompt技巧，明天就有人告诉你高频词才是王道。今天觉得JAX是未来，明天最大客户就跑了。

但这就是做AI这件事最迷人的地方。

没有人真的知道答案。所有人都在找。

好了，不聊了。今天信息量太大了，让我再去刷一圈。

哦对了，还有一个细节。SemiAnalysis文章最后写了一句：

"过去两年全力支持xAI的NVIDIA JAX团队，现在终于可以休息并兑现期权了。"

这句话的信息量，懂的都懂。

以上，既然看到这里了，如果觉得不错，随手点个赞、在看、转发三连吧，如果想第一时间收到推送，也可以给我个星标⭐～

谢谢你看我的文章，我们，下次再见。