我不太确定从哪说起。
因为今天的信息量太大了,大到我一早上刷完,脑子还有点嗡嗡的。
xAI正式宣布抛弃JAX GPU,转向自研训练框架。OpenAI搞了个实时翻译模型,70多种语言随便说,现场翻译。DeepMind CEO Hassabis出来说AGI最快三年内到。Codex终于支持Windows了。ChatGPT上线了对话目录功能。小米开源了ControlFoley,一个能让你给视频"指哪打哪"配声音的模型。
还有阿里云跟UEFA签了多年的AI合作。还有Qwen-VLA。还有Adam's Law告诉你用高频词写Prompt比堆高级词汇管用。
太多了。
我先说最炸的那条吧。
事情是这样的
今天凌晨,SemiAnalysis丢了一颗炸弹出来。
xAI,也就是马斯克那个号称建了全世界最大超算集群的公司,正式**抛弃了JAX GPU框架**,转向自己的训练框架。你说这事儿有多离谱?GPU行业的最大客户,自己说自己不跟你玩了。
他们搞了个叫「Grok Build」的东西,自己训练自己玩。
消息出来之后,整个AI infra圈子都在讨论。因为JAX这东西,不是随便一个小公司搞的,是Google的亲儿子。那段时间为了保证xAI能用好JAX,NVIDIA的JAX团队过去两年全部主力996,几乎全员专注支持xAI。
结果呢?还是失败了。
据SemiAnalysis报道,xAI的JAX堆栈MFU(模型算力利用率)低于10%。
10%是什么概念?
就是100块钱买的电,90块都浪费了。就像你买了一台法拉利,结果只能推到加油站,因为发动机在睡觉。
NVIDIA那个JAX团队拼了两年命,最后是这个结果。
我当时就愣住了。
你想吧,全球最强的GPU公司,派了自己最精锐的JAX团队,全身心去支持全球最大的GPU客户之一,996干了两年。结果客户说算了,我自己来吧。
这话听着是不是有点耳熟?
就像你花两年时间追一个特别好看的人,每天送早餐、帮写作业、陪晚自习,最后人家说谢谢,我想一个人呆着。
还顺便回手掏走了你的方法。
但我更想聊的是这个
你说这件事,表面上看就是xAI觉得JAX不行,自己写了个框架。
但是再往深里想一层呢?
JAX是Google的。NVIDIA的JAX团队全力支持xAI用了JAX。结果xAI用完以后MFU不到10%,自己撸袖子写了一个新的。这就意味着什么?
意味着 "巨头的最佳实践",在真正的场景面前,可能只是一坨看起来很美的代码。
这事儿在AI infra圈子里其实早有迹象。很多在xAI或者其他超大集群里干活的人,私下聊天的时候经常说一句话:
"JAX在paper上很好,在生产上很痛。"
MFU太低、调试困难、跟硬件的配合远没有理论那么丝滑。这些东西你在Google发的技术博客里看不到,只有真正上了万卡集群,开始跑模型的时候,才明白问题在哪。
这让我想起了以前在币圈特别流行的一句话:
"纸上DeFi,线下TradFi。"
在PPT上、在白皮书里,一切都是美好的、去中心化的、流水线式的。等你真正拿真金白银去玩的时候,发现还是那套老东西好用。
现在的AI infra也在走这条路。开源生态里,JAX的理论性能被吹得天花乱坠,但在真正的超大规模生产环境中,问题一个接一个地浮现出来。
xAI用了两年时间,花了不知道多少钱,最后得出结论:我自己的比你的好使。
这尼玛就是最好的广告。
转过头来看别的
但今天不止这一件事。
OpenAI发了个实时翻译模型,叫gpt-realtime-translate。你对着它说任何一种语言,70多种输入语言,它直接给你翻成13种输出语言说出来。而且GDB自己发推说,这个功能已经在智能眼镜上跑了。
智能眼镜。
你敢信???
今年是2026年,实时翻译已经在眼镜上了。以前我们在科幻电影里看到的无缝沟通,已经开始悄悄变成现实了。你戴个眼镜去日本出差,对方说日语你听到的是中文。虽然现在的体验肯定没有那么丝滑,但方向已经很明白了。
还有Codex终于支持Windows了。这个也是大消息。Codex之前只能在macOS上跑,Windows用户只能干瞪眼。现在OpenAI自己宣布了,Windows的Computer Use功能正式上线。
这是AI编程智能体全面铺开的信号。All in Codex。
ChatGPT也更新了,对话目录功能上线。就是那种,你问了一个很简单的问题结果聊了100多轮,现在ChatGPT会自动给你生成目录,让你能快速定位到之前聊过的某一段。
看着是个小功能对吧?
但对我来说,这个才是今天最打动我的更新。
因为用过ChatGPT的人都知道那种痛苦。你本来就想问一句"帮我查一下明天北京的天气",结果聊着聊着开始讨论气候变化、碳排放、北极熊、然后甚至开始吵架。等你想回去找那段"北极熊的数量数据"的时候,简直想死。
这个目录功能,说白了就是给那些「只问一句却聊成史诗」的对话框,一个体面退出的方式。ChatGPT团队说的那句话特别对:"For every ChatGPT conversation that started as 'one quick thing' and became a full on saga..."
我太懂了。
还有人说了句狠话
今天DeepMind的CEO Hassabis也出来说话了。
他说AGI的开发速度远超预期,**最快2029年到2030年,AGI就会到来。
这个话从Hassabis嘴里说出来,分量完全不一样。他是AlphaGo和AlphaFold的领导者,是整个DeepMind的掌舵人。他不是那些天天喊着AGI马上来然后卖课的网红,他是真正站在AI最前沿的人。
他说这话的意思是:他看到了。
他看到了什么?他说现在的AI智能体是未来更强智能的预演。随着多模态和自主决策能力成熟,三年内迎来AGI关键突破已非科幻。
但他说了一个更有意思的东西。
全球社会对AGI到来的准备严重不足。**
这话其实比"AGI三年内到来"更值得琢磨。你想想,Hassabis这个人不是什么危言耸听的人,他甚至被认为是AI行业里比较偏谨慎的那个。他说出"准备严重不足",那可能真的不够。
我们现在在讨论的,已经不是"AI能不能替代我的工作"这种级别的问题了。
是AI来了以后,整个社会怎么运转的问题。
当然还有两件事让我忍不住
小米今天开源了个好东西,ControlFoley。一个可控视频音效生成模型。
简单说就是,你拍了个视频,想让里面出现什么样的声音,你说一声就行。或者你给个参考音频,它照着那个感觉来配。比如你拍了一段短视频,想让背景有下雨的声音,或者敲键盘的声音,或者随便什么音效,直接说就行。
而且它是开原的,代码、模型权重、在线Demo全放出来了。
一个做手机的公司,在AI音效生成上做到开源SOTA。这事儿本身就很有意思。说明现在AI能力的门槛确实在降低,你不需要是一个AI公司才能做出顶级的AI东西。
另外还有一个很有意思的研究成果,叫**Adam's Law**。
FaceMind团队用100种语言和四大核心任务做实验,发现了一个很反直觉的事情:用高频词写Prompt,效果比用高级词汇好得多。
什么意思呢?就是你不要觉得自己在写Prompt的时候,用那些高大上、冷门、看起来很厉害的词汇会让模型更听话。恰恰相反,用最普通、最日常、最经常出现的词,效果最好。
原因也很朴素:模型在训练数据里见过这些词太多次了,它最熟悉这个概率空间。你在它最熟悉的地方让它工作,它当然干得最好。
这个道理说起来好像很简单,但你去看网上的Prompt教程,全都在教你"用词要精准、要专业、要结构化"。
Adam's Law说:别折腾了,说人话就行。
我觉得这是今天最实用的那条新闻了,没有之一。
绕了一圈回来
说回xAI这件事。
今天还有一个很有意思的报道,Cognition的Scott Wu出来说,AI编程智能体不应该取代人类。Devvin的创始人亲口说的。
这个行业里最顶尖的人,在AGI门槛越来越近的时候,反复强调的是同一件事:**别急着替代人,先想想怎么帮到人。**
xAI放弃JAX,不是放弃AI。而是要自己掌控自己的命运。Hassabis说AGI要来了,但准备不足。Scott Wu说智能体不该取代人。
所有这些话放在一起,我读出来的信息其实是:
AI行业自己也在摸索。 没有人真的知道最佳实践是什么。巨头也在踩坑,框架也在迭代,所谓的"最优解"可能过三个月就变了。
我们每个人其实都一样。今天学了个新Prompt技巧,明天就有人告诉你高频词才是王道。今天觉得JAX是未来,明天最大客户就跑了。
但这就是做AI这件事最迷人的地方。
没有人真的知道答案。所有人都在找。
好了,不聊了。今天信息量太大了,让我再去刷一圈。
哦对了,还有一个细节。SemiAnalysis文章最后写了一句:
"过去两年全力支持xAI的NVIDIA JAX团队,现在终于可以休息并兑现期权了。"
这句话的信息量,懂的都懂。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~
谢谢你看我的文章,我们,下次再见。
夜雨聆风