欢迎大家关注“凯哥讲故事系列”公众号
本文配有完整 PPT 如需要
加凯哥微信,将文章转发朋友圈截图发给笔者,即发 PPT 完整版
李飞飞要把 AI 拽出语言的牢笼
她说,AI 在词句里读了一万本书,但还没看过一眼真正的世界。
2007 年,斯坦福校园里的一间小实验室,一位叫李飞飞的年轻华裔教授,开始让她的学生干一件外行人看着会笑的事 —— 在互联网上把图片一张一张抓下来,雇人手动给它们打标签。
这件事最后持续了两年半,攒下来一千四百多万张图,分进两万多个类别。这个数据集后来有了一个名字,叫 ImageNet。
七年之后,几乎所有教科书里关于深度学习的开篇,都会写到 ImageNet。它跟神经网络算法和那块叫 GPU 的小硬件,被人合称为现代 AI 的三块基石。其中两块是技术,一块是数据。这一块数据,是她在实验室里抓出来的。
一
李飞飞最近写了一篇长文,标题不长 —— 从文字到世界。
她在文里说了一个有点拗口的事:AI 这一波最热闹的进展,都集中在语言上。大语言模型读完了人类几乎所有写下来的东西,能写代码,能写论文,能写情书,能写诉状。可是它没有真正看见过世界。
她用了一个非常硬的判断:
现在最强的多模态大模型,让它估算两个物体之间的距离、判断物体的方向、在脑中旋转一个立方体,准确率,跟随机猜差不多。
这句话是她自己说的,引用她的实验室和别的几家实验室的测试数据。一个 25 年的视觉计算机科学家,写出这句话,背后的潜台词是 —— 我们这几年讲的「智能爆炸」,可能压根儿不是真正意义上的「智能」。
她不是反 AI 的,她是反 AI 的偷懒的
二
李飞飞是杭州人,16 岁那年跟父母去了美国。她父亲在新泽西的洗衣店打工,她在中餐馆里帮人端盘子。普林斯顿读本科的时候,她一边上量子物理,一边洗衣店里熨衬衫。
后来到加州理工读博士,再到斯坦福做教授。这一路上,她做的事一直没变 —— 让机器看懂世界。
她跟人讲过,自己有一个北极星问题:动物在学会说话之前,已经在做空间认知;人类在写字之前,已经盖了房子。一个把 99% 的算力压在「读懂语言」上的智能系统,根本搭不出这套架构。
她拿了一个古希腊人的故事举例。埃拉托色尼,公元前三世纪的人,看到两个城市之间的影子角度不一样,靠几何就把地球周长算出来了。她说,这个事,今天的 GPT-4 做不到。不是因为它不知道地球的周长,是因为它不知道影子是什么。
三
2024 年初,她和三位合伙人成立了一家叫 World Labs 的公司。Justin Johnson、Christoph Lassner、Ben Mildenhall —— 这三个名字在视觉计算的圈子里,每一个都拎得出独立文章。
World Labs 想做的事,被她称为「世界模型」。这套东西不只是看图、看视频,它要能在脑中模拟物理、几何和动力学,然后回过头来生成一个可以走进去的世界。
公司创办不到一年,融了一轮估值 10 亿美元的钱。投资人名单里,a16z、NEA、Radical Ventures,全都在场。
根据 SVTR 那份 AI 创投库的数据,过去 12 个月,挂着「世界模型」标签的 AI 初创公司,融资总额过了 5 亿美元。年增长超过 70%。
资本看不懂语言模型的边界,但资本闻得到边界。
四
李飞飞写的那篇长文里,最容易被忽略的,是她抬出了维特根斯坦。
维特根斯坦在 1922 年写过一句很有名的话:语言的边界,就是世界的边界。
李飞飞引用完这句话,加了一句反驳:
我不是哲学家,但我相信,对 AI 来说,世界不止于语言。
一个写了 25 年视觉论文的人,跟一个一百年前讲语言哲学的奥地利人,隔空对话。她坚持的事其实很笨:你光让 AI 读完所有人类写下来的话,它依然不知道一颗水珠是怎么落到地面上的。
世界不只长在文字里。世界长在那些没人写下来的瞬间里。
五
但有一个问题,她在文里没正面回答。
世界模型这件事,需要的数据量级,远比 ImageNet 大。需要的算力,远比训练 GPT-4 多。而且,它没有 ChatGPT 那种「打开就能用」的消费品入口,做出来的第一波客户,是机器人公司、是游戏引擎、是电影厂。
也就是说,这是一条比大语言模型更慢、更重、更不性感的路。
OpenAI 那种 18 个月走完十年的速度,在这条路上做不到。
慢的事,需要更慢的人
李飞飞自己,看上去就是那种慢的人。
她在斯坦福实验室那张白板上,画过一个很简单的图:一个动物,一只手,一个杯子,一条桌沿。她跟学生说,等哪一天 AI 知道这只手伸到桌沿那一刻,杯子可能会被推下去,我们这件事就算开始有点苗头了。
这件事,她干了 25 年。
她还打算干下一个 25 年。
精益数据训练营/解决方案架构师特训营
从数据到价值:精益数据工作坊
数字化咨询教练陪跑服务:
数字化转型规划 | 顶层设计 |企业创新与运营
IT战略规划 | IT服务管理体系 | 数据治理
往期推荐内容
智胜|Agent Discovery:AI 时代的价值互联网
智胜|从“智能体应用”到“智能互联网”:中国智能体政策的底层逻辑与产业范式跃迁
富贵研究所 | 我们花了 7 天,才把 AI 编程的起点搭起来
富贵研究所 | CEO 都开始写代码了,你的老黄牛思维还没醒悟?
凯哥 | AI 时代:TOGAF 没过时,但它已经不再够用了
富贵研究所 | AI 时代,答案越来越便宜,真正值钱的只剩一种能力










夜雨聆风