乐于分享
好东西不私藏

AI 人物志(一):李飞飞——从洗碗工到「AI 教母」

AI 人物志(一):李飞飞——从洗碗工到「AI 教母」

如果说 AI 发展史上有人亲手推开了深度学习的大门,李飞飞一定在其中。

她创建的 ImageNet 数据集,直接催生了 2012 年 AlexNet 的突破,那一年被很多人视为现代 AI 的起点。Hinton、LeCun、Bengio 拿了图灵奖,但李飞飞给他们提供了训练数据。2024 年诺贝尔物理学奖得主 Geoffrey Hinton 说过一句话:「李飞飞是第一位真正理解大数据力量的计算机视觉研究人员,她的工作打开了深度学习的闸门。」

如今,她又站到了 AI 的下一个前沿——空间智能。

从北京到 Parsippany

1976 年,李飞飞出生在北京,在成都长大。16 岁那年,全家移民美国,定居在新泽西州的 Parsippany 小镇。

她父亲修相机,母亲在超市当收银员。家里经济拮据,飞飞一边上学一边打工,干过洗碗工、清洁工、中餐馆服务员。英语也不太好,刚到美国的时候几乎听不懂课。

她的高中数学老师 Bob Sabella 帮了她很多——辅导英语,甚至借钱给她父母开了家干洗店。1995 年,李飞飞拿到奖学金进了普林斯顿大学,学物理。当地报纸还专门做了个头条:《American Dream Come True!》

但这不代表从此顺风顺水。在普林斯顿,她周一到周五泡在「智力天堂」里,周末赶回新泽西帮父母打理干洗店。母亲患有严重心脏病,家庭经济压力一直像块大石头压着。毕业后华尔街抛来一堆高薪 offer,她差点就接了。但父母说:去做你真正喜欢的事。

她选了加州理工的 PhD,研究方向是让机器「看」东西——计算机视觉。

ImageNet:一件「没人觉得能做成」的事

2005 年左右,AI 正处于一个低谷期——后来被李飞飞称为「AI 寒冬」。那时候计算机视觉领域的主流做法是用小数据集做实验,几百几千张图片的规模。没人想过要做一个覆盖全世界物体的数据库。

李飞飞想过。

她的灵感来自认知心理学家 Irving Biederman 的一个估算:人类大概能识别 3 万个物体类别。她想,如果要让机器真正理解视觉世界,就得给它一个同等规模的训练集。

同事觉得这想法疯了。审稿人也不买账。经费申请被拒了好几次。但李飞飞就是不停手。

2007 年,在普林斯顿任教期间,她带着团队开始动手。他们利用 Amazon Mechanical Turk 众包平台,雇佣全球各地的人给图片打标签。最终,ImageNet 包含了 超过 1400 万张图片,覆盖 22000 个类别。这是当时史上最大的图像识别数据库,并且全部免费开放给全世界的研究者。

我们决定做一件史无前例的事情——研究的对象是全世界的物体。

真正的转折点在 2012 年。那年,Alex Krizhevsky 等人提出了深度卷积神经网络模型 AlexNet,在 ImageNet 大规模视觉识别挑战赛(ILSVRC)中,以领先第二名 41 个百分点的碾压优势夺冠,将 Top-5 错误率从 26% 降到 15%。

这件事被很多人视为现代 AI 的起点。ImageNet + GPU 算力 + 神经网络算法,成了孕育深度学习革命的三大基石。

斯坦福、Google、AI4ALL

2009 年,李飞飞加入斯坦福大学。2013 年,她出任斯坦福人工智能实验室(SAIL)主任。2017 年,她暂时离开斯坦福,加入 Google Cloud 担任 AI/ML 首席科学家兼副总裁,主导谷歌云的 AI 战略。2019 年回到斯坦福后,她参与联合创立了斯坦福以人为本人工智能研究院(HAI),并担任联合主任。

她不只是做研究。2015 年,她联合创办了非营利组织 AI4ALL,致力于让更多女性和少数族裔的学生进入 AI 领域。她自己作为 AI 领域少有的女性领军人物,深知这个领域的多样性问题有多严重。

空间智能:下一颗北极星

2022 年底 ChatGPT 爆火之后,整个行业都在追逐大语言模型。李飞飞却提出了一个不太一样的观点:语言是用来描述世界的工具,但不是世界本身。

她认为,大语言模型虽然能写文章、生成代码、回答问题,但本质上还是「黑暗中的文字匠」——知识丰富却缺乏根基。它们无法估算距离、在空间中导航、理解物理规律。甚至最新的多模态大模型在这些任务上的表现也好不了多少。

她把目光投向了「空间智能」——让 AI 像人类一样理解三维空间、物理规律、物体之间的几何关系和因果关系。她从寒武纪大爆发中汲取灵感:5 亿多年前,视觉的出现点燃了智能进化的链条。她相信,空间智能将成为 AI 的下一个重大飞跃。

2024 年初,李飞飞与 Justin Johnson、Christoph Lassner、Ben Mildenhall 共同创立了 World Labs,专注构建「世界模型」——一种全新的生成式 AI 体系。2025 年 9 月,World Labs 正式亮相,融资超过 2.3 亿美元,估值突破 10 亿美元。同年 11 月,她发表了长文《从文字到世界:空间智能是 AI 的下一个前沿》,系统阐述了世界模型的三项核心能力:

生成性——能创造遵守物理定律、空间一致的世界

多模态——能处理图像、视频、动作等多种输入

交互性——能预测世界随时间演变或互动的状态

2025 年底,World Labs 发布了首款商用产品 Marble——一个可以根据文字、图像或视频生成完整可探索 3D 世界的平台。2026 年 1 月,李飞飞站上 CES 2026 的演讲台,再次强调空间智能的愿景。同月,World Labs 开放了 World API,把 Marble 的能力开放给开发者。

荣誉与认可

年份
荣誉
2025
《时代》杂志年度人物
2025
英国皇家工程奖(Queen Elizabeth Prize for Engineering)
2024
VinFuture 奖
2023
Intel 终身成就奖
2016
卡内基基金会「美国伟大移民」

她还是美国国家工程院、国家医学院、美国艺术与科学院的三院院士,ACM Fellow,发表超过 400 篇学术论文。她还是耶鲁大学和哈维穆德学院的荣誉博士。2024 年,她的自传《我看见的世界》在中国出版发行。

「AI 教母」这件事

媒体喜欢叫她「AI 教母」,她自己好像没太当回事。但她确实做了几件对 AI 产业格局影响深远的事:ImageNet 不只是个数据集,它证明了一件事——数据规模本身就是一种突破。 在算力和算法还没到位的年代,李飞飞就相信大数据能驱动 AI 进化,而很多人还在纠结算法的小修小补。

她身上有一种奇怪的特质:总能在大家都往一个方向跑的时候,安静地走到另一个方向去。当所有人都在做大语言模型的时候,她去做了空间智能。

她在长文末尾写了一句话:

若没有空间智能,我们关于真正智能机器的梦想将永远不完整。这场探索,是我的北极星。

50 岁的李飞飞,依然在追她的北极星。

关键信息速览

出生:1976 年 7 月 3 日,北京

现职:斯坦福大学计算机科学教授、HAI 联合主任、World Labs 联合创始人

教育:普林斯顿大学物理学学士、加州理工学院电子工程硕士及 PhD

代表作:ImageNet 数据集(1400 万+ 图片,22000 类别)

创业:World Labs(2024 年创立,估值 10 亿美元+)

著作:《The Worlds I See》(中译《我看见的世界》,2024 年出版)