AI 人物志(一):李飞飞——从洗碗工到「AI 教母」-夜雨聆风

AI 人物志(一):李飞飞——从洗碗工到「AI 教母」

如果说 AI 发展史上有人亲手推开了深度学习的大门，李飞飞一定在其中。

她创建的 ImageNet 数据集，直接催生了 2012 年 AlexNet 的突破，那一年被很多人视为现代 AI 的起点。Hinton、LeCun、Bengio 拿了图灵奖，但李飞飞给他们提供了训练数据。2024 年诺贝尔物理学奖得主 Geoffrey Hinton 说过一句话：「李飞飞是第一位真正理解大数据力量的计算机视觉研究人员，她的工作打开了深度学习的闸门。」

如今，她又站到了 AI 的下一个前沿——空间智能。

从北京到 Parsippany

1976 年，李飞飞出生在北京，在成都长大。16 岁那年，全家移民美国，定居在新泽西州的 Parsippany 小镇。

她父亲修相机，母亲在超市当收银员。家里经济拮据，飞飞一边上学一边打工，干过洗碗工、清洁工、中餐馆服务员。英语也不太好，刚到美国的时候几乎听不懂课。

她的高中数学老师 Bob Sabella 帮了她很多——辅导英语，甚至借钱给她父母开了家干洗店。1995 年，李飞飞拿到奖学金进了普林斯顿大学，学物理。当地报纸还专门做了个头条：《American Dream Come True!》

但这不代表从此顺风顺水。在普林斯顿，她周一到周五泡在「智力天堂」里，周末赶回新泽西帮父母打理干洗店。母亲患有严重心脏病，家庭经济压力一直像块大石头压着。毕业后华尔街抛来一堆高薪 offer，她差点就接了。但父母说：去做你真正喜欢的事。

她选了加州理工的 PhD，研究方向是让机器「看」东西——计算机视觉。

ImageNet：一件「没人觉得能做成」的事

2005 年左右，AI 正处于一个低谷期——后来被李飞飞称为「AI 寒冬」。那时候计算机视觉领域的主流做法是用小数据集做实验，几百几千张图片的规模。没人想过要做一个覆盖全世界物体的数据库。

李飞飞想过。

她的灵感来自认知心理学家 Irving Biederman 的一个估算：人类大概能识别 3 万个物体类别。她想，如果要让机器真正理解视觉世界，就得给它一个同等规模的训练集。

同事觉得这想法疯了。审稿人也不买账。经费申请被拒了好几次。但李飞飞就是不停手。

2007 年，在普林斯顿任教期间，她带着团队开始动手。他们利用 Amazon Mechanical Turk 众包平台，雇佣全球各地的人给图片打标签。最终，ImageNet 包含了 超过 1400 万张图片，覆盖 22000 个类别。这是当时史上最大的图像识别数据库，并且全部免费开放给全世界的研究者。

我们决定做一件史无前例的事情——研究的对象是全世界的物体。

真正的转折点在 2012 年。那年，Alex Krizhevsky 等人提出了深度卷积神经网络模型 AlexNet，在 ImageNet 大规模视觉识别挑战赛（ILSVRC）中，以领先第二名 41 个百分点的碾压优势夺冠，将 Top-5 错误率从 26% 降到 15%。

这件事被很多人视为现代 AI 的起点。ImageNet + GPU 算力 + 神经网络算法，成了孕育深度学习革命的三大基石。

斯坦福、Google、AI4ALL

2009 年，李飞飞加入斯坦福大学。2013 年，她出任斯坦福人工智能实验室（SAIL）主任。2017 年，她暂时离开斯坦福，加入 Google Cloud 担任 AI/ML 首席科学家兼副总裁，主导谷歌云的 AI 战略。2019 年回到斯坦福后，她参与联合创立了斯坦福以人为本人工智能研究院（HAI），并担任联合主任。

她不只是做研究。2015 年，她联合创办了非营利组织 AI4ALL，致力于让更多女性和少数族裔的学生进入 AI 领域。她自己作为 AI 领域少有的女性领军人物，深知这个领域的多样性问题有多严重。

空间智能：下一颗北极星

2022 年底 ChatGPT 爆火之后，整个行业都在追逐大语言模型。李飞飞却提出了一个不太一样的观点：语言是用来描述世界的工具，但不是世界本身。

她认为，大语言模型虽然能写文章、生成代码、回答问题，但本质上还是「黑暗中的文字匠」——知识丰富却缺乏根基。它们无法估算距离、在空间中导航、理解物理规律。甚至最新的多模态大模型在这些任务上的表现也好不了多少。

她把目光投向了「空间智能」——让 AI 像人类一样理解三维空间、物理规律、物体之间的几何关系和因果关系。她从寒武纪大爆发中汲取灵感：5 亿多年前，视觉的出现点燃了智能进化的链条。她相信，空间智能将成为 AI 的下一个重大飞跃。

2024 年初，李飞飞与 Justin Johnson、Christoph Lassner、Ben Mildenhall 共同创立了 World Labs，专注构建「世界模型」——一种全新的生成式 AI 体系。2025 年 9 月，World Labs 正式亮相，融资超过 2.3 亿美元，估值突破 10 亿美元。同年 11 月，她发表了长文《从文字到世界：空间智能是 AI 的下一个前沿》，系统阐述了世界模型的三项核心能力：

生成性——能创造遵守物理定律、空间一致的世界

多模态——能处理图像、视频、动作等多种输入

交互性——能预测世界随时间演变或互动的状态

2025 年底，World Labs 发布了首款商用产品 Marble——一个可以根据文字、图像或视频生成完整可探索 3D 世界的平台。2026 年 1 月，李飞飞站上 CES 2026 的演讲台，再次强调空间智能的愿景。同月，World Labs 开放了 World API，把 Marble 的能力开放给开发者。

荣誉与认可

年份	荣誉
2025	《时代》杂志年度人物
2025	英国皇家工程奖（Queen Elizabeth Prize for Engineering）
2024	VinFuture 奖
2023	Intel 终身成就奖
2016	卡内基基金会「美国伟大移民」

她还是美国国家工程院、国家医学院、美国艺术与科学院的三院院士，ACM Fellow，发表超过 400 篇学术论文。她还是耶鲁大学和哈维穆德学院的荣誉博士。2024 年，她的自传《我看见的世界》在中国出版发行。

「AI 教母」这件事

媒体喜欢叫她「AI 教母」，她自己好像没太当回事。但她确实做了几件对 AI 产业格局影响深远的事：ImageNet 不只是个数据集，它证明了一件事——数据规模本身就是一种突破。 在算力和算法还没到位的年代，李飞飞就相信大数据能驱动 AI 进化，而很多人还在纠结算法的小修小补。

她身上有一种奇怪的特质：总能在大家都往一个方向跑的时候，安静地走到另一个方向去。当所有人都在做大语言模型的时候，她去做了空间智能。

她在长文末尾写了一句话：

若没有空间智能，我们关于真正智能机器的梦想将永远不完整。这场探索，是我的北极星。

50 岁的李飞飞，依然在追她的北极星。

关键信息速览

出生：1976 年 7 月 3 日，北京

现职：斯坦福大学计算机科学教授、HAI 联合主任、World Labs 联合创始人

教育：普林斯顿大学物理学学士、加州理工学院电子工程硕士及 PhD

代表作：ImageNet 数据集（1400 万+ 图片，22000 类别）

创业：World Labs（2024 年创立，估值 10 亿美元+）

著作：《The Worlds I See》（中译《我看见的世界》，2024 年出版）