读《我看见的世界:李飞飞自传》 文 / 时雨
我做 AI 产品,平时满脑子都是模型、Agent、生图效果好不好。翻开李飞飞这本自传之前,我以为会读到一个"AI 教母"的标准爽文:天才少女,一路开挂,封神。结果读完我有点破防。不是被开挂线破防,是被两样特别朴素的东西——一家干洗店,和一张被贴在会场角落、没人看的海报。我们今天敬畏的整个 AI 时代,就是从这种不起眼的地方,一寸一寸长出来的。这篇不是书评,是我作为一个 AI 从业者读完之后,最想跟你聊的几个点。
01 这本书,先把我对她的偏见打碎了
说实话,我一开始带着一个很俗的预期翻的:一个女科学家,在男人扎堆的科技圈,是怎么"杀出重围"的。她写成都童年,写过一个重男轻女的老师,那种赤裸裸的偏见;写 16 岁刚到美国,英语烂到要从头学;写父母从国内的知识分子,沦落到修相机、当收银员。但她笔下反复出现的,不是"我多惨我多强",而是一个又一个在黑暗里朝她挥手的人——老师、导师、同行。她在书里很爱一个画面:夜里开车,车灯只能照亮前面 50 米。你看不清整条路,但你就着那 50 米一直往前开,等回头一看,已经走出去很远了。因为它太反"成功学"了。成功学告诉你要有清晰的十年规划、要看见终点。她说不用——你只要能看清眼前这 50 米,敢开,就够了。02 让我起鸡皮疙瘩的,是她"找到问题"的方式
她普林斯顿读的是物理。本科一毕业,没急着工作,也没急着读研——而是拿了个奖学金,跑去西藏研究了一年藏药。一个物理系高材生,跑去研究传统藏药。你品品这个跨度。后来她进了加州理工,跟着两位导师做博士:Pietro Perona(搞计算机视觉的工程师)和 Christof Koch(从物理学家转行的神经科学家)。她选这儿,就是冲着"既能碰神经科学、又能碰计算机"去的。科赫问过她一个问题:你要怎么向一个天生的色盲,描述什么是"红色"?你想想,这题根本没法答。红就是红,可你怎么用语言把它拆解给一个从没见过红的人?但科赫的意思是:如果有一天你真能用逻辑、用语言把"红"讲清楚,那就说明你彻底搞懂了"视觉"是怎么运作的——而搞懂了,你就能把它复刻进机器里。就是这一个问题,把她一生的研究命题钉死了:让机器像人一样"看见"。而当时全世界在认真搞"物体识别"这个方向的,不到十个人。主流觉得这事有点疯——你教机器认猫认狗认椅子,图啥?她偏偏一头扎了进去。用她自己的话说,那种感觉像小孩闯进了一个全新的游乐场,到处都是等着被挖出来的宝藏。一旦尝过,这辈子忘不掉。我做产品的人最缺的,往往不是答案,是问对问题的能力。她二十出头就锁定了自己要问的那个问题,剩下二十年都在回答它。这种"命题意识",比聪明值钱多了。
03 ImageNet:一次几乎所有人都劝她别做的豪赌
2007 年前后,她在普林斯顿当助理教授。当时整个计算机视觉圈都在卷一件事:算法。逻辑很简单——模型不够聪明,那就把模型设计得更精巧点。她的判断是:人能认出猫,不是因为脑子里有什么绝世算法,是因为从小看过了海量的猫。那机器是不是也一样?与其死磕模型,不如先喂给它一个大到离谱、覆盖整个真实世界的图像库。她甚至从语言学的 WordNet(一个把所有词按层级归类的知识库)偷了灵感,想给"整个视觉世界"也建这么一套。最初她想雇本科生来一张张标。一算进度——按这速度,得干将近一个世纪。项目从设想阶段就差点死掉。后来转用了亚马逊的 Mechanical Turk 众包,把活拆给全世界。最终的数字现在看依然吓人:167 个国家、近 5 万名标注者、干了约两年半,标出 1500 万张图、2.2 万个类别。而且众包不是甩出去就完事,全是脏活:一张"猫"两个人扫一眼就能定,可一张迷你哈士奇的图,可能要来回验证十轮才敢确认是不是狗。万一有人为了赚钱乱标怎么办?团队干脆给标注者的行为建了一整套统计模型来兜底。这些又脏又笨的活,主要靠她两个博士生 Jia Deng 和 Olga Russakovsky 扛下来。更别提,她做这一切的时候,母亲正患着癌症。她是一边照顾病重的母亲,一边把这个被同行当成笑话的项目,硬生生做出来的。04 卧槽时刻:它当年只配贴在会场最不起眼的角落
2009 年,ImageNet 作为论文投到 CVPR——计算机视觉的顶级会议。卧槽,结果会议只给了它一个海报位(poster),连上台做口头报告(oral)的资格都没给。什么概念?就是你憋了三年的大招,到了最重要的场合,被安排在角落贴一张纸,路过的人扫一眼就走。为了拉人来看,团队印了一批带 ImageNet logo 的钢笔,站在海报旁边发笔,求人停下脚步。当时的主流态度是怀疑,甚至嘲讽。有人当面说:你连一个物体都还没识别好,搞几千几万个物体干嘛?那个年代,"更多数据能让算法更强"这个今天看天经地义的想法,被当成天真。数据不是什么"新石油",更像没人要的边角料。落差就在这儿:一个事后被证明改变了整个 AI 走向的东西,在它最关键的诞生时刻,是被冷落的。而且翻盘也没那么快。2010 年她办了 ImageNet 挑战赛(ILSVRC)想给数据集打名气,结果第一届冠军用的还是传统的 SVM 算法——恰恰是她认为根本驾驭不了 ImageNet 的那一类方法。这就是我觉得这本书最该被打工人读的地方:你判断对了方向,不代表市场会立刻给你掌声。中间那段没人信、自己都开始怀疑的真空期,才是真正杀人的地方。
05 2012 年那一下,世界突然换了频道
转折点是 2012 年,第三届 ImageNet 挑战赛。Hinton 团队(具体动手的是他学生 Alex Krizhevsky)拿出了 AlexNet——一个跑在 GPU 上的深度卷积神经网络。它喂进 ImageNet 这套海量数据,图像识别准确率直接干到约 85%,把第二名甩出一条街。这一下同时证明了两件事:Hinton 死磕多年、一度被边缘化的神经网络,是对的;李飞飞押注的"数据驱动",也是对的。算法、算力、数据——三个齿轮,第一次严丝合缝地咬上了。我们今天所处的整个深度学习时代,就是从这一声"咔哒"开始的。她常说人生有"北极星"——那个值得你死磕的方向。但她的北极星不是钉死的:从崇拜爱因斯坦的物理梦,到西藏的藏药,到计算机视觉,它一直在移动。06 全书最戳我的,是病床边那句话
如果说 ImageNet 是这本书的骨架,那她母亲就是这本书的命脉。往前倒。1999 年普林斯顿毕业,高盛、美林这些华尔街巨头向她招手,开的条件诱人到离谱:高薪、医保、帮全家还清债务——而那时她母亲身体已经很差,这些是真能救命的东西。天平一头是科学梦,另一头是"让生病的妈妈有医保、让全家不用再守着干洗店"。这哪是坚持梦想的鸡汤题,是一道血淋淋的现实减法题。她去问母亲怎么选。母亲没劝她现实点,只反问了一句,大意是:你不是想当科学家吗?那还有什么好商量的。很多年后,她已经功成名就,母亲躺在病床上,问了她另一个问题:人工智能,还能做点什么来真正帮到人?就这一句,把她从"造更强的 AI",掉头推向了"造对人真正有用的 AI"。后来的"以人为本人工智能研究院"(HAI)、推动 AI 教育多元化的 AI4ALL、去美国国会就 AI 作证——根子都在她妈那张病床边。一个被很多人讲成"技术封神史"的故事,内核其实特别软:一个女儿,想让这门技术,配得上她妈妈的那句提问。07 顺便说,她现在又跳到了一个新方向
很多人不知道,写完这本书之后,2024 年她又从零开始创业,搞了家叫 World Labs 的公司,方向是"空间智能"——简单说,就是让 AI 不只看懂一张平面图片,而是理解三维空间、能在物理世界里推理和行动。ImageNet 解决的是"机器能不能看见"。空间智能想解决的是"机器能不能理解它看见的世界、并在里面动起来"。你看,她又一次跑到了一个现在听起来有点超前、有点冷的方向上。历史好像在重演。只不过这次,没人敢再说她"做这个图啥"了。08 升维:所有"早期正确"的共同命运
ImageNet 这条线之所以让我后背发凉,是因为它根本不是个例。几乎所有后来改变世界的东西,在早期都长着一张"不值得"的脸。传统软件的逻辑是:功能定了就定了,上线即终点。而真正的范式革命从来不长这样——它一开始往往被塞在会场角落,被聪明人判定"没前途",靠几个人发着钢笔硬撑,熬过一段没人信、首战还被打脸的黑暗期,然后某天被一个意外的成果点燃。我们现在每天用的大模型、Agent、生图工具,本质上都站在 ImageNet 这块地基上。而这块地基,是有人在所有人都说"没用"的时候,蹲下去一块砖一块砖铺出来的。判断一个方向对不对,从来不在它最风光的时候,而在它最不被待见、却依然有人愿意死磕的时候。回到她那个比喻:你不用看清整条路。你只要看清眼前 50 米,然后敢开。
读完这本书,我记住的不是 1500 万张图,也不是 85% 这个数字。一个是新泽西小镇上那家干洗店,工作日是普林斯顿物理系的高材生,周末赶回家在店里收衣服、记单子;另一个是顶会角落那张没人看的海报,旁边站着几个发钢笔的人,求路过的同行停一停。这两个画面里的人,谁也没法预知自己正站在历史的拐点上。她只是看清了眼前的 50 米,然后一脚油门踩了下去。而那张被忽略的海报上,画着的正是我们今天所有人生活其中的世界。说到底,这本书没在教你怎么成功。它只是诚实地告诉你:对的方向,早期大多没人鼓掌;能不能熬过那段没人信的黑,靠的不是聪明,是你心里那颗北极星,到底够不够亮。那你呢——此刻你手头,有没有那么一件正在做、但暂时没人看好的事?