采访手记:
本期嘉宾王乃岩是计算机视觉和自动驾驶研究者,曾经是图森未来的首席科学家,目前是小米自动驾驶的管理者。当年同为研究者,印象最深的是他做的MXNet,及物体检测的开创性工作。
乃岩完整地经历过AI 发展,是计算机视觉时代的超级大V。他读博士时新一波的深度学习方兴未艾,到后面 CV 的黄金年代、自动驾驶,再往后的大模型、具身智能,关于表征、世界模型、强化学习,他有着一套体系化的对AI的思考,也时常喜欢给过热的市场“泼泼冷水”。
认识乃岩还要从知乎说起,当年读了他的某乎技术输出(当年的套磁贴放到末尾),颇为钦佩,所以试图想去图森实习,但最后未能成行。此后也是一直默默关注着相关的研究工作。
本期播客的起源是在朋友圈,看到了乃岩对于谢赛宁访谈的共鸣,让我想找到这群当年做CV 的人,并花一些时间聊聊 AI 从过去到现在的变与不变。
早期经历的时代变化:
从目标追踪到 MXNet 的兴衰
许华哲:你最初为何会选择做目标追踪?
王乃岩:其实本质上还是因为年幼无知(笑)。因为我本科导师和博士导师其实都不是做CV 的,所以最开始也不知道计算机视觉里到底什么问题更重要、什么问题更根本。
后来会做目标追踪,一方面是觉得这个问题本身挺有意思,另一方面也是因为那个年代的计算机视觉,还是一种“每个任务都有自己独特方法论”的状态。
我2011 年博士入学的时候,其实正好处在传统计算机视觉和深度学习交替的时代。博士前半段,甚至可以说大半段时间,我做的都还是偏传统优化的方法,比如稀疏优化、鲁棒优化这些工作。当时其实是先有了这样一个“锤子”,然后再去看有什么应用适合它。
我自己一直更喜欢做偏应用的问题,所以后来就发现目标追踪是一个特别有意思的方向。那个时候,已经有一些人开始尝试把稀疏感知这些东西用在目标追踪里。
我自己大概做了两年多,对这个问题越来越熟,也发现里面有很多low-hanging fruit,于是就开始一步一步往下挖。
后来 2012 年 AlexNet 出来,深度学习开始真正进入大家视野,我也就慢慢把自己的方法论从传统方法切换到了深度学习。现在回头看,其实是完整经历了那个时代的切换。
许华哲:所以你是先选了目标追踪,才迁移到深度学习的?
王乃岩:是啊,因为AlexNet那时还没出现。
许华哲:后续你还有一个很知名的项目是MXNet,当时影响力巨大。你觉得MXNet 当时做得怎么样?
王乃岩:回过头来看,深度学习框架大概能分成3-4代。
第一代像Theano,能用但不好用。
Caffe是一个特别大的转折点,2013 年我在悉尼参加一个 workshop被推荐 了Caffe,回去之后我马上就开始用了。因为在 AlexNet 刚出来之后的那一年,其实大家很难找到一个真正好上手的框架。后来我们自己也做了一个小项目,叫CXXNET。但那个东西本质上和 Caffe 比较接近,并没有真正把“计算图”这些概念抽象好。
所以到2014 年的时候,我们就在想,是不是应该做下一代深度学习框架了?于是后面就有了 MXNet,与TensorFlow同期,PyTorch稍晚一点。所以我觉得 MXNet 算是第二代深度学习框架。
许华哲:你觉得MXNet 为何后来没能成为PyTorch?
王乃岩:这是一个特别好的复盘问题。我觉得MXNet 和 TensorFlow、PyTorch 最大的区别在于,它从一开始就是一个业余爱好项目。我们几个作者都是出于兴趣在做这个事情,每个人热情都非常高。而且那个时代,真正能把开源框架做好的门槛其实很高,所以参与的人能力也都很强。
大家一起添砖加瓦,所以早期发展特别快。很多时候,你会发现一些非常超前的想法其实最早是MXNet 提出来的,比如 declarative programming。当时 MXNet 里有一个东西叫 MinPy,本质上是想把 NumPy 的所有东西全部放到 GPU 和计算图里执行。现在回头看,这其实是一个特别超前的方向。
但问题在于你有idea,不代表你能真正把它推进成生态。你会发现当真正进入工业和科研环境之后,一个框架的成功不仅仅取决于技术本身,它还需要顶级研究者持续使用、大公司持续投入、大量生态支持、大量开源项目依附其上。
TensorFlow 后面有 Google,PyTorch 后面有 Meta,它们背后都有非常强的组织能力和资源投入。而 MXNet 没有,它缺少这种强有力的组织推进。
许华哲:那你们没有想过把它商业化,或者抱紧某个公司的大腿吗?
王乃岩:MXNet 后来进入AWS 体系了,但AWS 更多是把它当作云平台和企业服务的一部分,而不是一个真正意义上的开源生态项目去运营。它没有像 Google 推 TensorFlow、或者 Meta 推 PyTorch 那样,真正投入巨大资源去建设社区。
另外一个原因是,AWS 在那个年代,本身也没有像 FAIR 或 Google 那样持续产出大量最前沿研究,所以天然就缺少原生科研生态的支持。这其实也是后来它败下阵来的一个核心原因。
从研究员到图森工程师:
自动驾驶为何比预计普及得慢?
许华哲:你的学术工作非常出色,为何博士毕业没去当老师,而是选择了去图森做首席科学家?
王乃岩:最核心的原因还是,我更享受把一个东西真正做出来。
我觉得做研究当然很好,但某种意义上,学术界更重要的价值是去告诉大家什么是重要的问题,什么是值得关注的问题,它有一种引领的作用。但我对自己的定位,其实一直更像一个工程师。
我更喜欢的是真的把一个问题解决掉,而且把它解决得很扎实、很好。我享受的是“完成一件事情”的感觉。所以从这个角度来说,企业界其实更适合我。
至于为什么会选择图森,主要还是因为侯晓迪。当时跟他交流很多,我觉得大家特别聊得来。能和聊得来的人,一起做喜欢的事情,其实是最理想的工作状态了。
许华哲:我2016年读博时自动驾驶很火,但到2026年,发展速度其实比我想象的慢。你怎么看自动驾驶这十年的发展?
王乃岩:如果从技术上看,现在和十年前相比,其实已经是翻天覆地的变化了。很多十年前完全想不到的事情,现在都已经能做到。
比如L2 辅助驾驶,我觉得未来两三年一定会越来越成熟,甚至很多系统,像现在 FSD 在美国,其实已经足够好用了。所以很多人会觉得,自动驾驶是不是已经做完了?但我一直觉得,L2 和 L3 之间,其实是一个巨大的分水岭。
因为L2 本质上还是辅助驾驶,责任仍然在驾驶员;但从 L3 开始,不管是 L3、L4 还是最终的 L5,最大的区别在于系统要真正承担完整责任。这件事一下子就把问题难度提高了很多。
自动驾驶真正困难的地方,正是你怎么做一个AI 系统,能够达到接近人类驾驶的可靠。是“系统”,不是单一算法——它不仅需要可靠性高,而且犯错的时候,还必须符合人的预期。
这两件事情,恰恰是为什么自动驾驶发展了这么多年,仍没有像十年前大家想象得那么普及的原因。因为基于数据和统计驱动的AI,本质上还是会遇到很多未知的不安全。
只用自动驾驶数据训练出来的模型,一定不可能完美解决自动驾驶。
人不是生下来就坐在驾驶位上开始学开车的,你是先活了二三十年,对这个世界已经有了足够多的认知和理解,然后才被fine-tune 到“开车”这个任务上。所以很多问题的本质,其实都是“对世界理解不够”。
比如你刚才举的那个例子:公交站那里其实不应该并线,人一眼就知道那个区域是给公交车停靠的。这个场景其实一点都不长尾,北京每天都能遇到很多。但模型为什么会犯错?因为它没有真正理解那个世界。
所以后来大家为什么会想把大模型、互联网知识引入自动驾驶,本质原因就是大家意识到,仅靠驾驶数据是不够的。
端到端、表征与世界模型
「表征是AI不变的本质」
许华哲:你之前发表过暴论,“不要陷入狭义端到端”、“自动驾驶大模型是伪命题”。你现在还这么想吗?
王乃岩:这些观点是在当时的技术背景下提出的。很多人其实只记住了最后一句话,没有看我前面的逻辑。那个时候大概是 ChatGPT 刚出来,大家对“端到端”的理解其实是很肤浅的。
所有人都会觉得:端到端就是输入图像,然后经过一个网络,直接输出动作。这当然是一个非常理想化的形式,但真正实践之后,大家会发现这里面有很多问题。所以,我当时想表达的其实是,不要把端到端简单理解成“Sensor 到 Action”的直接映射,因为这样会丢掉很多东西。
我当时甚至把它叫做“feed-forward 端到端”——没有反馈、没有世界状态、没有推理。这种方式在大量数据条件下,确实能解决 99% 的问题,但真正困难的地方在于 OOD,也就是场景外泛化。
后来大家其实已经开始不断往里面加东西了,比如数据增强、强化学习、后训练,包括现在开始做 world model、world action model,本质上都是在解决简单的 feed-forward 端到端不够的问题。我最近看到港大李弘扬老师团队的工作,将反馈控制机制加入模型,这就不再是简单的feed forward端到端了,但它也是端到端。
我一直喜欢“泼冷水”,也是因为我每天看路测遇到的问题,思考这些问题的本质困难,以及技术是否解决了这些困难。希望提醒大家不要过于迷信某项技术。
许华哲:当你看到路测问题时,会觉得靠DAgger这样的补数据就能解决吗?还是有些问题补数据也解决不了?
王乃岩:补数据这件事,当然很重要。但补数据本质上是在把“已知的不安全”变成“已知的安全”。真正困难的是“未知的不安全”,你甚至都不知道它会以什么形式出现。那你怎么检测、规避、缓解它?我觉得这才是自动驾驶真正核心的挑战。
自动驾驶一定不会存在一个“百分之百不会出事故”的系统。人类也做不到。但工程上真正重要的事情,是把这些未知的不安全控制在一个合理、可接受的概率范围内。
许华哲:回到学术问题,你去年还在研究物体表征。你现在还觉得表征是AI中最本质的东西吗?
王乃岩:我觉得是。从前深度学习时代到现在的大模型时代,计算机视觉里真正一以贯之的核心问题,都是怎么去做更好的表征,这个主题从来没变过。
你会发现一个特别明显的趋势:表征越强,任务就越统一。你不再需要为每个任务设计一套独立系统。我觉得这其实符合一种“现代模型审美”。
在深度学习之前,我们的表征非常弱,所以你必须设计大量任务专属的方法。我博士的时候做目标追踪,写过一篇文章,专门去分析和理解目标追踪系统。我当时把整个 tracking system 分成五六个模块,最后得出的结论其实特别简单:再花哨的分类器、运动模型,收益都远远不如更强的 feature 表征。
后来很快,大家开始用深度学习特征去做 tracking。你会发现,很多复杂东西都不用了,只要表征 feature 足够强,一个非常简单的分类器,性能都能直接超过以前所有方法。
这条线其实一直延续到了后来深度学习特征的应用,从ImageNet预训练到自监督学习,也都印证了这一点。
许华哲:回问一句,什么是表征?
王乃岩:其实现在大家说“表征”,很多时候讲的已经不是同一个东西了。如果从计算机视觉的角度来说,我觉得表征本质上是:你把像素空间,映射到一个你关心的属性空间。
比如最经典的是语义空间。你把图像映射进去之后,相近语义的物体应该聚在一起。但除了语义,其实还有很多别的空间。比如最近大家开始做 3D foundation model,大家更关心的其实是几何表征。
再比如运动表征。我一直觉得,运动里面其实蕴含着非常多的信息,但现在还没有看到特别好的工作真正把它做出来。我会持续关注,这些都是我们后续工作的基础。
许华哲:你提到了“世界模型”,Yann LeCun有JEPA,李飞飞有Marble,英伟达有Cosmos。你觉得世界模型在学表征吗?是未来的正确之路吗?
王乃岩:我更倾向于原教旨主义的world model,不认为视频生成模型是world model。
world model必须包含对世界的输入,更像强化学习中的world model。其意义因人而异。现在world model最主要用途是离线生成数据,生成corner case,做可控生成。但我更关心一个好的world model能否学到“intuitive Physics”(直觉物理)。
就像三四岁小孩,没学过牛顿定律也知道皮球会落地、会弹起,玻璃球会碎。这是将物理世界常识注入模型。有了这些,如何将其在线融入端到端模型(如VLA)是大家初步尝试的方向。很高兴看到world action model的提出,但如何真正用好仍是未解难题。
AI 时代的新旧概念
很多是「炒冷饭」
许华哲:其实这次找你是因为看了你的朋友圈,提到看谢赛宁7小时播客后的感慨。我们也聊了很多新旧概念,有时我觉得我已经跟不上硅谷的节奏了,每天都有新概念,比如Prompt engineering已过时,现在是Harness engineering。从一开始做AI的旧概念和现在的新概念,到底有没有本质区别?还是只是热词不断?
王乃岩:我听赛宁播客后很激动。因为2024年后,我一直在想构建Physical AI的宇宙,但车圈主流叙事是端到端到VLA,似乎能解决自动驾驶甚至具身所有问题。而我的观念不同,一直认为语言很有用,然而也没解决我路测遇到的实际问题。所以我在圈子里有很强的孤独感。
随着world model的兴起,大家会重新关注这个方向,我有一种自己被听到的感觉。赛宁7小时播客把我所有想讲的都讲透了,我很兴奋。
AI发展史中,很多想法过于超前,但当时前置科技树还未解锁。CNN就是典型例子,Yann LeCun 80年代就发明,但当时没有GPU和海量数据集,无法发挥其能力。我自己也经历过类似的事情。
2014年在CMU访问时,我第一次听说自监督,并想通过Word2Vec学patch embedding,这本质上就是JEPA。但当时只有CNN和Caffe,实现灵活模型训练非常困难,所以没做成。十年后,恺明的MAE和LeCun的JEPA证明了其可行性。
当时我还想过物体表征。我喜欢看失败样本,发现目标追踪常漂移到背景。自然想到让神经网络学习什么是物体。但物体很难定义,Avner曾问我“what makes an object object?”。这驱使我思考人如何认知“这是一个东西”,后来发现可以从运动中定义。
不过这个想法也想了很多年,直到2024年,算力、数据、网络架构才支撑去做。从无监督视频中学习物体概念,11年后才做成一个工作。
虽然物体表征如今已非主流,但我还是想做出来,因为它是一个很学术的工作,我们去年证明婴儿学习物体概念的机制,以及将其用于学习范式也能取得不错结果。
许华哲:我很共情,很多想法都是“炒冷饭”,但随着工具发展,确实能实现。我伯克利师兄Deepak也做过context encoder,Self-supervised learning,跟你想法一样,抠个窟窿填上学表征。他发了CVPR,但没大成。恺明MAE出来后,他说“我们跟恺明只是他抠掉了80%像素,我们抠掉了20%像素,就没成”。
王乃岩:是的。我还记得CMU时Ross说他是计算机视觉领域唯一能把想法真正落地的人,我一直将其视为最高评价和奋斗目标。恺明也是这样的人,能把简单想法做到极致,想得非常清楚。
通用机器人与Physical AI的未来
自动驾驶行业的经验之谈
许华哲:我现在创业做家庭机器人,这是搞AI人的终极梦想。你对家庭机器人或通用机器人有什么想法?
王乃岩:我分享一个我心中的图纸,断断续续想了两年。可以类比自动驾驶。如果让我总结,我觉得 physical AI 里有三个特别核心的部分。
第一个,是理解世界。你要知道你看到的东西到底是什么,它意味着什么。这里面其实不只是语义理解。语义当然重要,但如果你真的要在物理世界里行动,你还需要几何理解、运动理解、时序理解。因为机器人面对的不是单帧图片,而是一个连续流动的世界,很多信息其实隐藏在帧与帧之间的变化里。
第二个部分,是预测世界,或者说预知世界。你要知道当我做了一个动作之后,这个世界会发生什么变化。小朋友其实一直都在训练这个能力。他会知道球掉下去会弹、杯子会碎、东西会滚,这其实就是一种对世界反馈的预测。
所以我一直觉得,一个真正好的 world model,核心就在这里。它应该能学到 intuitive physics,也就是那种不需要学过牛顿定律,但依然知道这个世界会怎么运转的能力。
第三个部分,是改造世界。也就是你最终要决定:为了达到目标,我应该采取什么 action。而这个部分,本质上其实就是大规模强化学习。
所以如果你问我,physical AI 最核心的闭环是什么,我会说:表征、世界模型、大规模强化学习。这三件事情共同构成了一个比较完整的闭环。
我其实经常会把机器人和自动驾驶类比。因为自动驾驶最开始其实也不叫自动驾驶,它最早只是一些很单一的驾驶辅助功能,比如车道保持、定速巡航、自适应巡航。它们都属于特别垂直、特别受限的问题。这其实很像今天的工业机械臂。
但另一端是什么?另一端是 robotaxi,是今天大家都在讲的人形机器人,也就是不限场景、极度泛化、什么都能干。但你回头看,自动驾驶这十年虽然发展很快,可其实也没有达到当年大家想象中的那个速度。不过它中间确实落地了很多非常有价值的东西。比如矿山、配送车、Robovan,这些都是很成功的垂直场景。
所以我觉得,机器人接下来很可能也会经历类似过程。
大家当然都会讲“终极的人形机器人”这个故事,因为一定要有一个终极愿景。但真正能快速产生商业价值的,可能还是介于工业机械臂和完全泛化的人形机器人之间的东西。很多时候你必须牺牲一些东西。
就像 L2 自动驾驶,其实牺牲掉的是“完全责任”,但换来了非常好的泛化能力。技术落地很多时候就是这样,你不可能什么都要。
而且我觉得 physical AI 和大语言模型还有一个很本质的区别:它们是在物理世界里行动的。语言模型很多时候是在虚拟环境里工作,它犯了很多错误,用户可能骂一骂也就过去了。
但机器人和自动驾驶不是,它们真的会造成财产损失,甚至安全事故。所以这个领域天然就会比互联网 AI 更保守、更慢。
还有一个很现实的问题是数据闭环速度。
互联网产品可以非常快地上线,然后迅速拿到全世界用户反馈。但 physical AI 不一样,你真的得一台一台机器造出来,一点一点部署。这个速度天然就慢很多。
从商业角度看,我经历了自动驾驶的十年。自动驾驶最初是单一功能的驾驶辅助,如车道保持、定速巡航,类似现在的工业机械臂,垂直应用,高度定制化,效率高。
2016年人人想做的Robotaxi,以及现在的人形机器人,不限场景,极度泛化。十年Robotaxi发展不及预期,但自动驾驶在矿山、末端配送等垂直场景落地,改变了很多。
类比到具身领域,具身智能和人形机器人是终极理想,但能快速产生价值的,可能是介于工业机械臂和人形机器人之间的一些垂直场景。像L2辅助驾驶,它其实牺牲掉了你对可靠性的极高要求,但是保持了一个极好的泛化性。牺牲某些东西,不过达成一个可商业化、可落地的目标。
许华哲:这个地方我尝试挑战一下,有没有可能这是过渡类比?如果我在 2022 年的时说,我要渲一个很大的语言模型,让它极度泛化,特别通用,但是语言模型这事就成了,没有在中间找频谱上的地方,直接落地AGI了。
王乃岩:对,我当然希望我是错的,我是乐于看到技术发展的,但更习惯从悲观角度考虑问题,泼冷水。语言模型和物理世界智能体不同。语言模型可在虚拟环境快速上线,获得全球用户反馈,快速Scale up。
物理世界智能体需要一台一台机器制造,难以快速Scale up。与物理世界交互,必须有底线的安全可靠性。
另一方面,语言模型犯错影响不大,但机器人或自动驾驶可能会实质造成财产损失甚至人身伤害。所以,类比自动驾驶是因为它们都是在物理世界去行动的智能体,而物理世界智能体需要比大语言公司谨慎得多。
职业转变与回归初心
「凡事向内求」
许华哲:我们聊了很多技术和AI发展,也想了解管理。你在图森,从首席科学家到CTO的角色转变是怎样的?
王乃岩:初期我只负责解决技术难题,比如2016年刷榜,代表技术实力,首席科学家的价值在于攻坚某个专项难题。但CTO要考虑更多,不仅解决技术问题,还要设计技术架构,做技术决策,包括人才管理(需要什么人、如何排兵布阵、适合做什么)。技术很多时候要与产品和deadline妥协,在资源和时间限定下,如何做到最好展现效果,需要很多决策。
许华哲:你曾说90后员工不光要养家糊口,还要看个人成长。现在00后也走上工作岗位了,你觉得他们会看什么?
王乃岩:00后整体比90后更开放活跃。但对于顶尖人才,核心需求没变:金钱回报、成就感回报、知识技能习得回报。作为管理者,我们要搭建好舞台,设立好边界,把事情交给他们。要相信优秀人才有能力解决问题,他们会得到信任,有更强主观能动性。有问题时及时纠偏是管理者职责。
我在图森喜欢招校招生,曾对他们说,希望他们离开时,图森的经历是加分项。2024年图森发生变故后,很多同学出去找工作,反馈确实这段经历是职业生涯的加分项。对此我非常自豪,给大家带来的不仅仅是金钱,更是个人成长。
许华哲:对我也收到一些简历,图森确实是加分项。
王乃岩:对此我作为管理者非常自豪,给大家带来的不仅仅是金钱,更多是个人是否变得更好。
许华哲:回到你最初的初心,你很喜欢摄影,对吧?
王乃岩:对,这个只是开始提了一嘴,后来被不断提起。
许华哲:这让我想起Alyosha Efros,他也喜欢摄影,开计算摄影课。你觉得摄影对你搞视觉或后续职业有影响吗?
王乃岩:初期肯定有很大影响。但后来发现这个领域还有更多好玩的事情,我就是不断挖掘有意思的事情。现在我更享受从数字到模拟,把照片拿在手里的感觉,玩胶片相机,甚至在暗房放大照片。拍照不是给别人看,而是记录那一刻的心境。实体照片带来的感受完全不同。进入CV后,发现世界太大了。
许华哲:摄影让你个人偏好往CV偏了一点,后面更多。
王乃岩:是的。恺明也说过一句话,CV是大自然的语言,它蕴含的信息、表达的东西、变化,都让我非常着迷,有很多有意思的问题。
许华哲:回顾你的研究和工作生涯,哪一两件事对你影响最大?
王乃岩:肯定是2024年初图森的事情,那段经历最痛苦。我倾注了全部心血,但因各种原因公司业务不做了,团队也可能离开。我习得了非常多的东西,对“人性”有了更多理解。它是一个中性词。
很多朝夕相处的同事,在巨大变革时,他们的想法、在意的事情、做的决定,可能完全超出预期。我不是说好或不好,只是理解了人的多样性。虽然理解,但当时仍觉得做了很多工作很可惜,希望能和大家继续努力。所以后来做了很多工作,看看能否有机会让绝大部分想继续在这个行业做的同学一起努力,把事情做出结果,才有了后面的故事。
许华哲:如果你给之前的自己一个建议,会是什么?
王乃岩:凡事向内求。很多事情向外求会带来无谓的困扰。如果一件事不重要,就允许它以任何路径发生,产生任何结果。如果一件事对你很重要,就要牢牢抓住,主导走向。这样想之后,很多事情就不会那么纠结和困扰了。
许华哲:最后,给所有看节目的学生、工程师、创业者一个建议:人生应该怎么过?
王乃岩:有两点,一是拥抱变化,二是以不变应万变。看上去有点矛盾。
「拥抱变化」是指永远不要把自己禁锢在受限的思维定势里。AI Coding等颠覆了很多人赖以生存的手艺,但要积极拥抱,找到新浪潮中的位置。被颠覆时,第一反应不应是抗拒,而是思考如何适应。
「以不变应万变」是指世界变化快,但有些东西不变。这包括你对事情的判断和价值取舍能力。这反复被解读,但确实很重要。一个人所有经历都会反馈在你对事情的判断和价值取舍能力上。
这种“直觉”背后,是一个人过去的所有经历、大量思考和输入后形成的。知道什么是“好的”很重要,这样才能在好的时候还能做出正确判断,这更难能可贵。
(以上是本期播客的内容节选,完整版指路小宇宙APP🔍许华哲的自定义地图)
ps。附赠一条彩蛋(当年某乎陶瓷儿乃岩的私信

夜雨聆风