对话王乃岩:AI时代的很多idea以前就存在,只是当年前置科技树还没点亮

采访手记：

本期嘉宾王乃岩是计算机视觉和自动驾驶研究者，曾经是图森未来的首席科学家，目前是小米自动驾驶的管理者。当年同为研究者，印象最深的是他做的MXNet，及物体检测的开创性工作。

乃岩完整地经历过AI 发展，是计算机视觉时代的超级大V。他读博士时新一波的深度学习方兴未艾，到后面 CV 的黄金年代、自动驾驶，再往后的大模型、具身智能，关于表征、世界模型、强化学习，他有着一套体系化的对AI的思考，也时常喜欢给过热的市场“泼泼冷水”。

认识乃岩还要从知乎说起，当年读了他的某乎技术输出（当年的套磁贴放到末尾），颇为钦佩，所以试图想去图森实习，但最后未能成行。此后也是一直默默关注着相关的研究工作。

本期播客的起源是在朋友圈，看到了乃岩对于谢赛宁访谈的共鸣，让我想找到这群当年做CV 的人，并花一些时间聊聊 AI 从过去到现在的变与不变。

以下是播客文字节选

早期经历的时代变化：

从目标追踪到 MXNet 的兴衰

许华哲：你最初为何会选择做目标追踪？

王乃岩：其实本质上还是因为年幼无知（笑）。因为我本科导师和博士导师其实都不是做CV 的，所以最开始也不知道计算机视觉里到底什么问题更重要、什么问题更根本。

后来会做目标追踪，一方面是觉得这个问题本身挺有意思，另一方面也是因为那个年代的计算机视觉，还是一种“每个任务都有自己独特方法论”的状态。

我2011 年博士入学的时候，其实正好处在传统计算机视觉和深度学习交替的时代。博士前半段，甚至可以说大半段时间，我做的都还是偏传统优化的方法，比如稀疏优化、鲁棒优化这些工作。当时其实是先有了这样一个“锤子”，然后再去看有什么应用适合它。

我自己一直更喜欢做偏应用的问题，所以后来就发现目标追踪是一个特别有意思的方向。那个时候，已经有一些人开始尝试把稀疏感知这些东西用在目标追踪里。

我自己大概做了两年多，对这个问题越来越熟，也发现里面有很多low-hanging fruit，于是就开始一步一步往下挖。

后来 2012 年 AlexNet 出来，深度学习开始真正进入大家视野，我也就慢慢把自己的方法论从传统方法切换到了深度学习。现在回头看，其实是完整经历了那个时代的切换。

许华哲：所以你是先选了目标追踪，才迁移到深度学习的？

王乃岩：是啊，因为AlexNet那时还没出现。

许华哲：后续你还有一个很知名的项目是MXNet，当时影响力巨大。你觉得MXNet 当时做得怎么样？

王乃岩：回过头来看，深度学习框架大概能分成3-4代。

第一代像Theano，能用但不好用。

Caffe是一个特别大的转折点，2013 年我在悉尼参加一个 workshop被推荐了Caffe，回去之后我马上就开始用了。因为在 AlexNet 刚出来之后的那一年，其实大家很难找到一个真正好上手的框架。后来我们自己也做了一个小项目，叫CXXNET。但那个东西本质上和 Caffe 比较接近，并没有真正把“计算图”这些概念抽象好。

所以到2014 年的时候，我们就在想，是不是应该做下一代深度学习框架了？于是后面就有了 MXNet，与TensorFlow同期，PyTorch稍晚一点。所以我觉得 MXNet 算是第二代深度学习框架。

许华哲：你觉得MXNet 为何后来没能成为PyTorch？

王乃岩：这是一个特别好的复盘问题。我觉得MXNet 和 TensorFlow、PyTorch 最大的区别在于，它从一开始就是一个业余爱好项目。我们几个作者都是出于兴趣在做这个事情，每个人热情都非常高。而且那个时代，真正能把开源框架做好的门槛其实很高，所以参与的人能力也都很强。

大家一起添砖加瓦，所以早期发展特别快。很多时候，你会发现一些非常超前的想法其实最早是MXNet 提出来的，比如 declarative programming。当时 MXNet 里有一个东西叫 MinPy，本质上是想把 NumPy 的所有东西全部放到 GPU 和计算图里执行。现在回头看，这其实是一个特别超前的方向。

但问题在于你有idea，不代表你能真正把它推进成生态。你会发现当真正进入工业和科研环境之后，一个框架的成功不仅仅取决于技术本身，它还需要顶级研究者持续使用、大公司持续投入、大量生态支持、大量开源项目依附其上。

TensorFlow 后面有 Google，PyTorch 后面有 Meta，它们背后都有非常强的组织能力和资源投入。而 MXNet 没有，它缺少这种强有力的组织推进。

许华哲：那你们没有想过把它商业化，或者抱紧某个公司的大腿吗？

王乃岩：MXNet 后来进入AWS 体系了，但AWS 更多是把它当作云平台和企业服务的一部分，而不是一个真正意义上的开源生态项目去运营。它没有像 Google 推 TensorFlow、或者 Meta 推 PyTorch 那样，真正投入巨大资源去建设社区。

另外一个原因是，AWS 在那个年代，本身也没有像 FAIR 或 Google 那样持续产出大量最前沿研究，所以天然就缺少原生科研生态的支持。这其实也是后来它败下阵来的一个核心原因。

从研究员到图森工程师：

自动驾驶为何比预计普及得慢？

许华哲：你的学术工作非常出色，为何博士毕业没去当老师，而是选择了去图森做首席科学家？

王乃岩：最核心的原因还是，我更享受把一个东西真正做出来。

我觉得做研究当然很好，但某种意义上，学术界更重要的价值是去告诉大家什么是重要的问题，什么是值得关注的问题，它有一种引领的作用。但我对自己的定位，其实一直更像一个工程师。

我更喜欢的是真的把一个问题解决掉，而且把它解决得很扎实、很好。我享受的是“完成一件事情”的感觉。所以从这个角度来说，企业界其实更适合我。

至于为什么会选择图森，主要还是因为侯晓迪。当时跟他交流很多，我觉得大家特别聊得来。能和聊得来的人，一起做喜欢的事情，其实是最理想的工作状态了。

许华哲：我2016年读博时自动驾驶很火，但到2026年，发展速度其实比我想象的慢。你怎么看自动驾驶这十年的发展？

王乃岩：如果从技术上看，现在和十年前相比，其实已经是翻天覆地的变化了。很多十年前完全想不到的事情，现在都已经能做到。

比如L2 辅助驾驶，我觉得未来两三年一定会越来越成熟，甚至很多系统，像现在 FSD 在美国，其实已经足够好用了。所以很多人会觉得，自动驾驶是不是已经做完了？但我一直觉得，L2 和 L3 之间，其实是一个巨大的分水岭。

因为L2 本质上还是辅助驾驶，责任仍然在驾驶员；但从 L3 开始，不管是 L3、L4 还是最终的 L5，最大的区别在于系统要真正承担完整责任。这件事一下子就把问题难度提高了很多。

自动驾驶真正困难的地方，正是你怎么做一个AI 系统，能够达到接近人类驾驶的可靠。是“系统”，不是单一算法——它不仅需要可靠性高，而且犯错的时候，还必须符合人的预期。

这两件事情，恰恰是为什么自动驾驶发展了这么多年，仍没有像十年前大家想象得那么普及的原因。因为基于数据和统计驱动的AI，本质上还是会遇到很多未知的不安全。

只用自动驾驶数据训练出来的模型，一定不可能完美解决自动驾驶。

人不是生下来就坐在驾驶位上开始学开车的，你是先活了二三十年，对这个世界已经有了足够多的认知和理解，然后才被fine-tune 到“开车”这个任务上。所以很多问题的本质，其实都是“对世界理解不够”。

比如你刚才举的那个例子：公交站那里其实不应该并线，人一眼就知道那个区域是给公交车停靠的。这个场景其实一点都不长尾，北京每天都能遇到很多。但模型为什么会犯错？因为它没有真正理解那个世界。

所以后来大家为什么会想把大模型、互联网知识引入自动驾驶，本质原因就是大家意识到，仅靠驾驶数据是不够的。

端到端、表征与世界模型

「表征是AI不变的本质」

许华哲：你之前发表过暴论，“不要陷入狭义端到端”、“自动驾驶大模型是伪命题”。你现在还这么想吗？

王乃岩：这些观点是在当时的技术背景下提出的。很多人其实只记住了最后一句话，没有看我前面的逻辑。那个时候大概是 ChatGPT 刚出来，大家对“端到端”的理解其实是很肤浅的。

所有人都会觉得：端到端就是输入图像，然后经过一个网络，直接输出动作。这当然是一个非常理想化的形式，但真正实践之后，大家会发现这里面有很多问题。所以，我当时想表达的其实是，不要把端到端简单理解成“Sensor 到 Action”的直接映射，因为这样会丢掉很多东西。

我当时甚至把它叫做“feed-forward 端到端”——没有反馈、没有世界状态、没有推理。这种方式在大量数据条件下，确实能解决 99% 的问题，但真正困难的地方在于 OOD，也就是场景外泛化。

后来大家其实已经开始不断往里面加东西了，比如数据增强、强化学习、后训练，包括现在开始做 world model、world action model，本质上都是在解决简单的 feed-forward 端到端不够的问题。我最近看到港大李弘扬老师团队的工作，将反馈控制机制加入模型，这就不再是简单的feed forward端到端了，但它也是端到端。

我一直喜欢“泼冷水”，也是因为我每天看路测遇到的问题，思考这些问题的本质困难，以及技术是否解决了这些困难。希望提醒大家不要过于迷信某项技术。

许华哲：当你看到路测问题时，会觉得靠DAgger这样的补数据就能解决吗？还是有些问题补数据也解决不了？

王乃岩：补数据这件事，当然很重要。但补数据本质上是在把“已知的不安全”变成“已知的安全”。真正困难的是“未知的不安全”，你甚至都不知道它会以什么形式出现。那你怎么检测、规避、缓解它？我觉得这才是自动驾驶真正核心的挑战。

自动驾驶一定不会存在一个“百分之百不会出事故”的系统。人类也做不到。但工程上真正重要的事情，是把这些未知的不安全控制在一个合理、可接受的概率范围内。

许华哲：回到学术问题，你去年还在研究物体表征。你现在还觉得表征是AI中最本质的东西吗？

王乃岩：我觉得是。从前深度学习时代到现在的大模型时代，计算机视觉里真正一以贯之的核心问题，都是怎么去做更好的表征，这个主题从来没变过。

你会发现一个特别明显的趋势：表征越强，任务就越统一。你不再需要为每个任务设计一套独立系统。我觉得这其实符合一种“现代模型审美”。

在深度学习之前，我们的表征非常弱，所以你必须设计大量任务专属的方法。我博士的时候做目标追踪，写过一篇文章，专门去分析和理解目标追踪系统。我当时把整个 tracking system 分成五六个模块，最后得出的结论其实特别简单：再花哨的分类器、运动模型，收益都远远不如更强的 feature 表征。

后来很快，大家开始用深度学习特征去做 tracking。你会发现，很多复杂东西都不用了，只要表征 feature 足够强，一个非常简单的分类器，性能都能直接超过以前所有方法。

这条线其实一直延续到了后来深度学习特征的应用，从ImageNet预训练到自监督学习，也都印证了这一点。

许华哲：回问一句，什么是表征？

王乃岩：其实现在大家说“表征”，很多时候讲的已经不是同一个东西了。如果从计算机视觉的角度来说，我觉得表征本质上是：你把像素空间，映射到一个你关心的属性空间。

比如最经典的是语义空间。你把图像映射进去之后，相近语义的物体应该聚在一起。但除了语义，其实还有很多别的空间。比如最近大家开始做 3D foundation model，大家更关心的其实是几何表征。

再比如运动表征。我一直觉得，运动里面其实蕴含着非常多的信息，但现在还没有看到特别好的工作真正把它做出来。我会持续关注，这些都是我们后续工作的基础。

许华哲：你提到了“世界模型”，Yann LeCun有JEPA，李飞飞有Marble，英伟达有Cosmos。你觉得世界模型在学表征吗？是未来的正确之路吗？

王乃岩：我更倾向于原教旨主义的world model，不认为视频生成模型是world model。

world model必须包含对世界的输入，更像强化学习中的world model。其意义因人而异。现在world model最主要用途是离线生成数据，生成corner case，做可控生成。但我更关心一个好的world model能否学到“intuitive Physics”（直觉物理）。

就像三四岁小孩，没学过牛顿定律也知道皮球会落地、会弹起，玻璃球会碎。这是将物理世界常识注入模型。有了这些，如何将其在线融入端到端模型（如VLA）是大家初步尝试的方向。很高兴看到world action model的提出，但如何真正用好仍是未解难题。

AI 时代的新旧概念

很多是「炒冷饭」

许华哲：其实这次找你是因为看了你的朋友圈，提到看谢赛宁7小时播客后的感慨。我们也聊了很多新旧概念，有时我觉得我已经跟不上硅谷的节奏了，每天都有新概念，比如Prompt engineering已过时，现在是Harness engineering。从一开始做AI的旧概念和现在的新概念，到底有没有本质区别？还是只是热词不断？

王乃岩：我听赛宁播客后很激动。因为2024年后，我一直在想构建Physical AI的宇宙，但车圈主流叙事是端到端到VLA，似乎能解决自动驾驶甚至具身所有问题。而我的观念不同，一直认为语言很有用，然而也没解决我路测遇到的实际问题。所以我在圈子里有很强的孤独感。

随着world model的兴起，大家会重新关注这个方向，我有一种自己被听到的感觉。赛宁7小时播客把我所有想讲的都讲透了，我很兴奋。

AI发展史中，很多想法过于超前，但当时前置科技树还未解锁。CNN就是典型例子，Yann LeCun 80年代就发明，但当时没有GPU和海量数据集，无法发挥其能力。我自己也经历过类似的事情。

2014年在CMU访问时，我第一次听说自监督，并想通过Word2Vec学patch embedding，这本质上就是JEPA。但当时只有CNN和Caffe，实现灵活模型训练非常困难，所以没做成。十年后，恺明的MAE和LeCun的JEPA证明了其可行性。

当时我还想过物体表征。我喜欢看失败样本，发现目标追踪常漂移到背景。自然想到让神经网络学习什么是物体。但物体很难定义，Avner曾问我“what makes an object object？”。这驱使我思考人如何认知“这是一个东西”，后来发现可以从运动中定义。

不过这个想法也想了很多年，直到2024年，算力、数据、网络架构才支撑去做。从无监督视频中学习物体概念，11年后才做成一个工作。

虽然物体表征如今已非主流，但我还是想做出来，因为它是一个很学术的工作，我们去年证明婴儿学习物体概念的机制，以及将其用于学习范式也能取得不错结果。

许华哲：我很共情，很多想法都是“炒冷饭”，但随着工具发展，确实能实现。我伯克利师兄Deepak也做过context encoder，Self-supervised learning，跟你想法一样，抠个窟窿填上学表征。他发了CVPR，但没大成。恺明MAE出来后，他说“我们跟恺明只是他抠掉了80%像素，我们抠掉了20%像素，就没成”。

王乃岩：是的。我还记得CMU时Ross说他是计算机视觉领域唯一能把想法真正落地的人，我一直将其视为最高评价和奋斗目标。恺明也是这样的人，能把简单想法做到极致，想得非常清楚。

通用机器人与Physical AI的未来

自动驾驶行业的经验之谈

许华哲：我现在创业做家庭机器人，这是搞AI人的终极梦想。你对家庭机器人或通用机器人有什么想法？

王乃岩：我分享一个我心中的图纸，断断续续想了两年。可以类比自动驾驶。如果让我总结，我觉得 physical AI 里有三个特别核心的部分。

第一个，是理解世界。你要知道你看到的东西到底是什么，它意味着什么。这里面其实不只是语义理解。语义当然重要，但如果你真的要在物理世界里行动，你还需要几何理解、运动理解、时序理解。因为机器人面对的不是单帧图片，而是一个连续流动的世界，很多信息其实隐藏在帧与帧之间的变化里。

第二个部分，是预测世界，或者说预知世界。你要知道当我做了一个动作之后，这个世界会发生什么变化。小朋友其实一直都在训练这个能力。他会知道球掉下去会弹、杯子会碎、东西会滚，这其实就是一种对世界反馈的预测。

所以我一直觉得，一个真正好的 world model，核心就在这里。它应该能学到 intuitive physics，也就是那种不需要学过牛顿定律，但依然知道这个世界会怎么运转的能力。

第三个部分，是改造世界。也就是你最终要决定：为了达到目标，我应该采取什么 action。而这个部分，本质上其实就是大规模强化学习。

所以如果你问我，physical AI 最核心的闭环是什么，我会说：表征、世界模型、大规模强化学习。这三件事情共同构成了一个比较完整的闭环。

我其实经常会把机器人和自动驾驶类比。因为自动驾驶最开始其实也不叫自动驾驶，它最早只是一些很单一的驾驶辅助功能，比如车道保持、定速巡航、自适应巡航。它们都属于特别垂直、特别受限的问题。这其实很像今天的工业机械臂。

但另一端是什么？另一端是 robotaxi，是今天大家都在讲的人形机器人，也就是不限场景、极度泛化、什么都能干。但你回头看，自动驾驶这十年虽然发展很快，可其实也没有达到当年大家想象中的那个速度。不过它中间确实落地了很多非常有价值的东西。比如矿山、配送车、Robovan，这些都是很成功的垂直场景。

所以我觉得，机器人接下来很可能也会经历类似过程。

大家当然都会讲“终极的人形机器人”这个故事，因为一定要有一个终极愿景。但真正能快速产生商业价值的，可能还是介于工业机械臂和完全泛化的人形机器人之间的东西。很多时候你必须牺牲一些东西。

就像 L2 自动驾驶，其实牺牲掉的是“完全责任”，但换来了非常好的泛化能力。技术落地很多时候就是这样，你不可能什么都要。

而且我觉得 physical AI 和大语言模型还有一个很本质的区别：它们是在物理世界里行动的。语言模型很多时候是在虚拟环境里工作，它犯了很多错误，用户可能骂一骂也就过去了。

但机器人和自动驾驶不是，它们真的会造成财产损失，甚至安全事故。所以这个领域天然就会比互联网 AI 更保守、更慢。

还有一个很现实的问题是数据闭环速度。

互联网产品可以非常快地上线，然后迅速拿到全世界用户反馈。但 physical AI 不一样，你真的得一台一台机器造出来，一点一点部署。这个速度天然就慢很多。

从商业角度看，我经历了自动驾驶的十年。自动驾驶最初是单一功能的驾驶辅助，如车道保持、定速巡航，类似现在的工业机械臂，垂直应用，高度定制化，效率高。

2016年人人想做的Robotaxi，以及现在的人形机器人，不限场景，极度泛化。十年Robotaxi发展不及预期，但自动驾驶在矿山、末端配送等垂直场景落地，改变了很多。

类比到具身领域，具身智能和人形机器人是终极理想，但能快速产生价值的，可能是介于工业机械臂和人形机器人之间的一些垂直场景。像L2辅助驾驶，它其实牺牲掉了你对可靠性的极高要求，但是保持了一个极好的泛化性。牺牲某些东西，不过达成一个可商业化、可落地的目标。

许华哲：这个地方我尝试挑战一下，有没有可能这是过渡类比？如果我在 2022 年的时说，我要渲一个很大的语言模型，让它极度泛化，特别通用，但是语言模型这事就成了，没有在中间找频谱上的地方，直接落地AGI了。

王乃岩：对，我当然希望我是错的，我是乐于看到技术发展的，但更习惯从悲观角度考虑问题，泼冷水。语言模型和物理世界智能体不同。语言模型可在虚拟环境快速上线，获得全球用户反馈，快速Scale up。

物理世界智能体需要一台一台机器制造，难以快速Scale up。与物理世界交互，必须有底线的安全可靠性。

另一方面，语言模型犯错影响不大，但机器人或自动驾驶可能会实质造成财产损失甚至人身伤害。所以，类比自动驾驶是因为它们都是在物理世界去行动的智能体，而物理世界智能体需要比大语言公司谨慎得多。

职业转变与回归初心

「凡事向内求」

许华哲：我们聊了很多技术和AI发展，也想了解管理。你在图森，从首席科学家到CTO的角色转变是怎样的？

王乃岩：初期我只负责解决技术难题，比如2016年刷榜，代表技术实力，首席科学家的价值在于攻坚某个专项难题。但CTO要考虑更多，不仅解决技术问题，还要设计技术架构，做技术决策，包括人才管理（需要什么人、如何排兵布阵、适合做什么）。技术很多时候要与产品和deadline妥协，在资源和时间限定下，如何做到最好展现效果，需要很多决策。

许华哲：你曾说90后员工不光要养家糊口，还要看个人成长。现在00后也走上工作岗位了，你觉得他们会看什么？

王乃岩：00后整体比90后更开放活跃。但对于顶尖人才，核心需求没变：金钱回报、成就感回报、知识技能习得回报。作为管理者，我们要搭建好舞台，设立好边界，把事情交给他们。要相信优秀人才有能力解决问题，他们会得到信任，有更强主观能动性。有问题时及时纠偏是管理者职责。

我在图森喜欢招校招生，曾对他们说，希望他们离开时，图森的经历是加分项。2024年图森发生变故后，很多同学出去找工作，反馈确实这段经历是职业生涯的加分项。对此我非常自豪，给大家带来的不仅仅是金钱，更是个人成长。

许华哲：对我也收到一些简历，图森确实是加分项。

王乃岩：对此我作为管理者非常自豪，给大家带来的不仅仅是金钱，更多是个人是否变得更好。

许华哲：回到你最初的初心，你很喜欢摄影，对吧？

王乃岩：对，这个只是开始提了一嘴，后来被不断提起。

许华哲：这让我想起Alyosha Efros，他也喜欢摄影，开计算摄影课。你觉得摄影对你搞视觉或后续职业有影响吗？

王乃岩：初期肯定有很大影响。但后来发现这个领域还有更多好玩的事情，我就是不断挖掘有意思的事情。现在我更享受从数字到模拟，把照片拿在手里的感觉，玩胶片相机，甚至在暗房放大照片。拍照不是给别人看，而是记录那一刻的心境。实体照片带来的感受完全不同。进入CV后，发现世界太大了。

许华哲：摄影让你个人偏好往CV偏了一点，后面更多。

王乃岩：是的。恺明也说过一句话，CV是大自然的语言，它蕴含的信息、表达的东西、变化，都让我非常着迷，有很多有意思的问题。

许华哲：回顾你的研究和工作生涯，哪一两件事对你影响最大？

王乃岩：肯定是2024年初图森的事情，那段经历最痛苦。我倾注了全部心血，但因各种原因公司业务不做了，团队也可能离开。我习得了非常多的东西，对“人性”有了更多理解。它是一个中性词。

很多朝夕相处的同事，在巨大变革时，他们的想法、在意的事情、做的决定，可能完全超出预期。我不是说好或不好，只是理解了人的多样性。虽然理解，但当时仍觉得做了很多工作很可惜，希望能和大家继续努力。所以后来做了很多工作，看看能否有机会让绝大部分想继续在这个行业做的同学一起努力，把事情做出结果，才有了后面的故事。

许华哲：如果你给之前的自己一个建议，会是什么？

王乃岩：凡事向内求。很多事情向外求会带来无谓的困扰。如果一件事不重要，就允许它以任何路径发生，产生任何结果。如果一件事对你很重要，就要牢牢抓住，主导走向。这样想之后，很多事情就不会那么纠结和困扰了。

许华哲：最后，给所有看节目的学生、工程师、创业者一个建议：人生应该怎么过？

王乃岩：有两点，一是拥抱变化，二是以不变应万变。看上去有点矛盾。

「拥抱变化」是指永远不要把自己禁锢在受限的思维定势里。AI Coding等颠覆了很多人赖以生存的手艺，但要积极拥抱，找到新浪潮中的位置。被颠覆时，第一反应不应是抗拒，而是思考如何适应。

「以不变应万变」是指世界变化快，但有些东西不变。这包括你对事情的判断和价值取舍能力。这反复被解读，但确实很重要。一个人所有经历都会反馈在你对事情的判断和价值取舍能力上。

这种“直觉”背后，是一个人过去的所有经历、大量思考和输入后形成的。知道什么是“好的”很重要，这样才能在好的时候还能做出正确判断，这更难能可贵。

（以上是本期播客的内容节选，完整版指路小宇宙APP🔍许华哲的自定义地图）

ps。附赠一条彩蛋（当年某乎陶瓷儿乃岩的私信