YouTube 视频《对姚顺宇的4小时访谈:请允许我小疯一下》
https://www.youtube.com/watch?v=Gk_KUg3qED0
不停地折腾自己:一个从物理转向 AI 的研究者

姚顺宇的履历看起来像一条不断“离开舒适区”的路径:清华物理本科量子力学、斯坦福理论高能物理博士、伯克利短暂博士后,然后转向 AI,加入 Anthropic,后来又转到 Google DeepMind。
他自己对这条路径的描述很直接:总想挑战一些自己不太会的事。
物理学训练给他的并不是某种可以直接迁移到大模型训练的工具技能。他反复强调,从纯工具层面看,物理到 AI 的转化其实很少。真正留下来的,是一种研究性格:想把事情想清楚,想刨根问底,想用系统性的方式理解一个复杂系统。
但这并不意味着他神化物理训练。相反,他对理论物理后期缺乏客观评价标准这一点非常警惕。高能理论足够难,也足够精致,但在实验追不上理论之后,评价体系会越来越依赖圈子内部的主观判断。对他来说,这成为一个重要教训:要做有客观反馈、能够对世界产生实际影响的事。
这也是他最终转向 AI 的关键原因之一。
AI 像早期的热力学:不完全理解,但可以继续前进

在访谈里,姚顺宇反复使用一个类比:今天的大语言模型,有点像 17、18 世纪的热力学。
那个时代的人们并不真正理解“热”的微观机制,但这并不妨碍他们总结经验规律,建立工程系统,推动蒸汽机和工业革命。今天的语言模型也是如此。研究者并不能精确解释某个矩阵元、某个神经元到底在做什么,但 Scaling Law、训练经验、评测体系和实验反馈,已经足以支撑技术继续高速推进。
因此,他不太认同那种把大模型简单称为“黑盒”的说法。不是不能被理解,而是还没有被理解。Anthropic内部有专门研究“AI 可解释性”的团队,在稀疏的数据集里可以发现可解释的原理。
他用量子力学到经典物理举例,可能是“大一统理论”在不同的尺度和能量基本的表现。世界上所有复杂系统在某种意义上都是黑盒。关键问题不是“它是不是黑盒”,而是我们对它有没有形成可操作、可验证、可迭代的理解。Scaling Law 也许仍是经验规律,但经验规律并不低级。许多后来被称为科学定律的东西,最初也只是经验规律。
他对“智能涌现”这个词不太认同。他认为,“智能涌现”更像一种主观感受,而不是一个严格科学概念。真正重要的变化不是某种神秘智能突然出现,而是技术上找到了一套可以 scale up 的方法,使模型能力能够被水平提升。
换句话说,关键不是“智能突然出现了”,而是“我们终于知道怎么训练出更强的系统了”。
Anthropic 的关键赌注:Coding 与大规模强化学习

姚顺宇加入 Anthropic 的时间点非常特殊:公司已经意识到 coding 是一个极其重要的方向,但还在摸索如何把它系统性做强。
在他看来,coding 之所以重要,不只是因为它能带来一个好产品,或者让程序员效率提升。更深一层原因是,coding 是模型使用工具、与环境交互的一个非常好的抽象场景。
它有两个稀缺特征:
反馈信号清晰。代码能不能跑、测试能不能过,是相对客观的。结果可测试,反馈清晰。
数据足够丰富。软件工程世界天然提供了大量任务、环境、错误和修正路径。github 里有大量优秀的代码可以用来训练数据。
这使得 coding 成为后训练和强化学习的理想实验场。这也是 Anthropic 能能够顶住 OpenAI的压力,脱颖而出的原因。它选择了一条非常好的细分赛道,和 Cursor 一起在 Coding 领域里有了绝对的话语权。
Claude 3.7 之所以被他视为 Anthropic 后训练的重要分水岭,正是因为它代表了后训练从“修修补补”走向大规模强化学习。以前的后训练更像是在模型发布前做一些局部修正;而从这一阶段开始,后训练本身成为模型能力提升的核心引擎。
他把这件事总结为:找到合适的环境,让环境反馈足够清晰,并且让这个环境本身成为强数据源。只要训练稳定,这件事就能 scale up。
不要迷信技巧(tips):现代 AI 训练是系统工程

访谈里很有价值的一点,是姚顺宇对“技术秘诀”的祛魅。
外界总想知道:Anthropic 到底用了什么算法?Gemini 到底有什么诀窍?Claude 的 coding 能力是不是来自某个神奇 trick?
他的回答是:很多 tips 没有想象中那么有用。
原因在于,现代大模型训练不是单点算法问题,而是一个庞大的系统工程。一个算法是否有效,强烈依赖于基础设施、采样系统、训练器、数据管线、异步架构、评测机制和组织协作方式。
同一个技巧,在 A 公司有效,到了 B 公司可能完全没用。不是因为技巧本身真假,而是因为它嵌入的系统不同。
这也是他反复强调“把简单的事情做干净”的原因。真正重要的不是花哨技巧,而是在一个复杂系统里,把数据、环境、算法、基础设施和实验流程全部处理得稳定、可靠、可复现。
Anthropic 的组织优势:技术决策者也是公司决策者
姚顺宇对 Anthropic 的组织判断非常清楚:这是一家执行力极强、非常至上而下的公司。
他认为,Anthropic 之所以能在 coding 上快速下注,一个核心原因是技术一号位拥有足够公信力,并且技术领导者本身也是公司的共同创始人和决策者。
这很难复制。
因为 top-down 技术决策要成立,需要同时满足两个条件:
技术决策者在研究员中有足够威望,能让大家相信这个方向值得押注。
技术决策者在公司层面有真实权力,能够调动资源并承担后果。
Anthropic 的创始团队曾经一起在 OpenAI 做过关键工作,一起解决过难题发过 Paper,是“一起趴过战壕的人”。这种共同经历带来的信任,使他们能够快速形成组织共识。
他也借此区分了创业公司和大公司的不同打法:创业公司需要去赌一个机会,需要冒险,需要快速押注;大公司则更倾向于在多个方向保留技术储备,等某个方向成熟后用工程能力追上来。
Google DeepMind: 大公司的另一套打法
从 Anthropic 离开后,姚顺宇选择加入 Google DeepMind。这个选择看起来和很多人的直觉相反:很多人会从大公司跳去更小、更灵活的模型公司,而他却从高速增长的 Anthropic 去了 Google。
他的解释是:取决于你想要什么。
如果一个人想要非常明确的个人 scope,想把自己的想法快速送进模型,小公司可能更适合。但如果你想获得更广泛的学习机会、研究自由、接触更成熟的技术系统,那么 Gemini 是一个非常好的地方。
在他看来,Google 的优势不是产品巧思,而是技术和工程体系。一旦某件事变得足够确定,能够被拆解成工程项目,Google 就会进入舒适区:目标清晰、节点清晰、评估清晰,然后依靠强工程管理能力持续推进。
他认为,Gemini 真正成为重要玩家,离不开两个节点:Nano Banana 带来用户量,Gemini 3 留住用户。前者让大量用户下载和使用 Gemini,后者则让市场意识到 Google 在模型能力上已经追上来了。
他甚至说,从某种意义上,OpenAI 救了 Google 一命。因为 OpenAI 先证明了“对话框”的重要性,却没有彻底吃掉搜索,这给了 Google 反击和追赶的窗口。
AI 的本质是简单的?
访谈中最有争议的一句话是:AI 的本质是简单的。
姚顺宇并不是说 AI 工程不复杂,也不是说训练前沿模型容易。他的意思是,相比某些缺乏实验反馈的基础科学,AI 的关键优势在于:它可以做实验。
只要有足够算力、基础设施和实验设计,你就可以不断验证假设、改进系统。它的困难更多来自系统规模、工程复杂度和实验成本,而不是某种不可触及的本质难题。
他甚至预测,未来 AI 会越来越多地参与 AI 研究本身:不仅写代码,还能跑实验、看结果、分析失败、提出新假设、设计新实验。这条链条目前还没有完全闭合,但方向已经非常清楚。
这也是他关注 ML coding 和 long horizon 的原因。

ML coding 指向的是让 AI 参与机器学习研究过程;long horizon 则指向模型如何完成更长周期、更复杂的任务。当前模型上下文有限,但人类的上下文其实也很短。人类靠选择性遗忘、检索和外部记忆完成长期任务,模型未来也可能走类似路线。
他的目标不是单纯把 context window 拉长,而是让模型学会在有限上下文中完成近似无限长度的工作。
个人英雄主义时代已经过去
姚顺宇对“AI 英雄叙事”非常不感冒。很多个人的价值被高估了,但他自己也受益于此。
他承认,在某些技术范式诞生的早期,个人或小团队可能扮演英雄角色。比如 Transformer 这样的关键发现,确实带有强烈的历史节点意义。但一旦技术进入工程实现阶段,模型能力的提升就越来越依赖集体协作。
现代前沿模型不是某个天才一个人做出来的,而是一整个组织在数据、算法、基建、评测、产品和工程上的共同结果。
因此,他不断强调自己在 Claude 3.7、Claude 4.5、Gemini 3 等项目中的角色不是“个人英雄”,而是幸运地在关键时间加入了重要项目,做了一些事,学到很多东西。
这也解释了他对 AI 人才高薪和“球星转会”现象的复杂态度。一方面,他本人也受益于这个市场;另一方面,他认为行业对个人的炒作有些过度。
真正稀缺的也许不是“天才”,而是有机会进入前沿训练环境、真正理解系统细节、并且做事靠谱的人。
他甚至设计过一个 24 小时强化学习项目作为面试题,用来考察候选人是否能有效利用 AI、是否真正理解 AI 生成的代码、是否对事情负责。代码本身已经不再是最重要的,重要的是人与 AI 是否形成了可靠协作。
AI 行业最重要的品质:靠谱、细、负责
姚顺宇说,AI 这个行业最重要的特质不是“脑子多聪明”,而是靠谱、做事细、对自己做的事负责任。
这句话非常值得放在今天的 AI 语境中理解。
当模型越来越强,很多代码、实验脚手架、数据处理都可以由 AI 辅助完成后,人类研究者的核心价值正在变化:不再是手写每一行代码,而是提出清晰问题、判断实验设计、理解系统行为、发现隐藏错误,并对最终结果负责。
这意味着,未来优秀 AI 研究者更像系统负责人,而不是单点技巧拥有者。
他们需要知道什么时候该相信 AI,什么时候必须怀疑 AI;知道一个实验结果为什么成立,也知道它可能在哪里失效。
结语:正真的变量,是谁能把浪抓住
这场访谈最有意思的地方,是它同时包含两种气质:一方面非常直接、甚至带点冒犯性;另一方面在谈到具体研究和模型训练时,又异常克制(保密协议)。
姚顺宇不断提醒大家,不要神话个体,不要神话公司,不要神话某个技术名词。
AI 的发展像一股浪,个人、团队、公司都像冲浪的人。重要的不是把冲浪者神化成英雄,而是理解那股浪本身:它来自算力、数据、组织、反馈环境、工程系统、产品形态和时代需求的共同作用。
今天的前沿模型竞争,已经不是一个天才写出一个公式、一个研究员提出一个 “技巧” 就能决定胜负的时代。它更像一场超大规模系统工程:谁能更快识别有效方向,谁能组织更多人稳定执行,谁能把实验反馈变成训练数据,谁能把模型能力转化成产品体验,谁就更可能在下一阶段占据优势。
这也许正是这场访谈的核心启发:
AI 时代不是没有英雄,而是英雄的形态变了。真正重要的,可能不是站在浪尖上的某个人,而是让整个组织、系统和模型一起冲浪的能力。
夜雨聆风