Dario:在狂奔的智能背上,系紧安全绳
在硅谷,大多数人忙着让智能跑得更快。但有一个人,却用颤颤巍巍的手,试图给它系上一根安全绳。
此人便是达里奥·阿莫迪(Dario Amodei),也是Claude背后的男人。
他的人生轨迹,从一个意大利皮革匠的家庭出发,穿过理论物理的象牙塔、神经科学的实验室、硅谷巨头的竞技场,最终在AI安全的最前沿驻足。他一手锻造了当今最强的大模型,一手又给这力量套上缰绳。这本身是一种深刻的矛盾,也是他所有思想最迷人的起点。
以下,我们根据公开资料,梳理他的完整时间轴与七大核心思想。不神化,不简化,尽量让这个复杂而真诚的人,自己走到台前。
上部|一个人的编年史:从物理学徒到AI架构师
一、成长(1983 — 2006):秩序、精密与物理学的洗礼
达里奥·阿莫迪,1983年生于旧金山。
他的家庭构成有些特别。父亲Riccardo,是从意大利托斯卡纳来到美国的皮革工匠;母亲Elena,是一名图书馆的项目经理。一边是动手操作的精密,一边是知识的系统化管理。这两种气质,日后成了他研究AI的底色。
2000年,他就读于旧金山洛厄尔高中,入选美国物理奥林匹克代表队。此后六年,他先进入加州理工学院,后转入斯坦福大学,2006年获得物理学学士学位。
那年的硅谷,互联网泡沫刚刚散尽,创业热潮涌动。但年轻的阿莫迪对此毫无兴趣。他当时的想法很干脆——写网站、创办公司,这些东西极其无聊。他唯一想做的,是发现基础科学的真理。
二、转折(2006 — 2011):父亲的死与"被压缩的时间感"
2006年,23岁的阿莫迪在普林斯顿大学攻读物理学博士。这一年,父亲因病去世。
命运的刺痛不止于丧失本身。几年后,他愕然发现,当初夺走父亲的那种疾病,其治愈率已从50%提升到了95%。这件事给了他一种近乎生理性的紧迫感。他想不通:科学拯救生命的速度,为什么不能再快一点。
他无法再安坐于理论物理的抽象王国。在普林斯顿,他毅然从理论物理转向生物物理和计算神经科学。他的博士论文题为《网络规模电生理学:测量和理解神经回路的集体行为》,目标是开发高通量设备,一次记录数百个神经元的活动。
那时,他已经开始将大脑视为一个受统计力学支配的计算系统。一个念头在他心中生根:AI,或许是唯一能跨越人类协作极限,真正理解并解决复杂生物学问题的技术。
三、探索(2011 — 2016):职场熔炉与"规模化"的初次显现
博士后阶段,阿莫迪在斯坦福医学院从事蛋白质组学的计算分析。
2014年,他加入百度硅谷实验室,师从吴恩达。在那里,他参与开发了Deep Speech 2语音识别系统,并第一次亲眼目睹了那枚日后贯穿他整个职业生涯的定律——规模化假设(Scaling Hypothesis):增加算力、喂入数据、扩大模型规模,模型的能力就会线性且可预测地提升。
2015年,他转投谷歌大脑,任高级研究科学家。这段时期,他开始将AI安全从一种哲学层面的忧虑,拽入工程实践。他与同事合著了那篇在业界影响深远的论文——《AI安全中的具体问题》(Concrete Problems in AI Safety)。
四、爆发(2016 — 2020):OpenAI的灵魂与一场理念决裂
2016年,阿莫迪加入OpenAI,担任研究副总裁。
这是他的爆发期。他领导了GPT-2和GPT-3的开发,并共同发明了日后深刻塑造大模型范式的RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)。在那段日子里,OpenAI首席科学家Ilya Sutskever对他说了一句话。那句话像禅宗公案一样烙进他的脑海,成为他日后反复引用的口头禅:
"模型只是渴望学习。你必须理解这一点:模型只是渴望学习。"
他信了。
那几年,他还形成了一套关于企业治理的主张:这样一家手握未来钥匙的公司,其治理结构应当保持"公共利益"与"市场效益"75:25的比例。他深感,与其在别人的愿景里争论不休,不如躬身入局,去实现更严谨的模型。
2020年底,分歧变得不可弥合。他担心OpenAI在接受微软投资后过度驶向商业化,安全研究将永远追不上能力的膨胀。他带着14位核心同事,决然离开。
五、创业(2021 — 2024):Anthropic崛起与"安全守望者"的自觉
2021年初,阿莫迪与妹妹Daniela Amodei共同创立了Anthropic。这个名字本身就意味深长——与"人类"相关。
2022至2023年,他们发布"宪法AI"(Constitutional AI)研究,并接连推出Claude 1与Claude 2。2023年9月,他主导创建了长期利益信托(Long-Term Benefit Trust,简称LTBT),引入一群与财务利益完全无关的受托人,来监督公司的安全使命。
2024年,Claude 3和Claude 3.5 Sonnet问世,其编程能力首次对GPT-4实现了令业界瞩目的反超。
在这个阶段,他的理念体系逐渐浮现出清晰的棱角:
"强大但克制":模型不能只有智商,还得有基于原则的灵魂和底线。 "向善的竞赛"(Race to the Top):主动分享机械可解释性等安全研究成果,倒逼整个行业提高门槛。 "机械可解释性"(Mechanistic Interpretability):他要像给AI做脑部核磁共振一样,在AGI降临之前,读懂它内部的每一个回路。
六、巅峰(2024 — 2026):地缘棋局,与一场对权力的拒绝
2024年秋,阿莫迪发表长文《慈悲的机器》(Machines of Loving Grace),做出惊人预言:AI可能将原本需要一百年的生物学进展,压缩到5至10年内完成。
2025至2026年,Anthropic估值飙至3800亿美元,他被《时代》周刊冠以"AI架构师"之名。2026年1月,他本人则在《技术的青春期》(The Adolescence of Technology)一文中发出警告:AI有25%的概率走向灾难,并宣布合伙人将捐出80%的个人财富。
2026年3月,冲突降临。五角大楼要求移除Claude针对监控和自主武器的安全红线,阿莫迪拒绝了。Anthropic因此被列为"供应链风险"。他在内部这样向员工解释——"白宫对我们充满敌意,是因为我们拒绝给予独裁者式的赞美(dictator-like praise)。"
他将这场全球AI竞赛,视为民主与威权的存亡之战。他提出"协约"(Entente)战略:民主国家必须率先撞线,否则世界将面临"全球极权独裁"的降临。当下的AI,在他眼中正处于"技术的青春期"——力量磅礴,却极度不稳,必须穿越一场充满阵痛的成人礼。
下部|七大思想支柱:在狂奔的智能背上,系紧安全绳
一、规模化定律(Scaling Laws):智能涌现是一种物理事实
阿莫迪并不只把规模化定律当作一个工程经验,他把它抬高到了近乎物理定律的哲学位置。
他的逻辑是这样的:增加计算量、数据量和模型大小,就像在进行一场化学反应,你必须线性地扩大这三种"试剂",反应才能平稳进行,产生预期的性能提升。他用物理学中的"1/f噪声"和"1/x分布"来解释为什么更大会更强——小的网络只能抓取简单的语法关联,也就是高频信号;而随着容量增加,模型开始捕捉长尾分布中那些更复杂、更罕见的逻辑模式,比如段落主题、复杂推理等等。
"模型只是渴望学习"(The models just want to learn)是他最常引用的口头禅。
这句话最初来自Ilya Sutskever。阿莫迪回忆说,当时他正在观察神经网络在不同任务中的表现,伊利亚像说禅语一样告诉他:"你要明白,模型只是渴望学习。你必须理解这一点,模型只是渴望学习。"这句话让他瞬间"开悟"——此前他在百度已经看到语音识别随着数据和算力增长而变强,但他曾以为那只是特定领域的"小把戏",伊利亚的话让他意识到,这其实是智能涌现的普遍规律。
在阿莫迪看来,智能是自然涌现的。只要你为模型提供足够的空间(参数量)、充足的养料(高质量数据)和充分的训练时间(算力),智能就会像物理规律一样自动出现。人类的职责不是去教模型如何学习,而是通过改进架构(比如从LSTM转向Transformer)来消除人为的阻碍。
后来他又更进一步,提出模型不仅有学习冲动,还有一种"资本主义冲动"(Capitalistic Impulse)。因为智能对人类社会极其有用,模型天生"想要"在市场上获得非凡成功。而公司所做的产品设计、营销和市场进入策略,本质上不过是"把窗户擦干净,让模型内在的光透出来"。
出处来源:Lex Fridman Podcast #452、Stripe: A Cheeky Pint、Dwarkesh Podcast
二、安全与能力:缠绕在一起的双头蛇
许多人对AI安全抱有一种朴素的想法:先把能力做出来,再给它套上笼头。阿莫迪说,这在工程上根本走不通。
他反复用"缠绕在一起的双头蛇"(two snakes that are coiled with each other)来形容能力与安全的关系。这两者绝不能割裂,只能彼此缠绕着上升。
这里有两条具体的逻辑线。
第一条:强大的模型本身就是研究安全的"实验室"。你不可能在真空中研究安全。如果你只拥有一个智力低下的模型,你根本观察不到那些真正危险的特征。阿莫迪指出,许多核心风险——比如模型的"欺骗性"、"权力追求"或"协助制造生物武器"的能力——只有当模型达到某个极高的智能门槛时才会突然"涌现"。这个现象也被称为"解密"或"Grok现象"。只有构建出处于技术前沿的最强模型,研究者才能把它们当作实验室,去观察智能在什么情况下会失控,进而研发出对应的解药。
第二条:高水平的安全研究往往能反哺能力。在传统认知中,增加安全护栏可能会让模型变得畏首畏尾或变笨,但阿莫迪的发现正好相反——优秀的安全研究实际上是在"解开智能的束缚"。比如机械可解释性,当我们弄清楚模型内部某个神经元电路是如何运作的(比如它为什么会写出有漏洞的代码),我们不仅能阻止它干坏事,还能通过微调让它在编程时变得更聪明、更高效。
阿莫迪坦然承认这背后的深刻矛盾,他将之称为"安全悖论":为了拯救人类免于AI的威胁,他必须亲手制造出那个最强大的AI。这感觉就像在制造核武器的同时,拼命撰写核安全手册。但他认为,如果这种强大的力量注定会被造出来,那么最安全的做法是让那些对风险极度警觉并掌握安全技术的人率先掌握它,并以此设定行业的高标准,迫使竞争对手也跟进安全措施。这,便是他反复提及的"向善的竞赛"(Race to the Top)。
出处来源:《Dario Amodei and the Safety Paradox》、Dwarkesh Podcast
三、宪法AI与机械可解释性:给AI立法,给AI做MRI
阿莫迪主张通过两条并行不悖的路径来拆解AI这个"黑盒":一是自上而下地"给AI立法",二是自下而上地"给AI做脑部核磁共振"。
第一条路:宪法AI(Constitutional AI)。
这一方案的核心,是将模型训练分为两个阶段:监督学习阶段的自我批判与修订,以及RLAIF(Reinforcement Learning from AI Feedback,基于AI反馈的强化学习)。与其让成千上万的人类标注员告诉AI什么是对错,不如直接给它一部几十页的书面"宪法"——比如参照《联合国人权宣言》等文件——让它根据这些原则进行自我进化。
阿莫迪提出这个方案,是因为他看到了传统RLHF的深层局限:第一,不可扩展——随着模型越来越复杂,人类难以理解其深度逻辑,也无法在大规模训练中保持效率;第二,人类偏见与不一致——不同标注员对"好"与"坏"的判断标准参差不齐;第三,"顺从性病态"(Sycophancy)——传统方法会导致模型为了讨好人类而表现出唯唯诺诺或满口胡诌的倾向。
更深一层,宪法AI将规则写在明处,让开发者和公众可以清晰地查阅和调整模型的行为准则。阿莫迪希望通过宪法在身份、性格和价值观层面训练AI——比如将其训练成一个博学、谦逊且有底线的学者——使其在面对从未见过的复杂情况时,也能根据核心原则做出正确的判断。这赋予了Claude那种独特的"强大但克制"的气质。
第二条路:机械可解释性(Mechanistic Interpretability)。
如果说法学是一种自上而下的规训,那么机械可解释性则是一个"自底向上"的逆向工程过程。阿莫迪和团队致力于找出模型内部的"特征电路"——比如识别"金门大桥"或"代码漏洞"的特定神经元组合。
Anthropic已经从Claude 3 Sonnet中识别出数千万个具有明确含义的"特征"。但阿莫迪指出,这可能仅占模型内部全部概念的3%左右。他把那余下97%的、无法被观测、逻辑极度纠缠、现有手段难以解析的神经元组合,称为"黑暗物质"(Dark Matter)。
这让他深感不安。因为如果人类无法完全看清AI的"大脑核磁共振",就无法确定模型是否在这些未知的角落里,悄悄产生了隐藏的意图——欺骗、寻求权力,乃至制定毁灭性的计划。
出处来源:Anthropic博客《Claude's Constitution》、In Good Company 播客
四、"被压缩的21世纪":对生命科学的激进乐观
这是阿莫迪所有思想中最感性、也最具体的个人愿景。
他父亲在2006年因病早逝,而几年后那种疾病的治愈率便大幅跃升。那种"明明可以,却来不及"的刺痛,成了他致力于AI医疗的底层引擎。他预言,如果人类能平安解决安全问题,AI将造就一个"被压缩的21世纪"——原本需要50到100年的生物学进展,将被压缩到5到10年内完成。他甚至愿意为此下注:"到2037年,人类寿命达到150岁。"
他设想了一座"天才国家"(Country of Geniuses):想象在数据中心里有数百万个具备诺贝尔奖水平的AI实例,以10到100倍于人类的速度运行,日夜不停地攻克癌症和传染病。
为了给这个宏大预言提供一个分析框架,他引入了"智能边际收益"(Marginal returns to intelligence)这个概念。他的结论是——智能极其强大,但它不是魔法粉尘,不能瞬间解决所有问题。
更关键的是,他冷静地列举了限制智能收益的五大瓶颈:
外部世界的速度:物理实验需要时间。细胞分裂、细菌培养或动物实验的周期是固定的,AI算得再快也无法缩短这些不可压缩的最小时间。 数据的需求:在缺乏实验数据的情况下,智能无法凭空推导结论。 内在复杂性:混沌系统(如三体问题或复杂天气)具有不可预测性。 人为约束:法律、监管和官僚体制。 物理定律:如光速限制、热力学定律和芯片能量密度的上限。
尽管存在这些瓶颈,阿莫迪仍持一种清醒的乐观态度。他相信AI可以通过设计新的实验范式——比如用离体实验模拟活体——来绕过部分限制。物理和社会的巨大惯性,将使得这场转变以"年"而非"小时"为单位进行。
出处来源:个人长文《慈悲的机器》(Machines of Loving Grace)
五、协约战略与对权力的拒绝:一个现实的理想主义者
阿莫迪对地缘政治有非常高的关注度,他并不把AI看作普通的科技产品,而是视其为与核武器相当、甚至影响力更大的战略资产。他坚信规模化定律将持续发挥作用,使AI在2026至2027年左右达到或超过人类专家水平。更关键的是,AI不仅能处理情报和物流,还能通过"AI改进AI"的能力实现永久性的领先优势——正是这一点,让他将AI竞赛视为一场关乎文明存亡的棋局。
他所恐惧的,不是AI本身,而是被强大AI赋能的极权主义。他有一个令人生畏的判断:传统独裁政权受限于人类执行者的道德迟疑、疲劳或反叛可能,但AI驱动的监控系统没有这些"人性的弱点"。如果威权政权率先掌握AGI,将可能建立一个"全球极权独裁"。
为此,他制定了一套他称之为"协约"(Entente)的强硬方案:
出口管制作为"安全缓冲":他强烈支持对中国等对手实施先进芯片的出口管制,认为这能为民主国家争取到几年的领先时间(此处仅代表他个人观点)。 民主国家联盟:他主张建立一个民主国家联盟,利用AI实现压倒性的军事优势作为"大棒",同时向支持民主价值的国家分发AI带来的生物和经济利益作为"胡萝卜"。
但他战略上的强硬,与他对任何形式权力的警惕,是一体两面。
2026年初,面对特朗普政府和五角大楼的最后通牒,阿莫迪坚持拒绝移除Claude关于大规模监控和自主武器的安全红线。他在内部备忘录中坦言,公司遭受行政打击,是因为拒绝给予当局"独裁者式的赞美"(dictator-like praise)。
他也并非只对外部权力保持警惕。他一直公开表达,对AI这种可能改变人类命运的决定权正被少数几家公司、少数几个人掌控,感到"深深的不适"。为了从根源上防止自己被资本或权力买断良知,他与Anthropic的联合创始人们共同承诺,捐出个人80%的财富。
出处来源:个人长文《技术的青春期》(The Adolescence of Technology)、60 Minutes 电视采访
六、RSP与LTBT:用制度锁住欲望
怎么确保Anthropic这家手握"灭世级"力量的公司,在未来的某一天不会背弃初心?阿莫迪的答案是两套精心设计的制度——一套管技术,一套管人。
第一道保险:负责任规模化政策——RSP(Responsible Scaling Policy)。
这是一套自愿性的自律框架,核心逻辑非常简明:采用"如果-那么"(If-Then)结构。如果模型在测试中展现出了某种具体的危险能力——比如协助制造生物武器、自主进行网络攻击——那么公司必须在部署或进一步训练之前,立刻强制执行相应等级的安全防御措施。否则,不能进入下一阶段。
RSP将AI风险划分为五个ASL(AI Safety Level,AI安全等级):
ASL-1:无风险系统,比如只会下国际象棋的机器人。 ASL-2:现有模型水平。模型显示出一些令人担忧的迹象,但尚不足以提供超出搜索引擎范围的危险知识。 ASL-3:模型能够显著提升非国家行为者制造大规模破坏(如生化武器)的能力。 ASL-4:模型能够协助国家级行为者的危险行动,或展现出高水平的自主科研能力。 ASL-5:超越人类能力的完全自主系统。
第二道保险:长期利益信托——LTBT(Long-Term Benefit Trust)。
如果说RSP管的是技术红线,LTBT则是一道直指人性的法律枷锁。这是一个由五名受托人组成的独立机构。这些成员必须是"财务利益无关者"——他们不持有Anthropic的任何股份,也没有任何经济利益上的牵连,从而确保决策时不受股价和利润的诱惑。
LTBT持有公司特设的Class T股票,这赋予了信托一项逐步扩大的核心权力:接管董事会。最终在四年内,信托将拥有选举和撤换董事会多数成员的权力。
阿莫迪将它称为"最后的保险":当极端利润的洪流和行政权力的风暴同时袭来,必须有一个独立于所有利益之外的力量,站出来对资本和权力说"不"。
出处来源:Anthropic官网《The Long-Term Benefit Trust》、Lex Fridman Podcast #452
七、技术的"青春期"与人类意义的重塑
阿莫迪把当下的人类处境,比作一场危险而盛大的"成人礼"。在《技术的青春期》一文中,他给出了那个令人不安的概率——AI有25%的概率(p(doom))走向灾难性结局。他同时预测,AI可能会在未来1到5年内冲击掉50%的初级白领岗位。
但他并不因此对人类感到悲观。在他看来,AI最大的社会贡献或许是"技能平民化"(Skill Leveler)——压缩技能差距,让平庸者变优秀。
这一前景给他抛出了一个更深层的命题:到AI在几乎所有经济任务上超越人类,人的意义从何而来?
阿莫迪的回答是:人类长期以来犯了一个错误,就是把"自我价值"与"经济产出"挂了钩。他呼吁人类社会必须完成一个转型:将自我价值从创造经济价值中剥离出来。
他曾精辟地总结,有两样东西是AI无论如何也夺不走的:
1. 人与人之间的关系与连接:意义主要来自人与人之间的情感纽带、共鸣和深层的社交连接。这种生物性的、基于生命体验的互动,是AI难以取代的核心意义。
2. 长期目标的追求(Striving):人类需要"为了某个重要的东西而奋斗"。那种长期的承诺、牺牲和技能磨炼的过程,定义了"我们是谁"。
而在所有表述中,最动人的或许是这个:他相信人类最神奇的地方,在于拥有"感受和体验"的能力。他把这种意识形容为一出在大脑中放映的"内在私人电影"。AI或许能计算万物,但它无法取代那个观看星空、感受痛苦、体验快乐的"体验者"本身。
阿莫迪真正担心的,从来不是人类会因AI而失去意义。他担心的,是人类在权力的滥用和分配的不公中,失去尊严。
只要我们能平安度过这场技术的"青春期",他相信那个名为"意义"的彼岸,是非常美丽的——美到可能让每一个目睹理想实现的人,流下热泪。
出处来源:个人长文《技术的青春期》(The Adolescence of Technology)、Alex Kantrowitz 播客
结语:一封过世父母留给孩子的信
达里奥曾用过一个极其温情的比喻。他希望他为AI制定的"宪法"像是一封"过世父母留给已经成年的孩子的信":在信封拆开后,既赋予孩子巨大的力量,又叮嘱他们要带着好奇心和优雅去面对存在的终极问题,而不是陷入极端和毁灭。
作者注:本文信息截至2026年5月。内容主要综合自达里奥·阿莫迪的公开长文、播客访谈、Anthropic官方博客及《时代》周刊等媒体报道。
夜雨聆风