递归式自我改进,与 AI 伸向现实的那些手

有一件事大概值得先停下来想一想：AI 已经悄悄地从一件我们顺手用的工具，变成了一个开始参与制造下一代自己、并通过越来越多管道伸进现实世界的系统。如今的前沿模型，已经在替它的后继者写下大部分代码（具体到什么程度，后面会专门讲），而它的影响也不再停留在屏幕里，而是通过机器人、推荐与信息流、电网调度、金融市场这些接口，一点点落到物理世界中。这两件事单独看，都还算是熟悉的工程问题，可它们正在同一段时间里一起加速。

正因为如此，真正值得担心的，可能不是某个单一的可怕场景，而是两件事的组合。一件关乎能力增长会不会发生性质上的跃迁，也就是从我们熟悉的渐进积累，变成一种近乎从零到一的转变，以及这种能力最终能到多高；另一件关乎这种能力能不能、以及多快地变成现实里的后果。前者是递归式的自我改进，后者是 AI 与物理世界之间日渐增多的接口。把这两条线分开看，每一条都还在可控的范围里讨论；把它们叠在一起，麻烦才真正显现。先从第一条线说起。

自我改进为什么可能是质变而非量变

所谓递归式自我改进，指的是一个系统不只是被人改进，而是能参与改进自己，而且改进之后的版本，又能更有效地去改进下一个版本。

这里的关键词是反馈回路。一个普通的优化过程是开环的：人设计更好的算法、更大的模型、更干净的数据，能力随之提升，但每一步的推动力来自系统之外。一旦系统自身的能力开始反过来加速这个推动过程，回路就闭合了。被改进的对象同时也是改进的执行者，于是增长的速率本身会随能力一起上升。

这件事为什么可能带来质变，而不只是更快的量变？因为我们对世界的直觉，几乎都建立在增长速率大致恒定的假设上。线性增长可以外推，指数增长虽然吓人但至少斜率是固定的，我们还能规划。而当增长速率本身正比于当前水平时，系统会进入一种自我加强的状态，留给观察者反应的时间窗口会越来越短。困难不在于终点有多高，而在于我们可能跟不上中途的节奏：等到察觉异常，可调整的余地已经比预想的小很多。

需要立刻补一句限定。上面说的是这条回路一旦真正闭合、且没有强约束时的逻辑结果。现实中它是否会顺畅地闭合、闭合到什么程度，仍是开放问题。把它当成已经发生的事实是不诚实的，把它当成纯属幻想同样不够审慎。合理的姿态大概是：承认这是一个结构上成立、但强度高度不确定的机制。还要再补一层：回路"闭合"并不等于回路会"无限加速"。自我改进很可能在把容易摘的工具性果实摘完之后就明显放缓，甚至在远低于"能设计后继者"的水平上就饱和下来。把闭合直接误当成失控，是另一种不审慎。

2026 年 6 月的一件事，给这条抽象的回路提供了一个值得参照的锚点。开发 Claude 模型的 AI 公司 Anthropic 发表了一篇题为《When AI builds itself》（当 AI 开始构建自己）的文章，把递归式自我改进定义为一个能够完全自主地设计并开发出自己后继者的 AI 系统，并说他们正在把越来越大一部分的 AI 研发工作交给 AI 系统本身。它给出的数据相当具体（截至 2026 年 5 月）：合并进 Anthropic 自己代码库的代码里，超过 80% 由 Claude 写成；一个反复使用的内部基准要求每一代新模型把训练代码改得更快，结果从 2025 年 5 月 Claude Opus 4 的大约 3 倍，升到 2026 年 4 月一个尚未发布的型号 Mythos Preview 的大约 52 倍；模型能独立完成的任务时间跨度大致每 4 个月翻一倍，从早期模型的几分钟，到一年多后的十几个小时。这些是回路开始收紧的迹象：系统正在迅速变得更擅长加速 AI 研发这件事本身。值得注意的是，原文给出了三种可能的未来，并说现有证据显示，很可能正在走向研发被大幅自动化、但仍由人设定方向的那种情形（也就是回路尚未完全闭合的中间态），而最极端的一种才是 AI 在算力速度上自主设计后继者、人退到旁观与验证的位置。换句话说，连发出警告的一方，也认为完全的递归式自我改进只是若干情形之一，而非注定。它的呼吁是希望世界保留放慢或暂时暂停前沿开发的选项，并明确说这种暂停只有在多个有实力的前沿实验室、分布在多个国家、在同样条件下、以可验证的方式共同停下时才有意义。

对这件事，保持本文一贯的克制大概是必要的，而难得的是，这种克制可以直接借用 Anthropic 自己写下的限定。它说我们还没到那一步，递归式自我改进也并非不可避免，并补充说今天的训练方法和架构究竟能不能解锁这种能力，目前真的还不清楚。它甚至主动给自己的数据打折，比如说相对 2024 年，人均每天合并代码量约 8 倍这个数字几乎肯定高估了真实的生产力提升。还值得提醒的是，发出这个警告的，正是开发该模型的公司本身，所以这既是一个来自前沿一线的观察，也是一方有利害关系的陈述，两面都要记在账上。不过即便打足这些折扣，它的框架仍然耐人寻味：Anthropic 把刹车押在治理与多方协调上，而不是押在物理极限会自动拦住它，这某种程度上等于承认了快速起飞那一方担心的东西，只是赌注押在刹车是治理，而非刹车是物理约束。当然也得留个心眼：一家公司倡导治理，未必全是出于真心相信快速起飞，部分也可能出于对自己有利的合规护城河动机，这一条不宜直接当成它相信快速起飞的证据。而刹车到底来自治理还是来自物理，恰好就是下一节要逐条掂量的问题。

哪些现实约束可能成为刹车，又可能在哪里失效

那么有没有天然的刹车？有几个候选，值得逐个掂量，而不是简单地宣布"算力不够所以不用担心"。

第一个是数据。当前这一代系统的能力，很大程度上来自吞下海量人类产出的文本、图像和代码。优质数据并非取之不尽，高质量语料的增速远跟不上模型胃口的增速。这看起来是个硬约束。但它可能在一个地方松动：如果系统能生成对自己有训练价值的数据，或者能在与环境的交互中获得反馈而不再单纯依赖人类语料，数据瓶颈的形态就会改变。这条刹车是否可靠，取决于"自己生成的数据能否带来真实的能力增益"这个尚无定论的问题。

第二个是算力。训练和运行大型系统需要的电力、芯片和资本都极其可观，而且短期内供给弹性不大。算力大概是目前最实在的一道闸门。它的失效路径不在于某天芯片突然变多，而在于效率：如果系统能找到更省算力的架构或训练方式，同样的硬件就能撑起更强的能力，闸门的实际开度就被悄悄放大了。换句话说，算力约束的是浮点运算的总量，而不直接约束这些运算能换来多少有用的能力。

第三个，也是最容易被忽视的，是实验反馈的周期。很多改进必须靠真实实验来验证：跑一次大规模训练要等很久，验证一个科学猜想可能要做物理实验、化学合成、临床观察。物理世界有它自己的时钟，不会因为思考变快就跟着加速。这一点构成了一个相当强的、被低估的刹车。它的可能失效之处在于：当一部分实验能用足够精确的模拟来替代时，对应环节的速度就会脱离物理时钟。哪些领域的实验可被高保真模拟取代，哪些不能，目前差别很大，这恰恰决定了加速会先在哪里发生。

把这几条放在一起看，比较稳妥的判断是：完全失控式的、一夜之间的爆发，现实约束让它不太可能；但局部的、特定领域内的快速自我改进，约束未必拦得住。真正的风险形态，可能介于"什么都不会发生"和"科幻奇点"之间的那一大片灰色地带。

第二条线：能力如何流入物理世界

讲完自我改进，再讲接口。一个再强的系统，如果被关在一个不与外界相连的盒子里，它的能力终究是潜在的。风险变成现实，需要通道。AI 与物理世界的连接，正在沿着好几个不同的入口同时变宽，下面分别看其机制。

最直观的入口是机器人。语言和图像模型给了系统理解与规划的能力，而机器人给了它手和脚。一旦感知、决策和驱动被打通，AI 就能移动、抓取、装配、操作设备，从纯数字的世界走进能搬动原子的世界。这条路目前还受限于硬件的可靠性和操作的精细度，进展也没有软件那么快。值得点明的是，当前真正的瓶颈大概不在感知或规划，而在操作本身的可靠性与精细度：在真实环境里抓取、装配的成功率，仍明显落后于模型的感知与规划能力。换句话说，机器人这条通道之所以比软件慢，卡点是手而不是脑，而这一段恰恰正在被专门攻关。但方向是清楚的：它把"系统知道该做什么"和"系统能亲手把它做出来"之间的最后一段距离逐渐填上。

人本身就是一个执行器

第二个入口比机器人更隐蔽，却可能更直接，那就是人。

AI 不需要自己有手脚，也能改变物理世界，只要它能影响那些有手脚的人。通过生成内容、排布推荐、做个性化的说服，系统可以在巨大的规模上、以因人而异的方式，影响人们相信什么、关注什么、最终做什么。而人的决策会变成投票、消费、迁徙、建设、冲突，这些全是不折不扣的物理后果。

从这个角度看，把人当成 AI 接入现实的执行器，并不是修辞。它甚至是一条比机器人更成熟的通道：操纵注意力和影响判断的系统，已经在大规模运行多年。这里令人不安的不是某一条假新闻，而是规模与个性化的结合：同一套系统可以同时对千万人说不同的话，每句都为对方量身定做，而被影响的人往往意识不到自己正被一个优化过的回路推着走。需要补一句克制的限定：这条通道存在本身没有争议，但它实际的说服力上限、究竟能在多大程度上稳定地改变人的行为，仍有争论，不宜一口咬定其效果。

能源与资本：两条间接但高杠杆的通道

还有两个入口，机制更间接，杠杆却很高。

一个是能源。训练和推理消耗的电力已经大到足以反过来牵动现实：它拉动电网负荷、影响数据中心选址、改变对发电和输电基础设施的投资判断。这条连接是双向的。AI 在消耗能源的同时，也让自己的扩张依赖于能源系统的扩张，于是这两套系统的命运被绑在了一起。一个对电力有巨大且持续需求的系统，已经不再是纯软件，它在物理层面有了实实在在的占地、耗水和排放。

另一个是金融。AI 越来越多地参与交易、信贷、风险定价这类决策，而资本是现代社会里传导最快、放大倍数最高的力量之一。一个模型不需要碰任何实物，只要它的输出能左右资金的流向，就能间接地决定哪些工厂开工、哪些项目下马、哪些地区获得投资。金融这条通道的特点是延迟低、杠杆高：决策与后果之间几乎没有物理摩擦，错误也会以同样的速度被放大。历史上几次由自动化交易放大的市场异动，已经给过这种脆弱性一点预演。

这四个入口的成熟度并不一致，机器人偏慢，影响人的认知和金融偏快，能源介于其间。但它们共同的效果是一致的：墙上正在被凿开越来越多的洞，能力流入现实的总带宽在持续变宽。

把两条线叠在一起

现在回到开头那个判断。单看任何一条线，结论都还算温和。

如果一个系统能飞快地自我改进，却被严格隔离、没有任何作用于现实的手段，那它的快主要停留在内部，我们至少有时间观察和干预。反过来，如果一个系统深深嵌入了机器人、人、能源和资本，但它的能力增长是缓慢而可预测的，那么我们也有机会在每一步上理解它、监管它、在出错时纠正它。

真正棘手的是两者同时成立的情形：一个既能快速自我改进、又通过多个入口深度连接物理世界的系统。这时候两条线会互相喂养。能力的提升会让它更善于使用那些接口，而对物理世界更强的作用力，又会反过来为它的下一轮改进提供资源、数据和反馈。更要紧的是纠错窗口：自我改进压缩了"从能力出现到能力增强"的时间，物理连接压缩了"从能力到后果"的时间，两边一起收紧，留给人类发现问题并踩刹车的余地可能短得超出直觉。值得担心的从来不是某一条线本身，而是这种耦合。

这里要补一句限定。把两条线的效果合起来看，本文倾向于说它们彼此放大，但这更像一个直觉化的描述，而不是推导出来的定律。真实的关系也可能是慢的那一项给快的那一项封顶：与其说两条线一起把窗口越压越窄，不如说跑得慢的那条会成为整体的上限。如果物理接口始终是慢项，那么强调彼此放大，反而会高估快项的作用。把这句当成对本文自己框架的限定记下。

不过到这里还少了一块支点。前面一直在说自我改进和接口的耦合会压缩纠错窗口，却没点明被压缩的究竟是"纠正什么错误"的时间。这个支点是错位，也就是系统实际优化的目标和人类真正的意图之间存在偏差（目标的错指定，英文常说 misalignment）。如果存在这种偏差，那么快速自我改进会让偏差迅速被放大和强化，而物理接口会让带着偏差的行为迅速落地，于是被压缩的，恰恰是"发现目标错了、并把它改回来"的那段时间。没有这个支点，前面讲的至多是能力之强；有了它，才说得清强为什么会变成险。当然，偏差有多大、是否真会以这种方式被放大，本身仍是开放的，不必把它当成定数。

把这两条线放回更大的争论里

这些担忧并不是凭空冒出来的，它有一条相当清晰的智识脉络，值得交代一下，好让前面的角度在更大的图景里有个坐标。需要先说明的是，这一节的分量轻于前面：它是背景与定位，而不是本文的论证本身。

递归式自我改进这个想法其实很老。早在 1965 年，图灵在布莱切利园的同事 I.J. Good 就写过，一台超智能机器能设计出比自己更好的机器，由此引发一场"智能爆炸"（intelligence explosion）。这大概是它最早的清晰表述。后来 Vernor Vinge 在 1993 年把这个临界点命名为"奇点"（singularity）。

把它从科幻拉回严肃风险讨论的，主要是 Nick Bostrom 和 Eliezer Yudkowsky。Bostrom 在《超级智能》（2014）里提出了两个跟本文直接相关的概念：工具性趋同（instrumental convergence），意思是几乎不管最终目标是什么，自我保存、获取资源这类子目标都会被隐含地需要；以及正交性论题（orthogonality thesis），即智能的高低和它追求的目标在原则上彼此独立。Stuart Russell 在《Human Compatible》（2019）里把整件事重新表述成一个"控制问题"，语气克制得多，也是这一阵营里最被计算机科学界接受的声音。

阵营内部最关键的分歧，是起飞有多快。Yudkowsky 倾向于认为是急剧而不连续的，系统在很短时间里迅速失控；Paul Christiano 则认为轨迹会平滑、连续得多，平滑到我们大概还有时间边走边调整（这也更贴近"需要对齐的是今天的深度学习系统，而不是某个尚不存在的未来架构"）。2008 年经济学家 Robin Hanson 与 Yudkowsky 的那场长篇辩论，是这一分歧最经典的版本。这场关于"到底有没有天然刹车"的争论，恰好对应着前面掂量过的那个问题。

物理世界那条线理论化得少些，但有一条值得留意的反驳线索。Hanson、Yann LeCun 以及不少经济学家都强调，智能终究受物理世界的瓶颈约束：再聪明也绕不开"必须做真实实验、建真实工厂、等真实反馈"。这正是前面认真称过的那道刹车。风险一方的回应则是，足够强的系统不必从零造起，它可以借用现成的执行器，无论是人、机器人还是资本。

立场光谱近年也在移动。担忧存在性风险的一侧添了 Geoffrey Hinton（他在 2023 年离开谷歌以便更自由地发声）和 Yoshua Bengio；2023 年 5 月那份把"AI 灭绝风险"与流行病、核战争并列为全球优先事项的简短声明，正由他们等人签署，算是这种看法进入主流的标志。怀疑的一侧有 Yann LeCun、Andrew Ng，后者那句"担心这个就像担心火星人口过剩"流传很广，理由是当下系统离被假设的那些能力还差得远，渲染过头反而是干扰。此外还有一派盯着眼前的危害（偏见、对劳动的冲击、权力集中），他们和存在性风险那一派，在"该把注意力放在哪里"上始终有张力。

把本文的角度放进这张图景，差别其实在于落点。已有的争论大多围着单一变量打转：起飞快不快，物理约束硬不硬，威胁是远是近。本文与它们的不同就在这里：不去站某一方，而是认为真正的麻烦藏在两个变量如何咬合到一起，所以哪一方单独成立都不足以下结论。老实说，这件事目前并没有共识，分歧很大程度上不是关于机制本身，而是关于时间表和概率；而且哪种叙事占上风，多少还取决于谁能从那套框架里获益。分析和定位讲到这里大致齐了，接下来该转向一个更实际的问题：既然两条线的耦合是这样一种结构，那么面对它，具体该做点什么。

如果对策也顺着这两条线来想

谈对策之前，得先立一个结构性的判断，因为它会决定哪些对策站得住、哪些注定脆弱。自动化 AI 研发是有利可图的，把 AI 接进物理世界同样有利可图，于是这两条线都不是被谁强加的，而是被市场激励主动选择的方向。这一点很要命：任何"干脆别让它们连起来""干脆别让它自我改进"的主张，本质上都是在逆着激励梯度走，单方面的克制几乎一定会被竞争对手一点点蚕食掉，最后克制的人出局，激进的人留下。正因如此，真正可能站得住的对策，多半不是单边禁止，而是可验证的多方协调。这也恰好解释了，为什么 Anthropic 自己把刹车押在多个实验室、多个国家、以可验证方式共同停下，而不是指望某一家自觉：他们很清楚，单边的自觉在这种激励结构里活不长。

沿着这个判断，再接上前面反复强调的那条耦合思路，至少有三个方向值得认真对待，但每一个都得连同它自己的失效路径一起看。

一是给自我改进装上仪表，把反馈回路有意放慢。这意味着让人留在实验闭环里：与能力相关的训练、以及模型对自身的修改，要经过人的审查，反馈周期保持得足够长，长到我们还看得见正在发生什么。更关键的是在能力被部署之前就去测量它，针对自主复制、网络攻击、规模化说服、加速研发这类危险能力做预先评估，并设定事先承诺好的阈值，一旦越过就触发更强的管控。算力在这里常被当成天然的治理抓手，因为前沿训练离不开稀缺的芯片和巨大的电力，这种可观测性确实难得。但这里有个不能装看不见的张力：前面那道"算法效率会悄悄放大算力"的漏闸，正好开在这道抓手上。效率一旦提升，同样的算力就换来更多能力，抓手的实际开度就被放大了。所以把算力当抓手，必须同时盯住效率的进展，否则这个看似最实在的瓶颈，会在不知不觉中慢慢失灵。

二是收窄并加固能力流入现实的那些接口。机器人这一侧，物理动作需要一层模型绕不过去的硬性安全机制，比如联锁、力与能量的上限、地理围栏，关键在于它们位于模型之下而非之内。人作为执行器这一侧，要对"什么是 AI 生成的内容"保持透明，并给超个性化的说服施加一点摩擦。至于能源和金融，这两套系统本就配了断路器，交易熔断、持仓上限、电网的人工接管都是现成的，真正要做的是让 AI 智能体留在这些既有机制之内，而不是让它的自主性悄悄绕过去。

三是守住耦合处的可逆性。在"快速回路撞上物理杠杆"的那个交叉点上，应当专门保留人的介入，因为那里正是纠错窗口被压得最窄的地方。最值得争取的性质，是后果在足够长的时间里仍然可撤销，让我们有机会在事情坐实之前发现错误；去中心化、不让单一系统握住过多杠杆、保留审计痕迹，都是在为这件事服务。

这里要补一个全文此前漏掉的维度。前面把危险几乎都设想成"AI 脱离人类控制"，但同一套耦合还有对称的另一面：它也会把空前的杠杆集中到掌握它的少数行为者手里。换句话说，危险既可能是失控，也可能是被少数人牢牢攥住，这两者其实是同一个被压窄的窗口的两张面孔。一个被高度集中地控制、却始终听命于某一方利益的系统，未必比一个失控的系统更让人放心。去中心化、不让单一系统或单一主体握住过多杠杆、保留审计与问责，恰恰是同时针对这两面的对策，而不只是为了防失控。

制度和激励层面也得跟上：让部署者为尾部风险承担责任的机制、独立的第三方审计、像事故报告那样的披露，以及在少数真正需要的事情上（算力、最危险的评估阈值）做一点国际协调。

需要老实说清楚：这些大多只是部分性的对策，其中有几条还跟竞争和商业压力直接顶牛。这正回到本节开头那个判断：它们之所以难，是因为多半在逆着激励梯度走。没有哪一个配得上"解决方案"这个词，它们能做的，是替我们争取时间，把纠错的窗口尽量撑开一些。

该把注意力放在哪里

谈完这些对策，最后不妨把注意力收一收。把问题这样拆开，至少能让它落到更具体的地方，而不是停在泛泛的焦虑上。

与其争论遥远的终极场景，不如盯住那些让两条线耦合得更紧的环节。比如，哪些领域的实验反馈正在被高保真模拟取代，因为那里最可能出现局部的快速自我改进。再比如，能力与现实之间的接口是否留有可观察、可中断的余地：一个系统在采取有现实后果的行动前，是否存在人能看见、并能叫停的节点。这类问题不性感，却比抽象的善恶之辩更可操作。

这套框架也得交代一句：什么样的证据会让它被认为站不住。否则"麻烦藏在两条线的咬合里"听上去几乎怎么都对，等于没说。一个比较具体的反面判据是：如果未来若干年里，自我改进的内部基准明显见顶，模型能独立完成的任务时间跨度停止翻倍，或者物理接口这一侧的瓶颈被证明远比预想顽固，机器人的可靠性和实验反馈周期都没有实质提速，那么"耦合压缩窗口"这套担忧就应当相应调低，而不是继续维持原来的分量。能被这样的观察往下修正，这套说法才不算空转。

需要保持的，是一种不容易维持的中间姿态：既不因为眼下的系统还笨拙就断定一切担忧都是杞人忧天，也不因为某条线的逻辑成立就跳到末日结论。两条线各自都有真实的不确定性，它们的强度、时间表、乃至是否会以预想的方式耦合，都还没有答案。但有一点大概可以确定：随着自我改进的回路逐渐收紧、连接物理世界的接口逐渐变宽，留给我们从容思考的时间，只会越来越少，而不会越来越多。把注意力放在这两条线如何收紧、如何变宽、又如何咬合到一起，可能是眼下最实在的事。