2026 年6月以来,两个数字在 AI 圈子反复被引用。
Anthropic 说 Claude 写了内部 80% 的代码;月之暗面说 Kimi Work 92% 的代码由 AI 自写。两边的叙事完全不同。Anthropic 的 CEO Dario Amodei 在接受 CNN 采访时说"我们需要刹车踏板";月之暗面的发布会把"92%"打在屏幕正中央,台下掌声雷动。
同一类数据,两套完全相反的叙事。一个说"很可怕,要慢下来",一个说"很强,要继续加速"。
但有一个问题很少有人问:那剩下的 8-20% 是谁写的?
答案可能出乎你的预料。那些代码不是人类比 AI 写得更好——写代码这件事,AI 确实已经比大多数人类快了。那 8-20% 的人类代码不是"人在写",而是人在定方向、设约束、判合格。目标是 AI 定的吗?不是。验收标准是 AI 定的吗?不是。产品方向、安全边界、发布节奏是 AI 决定的吗?也不是。
如果把这些算进去,你会发现一个截然不同的图景:AI 在执行层面确实越来越自主,但它在目标层面和验收层面仍然完全依赖人类。这不是真正的递归自我改进,这是一个被高度优化但依然需要人类驾驶的自动驾驶仪。
一、什么是 RSI——以及你以为的 RSI 可能不是 RSI
递归自我改进(Recursive Self-Improvement, RSI)有一个明确的核心定义:AI 系统在不依赖人类干预的前提下,自主改进自身代码、架构或能力。
关键特征有三个:
- 人类不在循环中
——从分析到验证完全由 AI 自主完成 - 能力加速
——每一次改进后的 AI 都有更好的能力进行下一次改进 - 理论上存在爆炸点
——改进速度超越人类理解速度的时刻
这个定义本身没有问题。问题出在当我们拿它去对照那 80% 和 92% 的数据时,发现对不上。
Anthropic 和月之暗面公开的"AI 自写代码比例",指的是执行层的代码自主生成。AI 收到一个明确的任务描述(由人类定义),然后自主完成编码、测试、调试,最后提交。这个过程中人类没有参与"写"的环节,但人类参与了定义什么是"写对了"的环节。
如果 RSI 的定义是"人类不在循环中",那这个"不在"需要打引号——人类只是不在执行循环,但人在目标循环和验收循环里。
这就引出了一个问题:我们是不是在用同一个词指两件不同的事?
二、RSI 的 A 版本和 B 版本——为什么 A 版本是永动机
我认为需要把 RSI 拆成两个版本来讨论:
版本 A(封闭自我进化):系统自己定目标、自己执行、自己验收、自己迭代。这是一个没有外部信号输入的封闭系统。整个体系自备、自完善、自洽——从目标发起到成果确认,全部在系统内部完成。
版本 B(执行层自主):AI 在执行层面自主完成编码、测试、修复等操作,但目标由外部注入、验收由人确认、成果由人决定是否采纳。AI 是高效的执行者,但不是目标的定义者。
Anthropic 的 80% 和月之暗面的 92% 属于版本 B,这一点几乎没有争议。但问题在于:很多人在讨论 RSI 时,脑子里想的是版本 A,嘴上说的却是版本 B 的数据。两个版本被悄悄混在了一起。
版本 A 在逻辑上存在一个根本矛盾:封闭系统不可能自发产生新信号。
这很像永动机的设计。热力学第二定律告诉我们,封闭系统中的能量只会从有序走向无序,不可能自发产生新的有用能量。信息论意义上的 RSI 同理——封闭系统的信息只会趋向均匀(平庸化),不可能自发产生新的有效信号。Anthropic 的 80% 和月之暗面的 92% 不是靠近版本 A 的证据,恰恰是反证——那剩下的 8-20% 的人类介入,就是"外部能量输入"的证明。
有人会反驳说:系统可以渐进式优化执行效率——优化代码体积、加速推理、减少错误率——这些不需要外部输入也能做到。但这里有一个关键区分:"能力提升"和"能力爆发"不是同一件事。一个系统可以在封闭条件下优化已有的能力,但无法在封闭条件下产生新能力——新能力的产生需要新的目标信号、新的反馈维度、新的评价标准,而这些都来自系统外部。
把"优化已有能力"等同于"递归自我改进"是对 RSI 这个词的稀释。如果 RSI 只意味着"AI 可以自己优化自己的代码",那它就不是一个值得讨论的概念,因为编译器优化、数据库自调优这些技术已经做了几十年了。
三、可怕还是卖点?叙事供需决定一切
回到开头的问题:为什么同样的数据,两个公司的叙事截然相反?
答案不是谁对谁错,而是"谁在向谁募什么资源"决定了故事的讲法。
Anthropic 是一家正在筹备 IPO 的公司,估值逼近万亿美元。它面临的核心挑战不是技术,不是商业化,而是安全监管准入。出于对自身安全的承诺表达,它需要向全球监管者展示"我们认真看待风险",从而换取政策倾斜和安全准入。对监管者讲"可怕",募的是政策资源。
月之暗面是一家正在高速融资的创业公司。它的核心挑战是向投资人证明"我是中国最值得下注的 AI 公司"。对投资人讲"卖点",募的是资本。
同一个技术事实(AI 自写代码比例),套上不同的叙事框架卖给不同的受众。这不是阴谋论,这是叙事供需分析——任何一家公司都会根据自己需要争取的资源来调整对外沟通的口径。
这不是说谁在撒谎。两个数据都是真的。Anthropic 的工程师也认可 AI 写代码的效率,月之暗面的安全团队也同样关注 RSI 风险。区别在于:一家公司的 CEO 面对镜头时要考虑这句话会被瑞士达沃斯论坛上那批监管者和政策制定者怎么解读,另一家公司的 CEO 要考虑这句话会被 A 轮投资人怎么解读。
对普通读者来说,这不是去判断谁对谁错,而是学会把公司的 PR 叙事和技术真相分开来看。
四、延伸:LLM 的边界比你以为的大
讨论 RSI 为什么必然导向对 LLM 能力边界的追问?
因为 RSI 是否可能,根本上取决于我们如何看待 AI 能力的本质。
大语言模型擅长什么?擅长对现象和事物进行描述。它能告诉你"如果 A 则 B",但它不是在推演因果链——它是在海量文本中学会了 A 后面通常跟着 B 这个模式。
这不是一个微小的区别。这意味着:LLM 能写出一个看起来完美的实验方案,但它在逻辑上并不理解这个实验为什么能验证某个假设。它能写出优雅的代码,但它不理解这段代码为什么能解决那个问题。它在做的事情是模式匹配和文本生成,而不是因果推理。
这个局限在日常使用中不容易暴露。但当讨论进入 RSI 的领域时,它就变得致命——因为"系统能否自主改进自己"的前提是"系统是否理解自己"。一个基于模式匹配的系统,改进自己也是在模式匹配的框架内进行,永远无法突破模式匹配的天花板。
这就是世界模型(World Model)正在填补的位置。世界模型的思路不是让 AI 学会"描述世界",而是学会"世界如何运转的因果逻辑"。不是统计"杯子掉地上通常会碎"这个模式,而是模拟"杯子从什么角度掉落、落在什么地面、高度多少、材质如何……然后推演会不会碎"。
两者的区别,是事后总结和事前模拟的区别。
LLM 是那个看了无数次杯子掉落然后学会了说"会碎"的观察者。世界模型是那个在脑子里跑了一遍物理模拟然后得出结论的工程师。两种能力各有用途,但把前者当成后者,会导致严重误判——包括对 RSI 前景的误判。
尾声
递归自我改进是一个值得认真讨论的概念,因为它触及了 AI 发展的一个根本问题:能力的边界在哪里。
但我认为,讨论 RSI 最有价值的发现不是"AI 会不会失控",而是帮我们看清两件事:
第一,AI 能力和 AI 叙事是两回事。80% 和 92% 的数字是真的,但"RSI 正在发生"的判断是叙事。两者不能划等号。
第二,技术进步的真正约束不是算力不是数据,而是我们有没有搞清楚因果关系。LLM 在模式匹配这条路上走得比任何人预期的都远,但它有没有真正理解这个世界运行的因果逻辑?至少目前,答案是否定的。而如果这个前提成立,那"AI 自己改进自己"这件事的想象空间,可能比我们以为的小得多。
这不是在否定进步。AI 在执行层的自主能力提升是真实的、有价值的。只是从一个概念到另一个概念,中间隔着一个永动机的距离。
夜雨聆风