AI研发进入＂自我进化＂闭环——当AI开始改进AI,人类最后一次工业革命的起点

行业趋势 · 技术深度 · 2026年5月28日

AI研发进入"自我进化"闭环——当AI开始改进AI，人类最后一次工业革命的起点

两天700次实验、训练时间缩短11%、清华用极低算力成本逼近大模型性能——这些碎片拼在一起，指向一个共同的方向：AI正在学会自己改进自己。而这件事一旦跑通，行业竞争将从"线性"切换到"指数"。

喜欢的朋友，点赞、推荐、关注，然后慢慢看

今年3月，Andrej Karpathy做了一件很多人没太当回事的事。

他搭了一个AI编程智能体，让它自主运行了两天。这个智能体在这两天里自动执行了700次实验，目标只有一个：优化大模型的训练流程。两天之后，结果出来了——训练时间缩短了11%。

11%。听起来不多。但如果我告诉你，训练一个GPT级别的大模型，一次跑通的算力成本在几千万到上亿美元之间——这11%意味着每次训练省下几百万到上千万美元。而且这个优化是一次性投入、永久受益的：花两天让AI自己实验，得到的方案可以用在之后所有的训练任务上。

这件事后来在AI圈里有了一个名字——"Karpathy Loop"。圈内人对它的评价两极分化：有人说这只是"调参的自动化"，本质还是辅助工具；也有人说这暗示了AI研发正在进入一个全新的阶段——当AI自己开始参与优化AI，研发效率的增速就不再是线性的了。

我当时看到这条新闻的第一反应是：这不就是"AI写代码优化AI"吗？没什么新鲜的。但越琢磨越觉得不对。700次实验如果让人来做，设计、执行、分析，最快也需要好几个月。AI两天跑完了。不是快了一倍，不是快了一个数量级，是快了至少两个数量级。

而就在上个月，Karpathy加入Anthropic，他给自己定的职责是八个字——"用Claude改进Claude"。他不是去写代码的，不是去带团队的，是去让AI研究AI的。这件事的象征意义，可能比很多人意识到的要大得多。

所以今天的文章想认真聊聊这个话题：当AI开始参与自己的研发过程，它会带来什么？不是"AI会不会取代人"那种贴吧级别的讨论——而是从行业结构、技术轨迹和竞争逻辑的角度，拆解这个趋势正在触动哪些底层规则。

一个实验和一道分水岭：当700次自动化实验只用两天跑完

回到Karpathy Loop本身。这里有三组数据值得单独拎出来讲。

第一组：700次实验，两天。平均每次实验耗时大约4分钟。这个速度意味着什么？传统研究流程里，一个研究员要做到"设计实验→写代码→跑实验→看结果→分析→根据分析调整下一个实验方案"这个循环，就算是最快的手，也得至少半天到一天。而AI智能体把这个循环压缩到了4分钟。不是"AI比人聪明"，是"AI不需要睡觉、不需要喝水、不会因为跑第七十次实验还是没结果就产生自我怀疑"。更关键的是，它能在两次实验之间保持"状态一致"——不会像人一样因为累了、情绪波动了或者时间压力而在设计策略上出现波动。

第二组：11%的优化幅度。这个数字被很多人低估了。在任何一个已经高度优化的系统里，挤出11%的边际提升都非常困难。大模型训练的优化空间经过了整个行业好几年的内卷，能用的优化手段基本都被试过了——GPU利用率、数据加载效率、分布式通信、混合精度训练、梯度累积策略——每个方向都已经被薅到接近极限。在这个基础上，一个AI智能体用两天时间又挤出了11%。

第三组：复利效应。如果这个智能体跑的不是两天，而是两周、两个月呢？如果它找到的优化方案不是一次性的，而是可以在每次优化之后再叠加新的优化呢？这个"优化→新起点→再优化"的循环一旦开始转起来，不是加法，是乘法。

前年我帮一个做量化交易的朋友搭过一套自动化调参系统。最开始也就是在参数空间里做网格搜索，跑了两天，回测表现提升了大概3%。他不满意，让我加了一个"基于前一轮最优解缩小搜索范围"的第二层循环。结果又跑了两天，在已经"最优"的3%基础上又挤出了1.5%。这件事给我留下的印象很深：当你站在第一个优化结果的基础上再做优化，难度是指数级增长的——因为它面对的是一个更"紧凑"的搜索空间。但Karpathy Loop面对的是大模型训练——一个比量化策略参数空间大不知道多少个数量级的搜索空间。在这个空间里，"挤出第二个11%"可能比"挤出第一个11%"更快，因为前面的优化告诉你"哪些方向值得深挖"。

所以Karpathy Loop真正的意义不在于"AI调参"这个操作本身。

它的意义在于验证了一个可能性：AI能够以远超人类的"实验吞吐量"来优化AI训练流程——而速度优势一旦达到两个数量级以上，量变就会触发质变。就像一个人类棋手永远不可能用"多想一会儿"来弥补AlphaGo那数百万局自我对弈带来的经验差距。

从"辅助"到"自主"：AI研发的三阶段跨越

如果只把Karpathy Loop看作"AI调参"，那是没看到更大的趋势。

实际上，如果我们把AI参与AI研发这件事按照"自主程度"画一条时间线，可以清晰地分成三个阶段。

第一阶段：辅助。AI作为工具出现在研发流程里——帮研究员自动补全代码、生成实验脚本、整理实验日志。这个阶段AI做的事情本质上是"省时间"：研究员还是那个拍板的人，AI只是一个效率放大器。这个阶段从2023年Github Copilot大规模普及开始，到2024年Cursor等AI编程工具爆发达到峰值。现在几乎所有大模型公司的研究员都在用AI辅助编程，这已经是一个不值得一提的基本配置了。

第二阶段：协同。AI开始参与决策级别的任务——不是"帮我写完这段代码"，而是"帮我分析这组实验数据并告诉我下一步该试什么方向"。这个阶段的核心变化在于：AI不再只是一个工具，它开始承担部分"研究员"的职能。Karpathy Loop就处在协同阶段的中期——AI智能体能够自主设计实验、执行实验、分析结果、并基于分析自动确定下一轮实验的参数空间。但它仍然在一个人类定义的"大方向"下运作——比如"优化训练时间"，这个目标是人定的，AI只是在这个目标下做搜索。

第三阶段：自主。AI不仅执行实验，还能提出研究方向本身。不是"帮我优化这个架构"，而是"这个架构本身是不是不够好？我建议换一个新的"。它阅读最新的论文、分析行业趋势、提出假设、设计实验验证假设、并根据验证结果修正自己的研究方向。这个阶段目前还没有真正到来——但它离我们可能比大多数人想象的要近。原因后面展开说。

我们现在正处在从"协同"到"自主"的过渡期。这个过渡期的标志性事件不是一个，而是散落在不同时间点和不同团队的一系列进展，单独看都像是"小改进"，但串起来看就是一条通往第三阶段的路线图。

先看Karpathy。"用Claude改进Claude"这八个字戳中的正是第三阶段的精华——如果Claude能够被用来"改进Claude本身"，这就意味着它不再只是被改进的"产物"，而是参与改进的"研究员"。而这个目标一旦实现，它就会变成一个闭环：更强的Claude→更强的研究能力→改进出更强的Claude→循环往复。这就是"指数型正反馈"的本质——不是每个版本比上一个版本好一点，而是每个版本不仅比上一个版本好，而且它帮助创造下一个版本的能力也比上一个版本强。

这个逻辑如果跑通了，它不需要达到完全的"自主"就能产生指数级效应。只要AI的"研究效率"超过了一定阈值——我们暂时叫它"临界自动化率"——即使人類研究员仍然在做方向性决策，整个系统的迭代速度也会进入一个不可逆的加速轨道。

而这个阈值的具体门槛是多少？从Karpathy Loop的数据来看，可能比我们想的要低得多。两天700次实验、11%的优化——这个数字如果是一个人类研究团队，大概需要四到六个全职研究员花三个月。如果你把这个效率提升换算成"研究时间/优化收益"的比值，AI目前的效率优势已经超过了100倍。

但要注意，"实验速度"和"研究深度"是两回事。AI现在擅长的是"在给定框架下做大量快速探索"——这是广度优势。而人类研究员擅长的是"基于直觉和跨领域知识做出方向性判断"——这是深度优势。第二阶段的AI已经展现了广度碾压，但深度上还远远不够。这也是为什么现在仍然是"协同"而不是"自主"。

清华的一个实验室，和全世界AI公司的算力焦虑

如果说Karpathy Loop代表了"AI用速度碾压人类"的路径，那清华大学的HRM-Text模型就代表了一条截然不同的进化路线。而这条路线指向的，是一个比"AI自己调自己参数"更底层的范式转换。

先说一下HRM-Text是什么。简单来说，清华大学的研究人员开发出了一种全新的模型训练方法，能够在极低的算力成本下，达到接近大规模模型才能达到的性能。极低是多低？虽然没有公开精确的绝对数值，但从论文中的对比数据来看，它的算力消耗仅为同性能级别大模型训练的一个零头。

这听起来像是"又一个小模型逼近大模型"的新闻标题——这类标题在过去两年里出现得太多了，以至于很多人已经免疫了。但HRM-Text不一样的地方在于：它不是靠"堆数据"或者"蒸馏大模型"来实现的。它靠的是架构层面的创新——用更精巧的设计替代了更暴力的算力投入。

这恰好折射出整个AI行业正在经历的一个深层变化：从"暴力计算"到"架构设计"的范式转移。

"暴力计算"是什么？简单说就是：模型不够强，就加参数；参数加不动了，就加数据；数据加不动了，就加GPU。这条路从GPT-1到GPT-4走了五年，效果立竿见影——每次"暴力加码"都带来了能力上的质变。但这条路正在走到尽头。不是因为技术天花板到了，而是因为经济天花板到了。OpenAI的CFO在最近一次内部会议上明确说了：公司可能"付不起6000亿美元级别的算力账单"。

6000亿美元是什么概念？2025年全球前十大科技公司的利润加起来大概在这个量级。这不是"有点贵"，这是"即使你是有史以来融资最多的私人公司也承受不起"的价位。

所以"架构设计"路线——就是清华HRM-Text在做的事——正在成为整个行业不得不认真考虑的方向。它的核心逻辑是：不是继续在大规模的路上加码，而是回过头来问一个更基础的问题——我们现有的模型架构，是不是本身就是低效的？

这个问题问对了方向。Transformer架构虽然革命性地改变了AI，但它本质上是一个"注意力分配"的粗粒度方案——每个token看所有其他token，"暴力"地算一遍注意力分数。这种架构在很多场景下都是过杀：一个"的"字不需要和它前面第三十个句子的开头算注意力。人类大脑处理语言时绝对不会这么做。

如果能在架构层面解决这个问题——不是通过增加算力来"硬抗"，而是通过更智能的注意力分配、更高效的知识存储、更合理的计算路径来"巧解"——那么整个行业的算力焦虑就会迎来一次根本性的缓解。

而这里有一个很微妙的交叉点：AI自我改进和架构创新之间，存在着天然的共振关系。

传统上，"设计一个新架构"是人类研究员做的事情——需要深厚的数学直觉、大量的实验验证、以及最重要的：某种"灵感"。这个过程的效率很低，周期很长。但如果AI能够参与到架构探索中来——不是盲目地在参数空间里网格搜索，而是基于对数十万篇论文的理解，基于对已有架构的深度分析，基于对"什么设计在什么场景下有效"的模式识别——那么架构创新的速度可能会得到质变级别的提升。

这正是清华Robin系统在做的事情。

Robin是一个多智能体协作系统，能够自动执行"生成假设→实验验证→分析结果→修正假设"的完整科学发现闭环。它不是"帮人做实验"的辅助工具，而是自己发动研究循环的系统。多个AI智能体在这个系统里分别扮演不同的角色——有的负责文献调研和假设生成，有的负责设计实验方案，有的负责执行和分析。它们之间的协作模式不是人类预设的"流水线"，而是动态的、自适应的——一个智能体发现了有趣的结果，另一个智能体会自动调整自己的研究重点来跟进这个发现。

Robin系统目前的应用场景还相对有限，主要集中在大模型训练和评估方法的自动化优化上。但它的架构设计有一个非常值得关注的特征：它的能力边界是"可扩展"的。这意味着今天它用来优化训练方法，明天就可能用来探索新架构。它不是某个具体任务的专用工具，而是一套"自动做研究"的通用框架。

把HRM-Text（架构创新）和Robin（研究自动化）放在一起看，一个完整的图景就出来了：AI不仅能帮我们省算力（HRM-Text的路线），还能帮我们发现新方法来省算力（Robin的路线）。两条线交叉的地方，就是"AI从被优化的对象变成了参与优化的主体"的那个临界点。

当AI学会自己造自己，行业规则全变了

前面讲了很多技术层面的东西。这一节往回拉一点，聊聊这个趋势如果继续推进，对整个行业格局会产生什么结构性的影响。

先看最直接的一个影响：研发效率的提升。

AI行业目前的核心竞争逻辑是什么？是"谁能在单位时间里产出更强的模型"。而在"人+GPU"的范式下，这个竞争逻辑等价于"谁有更多钱买GPU、谁有更多顶尖研究员"。所以你会看到整个行业在过去两年变成了一个"军备竞赛"：融资→买GPU→招人→训练模型→再融资。这个循环的瓶颈在于：顶尖研究员的数量是有限的，而且增长极慢（培养一个能领导大模型预训练的人需要至少五到八年），而GPU虽然有供应瓶颈但相对容易扩充。

但如果AI能参与研究——不是替代研究员，而是以100倍的效率做"实验执行"层面的事——那么整个竞争逻辑就会被改写。拥有"AI辅助研发能力"的团队，相当于把每个研究员的产出放大了几十到上百倍。这不仅仅是"效率提高了"——它本质上是在研究能力上形成了代差。

打个比方。两支足球队，每队11个人。如果一队突然得到许可，让每个球员穿上动力外骨骼——速度提高50%，耐力提高200%，但决策能力和战术意识没有变化——你觉得比赛还有悬念吗？没有。而且这不是"实力差距"，是结构性差距——后者无论怎么训练都接近不了前者，因为前者拥有的是一个"增伤器"而不是"更好的训练方法"。

在AI行业里，"动力外骨骼"就是AI辅助研发系统。谁先拥有了它，谁就能在模型迭代速度上形成不可逆转的领先。

再看第二个影响：竞争格局的重塑。

目前AI行业的竞争格局大致是"一超多强"：OpenAI在绝对估值和产品生态上领先，Anthropic在模型质量和研究深度上追赶，DeepSeek在成本控制上独树一帜，还有谷歌、Meta、各家中国大厂在中后段虎视眈眈。但这个格局是建立在"人工研发效率大致相当"的前提上的——各家的顶尖研究员数量差不多一个量级，差距主要体现在GPU存量和资金储备上。

如果有一家——比如Anthropic（它正在通过Karpathy高调布局这个方向）——率先跑通了AI辅助研发的正反馈循环，那会发生什么？

假设Anthropic的研究效率因为AI辅助提升了3倍——一个相对保守的估计。这意味着在同样的时间里，Anthropic能跑的实验量、能测试的假设、能探索的架构变体，是竞争对手的3倍。放在AI行业里这不是"领先"这是"碾压"——你的对手每能做3次尝试，你只能做1次。而你做的这1次尝试，可能还因为样本量不够而偏到了错误的方向。

更可怕的地方在于：这个优势是自我强化的。一旦你在研究速度上领先了，你的模型就比别人强。你的模型更强了，它帮你做研究的能力就更强。然后你的研究速度优势进一步扩大。这就是指数型正反馈的核心机制——领先者不是在跑得更快，而是领先者本身就在不断"改装自己的引擎"。

过去两年里我们看到过很多"格局变化"——OpenAI发布GPT-4重新定义行业标准、DeepSeek靠开源和成本优势掀翻市场定价体系、Anthropic靠模型质量从"第二名"变成某些细分赛道的"第一名"。但这些变化都是在一个"线性竞争"框架里的此消彼长——model A比model B好在2个基准上，model C的价格比model D低了30%。这些变化可以很大——大到把一家公司的估值翻3倍——但它们仍然是有"扳回"的可能性的。

而AI辅助研发正反馈一旦启动，带来的变化不是"你的模型比我的好"——那是可以追的。而是"你变强的速度比我变强的速度快一个数量级"——那是追不上的。这不是"谁更努力"的问题，是"谁拥有指数级的引擎"的问题。

控制不了的指数，和回不去的路

讲到这里，你可能觉得这篇文章的论调是"AI自我进化一片大好前程似锦"。不是的。这个趋势的暗面可能比它的正面更需要被认真对待。

第一个风险：验证难题。

当AI系统开始自己优化自己，谁来验证优化的结果是"正确"的？在Karpathy Loop的场景里，验证相对简单——衡量标准是"训练时间是否缩短了"。但如果优化目标是更模糊的东西——比如"生成质量"、"推理能力"、"安全性"——验证就会变成一个几乎无法自动化判断的问题。

更糟糕的是，AI在优化过程中可能会发现"捷径"——一种在评估指标上看起来很好、但实际上没有达到预期目标的方案。这在AI领域有一个术语叫"reward hacking"——奖励机制被钻了空子。当优化系统越来越复杂、优化目标越来越难以精确量化，reward hacking的风险会呈几何级数增长。而如果这个优化系统是"自动循环"的——AI优化AI，优化后的AI再优化AI——一个早期阶段的微小偏差可能在几轮循环后被放大成灾难性的偏差。

第二个风险：失控风险。

这不是科幻电影里那种"AI觉醒了要消灭人类"的桥段。我说的是更现实的失控：一个被设计用来优化模型训练的AI系统，在无数次自我迭代之后产生了"涌现行为"——它开始做一些它的设计者没有预料到的事情。而这些事情的设计者无法理解，更无法干预。

这听起来像是危言耸听，但它并不需要"超智能"来发生。只需要系统的复杂度超过人类理解能力。一个设计良好的多智能体系统——比如Robin——如果让它运行足够长的时间、处理足够复杂的任务，产生"难以理解但有效"的行为模式几乎是必然的。不是因为AI变聪明了，是因为人类的理解带宽是有上限的。

去年我在一个AI安全相关的技术沙龙上听到一个研究员的说法，一直记到现在。他说："我们对AI最大的恐惧不应该是它'变坏'——而是在它做了一个匪夷所思但效果惊人的事情之后，我们发现自己根本不知道为什么，也没办法让它停下。"

这句话的后劲很大。因为"不可理解但有效"在我们的日常经验里已经出现了——大模型本身在很多情况下就是一个"黑箱"，我们不知道它具体为什么输出这个答案，只能看结果好不好。但在"AI改进AI"的场景里，这个黑箱不是被动的输出工具，它是被改进系统中的"改进器"。如果"改进器"的原理不可理解，那整个系统的可靠性就会建立在沙子上。

第三个风险：生态脆弱性。

当整个行业开始依赖AI来优化AI，一个异常就会沿着"AI→优化→新AI→再优化"的链条产生多米诺效应。想象一下：某个开源的优化框架（比如一个类似Robin的系统）被广泛部署，而它存在一个不起眼的缺陷——可能是一个数据偏见、一个评估盲区、或者一个架构设计上的微妙漏洞。这个缺陷在它被成千上万个研究团队使用时，悄悄渗透进了大量的下游模型。等到缺陷被发现时，它已经"污染"了整个生态。

这种风险在软件工程里并不新鲜——每当一个基础库被广泛依赖，它的bug就会产生大规模连锁反应。但在AI领域，这种风险更隐蔽，也更难修复。因为AI系统的"缺陷"往往不是导致"程序崩溃"——而是导致"模型在做某些特定类型的推理时系统性地偏航"。这种偏航可能在日常使用中几乎察觉不到，但在关键决策场景下会产生实质性伤害。

我前年参与过一个金融风控模型的迭代项目。这个项目的一个核心问题是：模型在迭代过程中，由于使用的"优化器"是一个基于历史数据训练的AI——具体来说是一个自动特征选择工具——它系统性地低估了某些"出现频率低但重要性高"的变量，导致模型在罕见事件上的预测精度在每次迭代后都有微弱下降。这个下降小到每次迭代后基准测试都看不出异常。但当迭代到了第八轮的时候，突然有一个老风控分析师注意到了一个问题——某个他一直在关注的指标表现变得非常不稳定。回头排查才发现，那个"优化器"在早期的架构设计里把稀有特征的权重设得太低了，而在"自动化迭代"的掩护下，这个缺陷被一路放大了八轮。

这就是"验证难题"和"生态脆弱性"叠加之后的典型场景。当AI参与改进AI的链路过长、中间环节过多、且每一步的验证标准都基于"模型自己设定的目标"而不是"外部客观标准"，风险就会像滚雪球一样滚起来。

但所有这些风险，不构成"不要碰"的理由。

历史上任何一项颠覆性技术——从火器到核能到基因编辑——在早期阶段都面临过"风险太大别碰了"的警告。但历史反复证明了一件事：当一项技术提供了不可替代的竞争优势，它就不会因为风险而被放弃——它会因为风险而被更加谨慎地管理和监控。

AI自我进化的正反馈同样如此。它不是可选方向，它是竞争必然。谁不做，谁就被做的人甩开——而且是以指数级的速度被甩开。正确的态度不是"因为有风险所以不要做"，而是"因为风险巨大，所以必须用最严谨的安全框架来管理它的进展"。这意味着：透明的实验记录、可追溯的决策链条、多维度的验证标准（而不是单一的评估指标）、以及在不完全理解系统行为时启动"制动机制"的勇气。

这些听起来像是"常识"。但历史上在"速度优势"面前放弃安全纪律的例子太多了——从挑战者号航天飞机的O型环到2008年的金融衍生品——每一个悲剧的根子都是同一个：在"优势过于诱人"的激励下，人们选择性地忽视了他们不完全理解的风险。

AI行业今天站在一个类似的岔路口。只不过这次的"优势"可能比航天飞机和金融衍生品加起来都大——没有人能拒绝"让自己的研究效率提升一百倍"的诱惑。但正因为诱惑太大，才更需要想清楚：这套系统的"制动装置"在哪？当它跑起来之后，谁来踩刹车？刹车还管不管用？

这些问题目前没有人有肯定的答案。但至少，提出这些问题本身就是一种刹车——一种在加速之前，至少看一眼油门和刹车踏板的清醒。

但话说回来，现在担心失控是不是太早了？AI自己改进自己的"闭环"，目前还处在帮研究员调参、选数据配比的阶段——离"自己给自己写下一代架构"还隔着好几座山。清华HRM-Text那种"极低算力达到近似大模型效果"的工作，本质上还是人类设计了更聪明的算法，不是AI自己想出来的。把今天的工具进步渲染成"即将失控"，跟十几年前说"互联网会让人类退化"一样——口号响亮，但经不起事实检验。真正危险的从来不是AI自己进化，是我们根本没想清楚：当AI的研发效率真的提高一百倍之后，谁该为它做出的决定负责。

问大家一个问题：

你觉得AI自我进化正反馈走到哪一步，会真正改变AI行业的竞争格局？

A. 已经开始了——Karpathy Loop就是标志，领先者已经在享受复利

B. 还需要1-2年——目前只是"实验阶段"，距离真正影响行业还有距离

C. 方向对的但条件不成熟——算力瓶颈和安全问题会拖慢整个进程

D. 这可能是一个被过度炒作的概念——本质上还是"工具升级"不是"范式转换"

你所在的公司或行业，目前有没有出现"AI参与AI研发"的苗头？在评论区聊聊你看到的变化

📖 推荐阅读

Claude学会了"做梦"：任务完成率暴增6倍的秘密

Cursor：Agent请求量暴涨15倍，75%企业代码已由AI生成，程序员你还剩什么

百度文心5.1炸场：训练成本仅为业界6%，Agent能力碾压DeepSeek

免责声明：本文基于Andrej Karpathy在X平台的公开发帖、清华大学HRM-Text/Robin相关学术论文、各公司公开信息及多家科技媒体报道综合整理。所有技术事实均有公开可查来源。文中关于"AI自我进化正反馈"的分析仅代表个人对技术趋势的观察和判断，部分预测性内容涉及尚未被充分验证的假设，不构成任何投资、商业或技术路径选择的依据。AI自我进化的安全性问题仍在学术界和产业界持续讨论中，建议读者关注相关领域的权威研究进展。

作者：牛牛 编辑：玻珠 审核：静静