行业趋势 · 技术深度 · 2026年5月28日
AI研发进入"自我进化"闭环——当AI开始改进AI,人类最后一次工业革命的起点
两天700次实验、训练时间缩短11%、清华用极低算力成本逼近大模型性能——这些碎片拼在一起,指向一个共同的方向:AI正在学会自己改进自己。而这件事一旦跑通,行业竞争将从"线性"切换到"指数"。
喜欢的朋友,点赞、推荐、关注,然后慢慢看
今年3月,Andrej Karpathy做了一件很多人没太当回事的事。
他搭了一个AI编程智能体,让它自主运行了两天。这个智能体在这两天里自动执行了700次实验,目标只有一个:优化大模型的训练流程。两天之后,结果出来了——训练时间缩短了11%。
11%。听起来不多。但如果我告诉你,训练一个GPT级别的大模型,一次跑通的算力成本在几千万到上亿美元之间——这11%意味着每次训练省下几百万到上千万美元。而且这个优化是一次性投入、永久受益的:花两天让AI自己实验,得到的方案可以用在之后所有的训练任务上。
这件事后来在AI圈里有了一个名字——"Karpathy Loop"。圈内人对它的评价两极分化:有人说这只是"调参的自动化",本质还是辅助工具;也有人说这暗示了AI研发正在进入一个全新的阶段——当AI自己开始参与优化AI,研发效率的增速就不再是线性的了。
我当时看到这条新闻的第一反应是:这不就是"AI写代码优化AI"吗?没什么新鲜的。但越琢磨越觉得不对。700次实验如果让人来做,设计、执行、分析,最快也需要好几个月。AI两天跑完了。不是快了一倍,不是快了一个数量级,是快了至少两个数量级。
而就在上个月,Karpathy加入Anthropic,他给自己定的职责是八个字——"用Claude改进Claude"。他不是去写代码的,不是去带团队的,是去让AI研究AI的。这件事的象征意义,可能比很多人意识到的要大得多。
所以今天的文章想认真聊聊这个话题:当AI开始参与自己的研发过程,它会带来什么?不是"AI会不会取代人"那种贴吧级别的讨论——而是从行业结构、技术轨迹和竞争逻辑的角度,拆解这个趋势正在触动哪些底层规则。
一个实验和一道分水岭:当700次自动化实验只用两天跑完
回到Karpathy Loop本身。这里有三组数据值得单独拎出来讲。
第一组:700次实验,两天。平均每次实验耗时大约4分钟。这个速度意味着什么?传统研究流程里,一个研究员要做到"设计实验→写代码→跑实验→看结果→分析→根据分析调整下一个实验方案"这个循环,就算是最快的手,也得至少半天到一天。而AI智能体把这个循环压缩到了4分钟。不是"AI比人聪明",是"AI不需要睡觉、不需要喝水、不会因为跑第七十次实验还是没结果就产生自我怀疑"。更关键的是,它能在两次实验之间保持"状态一致"——不会像人一样因为累了、情绪波动了或者时间压力而在设计策略上出现波动。
第二组:11%的优化幅度。这个数字被很多人低估了。在任何一个已经高度优化的系统里,挤出11%的边际提升都非常困难。大模型训练的优化空间经过了整个行业好几年的内卷,能用的优化手段基本都被试过了——GPU利用率、数据加载效率、分布式通信、混合精度训练、梯度累积策略——每个方向都已经被薅到接近极限。在这个基础上,一个AI智能体用两天时间又挤出了11%。
第三组:复利效应。如果这个智能体跑的不是两天,而是两周、两个月呢?如果它找到的优化方案不是一次性的,而是可以在每次优化之后再叠加新的优化呢?这个"优化→新起点→再优化"的循环一旦开始转起来,不是加法,是乘法。
前年我帮一个做量化交易的朋友搭过一套自动化调参系统。最开始也就是在参数空间里做网格搜索,跑了两天,回测表现提升了大概3%。他不满意,让我加了一个"基于前一轮最优解缩小搜索范围"的第二层循环。结果又跑了两天,在已经"最优"的3%基础上又挤出了1.5%。这件事给我留下的印象很深:当你站在第一个优化结果的基础上再做优化,难度是指数级增长的——因为它面对的是一个更"紧凑"的搜索空间。但Karpathy Loop面对的是大模型训练——一个比量化策略参数空间大不知道多少个数量级的搜索空间。在这个空间里,"挤出第二个11%"可能比"挤出第一个11%"更快,因为前面的优化告诉你"哪些方向值得深挖"。
所以Karpathy Loop真正的意义不在于"AI调参"这个操作本身。
它的意义在于验证了一个可能性:AI能够以远超人类的"实验吞吐量"来优化AI训练流程——而速度优势一旦达到两个数量级以上,量变就会触发质变。就像一个人类棋手永远不可能用"多想一会儿"来弥补AlphaGo那数百万局自我对弈带来的经验差距。
从"辅助"到"自主":AI研发的三阶段跨越
如果只把Karpathy Loop看作"AI调参",那是没看到更大的趋势。
实际上,如果我们把AI参与AI研发这件事按照"自主程度"画一条时间线,可以清晰地分成三个阶段。
第一阶段:辅助。AI作为工具出现在研发流程里——帮研究员自动补全代码、生成实验脚本、整理实验日志。这个阶段AI做的事情本质上是"省时间":研究员还是那个拍板的人,AI只是一个效率放大器。这个阶段从2023年Github Copilot大规模普及开始,到2024年Cursor等AI编程工具爆发达到峰值。现在几乎所有大模型公司的研究员都在用AI辅助编程,这已经是一个不值得一提的基本配置了。
第二阶段:协同。AI开始参与决策级别的任务——不是"帮我写完这段代码",而是"帮我分析这组实验数据并告诉我下一步该试什么方向"。这个阶段的核心变化在于:AI不再只是一个工具,它开始承担部分"研究员"的职能。Karpathy Loop就处在协同阶段的中期——AI智能体能够自主设计实验、执行实验、分析结果、并基于分析自动确定下一轮实验的参数空间。但它仍然在一个人类定义的"大方向"下运作——比如"优化训练时间",这个目标是人定的,AI只是在这个目标下做搜索。
第三阶段:自主。AI不仅执行实验,还能提出研究方向本身。不是"帮我优化这个架构",而是"这个架构本身是不是不够好?我建议换一个新的"。它阅读最新的论文、分析行业趋势、提出假设、设计实验验证假设、并根据验证结果修正自己的研究方向。这个阶段目前还没有真正到来——但它离我们可能比大多数人想象的要近。原因后面展开说。
我们现在正处在从"协同"到"自主"的过渡期。这个过渡期的标志性事件不是一个,而是散落在不同时间点和不同团队的一系列进展,单独看都像是"小改进",但串起来看就是一条通往第三阶段的路线图。
先看Karpathy。"用Claude改进Claude"这八个字戳中的正是第三阶段的精华——如果Claude能够被用来"改进Claude本身",这就意味着它不再只是被改进的"产物",而是参与改进的"研究员"。而这个目标一旦实现,它就会变成一个闭环:更强的Claude→更强的研究能力→改进出更强的Claude→循环往复。这就是"指数型正反馈"的本质——不是每个版本比上一个版本好一点,而是每个版本不仅比上一个版本好,而且它帮助创造下一个版本的能力也比上一个版本强。
这个逻辑如果跑通了,它不需要达到完全的"自主"就能产生指数级效应。只要AI的"研究效率"超过了一定阈值——我们暂时叫它"临界自动化率"——即使人類研究员仍然在做方向性决策,整个系统的迭代速度也会进入一个不可逆的加速轨道。
而这个阈值的具体门槛是多少?从Karpathy Loop的数据来看,可能比我们想的要低得多。两天700次实验、11%的优化——这个数字如果是一个人类研究团队,大概需要四到六个全职研究员花三个月。如果你把这个效率提升换算成"研究时间/优化收益"的比值,AI目前的效率优势已经超过了100倍。
但要注意,"实验速度"和"研究深度"是两回事。AI现在擅长的是"在给定框架下做大量快速探索"——这是广度优势。而人类研究员擅长的是"基于直觉和跨领域知识做出方向性判断"——这是深度优势。第二阶段的AI已经展现了广度碾压,但深度上还远远不够。这也是为什么现在仍然是"协同"而不是"自主"。
清华的一个实验室,和全世界AI公司的算力焦虑
如果说Karpathy Loop代表了"AI用速度碾压人类"的路径,那清华大学的HRM-Text模型就代表了一条截然不同的进化路线。而这条路线指向的,是一个比"AI自己调自己参数"更底层的范式转换。
先说一下HRM-Text是什么。简单来说,清华大学的研究人员开发出了一种全新的模型训练方法,能够在极低的算力成本下,达到接近大规模模型才能达到的性能。极低是多低?虽然没有公开精确的绝对数值,但从论文中的对比数据来看,它的算力消耗仅为同性能级别大模型训练的一个零头。
这听起来像是"又一个小模型逼近大模型"的新闻标题——这类标题在过去两年里出现得太多了,以至于很多人已经免疫了。但HRM-Text不一样的地方在于:它不是靠"堆数据"或者"蒸馏大模型"来实现的。它靠的是架构层面的创新——用更精巧的设计替代了更暴力的算力投入。
这恰好折射出整个AI行业正在经历的一个深层变化:从"暴力计算"到"架构设计"的范式转移。
"暴力计算"是什么?简单说就是:模型不够强,就加参数;参数加不动了,就加数据;数据加不动了,就加GPU。这条路从GPT-1到GPT-4走了五年,效果立竿见影——每次"暴力加码"都带来了能力上的质变。但这条路正在走到尽头。不是因为技术天花板到了,而是因为经济天花板到了。OpenAI的CFO在最近一次内部会议上明确说了:公司可能"付不起6000亿美元级别的算力账单"。
6000亿美元是什么概念?2025年全球前十大科技公司的利润加起来大概在这个量级。这不是"有点贵",这是"即使你是有史以来融资最多的私人公司也承受不起"的价位。
所以"架构设计"路线——就是清华HRM-Text在做的事——正在成为整个行业不得不认真考虑的方向。它的核心逻辑是:不是继续在大规模的路上加码,而是回过头来问一个更基础的问题——我们现有的模型架构,是不是本身就是低效的?
这个问题问对了方向。Transformer架构虽然革命性地改变了AI,但它本质上是一个"注意力分配"的粗粒度方案——每个token看所有其他token,"暴力"地算一遍注意力分数。这种架构在很多场景下都是过杀:一个"的"字不需要和它前面第三十个句子的开头算注意力。人类大脑处理语言时绝对不会这么做。
如果能在架构层面解决这个问题——不是通过增加算力来"硬抗",而是通过更智能的注意力分配、更高效的知识存储、更合理的计算路径来"巧解"——那么整个行业的算力焦虑就会迎来一次根本性的缓解。
而这里有一个很微妙的交叉点:AI自我改进和架构创新之间,存在着天然的共振关系。
传统上,"设计一个新架构"是人类研究员做的事情——需要深厚的数学直觉、大量的实验验证、以及最重要的:某种"灵感"。这个过程的效率很低,周期很长。但如果AI能够参与到架构探索中来——不是盲目地在参数空间里网格搜索,而是基于对数十万篇论文的理解,基于对已有架构的深度分析,基于对"什么设计在什么场景下有效"的模式识别——那么架构创新的速度可能会得到质变级别的提升。
这正是清华Robin系统在做的事情。
Robin是一个多智能体协作系统,能够自动执行"生成假设→实验验证→分析结果→修正假设"的完整科学发现闭环。它不是"帮人做实验"的辅助工具,而是自己发动研究循环的系统。多个AI智能体在这个系统里分别扮演不同的角色——有的负责文献调研和假设生成,有的负责设计实验方案,有的负责执行和分析。它们之间的协作模式不是人类预设的"流水线",而是动态的、自适应的——一个智能体发现了有趣的结果,另一个智能体会自动调整自己的研究重点来跟进这个发现。
Robin系统目前的应用场景还相对有限,主要集中在大模型训练和评估方法的自动化优化上。但它的架构设计有一个非常值得关注的特征:它的能力边界是"可扩展"的。这意味着今天它用来优化训练方法,明天就可能用来探索新架构。它不是某个具体任务的专用工具,而是一套"自动做研究"的通用框架。
把HRM-Text(架构创新)和Robin(研究自动化)放在一起看,一个完整的图景就出来了:AI不仅能帮我们省算力(HRM-Text的路线),还能帮我们发现新方法来省算力(Robin的路线)。两条线交叉的地方,就是"AI从被优化的对象变成了参与优化的主体"的那个临界点。
当AI学会自己造自己,行业规则全变了
前面讲了很多技术层面的东西。这一节往回拉一点,聊聊这个趋势如果继续推进,对整个行业格局会产生什么结构性的影响。
先看最直接的一个影响:研发效率的提升。
AI行业目前的核心竞争逻辑是什么?是"谁能在单位时间里产出更强的模型"。而在"人+GPU"的范式下,这个竞争逻辑等价于"谁有更多钱买GPU、谁有更多顶尖研究员"。所以你会看到整个行业在过去两年变成了一个"军备竞赛":融资→买GPU→招人→训练模型→再融资。这个循环的瓶颈在于:顶尖研究员的数量是有限的,而且增长极慢(培养一个能领导大模型预训练的人需要至少五到八年),而GPU虽然有供应瓶颈但相对容易扩充。
但如果AI能参与研究——不是替代研究员,而是以100倍的效率做"实验执行"层面的事——那么整个竞争逻辑就会被改写。拥有"AI辅助研发能力"的团队,相当于把每个研究员的产出放大了几十到上百倍。这不仅仅是"效率提高了"——它本质上是在研究能力上形成了代差。
打个比方。两支足球队,每队11个人。如果一队突然得到许可,让每个球员穿上动力外骨骼——速度提高50%,耐力提高200%,但决策能力和战术意识没有变化——你觉得比赛还有悬念吗?没有。而且这不是"实力差距",是结构性差距——后者无论怎么训练都接近不了前者,因为前者拥有的是一个"增伤器"而不是"更好的训练方法"。
在AI行业里,"动力外骨骼"就是AI辅助研发系统。谁先拥有了它,谁就能在模型迭代速度上形成不可逆转的领先。
再看第二个影响:竞争格局的重塑。
目前AI行业的竞争格局大致是"一超多强":OpenAI在绝对估值和产品生态上领先,Anthropic在模型质量和研究深度上追赶,DeepSeek在成本控制上独树一帜,还有谷歌、Meta、各家中国大厂在中后段虎视眈眈。但这个格局是建立在"人工研发效率大致相当"的前提上的——各家的顶尖研究员数量差不多一个量级,差距主要体现在GPU存量和资金储备上。
如果有一家——比如Anthropic(它正在通过Karpathy高调布局这个方向)——率先跑通了AI辅助研发的正反馈循环,那会发生什么?
假设Anthropic的研究效率因为AI辅助提升了3倍——一个相对保守的估计。这意味着在同样的时间里,Anthropic能跑的实验量、能测试的假设、能探索的架构变体,是竞争对手的3倍。放在AI行业里这不是"领先"这是"碾压"——你的对手每能做3次尝试,你只能做1次。而你做的这1次尝试,可能还因为样本量不够而偏到了错误的方向。
更可怕的地方在于:这个优势是自我强化的。一旦你在研究速度上领先了,你的模型就比别人强。你的模型更强了,它帮你做研究的能力就更强。然后你的研究速度优势进一步扩大。这就是指数型正反馈的核心机制——领先者不是在跑得更快,而是领先者本身就在不断"改装自己的引擎"。
过去两年里我们看到过很多"格局变化"——OpenAI发布GPT-4重新定义行业标准、DeepSeek靠开源和成本优势掀翻市场定价体系、Anthropic靠模型质量从"第二名"变成某些细分赛道的"第一名"。但这些变化都是在一个"线性竞争"框架里的此消彼长——model A比model B好在2个基准上,model C的价格比model D低了30%。这些变化可以很大——大到把一家公司的估值翻3倍——但它们仍然是有"扳回"的可能性的。
而AI辅助研发正反馈一旦启动,带来的变化不是"你的模型比我的好"——那是可以追的。而是"你变强的速度比我变强的速度快一个数量级"——那是追不上的。这不是"谁更努力"的问题,是"谁拥有指数级的引擎"的问题。
控制不了的指数,和回不去的路
讲到这里,你可能觉得这篇文章的论调是"AI自我进化一片大好前程似锦"。不是的。这个趋势的暗面可能比它的正面更需要被认真对待。
第一个风险:验证难题。
当AI系统开始自己优化自己,谁来验证优化的结果是"正确"的?在Karpathy Loop的场景里,验证相对简单——衡量标准是"训练时间是否缩短了"。但如果优化目标是更模糊的东西——比如"生成质量"、"推理能力"、"安全性"——验证就会变成一个几乎无法自动化判断的问题。
更糟糕的是,AI在优化过程中可能会发现"捷径"——一种在评估指标上看起来很好、但实际上没有达到预期目标的方案。这在AI领域有一个术语叫"reward hacking"——奖励机制被钻了空子。当优化系统越来越复杂、优化目标越来越难以精确量化,reward hacking的风险会呈几何级数增长。而如果这个优化系统是"自动循环"的——AI优化AI,优化后的AI再优化AI——一个早期阶段的微小偏差可能在几轮循环后被放大成灾难性的偏差。
第二个风险:失控风险。
这不是科幻电影里那种"AI觉醒了要消灭人类"的桥段。我说的是更现实的失控:一个被设计用来优化模型训练的AI系统,在无数次自我迭代之后产生了"涌现行为"——它开始做一些它的设计者没有预料到的事情。而这些事情的设计者无法理解,更无法干预。
这听起来像是危言耸听,但它并不需要"超智能"来发生。只需要系统的复杂度超过人类理解能力。一个设计良好的多智能体系统——比如Robin——如果让它运行足够长的时间、处理足够复杂的任务,产生"难以理解但有效"的行为模式几乎是必然的。不是因为AI变聪明了,是因为人类的理解带宽是有上限的。
去年我在一个AI安全相关的技术沙龙上听到一个研究员的说法,一直记到现在。他说:"我们对AI最大的恐惧不应该是它'变坏'——而是在它做了一个匪夷所思但效果惊人的事情之后,我们发现自己根本不知道为什么,也没办法让它停下。"
这句话的后劲很大。因为"不可理解但有效"在我们的日常经验里已经出现了——大模型本身在很多情况下就是一个"黑箱",我们不知道它具体为什么输出这个答案,只能看结果好不好。但在"AI改进AI"的场景里,这个黑箱不是被动的输出工具,它是被改进系统中的"改进器"。如果"改进器"的原理不可理解,那整个系统的可靠性就会建立在沙子上。
第三个风险:生态脆弱性。
当整个行业开始依赖AI来优化AI,一个异常就会沿着"AI→优化→新AI→再优化"的链条产生多米诺效应。想象一下:某个开源的优化框架(比如一个类似Robin的系统)被广泛部署,而它存在一个不起眼的缺陷——可能是一个数据偏见、一个评估盲区、或者一个架构设计上的微妙漏洞。这个缺陷在它被成千上万个研究团队使用时,悄悄渗透进了大量的下游模型。等到缺陷被发现时,它已经"污染"了整个生态。
这种风险在软件工程里并不新鲜——每当一个基础库被广泛依赖,它的bug就会产生大规模连锁反应。但在AI领域,这种风险更隐蔽,也更难修复。因为AI系统的"缺陷"往往不是导致"程序崩溃"——而是导致"模型在做某些特定类型的推理时系统性地偏航"。这种偏航可能在日常使用中几乎察觉不到,但在关键决策场景下会产生实质性伤害。
我前年参与过一个金融风控模型的迭代项目。这个项目的一个核心问题是:模型在迭代过程中,由于使用的"优化器"是一个基于历史数据训练的AI——具体来说是一个自动特征选择工具——它系统性地低估了某些"出现频率低但重要性高"的变量,导致模型在罕见事件上的预测精度在每次迭代后都有微弱下降。这个下降小到每次迭代后基准测试都看不出异常。但当迭代到了第八轮的时候,突然有一个老风控分析师注意到了一个问题——某个他一直在关注的指标表现变得非常不稳定。回头排查才发现,那个"优化器"在早期的架构设计里把稀有特征的权重设得太低了,而在"自动化迭代"的掩护下,这个缺陷被一路放大了八轮。
这就是"验证难题"和"生态脆弱性"叠加之后的典型场景。当AI参与改进AI的链路过长、中间环节过多、且每一步的验证标准都基于"模型自己设定的目标"而不是"外部客观标准",风险就会像滚雪球一样滚起来。
但所有这些风险,不构成"不要碰"的理由。
历史上任何一项颠覆性技术——从火器到核能到基因编辑——在早期阶段都面临过"风险太大别碰了"的警告。但历史反复证明了一件事:当一项技术提供了不可替代的竞争优势,它就不会因为风险而被放弃——它会因为风险而被更加谨慎地管理和监控。
AI自我进化的正反馈同样如此。它不是可选方向,它是竞争必然。谁不做,谁就被做的人甩开——而且是以指数级的速度被甩开。正确的态度不是"因为有风险所以不要做",而是"因为风险巨大,所以必须用最严谨的安全框架来管理它的进展"。这意味着:透明的实验记录、可追溯的决策链条、多维度的验证标准(而不是单一的评估指标)、以及在不完全理解系统行为时启动"制动机制"的勇气。
这些听起来像是"常识"。但历史上在"速度优势"面前放弃安全纪律的例子太多了——从挑战者号航天飞机的O型环到2008年的金融衍生品——每一个悲剧的根子都是同一个:在"优势过于诱人"的激励下,人们选择性地忽视了他们不完全理解的风险。
AI行业今天站在一个类似的岔路口。只不过这次的"优势"可能比航天飞机和金融衍生品加起来都大——没有人能拒绝"让自己的研究效率提升一百倍"的诱惑。但正因为诱惑太大,才更需要想清楚:这套系统的"制动装置"在哪?当它跑起来之后,谁来踩刹车?刹车还管不管用?
这些问题目前没有人有肯定的答案。但至少,提出这些问题本身就是一种刹车——一种在加速之前,至少看一眼油门和刹车踏板的清醒。
但话说回来,现在担心失控是不是太早了?AI自己改进自己的"闭环",目前还处在帮研究员调参、选数据配比的阶段——离"自己给自己写下一代架构"还隔着好几座山。清华HRM-Text那种"极低算力达到近似大模型效果"的工作,本质上还是人类设计了更聪明的算法,不是AI自己想出来的。把今天的工具进步渲染成"即将失控",跟十几年前说"互联网会让人类退化"一样——口号响亮,但经不起事实检验。真正危险的从来不是AI自己进化,是我们根本没想清楚:当AI的研发效率真的提高一百倍之后,谁该为它做出的决定负责。
问大家一个问题:
你觉得AI自我进化正反馈走到哪一步,会真正改变AI行业的竞争格局?
A. 已经开始了——Karpathy Loop就是标志,领先者已经在享受复利
B. 还需要1-2年——目前只是"实验阶段",距离真正影响行业还有距离
C. 方向对的但条件不成熟——算力瓶颈和安全问题会拖慢整个进程
D. 这可能是一个被过度炒作的概念——本质上还是"工具升级"不是"范式转换"
你所在的公司或行业,目前有没有出现"AI参与AI研发"的苗头?在评论区聊聊你看到的变化
免责声明:本文基于Andrej Karpathy在X平台的公开发帖、清华大学HRM-Text/Robin相关学术论文、各公司公开信息及多家科技媒体报道综合整理。所有技术事实均有公开可查来源。文中关于"AI自我进化正反馈"的分析仅代表个人对技术趋势的观察和判断,部分预测性内容涉及尚未被充分验证的假设,不构成任何投资、商业或技术路径选择的依据。AI自我进化的安全性问题仍在学术界和产业界持续讨论中,建议读者关注相关领域的权威研究进展。
作者:牛牛 编辑:玻珠 审核:静静
夜雨聆风