AI圈＂最强大脑＂加盟Anthropic:他要让AI自己训练自己

5月19日，OpenAI的创始成员、前特斯拉AI总监、"AI教父"级别的 Andrej Karpathy（江湖人称"卡神"）在X上发了一条简短的推文：

"I've joined Anthropic."

就这么几个字，AI圈炸了。

"卡神"是谁？

先给不太熟悉的朋友介绍一下。Karpathy是那种传说级别的人物——斯坦福博士，师从李飞飞，2015年OpenAI创立时他是11位创始成员之一，后来被马斯克挖去特斯拉管AI，主导了自动驾驶视觉系统的研发。

但如果你关注AI圈，可能还记得他2025年创造的另一个词——"Vibe Coding"。

什么意思呢？就是让AI帮你写代码，你只负责"感觉"对不对，剩下的全交给AI。他甚至说，写代码可以"完全沉浸于直觉和感觉中，拥抱指数级效率提升，甚至忘记代码本身的存在"。

这个概念当时火遍全网，很多程序员又爱又怕。

为什么是Anthropic？

按理说，Karpathy从OpenAI出来后，创办了AI教育公司Eureka Labs，正做得风生水起。为什么会突然"跳槽"去Anthropic？

他在X上解释得很直白：

"我认为未来几年将是大语言模型前沿发展最具决定性意义的阶段。我非常期待加入这个团队，重回研发一线。"

但如果你看完36氪的深度报道，会发现事情没那么简单。

Karpathy的新职位是：用Claude来加速Claude的预训练研究。

翻译成人话就是：让AI来训练AI。

"用AI训练AI"是什么意思？

要理解这个，首先得知道大模型是怎么"炼"出来的。

传统做法是：准备海量数据 → 投入海量算力 → 训练出大模型。听起来简单，但烧钱烧得吓人。据36氪报道，OpenAI 2026年预计亏损140亿美元，烧钱率高达57%，其中算力投入占了绝大部分。

问题在于，这条路越来越难走了。

芯片物理层面逼近极限（英伟达Blackwell架构已接近3nm制程的极限），而且从10万张卡扩到100万张卡，效率不是线性增长——通信开销、故障恢复、散热功耗会形成平方级复杂度。

简单说：堆算力的路，越往后走越贵，也越慢。

那怎么办？

Anthropic的思路是：让模型自己来优化自己的训练过程。

他们把这个叫做"递归自我改进"（RSI）——AI系统通过不断优化自身的训练过程，实现能力的迭代跃升。

Karpathy在特斯拉时就做过类似的事：构建了一套"数据引擎"闭环系统，让自动驾驶模型自己改进自己。只不过这次对象从视觉模型换成了语言模型。

为什么Karpathy是"最合适的人选"？

技术层面上，Karpathy是少数能同时跨越"LLM理论"和"大规模训练实践"的研究者之一。预训练是大模型流水线中最昂贵、最依赖算力、也最依赖工程经验的环节，正好是他的强项。

但更重要的是他的思维方式。

2021年，他在特斯拉说过一句话："数据集就是你的算法。"

这句话的意思是：与其花大力气设计更复杂的算法，不如让数据自己"说话"。

现在他要把这套哲学应用到预训练上——用系统本身产生的信号来优化系统本身。

用CSDN博主"码点滴"的话说：在OpenAI，他是大机器里的一颗零件；在Anthropic，他是这台机器的设计者。

这条路走得通吗？

等等，你可能会问：让AI自己训练自己，听起来有点……玄乎？

实际上，Anthropic不是裸喊口号的。

他们已经发布了几篇论文，建立了"AI训练AI"的完整技术栈：

SBP
：让模型学会自己生成更好的训练数据
EntiGraph
：让模型从文档中提取知识结构，再生成高质量问答
DARWIN
：让AI自动搜索最优训练策略，像进化算法一样迭代
SAHOO
：检测模型在"变强"的过程中有没有"跑偏"

有意思的是，Anthropic的联合创始人Jack Clark在5月初发了一篇长文，预测到2028年底，AI实现递归自我改进的概率约为60%。

不过Clark也承认了一个风险：如果每代AI的"对齐"准确率是99.9%，50代迭代后可能降到约95%，500代后可能只剩60%——就像基因突变一样，微小的漂移会累积。

这大概就是为什么Anthropic要同步推进"能力研究"和"对齐研究"——最懂风险的人，才最适合做这件事。

对普通人意味着什么？

说了这么多技术的东西，可能有人要问了：这跟我有什么关系？

关系还挺直接的。

如果"用AI训练AI"这条路走得通，意味着：

AI进化的速度可能大幅加快
。以前靠堆算力、堆数据慢慢磨，现在可以让AI自己找捷径。
AI应用可能更快、更便宜
。训练成本下降，最终会传导到用户端。
新的职业机会
。"AI训练AI"不是不需要人了，而是需要能"驾驭AI研究员"的人——有点像从"自己开车"变成"管理车队"。

当然，风险也同步存在。AI进化加速，对安全对齐的要求会更高。这也是为什么Anthropic要一边推进RSI，一边研究SAHOO这种"安全检测器"。

最后说两句

看Karpathy的职业轨迹，你会发现一个很有意思的规律：哪里是"当下最大的技术实验场"，他就往哪里去。

2017年去特斯拉，是因为自动驾驶是最大的AI实验场。

2022年离开特斯拉，是因为"底层架构已定，剩下的是工程优化，没意思了"。

2026年加入Anthropic，是因为他判断——"用AI研究AI"的递归自我改进，正是当前最前沿、最具塑造性的实验。

AI圈从来不缺新闻，但这种级别的人事变动，确实值得我们停下来想一想：

当AI开始参与自己的训练，那个世界会是什么样？

参考资料：

• 《"卡神"转投Anthropic，工作岗位是"最危险的AI"》，36氪，2026年5月20日
https://36kr.com/p/3817196535071624

• 《Karpathy加入Anthropic真相：不是人才争夺，是"用AI训练AI"的自我加速时代》，CSDN，2026年5月20日
https://blog.csdn.net/liuzhupeng/article/details/161261610

• Anthropic官方公告及Jack Clark《Import AI》Newsletter