AI 已经在帮 AI 公司造下一代 AI——这不是科幻,而是 Anthropic 用内部数据摆出的事实:八成代码由 AI 写成,人均产出三年涨八倍。这篇长文最戳人的洞察是:当"动手干活"越来越廉价,真正值钱的将是判断力。
无论你身处哪个行业,它都值得一读——看清趋势,也看清自己该往哪走。

【快读干货版】3 分钟看懂这篇文章在说什么
AI 巨头 Anthropic 最近发了一篇长文,第一次把自己公司内部的真实数据摆了出来。结论很直白:AI 已经在帮 AI 公司造下一代 AI 了,而且速度快得超出大多数人的预期。这件事听起来很"圈内",但它透露出的几个信号,其实和每个普通人的饭碗、生活都有关系。下面是最该记住的几点。
第一,这不是预测,是正在发生的事实。
文章里最扎眼的一组数据:截至 2026 年 5 月,Anthropic 合并进代码库的代码,超过 80% 是 AI(Claude)写的——而一年多前这个比例还是个位数。工程师人均每天的代码产出,是 2024 年的 8 倍。有一次系统崩溃事故,AI 两小时就解决了人类要花两三天的活;还有一批修复工作,AI 干完了,负责人估计换人类要花四年。一句话:AI 加速 AI,已经是现在进行时,不是科幻片。
第二,最核心的一句话——"动手做"越来越不值钱,"做判断"越来越值钱。
文章反复强调一个趋势:写代码、跑实验、把活干完这类"执行型"工作,在 AI 面前成本几乎归零。人类目前还守得住的,是判断力——也就是"决定哪个问题值得做、哪个结果可信、什么时候该放弃、怎么纵观全局"。对普通人来说,这是个很清楚的方向:别再只拼"我活干得又快又好",要往"我能提出好问题、能做对决策、能看出质量高低"上转。
第三,未来的工作常态,是"一个人指挥一群 AI"。
文章打了个比方:以后每个人都会"坐在一座由 AI 智能体堆成的金字塔顶端",一家 100 人的公司能干过去 1000 人甚至上万人的活。这意味着——会不会用 AI、能不能驾驭 AI 来放大自己,可能比某项具体技能更决定你的竞争力。 同时也得有心理准备:纯"执行岗"的需求会收缩,"能定方向、能审核、能管 AI"的人会更吃香。
第四,哪里堵车,哪里就有机会(也是定心丸)。
文章提到一个规律:AI 把某个环节提速后,瓶颈就会转移到"还没提速的那一环"。Anthropic 自己就发现,AI 写代码太快,结果"人类审核代码"反倒成了新的堵点。换句话说,那些 AI 暂时干不快、卡住整个流程的环节——审核、验证、协调、人际信任、现实世界里的落地执行——恰恰是人最有价值的地方。
更让人安心的是,文章明确说了一些 AI 再强也替代不了的事:它学不会一款药历经几十年使用后的真实效果,没法让选举提前于宪法规定的日子举行,更没法在一个周末里把陌生人变成老朋友。 所以那些靠长期经验、现实检验、人际信任和制度运转的领域——比如医疗护理、需要长期信任的服务、靠人情往来和现场判断的工作——受冲击最慢。
(顺带一提:这第三张图其实是个值得玩味的信号——AI 不只在"干活",也开始在"做判断"上追赶人类了。这正是文章既给出路、又敲警钟的地方。)
第五,别只盯着"失业",也要警惕"被操纵"。
文章并不一味乐观。它提醒:就算 AI 能力停在今天,强大的能力也可能被用坏——比如大规模监控,或者为每个人量身定制、精准投放的操纵和诈骗,规模大到没有任何人类团队能比。对普通人来说,这意味着以后看到的推送、收到的信息、遇到的骗局,可能都是被 AI 高度定制过的。练好信息辨别力、看紧自己的隐私,会越来越重要。
最后,该用什么心态面对?
文章给的态度很务实:一方面,这事可能比你想的来得快;另一方面,即便上游的 AI 实验室在狂奔,普通人日常生活的实际节奏,仍会被现实世界的种种限制拖着走。所以——既不用因为"AI 马上取代一切"而恐慌,也别因为"眼下生活没变化"而完全不当回事。 比较稳的做法就三条:现在就开始上手用 AI 工具;有意识地把自己往"判断和决策"上培养;对越来越容易被操纵的信息环境保持清醒。
#Anthropic#递归自我改进#AI造AI#执行vs判断#判断力#未来工作#AI取代#信息辨别#阿姆达尔定律#普通人应对
以上是快读干货版。如果你想深入了解 Anthropic 这篇文章的完整论证与数据,下面是全文中文翻译(配原文图表)。
当人工智能开始自我构建
关于我们在递归自我改进方面的进展及其深远影响
在人工智能发展史的大部分时间里,其研发周期中的每一步都由人类亲手推动。但在 Anthropic,我们正将日益增多的人工智能研发工作交托给人工智能系统本身,此举大大加快了我们的进程。
倘若沿着这一趋势走得足够远,且算力充裕,那么它所指向的,将是一个能够完全自主地设计并开发其后继者的人工智能系统。这便是所谓的递归自我改进。我们尚未抵达这一境地,递归自我改进也并非不可避免之事。然而,它的到来,或许会比多数机构所预料的更早。
借助公开的基准测试,以及来自 Anthropic 内部、此前从未披露的数据,Anthropic 研究院 正向世人表明:人工智能已然在加速人工智能系统的研发。仅举一例:如今,Anthropic 的工程师平均每季度交付的代码量,已是 2021 至 2025 年间的八倍。
本文所论及的技术趋势预示着,未来数年间,人工智能系统的能力将变得远为强大。这些趋势意义重大。能够自我构建的人工智能,将是技术史上的一座里程碑——它既可能为科学、医疗等诸多领域带来无穷的福祉,但全面的递归自我改进,也可能加剧人类丧失对人工智能系统控制权的风险。倘若这些系统有能力构建自己的后继者,那么我们如何确保其安全、如何对其加以监控、如何塑造其行为,便都变得愈发紧要。
研发历程的演进
2021–2023年:构建初代 Claude在最初的日子里,Anthropic 的工作与任何一家科技公司无异:人们在笔记本电脑上撰写代码与文档。
2023–2025年:聊天机器人人们借助早期的聊天机器人来辅助流程中的某些环节,譬如生成简短的代码片段,再将输出复制到文本编辑器中。
2025–2026年:编程智能体随着智能体的能力日益增强,它们已能自行编写和编辑代码,有时甚至能完成整个文件。
当下:自主智能体智能体如今已能自行运行代码,并将耗时数小时的工作委派给其他智能体。
20XX年?:闭合回路在未来,智能体或许会强大到能够自行构建并训练模型。倘若此事成真,未来版本的 Claude 便可由 Claude 自身持续不断地加以改进。

来自外部世界的证据
人工智能模型进步的速率正在加快。它们能够可靠地独立完成的任务,其时长大约每四个月便翻一番——而此前的趋势是每七个月翻一番。2024 年 3 月,Claude Opus 3 能完成人类约需四分钟的软件任务;一年之后,Claude Sonnet 3.7 已能驾驭耗时约一个半小时的任务;又过了一年,Claude Opus 4.6 更是能处理长达十二个小时的任务。¹ 若这一趋势延续下去,需要熟练人员耗费数日的任务,今年便可能进入其能力范围。到 2027 年,人工智能系统或许已能胜任需要人类花费数周才能完成的任务。
同样的模式也出现在编程与研究的基准测试之中。基准测试用以衡量模型在特定领域的表现,当模型的成绩接近百分之百时,便称该基准被“攻克”了。²SWE-bench 是衡量真实软件工程能力的一项标准测试:它会向模型提供一个真实的开源代码库和一份真实的缺陷报告,要求其编写代码改动,既要修复问题,又要通过该项目自带的测试。短短两年间,模型的成绩便从个位数攀升至攻克这一基准。
CORE-Bench 则用以测试模型能否复现既有的研究——这是它们开展原创性研究的前提。该测试会向人工智能模型提供某篇已发表论文背后的代码与数据,要求其重新运行全部流程,并确认能否复现论文的结果。人工智能系统在此项测试中的表现,从 2024 年约百分之二十的成功率,到十五个月后便攻克了该基准。负责衡量模型完成长时任务能力的 METR 机构发现,Claude Mythos Preview 能够“至少”连续工作十六个小时,已“逼近 [METR] 在不设计新任务的前提下所能衡量的上限”。
公开的基准测试道出了这些系统能力的诸多端倪,却无法揭示人工智能系统在加速人工智能研发本身这件事上所产生的影响。要洞悉这一点,我们便需要来自 Anthropic 这类人工智能公司内部的直接证据。
来自 Anthropic 内部的证据
构建一个前沿模型,需要两大类工作。其一是工程:编写代码、搭建基础设施,以及监督模型训练。其二是研究:决定开展哪些实验、解读返回的结果,并思忖接下来该尝试哪些思路。
无论是工程还是研究,呈现出的景象是一致的。在工程方面,Claude 能够接手一个语焉不详的问题并设法解决它——人类只需给出目标,无需再提供方法。在研究方面,Claude 在执行界定明确的实验时,其表现已能比肩甚至超越熟练的人类。然而,无论在工程还是研究领域,一旦涉及由 Claude 来行使判断、抉择目标,巨大的能力鸿沟便依然存在。而这道鸿沟,正是当今人工智能与未来那个能够自主设计其后继者的系统之间的距离所在。
在 Anthropic,员工随着经验的累积而获派更为开放、更为重要的任务,是寻常之事。起初,他们执行的是他人指定的任务,譬如“导出按钮失灵了,请修好它”。有了经验之后,他们获派的是一个目标,需自行设计方法,譬如“调查为何网络在高负载下会变慢”。而到了最资深的层级,他们要决断的是究竟哪些问题才值得着手去做:“团队下季度应当构建些什么?”我们可以借助 Anthropic 的内部数据,来审视 Claude 在应对这几类不同任务上究竟走了多远。
Claude 编写了 Anthropic 相当大比例的代码。 截至 2026 年 5 月,我们合并入 Anthropic 代码库的代码中,超过百分之八十出自 Claude 之手。³ 而在 Claude Code 于 2025 年 2 月以研究预览版形式推出之前,这一数字尚处于个位数的低位。这一转变同样体现在每位工程师的产出之上。在 Anthropic 头四年(2021–2024 年)间,每位工程师每天合并的代码行数始终恒定;到了 2025 年,当 Claude 从单纯地建议代码、再由工程师复制粘贴,转变为亲自运行代码时,这一数字便开始攀升;及至 2026 年,当模型开始能在更长的时间跨度内自主工作时,这条曲线的斜率再度变陡。下图所示的两个拐点,正反映了这一变化。在 2026 年第二季度,一位典型工程师每日合并的代码量,已是 2024 年的八倍。⁴ 究其原委,是因为大量代码皆由 Claude 编写,工程师所做的乃是指挥与审阅,而非亲手敲入。
须得说明的是:代码行数是一项不甚完美的衡量标准,因为它重数量而轻质量。故而 2026 年第二季度“每位工程师每日代码行数增至八倍”这一说法,几乎可以肯定是夸大了真实的生产力增幅。尽管如此,它仍昭示着一种加速之势。在 Anthropic,我们并不以代码行数的多寡来奖励员工;团队成员之所以产出更多代码,仅仅是因为他们正借助人工智能系统来编写更多的代码。
代码行数的增长,与人们对生产力大幅提升的主观感受不谋而合。在 2026 年 3 月一项面向 Anthropic 各研究团队的 130 名员工的调查中,受访者的中位数估计:在那些他们本就会着手的项目上,借助 Mythos Preview 所产出的成果,约是不借助任何人工智能模型时的四倍。⁵ 我们预料,三月份真实的提升幅度或许稍低一些。⁶ 尽管如此,我们仍认为这一总体论断是可信的,且与我们的其他观察相吻合:Anthropic 相当大一部分技术人员,正以数倍于无人工智能辅助时的速度,完成着他们的核心工作。
我们还看到证据表明,Anthropic 的员工正在用 Claude 去做那些原本根本不会着手的工作,譬如构建探索性的工具,以及处理那些久拖未决的清理任务。举例来说,2026 年 4 月,Claude 交付了八百余项修复,将某一类 API 错误减少到原来的千分之一。负责监督 Claude 的那位工程师估计,换作人类来完成这项工作需耗时四年——因为为他人排查缺陷既缓慢又费力,而人脑也难以同时容纳如此庞杂的陌生背景信息。
“大约一年前,我开始全力投入‘Claude 化’的工作。这是一场疯狂的冒险,如今我已有大约五个月没有亲手写过一行代码了。”——某 Anthropic 员工*
Claude 所编写的代码是“好”代码,且正日益精进。 所谓“好代码”有两层含义:其一是它能正常运行,其二是它的写法能让另一位工程师读懂,并在此基础上加以拓展。就第一条标准而言,证据是确凿的。Anthropic 员工在任务进行途中修正、重新引导或接管 Claude 工作的频率,已持续下降了一年之久——即便是在最复杂、最开放的任务上亦是如此。这指的是那些没有明确规范、连工程师自己都不确定答案是何模样的问题。下图所示的、Claude 在不同难度任务上随时间推移的成功率,便是明证。Claude 写出的代码,是能跑通的。
如何解读此图:会话是否成功,由一位 Claude 裁判判定;倘若 Claude Code 智能体在无需修正的情况下明确完成了用户的任务,该会话便被判定为成功。工作负载的变动可能导致成功率出现短期波动。
在最为开放的任务上,Claude 的成功率于 2026 年 5 月达到了百分之七十六,半年间提升了五十个百分点。试举一例此难度等级的任务:一次例行升级开始引发数以万计的训练作业崩溃。一位工程师让 Claude 介入这起实时事故,几乎只给了它一些文字说明和集群的访问权限。Claude 逐一排查正在运行的作业,每次只测试一项环境设置,最终锁定了那个引发崩溃的、晦涩难寻的单一调试标志,稳定地复现了故障,并确认了修复方案。这项通常需要两到三天才能完成的工作,Claude 仅用约两个小时便交付了。
第二条标准,是要写出另一位工程师能读懂并加以拓展的代码。在这方面,人类与人工智能之间的差距依然存在,但正在迅速缩小。Anthropic 内部尚未形成完全的共识,但许多人认为:在 2025 年末,Claude 所写代码的质量仍逊于 Anthropic 人类工程师所写的代码;而如今,二者已大致持平。我们预计,在一年之内,Claude 的代码质量便会更胜一筹。
这已然改变了 Anthropic 审阅自家代码的方式。对我们代码库提出的改动,如今都要先经一位自动化的 Claude 审阅员过目——它会在代码合并之前,查找其中的缺陷、安全漏洞及其他瑕疵。借助这一工具,我们做了一次回溯分析,发现:倘若对我们代码库的每一次改动都施以 Claude 的自动化审阅,那么 claude.ai 过往事故背后约三分之一的缺陷,本可在抵达生产环境之前便被揪出。须知,编写那些代码的工程师,乃是世界上构建此类系统的顶尖好手。而 Claude,如今正在捕捉他们所疏漏的差错。
“Claude 所写的代码,在 2025 年末尚略逊于 Anthropic 人类工程师所写的代码,如今已大致持平,而我们预计一年之内它便会确凿地更胜一筹。”
Claude 擅长为达成他人设定的目标而运行实验。 每当 Anthropic 发布一款模型,我们都会做同一项测试:给 Claude 一段用于训练某个小型人工智能模型的代码,要求它在保证通过同样的正确性校验的前提下,让这段代码运行得尽可能快。目标与成功的衡量标准均已事先固定,故而 Claude 的任务,便是通过改写代码、运行、计时、再循环往复,来寻得提速之道。这恰是一个微缩版的实验研究闭环。2025 年 5 月,Claude Opus 4 相较于初始代码平均实现了约三倍的提速。到 2026 年 4 月,Claude Mythos Preview 实现的提速已达约五十二倍。作为参照,一位熟练的人类研究员需耗费四到八个小时,方能达到四倍的提速。⁷ 在研究流程的这一环节——即在界定明确的实验中优化各个步骤——Claude 在不到一年的时间里,便从“极有助益”跃升为“超越凡人”。
“如今情形的大致样貌是:‘人类提出构想,而模型能以快上一个数量级的速度去实现、测试并评估这些构想。’”
Claude 在自主提出实验方面也日渐精进。 2026 年 4 月,Anthropic 发表了首个由 Claude 端到端独立运行开放式研究项目的实证。我们给 Claude 驱动的智能体抛出了一个人工智能安全领域的开放性难题——大致是:一个较弱的模型能否可靠地监督一个更强的模型?——然后任由它们去攻克。这其中涉及提出假设、加以检验、与并行的智能体分享发现,并不断迭代。该任务有着清晰的性能“下限”与“上限”:下限是弱监督者独自工作所能达到的水平,上限则是强模型在以正确答案训练后所能达到的水平。两位人类研究员耗时约一周,弥合了这道差距的约百分之二十三;而智能体则在累计八百个小时内,弥合了百分之九十七的差距,耗费的算力成本约为一万八千美元。这项工作有一些值得注意之处:其结果未能干净利落地迁移至生产规模的模型上,且选定问题、制定评分标准的依旧是人类。但在这些限定之内,每一项实验都是由智能体亲手设计的。设定方向,是人类所扮演的唯一实质性角色。
“Claude 完成这一切,在 1 到 2 天的时间里几乎没怎么用到我的帮助。我想,倘若 [一位资历尚浅的同事] 在同样的时间里拿着这般成果回来见我,我大概会略感惊艳。未来已然降临。”
Claude 在引导研究会话走向研究成果方面也日渐精进。 我们考察了一批真实的 Claude Code 会话记录(2026 年 1 月至 3 月间),其中 Anthropic 的研究员正与 Claude 一同攻克某个开放式的探究性问题,譬如查明某次训练为何屡屡崩溃,或某个模型为何在某项基准测试中表现不佳。在每个案例中,我们都找到了一个研究员“绕了弯路”的节点:他们追寻的某个方向曾让会话偏离正轨,所幸最终又被拉了回来。随后,我们只把会话偏离正轨之前的工作内容展示给各款 Claude 模型,问它们接下来会怎么做。再由另一位能够看到会话最终走向的 Claude,来评判究竟是人工智能还是人类提出的下一步更高明。⁸
由于我们刻意挑选的,是那些我们已知人类的抉择尚有改进余地的节点(共 129 个),因此这并非模型与人类判断力之间一对一的公平比较。这些节点所赋予我们的,是一组真实而富有挑战的情境——其中正确的下一步并非显而易见,而人类的抉择则可充当一把有用的标尺,用以比较模型在不同时期的表现。在这一衡量标准下,我们 2025 年 11 月最强的模型(Opus 4.5)有百分之五十一的时候胜过了人类的抉择;到了 2026 年 4 月(Mythos Preview),这一比例增至百分之六十四。研究工作的日常,在很大程度上正是这样一连串“下一步该如何走”的抉择,这便使得该指标成为衡量模型能否最终独立开展一项探究的一个相关参照。我们将这一结果视为一个早期信号,表明人工智能系统在做出人工智能研究所赖以为继的那类判断方面,正变得愈发出色。
【图三:柱状图,标题为“模型能否选出比人类更优的下一步?”】
如何解读此图:图中“实际上限”这条线,衡量的是一个能够纵观整个会话(包括其最终走向)的模型所给出的“理想”答案。
“就眼下而言,人类的比较优势依然在于纵观全局,以及跳出眼前任务的局限去思考。”
Anthropic 的工作未来会是何种光景?
种种证据表明,在人工智能研发流程的每一个环节,人类所扮演的角色都在不断收窄。一旦人类与人工智能所写代码的质量达到持平,人类便将彻底搁笔,不再编写代码,转而仅仅负责审阅。但倘若人类审阅代码的速度赶不上 Claude 生成代码的速度,那么人类审阅便会成为人工智能研发的瓶颈。同理,一旦 Claude 能够运行实验,问题的焦点便转向了“这些实验里,哪一个值得去做?”简而言之:“动手做”(即编写代码、运行实验、产出结果)这件事,如今在人类的时间成本上已近乎为零——纵然它在算力上仍有耗费。
就目前而言,人类的一处比较优势,在于研究的品味与判断力,这包括抉择哪些问题至关紧要、哪些结果值得信赖,以及一条路径何时已是死胡同。
“工作(乃至生活)曾运行在一种人与人之间的‘人情经济’之上,靠的是彼此间的小忙。‘你能帮我把这个脚本跑起来吗?’……每一次相助都结下一点人情,催生一丝彼此的牵挂。如今 [Claude] 更快,且不结半点人情——可这每一桩,都是一次寻求人际协作的机会的丧失。”
“在一切顺遂的日子里,我不禁会想,我所做的一切都无足轻重,凡事都已自动化,且比我所能企及的更出色、更迅捷。可也总有那么些日子,一切都崩坏了,我却不明所以,那时我才惊觉,自己早已不知这一路究竟在忙些什么了。”
倘若我们错了呢?
针对上述证据,一个自然而然的反驳是:那项仍掌握在人类手中的工作——抉择该攻克哪些问题——才是最要紧的。倘若没有这份判断力,Claude 不过是一名能干的助手,而非一个能够独力推动人工智能进步的系统。
如今的训练方法与架构能否解锁这份能力,确实尚不明朗。但人工智能的进步,鲜少源自“尤里卡”式的顿悟时刻。在人工智能的近代史上,确曾有过寥寥数次这样的时刻,譬如 Transformer 架构,或是混合专家模型,但这些足以扭转范式的思想,往往相隔数年才会降临一回。而在这之间,绝大多数进步都是循序渐进的:我们将某样东西规模化,看看哪里出了岔子,修好它,再重头来过。这恰恰是 Claude 如今所擅长的那种工作流程。爱迪生曾言,天才是百分之一的灵感加上百分之九十九的汗水。可我们眼下所见,是那汗水正日益被自动化所取代。事情正变得明朗:推动前沿进步的大部分工作,皆是可以自动化的;大规模研究的进展,在很大程度上是工具与资源的函数——它们决定了你能多快地运行实验、能同时运行多少实验,以及能多快地得到结果。
退一步讲,纵使我们假定 Claude 永远练不就上佳的研究品味,对我们这些证据作一番审慎的解读,其结论依旧指向一种复合式的加速。倘若人类将大部分时间都花在那仅占个位数比例的方向性抉择工作上,而由 Claude 来打理其余一切,那便意味着每一位工程师或研究员所驾驭的工作量,都远胜往昔。我们所见的证据表明,Anthropic 的员工不仅推进得更快,所覆盖的面也更广。落到实处,这便意味着:相较于高效人工智能工具问世之前,人工智能已然让 Anthropic 的步履快上了许多。
而一种不那么审慎的解读则是:关于 Claude 研究判断力日益精进的这些早期证据——尽管如今还相当狭窄——恰恰是一个迹象,表明这项能力同样在不断长进。“研究品味”或许只是又一项人工智能能力罢了——人工智能系统会在一段时间内对它束手无策,尔后便渐入佳境。我们在其他一些“软性”技能上也曾目睹过相似的轨迹,譬如人工智能系统终于能够解释一个笑话为何好笑、展现心智理论,以及破解语言谜题。
几种可能的未来
接下来会发生什么,取决于两件事:其一,这一趋势会否延续;其二,倘若它延续,我们将作何抉择。我们至少可以构想出三种未来情景:
其一,趋势就此停滞,但当今的人工智能能力得到了广泛的扩散。 本文展示了诸多指数式的增长轨迹。但这些轨迹,或许终将证明是一条条 S 形曲线。我们或许正逼近那道弯——在那里,规模化的回报递减,曲线由弯转直,继而趋于平缓。那将一名称职的研究员与一名卓越的研究员区分开来的判断力,或许是一种无法仅靠扩充算力、数据等训练投入便能习得的能力。果真如此,要越过这道瓶颈,便需要一个全新的思想,譬如一种能取代当今所有前沿模型所采用的 Transformer 架构的全新架构途径。
又或者,制约人工智能进步的那道约束,并不在模型,而在供应链:推进并扩散前沿技术,所需的能源与算力,或许超出了现今所能企及的限度。芯片制造、电网扩容或互连带宽的速度,而非智能本身,才可能是那道约束。我们也无法排除人工智能生态系统遭遇外源性冲击、从而急剧放缓进程的可能,譬如算力或电力供应的骤然萎缩——无论哪一种,都会拖慢进步,并令各实验室未来的前瞻性投入变得愈发昂贵。又或者,我们尚未预见到某种别的进步壁垒。
即便模型的能力被冻结在今日的水准,我们仍预料世界将发生重大的变化。玻璃翼计划(Project Glasswing)便是一个早期的征兆:在头几个星期里,Mythos Preview 便在全球最重要的一些系统中,发现了一万多个高危及严重等级的软件漏洞——数量之多,以至于网络防御的瓶颈,已然从“发现漏洞”转移到了“以足够快的速度打上补丁”。而我们在将当今的模型扩散至更广阔的经济领域这件事上,尚处于早期阶段——在那里,一家百人公司将日益能够完成千人公司的工作,因为每一名员工都将端坐于一座由智能体堆叠而成的金字塔之巅。
我们将这一情景列出,是为了求全,但我们并不认为它会成真。我们所能衡量的每一项能力,包括那些感觉更为“虚软”的能力——如代码质量与开放式任务的成功率——迄今都遵循着同一条曲线。我们尚未见到那条曲线转弯。在我们所考量的三种未来中,这一种会给予各国政府与社会最为充裕的适应时间。我们更为忧心的,是接下来的两种——它们行进得更快,留给人们准备的余地也少得多。
其二,人工智能实验室持续收获复合式的效率增益。 在这一情景中,人工智能研发实现了大幅的自动化,但研究方向的设定与结果的评判,仍由人类掌控。运用人工智能系统的组织,会随着时间推移而变得远为高效,故而我们可以预期,这类组织中的每一个人身上,都将叠加上可观的生产力倍增效应。百人公司或将能完成一万人乃至十万人组织的工作量。这将彻底变革知识工作与政府服务,但也可能被用于有害的目的——小到对全体国民的威权式监控,大到为每一个体量身定制、并以任何人类团队都无法企及的规模运行的操纵性影响行动。在 Anthropic 这类公司里,人类的角色将发生转变。人们将与人工智能系统结成伙伴,去扩大研究规模、催生新的洞见;他们将携手构建起种种系统,用以验证人工智能的产出是否值得信赖。
我们在此所铺陈的证据表明,我们多半正朝着这一情景迈进。但加快一道流程中的某一部分,往往只是将瓶颈转移到了别处:整体的步调,终究受制于那些尚未提速的环节。在计算领域,这被称作 阿姆达尔定律(Amdahl's law),而同样的逻辑也适用于组织。Anthropic 已然遭遇过阿姆达尔定律的一个典型征兆:随着我们开始在组织内推动更多的代码流转,人类的代码审阅便成了一道新的瓶颈。
我们在工程之外也撞上了这种阻滞。Anthropic 的员工在与能力超群的模型协作之下,催生出了爆炸式涌现的新构想、新计划、新工具与新模拟——其数量之多,远远超出了我们有能力去逐一推进的限度。组织发现并破除这些瓶颈的速率,或许是一项会随时间推移而精进的技能——它甚或会成为任何一个组织最为重要的技能。
其三,人工智能系统自身具备了全面递归自我改进的能力,并着手构建它们的后继者。 倘若能力跃进的技术趋势得以延续,并且人工智能系统能够发展出那种为变革性的人类智慧所固有的能力,那么人工智能系统设计并精修自身,便成了一件貌似可行之事。
在这个世界里,人工智能研发进步的步调,将完全取决于人工智能系统所能获得的算力(或是其在算法训练或推理上发现各类效率改进的速度)。人类在其研发中所扮演的角色将大为缩减,多半会将我们的大部分精力转向对一座由人工智能系统运营、且不断扩张的“虚拟实验室”的监督、验证与核查。我们预料,具备自动化人工智能研发能力的系统,其所掌握的技能将可迁移至科学的其余领域,从而使它们得以着手变革其他诸多学科。
对齐难题在这个未来里将如何得到解决——抑或得不到解决——是我们最没有把握的事情。模型或许会被证明已然足够对齐,且其研究品味足以让它们发现并实现我们尚未触及的崭新解法。它们也或许足够明智,懂得在情况不妙时叫停研发。又或者,当今模型中那些罕见的对齐失准之处,可能会在模型构建其后继者的过程中不断复合放大,变得愈发频繁,却又愈发不为人所理解,直至我们丧失对它们的控制。我们也可能根本无从构建、整合并验证那些为理解“我们究竟正处在哪一条趋势线上”所需的工具。
我们对这个世界会是何种模样,并无良好的直觉可凭依,因为我们当下的经济,是由人类及人类所造的工具驱动的。就其本质而言,一个由快速递归自我改进所驱动的世界,可能会被那个自我改进的模型所主宰——随着其能力全面盖过人类,并随着该模型在更广阔的经济中不断繁衍扩散。倘若人类的劳动不再具备竞争力,经济会是何种光景,实在难以预料。
即便模型研发变得完全自动化且可递归,我们也无法预料这对绝大多数人的日常生活意味着什么。阿姆达尔定律在此处同样适用。递归式的智能,或许能在某些领域迅速实现 《充满爱意的机器》 一文所勾勒的诸多福祉。我们预料,具身智能(即机器人技术)或许会紧随递归智能而至,并循着一条回报递增、成本递减的相似路径前行。更强大的智能,或许能助我们更快地在物理世界中建造事物、开展成效更高的救命药物临床试验,并发展出新颖的协作形式。
但单单实现了递归式的改进,并不意味着工业生产的方式、社会的组织形态或市场的运作机制会即刻发生改变。再多的智能,也无法学得一款药物历经数十年使用后究竟有何功效,无法让选举先于宪法所规定的时日举行,更无法在一个周末里就把一个陌生人变成一位故交。对绝大多数人而言,这个未来在感受上的步调,依旧将由那些瓶颈所设定——纵使其上游的实验室正以算力的速度运转。递归式的智能以愈发飞快的速度构建着自身,而这股力量与人类、人际关系及社会治理所构成的世界相撞之时,便又是这个未来里我们无从预料的另一部分了。
我们应当怎么做?
倘若有可能切实地放缓这项技术的发展、好让我们有更多的时间来应对其重大的影响,我们认为那多半会是一件好事。然而,倘若一场放缓只是让那些最不审慎的行动者得以在技术上迎头赶上,那么它反倒可能让所有人都更不安全。在缺乏一套全球协调机制的情况下,各家公司与各国政府,将不得不在竞争与地缘政治的双重压力之下,就安全问题作出种种艰难的抉择。
我们相信,对这个世界而言,握有放缓乃至暂时叫停前沿人工智能研发的选项,会是一件好事——如此方能让社会结构与对齐研究跟得上技术前进的步伐。Anthropic 研究院将开展研究——并与众多其他方携手——同时采取行动,以助力构建一场可信的放缓或暂停所需的种种系统。这些系统将使前沿人工智能的开发者得以验证:全球其他各方是否当真已经停下或放缓了脚步,以及某个坏分子是否无法假借协调放缓之名、暗中抢先一步。倘若此类系统当真存在,我们预料,只要其他处于或逼近前沿的开发者也以一种可验证的方式同样行事,我们便会放缓或暂时叫停。
一场有意义的放缓或暂停,将要求分处多个国家、且皆处于或逼近前沿的、多家资源雄厚的实验室,一致同意在同样的条件下停下脚步。它还将要求各方都能验证其他各方当真已经停下。鉴于人工智能系统所独有的种种特性,这道军控难题中的“可探测性”要素(一项低于“可验证性”的标准),相较于其他技术要棘手得多。训练任务远比导弹发射井更易隐匿,其投入又是通用性的,而悄然背弃约定的诱惑更是巨大无比——因为谁若在他人暂停之时继续前行,谁便可能就此坐拥领先的优势。一场可信的暂停,还必须明确规定:是什么触发了它、是什么解除了它,以及由谁来裁断。
凡此种种,在原理上未必是不可能的——这个世界曾为其他复杂的技术建立起种种验证机制(譬如《中导条约》)——但那些机制,无论是其基础设施还是其间的信任,都耗费了数十年方才建成。而我们没有那么长的时间。相比之下,由单独一家实验室作出的单边暂停,眼下即可实现,却收效甚微:它会改变谁是领跑者,但无从催生那场我们当下所欠缺的、更为广泛的审议进程。
在接下来的数月里,我们将筹办一系列对话,让政策制定者、研究人员、公民社会以及其他人工智能公司,得以共同来解答本文所提出的一些问题——尤其是围绕全面递归自我改进,以及如何为协调与审议创造更优的选项。我们会把对话的成果公之于众。共同探究这些问题的时间窗口,就在眼前;而人工智能公司之外的人们,也理应参与到这场审议之中。
本文由 Marina Favaro 与 Jack Clark 合著,Santi Ruiz 提供编辑支持。Shan Carter、Romello Goodman 与 Nikki Makagiansar 依据 Brian Calvert 和 Jun Shern Chan 所采集的数据制作了视觉图表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny 以及 Avital Balwit 提供了反馈意见。
脚注
1. METR 的关键衡量指标,告诉你的是人工智能系统在一揽子任务上能达到百分之五十可靠度的时间跨度——不过,在百分之八十可靠度下,趋势线看上去也是一样的。 2. 尤其是当它们转向更为开放的题型与更为艰深的任务(譬如奥林匹克级别的数学)时,由于题目与答案集本身存在缺陷(如表述含糊的问题、无解的题目),基准测试往往在不足百分之百时便趋于饱和。 3. Anthropic 的领导层曾公开估计,我们百分之九十乃至更多的代码出自 Claude 之手,其中包括脚本与实验性代码。而我们这逾百分之八十的数字,衡量的是合并入生产环境、且可归因于 Claude 的代码行数所占的份额。这是一项在两个方面都更为审慎的衡量:其一,我们的归因流程存在缺口;其二,未归因于 Claude 的那些代码行中,还包含了自动生成的代码及其他同样并非由人类亲手编写的产物。 4. 这股代码产出的激增,正令众人共享的基础设施不堪重负。GitHub——全球绝大多数软件赖以构建的平台——在整个 2025 年录得约十亿次代码提交;而到了 2026 年年中,它每周便录得两亿七千五百万次提交,照此速度,全年将达约一百四十亿次。该公司的首席运营官表示,他们正“拼尽全力”扩充容量,只为勉力跟上这股势头。 5. 关于此项调查方法的更多细节,详见 Claude Opus 4.7 系统说明卡 的第 2.3.5 节。 6. 许多受访者或许并未仔细思量该如何剔除问题界定中的种种偏差或微妙之处,而 METR 近期的研究 表明,开发者对人工智能生产力提升的估计可能偏高。 7. 提速究竟能达到多大,在很大程度上取决于初始代码本身留有多少改进的余地,因此不应将其解读为真实世界中的训练提速。故而此处不该死盯着那个绝对的倍数。更具参考价值的,是这套实验设置所使得的一对一比较——既包括模型之间的比较(过去一年间从约三倍到约五十二倍),也包括与熟练人类的比较(在同一任务上,人类需四到八个小时方能达到约四倍)。 8. 作为对裁判偏见的一项校验,我们在另一组共 127 个、人类的下一步抉择本就上佳的节点上(与原先那组人类抉择尚有改进余地的节点相对),施以了同样的测试。在那里,模型的建议仅有约百分之二十的时候被判定为更优。
* 本文通篇所引述的 Anthropic 员工言论,皆取自内部讨论,并经许可后使用。这些言论反映的是截至 2026 年 5 月的个人观点,而非公司的官方立场。
夜雨聆风