2026年6月5日,AI企业Anthropic发布深度警示报告《When AI builds itself》(当AI自我构建)。文章聚焦一个核心变革趋势:AI正逐步接手自身的研发工作,开启递归式自我进化。而在这场前所未有的技术变革中,人类的定位、价值与未来角色,正迎来根本性的改变。

在人工智能数十年的发展历程中,人类始终牢牢掌控着AI研发的全流程,从模型设计、代码编写到训练优化、实验迭代,每一步核心环节都由人类主导。但当下,Anthropic的研发模式已经发生颠覆性变化:越来越多的AI开发工作,开始交由AI系统自主完成,这一转变让AI技术的迭代速度实现了质的飞跃。

图源:Anthropic
随着这一趋势持续深化,叠加算力资源的持续升级,未来或将诞生具备递归自我改进能力的AI系统——这类智能体可以完全自主完成下一代AI的设计、开发与迭代,无需人类深度介入。
目前,完全自主迭代的AI尚未落地,且这一未来并非必然到来。但Anthropic研究院的最新研究指出,AI自我进化的速度,远超行业多数机构的预判,落地时间或将大幅提前。
如今,AI已经成为自身迭代的核心驱动力,最直观的数据印证了这一变化:2026年Anthropic工程师的季度代码产出量,达到了2021至2025年平均水平的8倍,而这一生产力爆发的核心原因,正是AI深度参与研发工作。
这一系列变化预示着,未来数年AI综合能力将迎来爆发式增长。一方面,AI将为医疗、基础科学等领域带来突破性发展,创造巨大的社会价值;但另一方面,AI自主迭代能力的提升,也极大增加了人类失去技术控制权的风险。当AI可以独立培育下一代智能系统时,AI安全管控、行为监控与价值对齐,将成为人类必须守住的核心底线。
01——行业实测数据佐证:AI 任务处理能力迈入加速上行周期
全球多项实测数据印证,大模型可独立闭环完成的任务体量,迭代周期持续缩短:此前 AI 可承接任务的复杂度每 7 个月实现翻倍,如今这一周期压缩至 4 个月。
回溯迭代节点:
2024 年 3 月,Claude Opus 3 仅能搞定人类耗时 4 分钟的工作内容;
2025 年迭代的 Claude Sonnet 3.7,任务承载时长提升至 1.5 小时;
发展至 2026 年,Claude Opus 4.6 已经具备连续处理 12 小时全流程任务的实力。

图源:Anthropic
按照当前增速推演,2026 年内 AI 或将胜任需要人类耗费数日才能收尾的项目,等到 2027 年,智能体甚至可独立完成耗时数周的长线研发工作。
各类权威基准测评同样展现出模型能力趋近性能上限的态势:
聚焦真实软件开发场景的 SWE-bench 测评,短短两年内模型得分从近乎零基础攀升至满分临界点;
用于学术实验复现的 CORE-Bench,只用 15 个月就把任务完成成功率从 20% 推高至接近饱和;
METR 专项测试结果显示,Claude Mythos Preview 能够不间断连续执行工作超 16 小时。
02——Anthropic内部证据:AI 深度渗透模型全流程研发环节
前沿大模型研发主要划分为两大板块,一是落地层面的工程开发,包含代码编写、算力基建搭建、模型训练调试;二是顶层的科研探索,涵盖实验方案设计、数据结果研判、后续研发方向敲定,如今 Claude 已经在两大板块深度参与工作。
工程落地端,研发人员只需明确最终落地目标,不用细化实现路径,Claude 就能依托模糊需求自主拆解问题、敲定落地解法;科研探索端,面对目标清晰的定向实验,Claude 的落地效率与最终成果已经不输资深研发人员,但在前沿课题取舍、整体研发方向把控上,AI 依旧存在明显短板,这也是现阶段距离递归自主研发 AI 的核心壁垒。
内部代码产出数据直观体现 AI 赋能成效:2025 年 2 月 Claude Code 正式上线前,企业主干代码库中由 AI 生成的代码占比仅有个位数;截至 2026 年 5 月,全量并入正式版本的代码里,超八成内容出自 Claude 之手。从日均代码合并量来看,2025 年起数据稳步抬升,2026 年依托模型更长的自主作业时长,代码产出增速进一步暴涨,同年二季度研发人员单日有效合并代码量,是 2024 年同期的 8 倍

图源:Anthropic
虽说代码行数无法全盘衡量开发水准,研发团队更看重代码落地质量,但数据暴涨足以佐证研发生产力的跨越式提升。内部员工调研结果同样佐证:2026 年 3 月,半数研发人员反馈,接入 Mythos Preview 后个人整体工作产出提升四倍。
除去产能暴涨,AI 编写代码的精准度同样稳步精进:研发人员手动修正、补全 AI 代码的频次持续走低,2026 年 5 月,开放性无固定方案类开发任务中,Claude 一次性落地成功率达到 76%,相较半年前暴涨 50 个百分点。典型落地案例中,一次系统版本升级故障造成数万训练任务瘫痪,人类工程师常规排查修复周期在 2 至 3 天,Claude 仅耗时 2 小时就定位根源并完成修复。代码质量层面,2025 年末 AI 产出代码整体略逊色于人工作品,目前二者水准基本持平,企业预判今年内 AI 代码质量将实现反超。现阶段 Anthropic 已启用 Claude 自动化完成代码评审工作,不少顶尖工程师疏漏的隐藏漏洞,都能被 AI 精准捕捉。
科研效率的跃升同样亮眼:
针对目标确定的定向实验优化,Claude 的工作提速倍数从 2025 年的 3 倍飙升至 2026 年的 52 倍,而资深科研人员耗费 4 至 8 小时优化,普遍仅能实现 4 倍效率提升。
2026 年 4 月,由 Claude 驱动的智能代理完成首项全链路开放式科研课题,围绕 AI 安全领域自主提出研究猜想、落地对照试验、迭代优化方案,最终补齐 97% 的技术短板;反观两名资深研究员组成的团队,一周攻关仅能完成 23% 的修复进度。
在开放性未知课题探索中,AI 筛选最优后续研究方向的判断力也在持续优化。
一位Anthropic员工感慨:自己近一年深度依托 Claude 开展研发,过去五个月再也没有亲手编写过代码。
03——人类职能持续收缩:AI 时代从业者价值边界重新划定
从各项实测数据能够看出,在 AI 全链条研发流程中,人类需要亲自落地的工作内容不断收缩:
等到 AI 代码编写质量全面超越人类,研发人员或将彻底脱离编码工作,职能转向代码审核,不过一旦 AI 代码生成速度远超人工审核上限,审核环节就会成为全新的研发卡点;各类标准化实验全流程交由 AI 自动落地后,研发瓶颈就转移到实验选题环节。
现阶段人类难以被 AI 替代的核心优势,集中在科研审美与全局判断力:筛选具备落地价值的前沿课题、甄别实验数据真伪、规避无效研发方向。即便未来人类仅保留顶层方向统筹工作,依托 AI 的效率加成,单个人类研究者可统筹的项目体量将成倍扩张,持续推动人工智能技术加速迭代。
04——三种人工智能未来演化路径预判
路径一:技术增长放缓,现有成熟 AI 技术全面普及
AI 能力增长曲线由指数暴涨转为 S 型平稳走势,受限于芯片产能、电力供给、新型架构研发等客观条件,技术迭代速度逐步放缓。即便 AI 性能止步于当下水准,各行各业也会迎来深刻变革:小型百人企业可完成过去千人团队的业务体量,网络安全行业的痛点从漏洞挖掘,转变为漏洞快速修复落地。
路径二:效率持续复利增长,人机分工模式常态化
AI 承接绝大多数落地执行工作,人类专注顶层方向把控与关键决策,各行各业的生产效率迎来质变,脑力工作体系、公共政务服务模式迎来重构;但与此同时,顶尖 AI 技术也存在被滥用于非法监控、舆论操控等恶性场景的隐患。受阿姆达尔定律约束,行业瓶颈会持续动态转移,快速识别并破除新卡点,将成为各行各业的核心竞争力。
路径三:实现递归自我进化,AI 自主迭代新模型
人工智能完全掌握下一代产品的设计与开发,技术迭代速率由可用算力决定,人类工作聚焦成果核验与合规监管,各类前沿科学研发依托虚拟智能实验室推进。这套技术能力会快速跨界渗透到医疗、化工、材料等科研领域,倒逼社会经济结构发生巨变;但临床试验周期、全球法律法规落地节奏等现实约束,依旧会牵制 AI 无限制野蛮生长。
05——我们该怎么办?
人为刻意单方面放缓前沿 AI 研发节奏,能够给全球社会适应周期、AI 对齐安全研究留出缓冲时间,但单一国家或企业主动减速,只会放任激进的研发主体抢占技术先发优势,因此单边限制难以落地。
在 Anthropic 的规划中,搭建一套可落地核验的全球性协同管控机制是破局关键,企业一方面开展配套技术攻关,搭建协同监管系统,助力全球头部 AI 实验室达成研发管控共识后,能够交叉核验各方落地进度,确保相关主体依规放缓前沿模型迭代。

图源:Anthropic
接下来数月,企业将牵头组织政策制定者、科研学者、社会组织与 AI 行业企业开展多轮研讨,围绕递归自我改进技术的潜在影响、全球协同管控细则展开交流,面向全社会开放讨论通道,吸纳各界观点共同完善治理方案。
人工智能的未来走向从来不止由技术上限决定,人类当下的治理选择,终将锚定智能时代的发展底色。
参考来源:https://www.anthropic.com/institute/recursive-self-improvement
夜雨聆风