AI 正通过“迭代式、测试驱动”的工作流,在易验证且无需太多构思的软件工程任务中表现出超指数级的进步速度。作者据此大幅提前了对 AI 研发全自动化的时间预期,认为到 2028 年实现这一目标的概率已升至 30%。
🚀 核心观点更新:时间表的大幅提前
最近,我大幅缩短了对 AI 发展的时间预期。主要有两个重大更新:
- 2028 年底实现 AI 研发(AI R&D)完全自动化的概率提高了一倍
(现在略低于 30%,此前预期约为 15%)。 - AI 在处理大规模、高难度但“易于验证且成本低廉”的软件工程任务上,短期内的表现将远超预期。
我预测,到 2026 年底,对于那些不需要太多创新构思、但具有良好验证机制的复杂软件工程任务,AI 将达到 50% 的成功率,其处理能力的时间跨度可达数年甚至数十年。
为了方便讨论,我将“易于且低成本验证的软件工程任务”称为 ES 任务,将“无需太多创新构思的 ES 任务”称为 ESNI 任务。
💡 推动预期缩短的主要因素
- 模型能力的飞跃
:Opus 4.5/4.6 和 Codex 5.2/5.3 等模型的表现远超我的预期。在 2025 年,我们看到了 METR 基准测试中 50% 可靠性时间跨度每 3.5 个月翻一番。 - 大规模任务的实证
:我亲眼目睹了 AI 在中等复杂度脚手架(Scaffolding)[译者注:指围绕模型构建的外部工具、流程和提示词系统] 的辅助下,完成了原本需要人类数月甚至数年才能完成的任务。例如,Claude 几乎完全自主地编写了一个 C 编译器。 - 算力规模的扩张
:我预计 2026 年预训练算力将大幅增加,并产生巨大的回报。 - 脚手架溢出(Scaffolding Overhang)
:我发现目前的模型在更好的脚手架支持下,潜力远未被完全挖掘。简单的改进就能带来巨大的效用提升。
🔄 为什么“易验证”是关键?
为什么 AI 在 ES 任务中表现如此出色? 核心在于迭代循环:AI 可以自己开发测试套件或基准测试,然后通过不断优化其方案来对齐这些评估。 这种模式下,即使 AI 偶尔产生混乱或做出错误判断,测试机制也会提供纠偏。只要任务是完全基于 CLI(命令行界面)且目标明确,AI 就能通过不断的错误恢复来实现超指数级的进步。
我们将任务分为三个层级:
- ES 任务
(易于验证且成本低廉)。 - 可检查任务
(模型难以自检,但人类可以快速验证)。 - 难以检查的任务
。
目前,第 1 类和第 2 类任务之间的性能差距,远大于第 2 类和第 3 类之间的差距。这意味着自检能力是 AI 生产力的倍增器。
⚠️ 瓶颈依然存在:品味与判断力
尽管 AI 的代理能力(Agentic Capabilities)在提升,但在“品味(Taste)”和“判断力(Judgment)”方面,进步速度明显较慢。 这里的“品味”是指在并非显而易见的情况下做出正确决策的直觉。在软件工程中,这体现为代码质量、架构设计等难以通过简单测试衡量的维度。
目前的品味提升主要依赖于预训练,而预训练的进步速度大约只有整体 AI 进步速度的 1/2 到 1/3。不过,2026 年预训练的加速可能会打破这一瓶颈。
🛠️ AI 研发的自动化路径
极高性能的 ESNI 处理能力如何加速 AI 研发?
- 优化实验与架构实现
:根据精确规范实现优化版本的代码,支持异构计算。 - 构建内部工具与基础设施
:自动化处理那些琐碎但必要的工程量。 - 低成本验证的 ML 实验
:例如在小规模数据集上快速迭代提示词和脚手架设计。
虽然目前的 AI 在资源利用率(如 Token 消耗和算力成本)上还不如人类专家精明,但随着“品味”的微小提升,AI 可能会像一个极速工作但经验稍欠的工程师,通过海量的自主工作来弥补不足。
📈 最新的 AGI 里程碑预测
基于目前的观察,我更新了对几个关键里程碑的预测概率:
注:对等(Parity)指在该领域解雇所有人类比退回到 2020 年代的 AI 更有利。
📝 笔者锐评
本文揭示了一个深刻的范式转移:AI 的强大不再仅仅取决于模型本身的参数量,更取决于如何通过“验证循环”和“工程脚手架”来激发其潜力。
作者提到的 ES(易验证)任务,本质上是将软件开发变成了一个类似“梯度下降”的优化问题。只要有明确的反馈信号,AI 就能通过海量的尝试找到解。
反思国内现状: 我们在追求大模型榜单(Leaderboard)排名时,是否忽略了对“工程脚手架”和“自动化验证流程”的投入?如果 AI 能够自主完成月级工程任务,那么“程序员”的定义将从“写代码的人”变成“设计验证逻辑的人”。
对于中国开发者而言,与其在红海中卷模型参数,不如思考如何构建能让 AI 像人类工程师一样进行“思考-测试-迭代”的工作流。这或许才是缩短与全球顶尖水平差距的真实捷径。
求点赞 👍 求关注 ❤️ 求收藏 ⭐️你的支持是我更新的最大动力!
夜雨聆风