系列导读: 上一期我们讨论了 AI 的"底层基础设施"——算力、资金、能源如何以指数级扩张。本期进入核心问题:这些资源涌入之后,AI 究竟会具备哪些实际能力?Epoch AI 报告聚焦四个具体领域:软件工程、数学、分子生物学和天气预测,给出了基于基准测试外推的能力预测。
图:Epoch AI 报告聚焦软件工程、数学、分子生物学、天气预报四大领域,来源:Epoch AI
从算力到能力:中间有一道坎
算力增长是可以预测的,能力增长是可以推算的——但两者之间,存在一个关键前提:现有基准测试(Benchmark)上已经出现进步迹象的任务,才能被外推预测。
就像一个孩子,你只能预测他已经开始学的科目会越来越好,无法预测他会突然精通一门从未接触的乐器。
报告对此非常坦诚:
✅ 可以预测:那些已经在随算力增加而提升的能力领域 ❌ 无法预测:AI 何时能达到"真正的通用智能(AGI)"——因为目前还有太多基准测试上 AI 几乎没有进步
带着这个前提,我们来看四个领域的具体预测。
领域一:软件工程——AI 正在成为"全能程序员"
结论:2026 年前后,AI 将能独立完成大多数常规软件工程任务。
软件工程是 AI 能力最成熟、预测最有把握的领域,原因很简单:代码可以被自动验证(运行正确就是正确),训练数据极为丰富(GitHub 上有数十亿行开源代码)。
报告引用了两个关键基准测试:
SWE-bench:测试 AI 解决真实 GitHub Issue 的能力。按当前进度,2026 年前后有望被完全攻克。 RE-Bench:测试 AI 完成数小时级别的科学编程和研究工程问题。进度略慢,预计 2027 年左右达到人类水平。
图:AI 基准测试性能随训练算力的增长而提升,这一规律支撑了对 2026—2030 年能力节点的预测,来源:Epoch AI
对普通开发者意味着什么?
今天的 AI 编程助手(如 GitHub Copilot)已经能让软件工程师的生产效率提升 10%~20%。到 2030 年,大多数日常编程任务可能已经可以由 AI Agent 自主完成,人类工程师将更多地转向架构设计、需求定义和质量把关。
最大的不确定性:当任务变得更加开放和模糊时,人类监督是否会成为新的瓶颈?
领域二:数学——AI 正在成为数学家的"助手"
结论:2027 年前后,AI 有望在顶级数学推理基准测试上达到人类专家水平。
数学是对 AI 推理能力的终极考验。报告指出,目前进展最快的基准测试之一是 FrontierMath——一套由职业数学家设计的极难问题,按当前趋势,2027 年左右可能被攻克。
数学家们对此的预期是:AI 未来能在以下方面提供实质帮助——
将数学家的"草稿思路"形式化为严格证明 在海量数学文献中搜索相关定理和引理 验证证明步骤中的逻辑漏洞
这类似于 AI 编程助手在软件工程领域扮演的角色:不是替代人类,而是大幅降低数学家处理繁琐细节的认知负担。
图:算力增长趋势为各领域(含数学)的能力外推提供了基础,来源:Epoch AI
更大的问题尚无答案:AI 何时能"自主证明一个有意义的新定理"?报告给出的答案是——或许在 2030 年之前,但确实不确定。这是当前 AI 基准测试中几乎没有进步的空白区域之一。
领域三:分子生物学——AI 加速"书桌上的科研"
结论:AI 将大幅提升基础生物学研究的产出,但药物真正上市至少要等到 2030 年之后。
分子生物学的 AI 进展分两个层次:
第一层:结构预测(已经很强)
AlphaFold 系列已经彻底改变了蛋白质结构预测领域。类似的基准测试(如 PoseBusters,衡量蛋白质与配体结合的预测精度)预计在未来几年内被攻克。
第二层:复杂的蛋白质互作预测(仍有挑战)
对于更复杂的蛋白质-蛋白质相互作用(尤其是训练数据稀少的新型蛋白质),准确率仍然有限,时间线更长且充满不确定性。
图:AI 能力快速扩张(如电力需求增长曲线所示),而药物监管审批时间线(7—12 年)是无法被算力加速的"硬约束",来源:Epoch AI × EPRI
最关键的洞察:AI 在生物学领域最大的贡献,将首先体现在"书桌上的研究"——文献综述、假说生成、实验方案设计——而不是实验台上的湿实验操作。
按现有药物审批流程,2030 年能上市的药物,现在已经进入临床试验了。AI 今天在分子生物学上的突破,对公众可感知的影响,大概率要等到 2030 年之后才会显现。
领域四:天气预报——已经超越传统方法
结论:AI 天气预报已经在多数指标上超过传统数值模型,且仍在快速改进。
这是四个领域中进展最确定、已经最接近落地的一个。
AI 天气预报模型(如谷歌的 GraphCast、DeepMind 的 NeuralGCM)已经在数小时到数周的预报时效上全面超越传统数值天气预报模型,且运算成本只有后者的几百分之一。
未来的挑战集中在两点:
极端事件预报:台风、暴洪等罕见灾害事件,历史训练数据太少,预报仍不够准确。 实时数据集成:要进一步提升精度,需要接入更多传感器数据(卫星、浮标、地面站),涉及数据授权、低延迟传输等复杂工程问题。
图:算力和集群规模的持续投入是 AI 天气预报等领域不断突破传统方法的底层驱动力,来源:Epoch AI
改进天气预报的潜在影响远不止于"出门带不带伞"——它覆盖电力电网调度、农业收成预测、航运路线规划、灾害应急响应等关键基础设施。
横向比较:四个领域的进展速度
共同结论:AI 将是"无限助理",而非立即的"替代者"
这四个领域的案例指向同一个模式:
AI 最先改变的是"桌面工作",而不是"动手工作"。
软件工程师多了一个会写代码的伙伴;数学家多了一个会搜索文献、验证逻辑的助手;生物学家多了一个会分析数百篇论文的文献助理;气象学家有了更精准的预报工具。这些变化将提升每个领域的产出总量,但最终对物理世界的影响——药物获批、新技术落地——需要数年的额外时间。
下一期预告: 当 AI 能做这一切之后,世界会变成什么样?社会结构、监管边界、不确定性风险——第三期聚焦更宏观的图景。
资料来源:Epoch AI《AI in 2030: Extrapolating current trends》(受 Google DeepMind 委托)编辑整理:AI 2030 系列组


作者:Leon Peng (Contact Me Through: sig_idm_peng@163.com)
夜雨聆风