「洞见」AI 2030第二期|AI 在 2030 年能做什么?四大领域的能力预测

系列导读：上一期我们讨论了 AI 的"底层基础设施"——算力、资金、能源如何以指数级扩张。本期进入核心问题：这些资源涌入之后，AI 究竟会具备哪些实际能力？Epoch AI 报告聚焦四个具体领域：软件工程、数学、分子生物学和天气预测，给出了基于基准测试外推的能力预测。

图：Epoch AI 报告聚焦软件工程、数学、分子生物学、天气预报四大领域，来源：Epoch AI

从算力到能力：中间有一道坎

算力增长是可以预测的，能力增长是可以推算的——但两者之间，存在一个关键前提：现有基准测试（Benchmark）上已经出现进步迹象的任务，才能被外推预测。

就像一个孩子，你只能预测他已经开始学的科目会越来越好，无法预测他会突然精通一门从未接触的乐器。

报告对此非常坦诚：

✅ 可以预测：那些已经在随算力增加而提升的能力领域
❌ 无法预测：AI 何时能达到"真正的通用智能（AGI）"——因为目前还有太多基准测试上 AI 几乎没有进步

带着这个前提，我们来看四个领域的具体预测。

领域一：软件工程——AI 正在成为"全能程序员"

结论：2026 年前后，AI 将能独立完成大多数常规软件工程任务。

软件工程是 AI 能力最成熟、预测最有把握的领域，原因很简单：代码可以被自动验证（运行正确就是正确），训练数据极为丰富（GitHub 上有数十亿行开源代码）。

报告引用了两个关键基准测试：

SWE-bench：测试 AI 解决真实 GitHub Issue 的能力。按当前进度，2026 年前后有望被完全攻克。
RE-Bench：测试 AI 完成数小时级别的科学编程和研究工程问题。进度略慢，预计 2027 年左右达到人类水平。

图：AI 基准测试性能随训练算力的增长而提升，这一规律支撑了对 2026—2030 年能力节点的预测，来源：Epoch AI

对普通开发者意味着什么？

今天的 AI 编程助手（如 GitHub Copilot）已经能让软件工程师的生产效率提升 10%～20%。到 2030 年，大多数日常编程任务可能已经可以由 AI Agent 自主完成，人类工程师将更多地转向架构设计、需求定义和质量把关。

最大的不确定性：当任务变得更加开放和模糊时，人类监督是否会成为新的瓶颈？

领域二：数学——AI 正在成为数学家的"助手"

结论：2027 年前后，AI 有望在顶级数学推理基准测试上达到人类专家水平。

数学是对 AI 推理能力的终极考验。报告指出，目前进展最快的基准测试之一是 FrontierMath——一套由职业数学家设计的极难问题，按当前趋势，2027 年左右可能被攻克。

数学家们对此的预期是：AI 未来能在以下方面提供实质帮助——

将数学家的"草稿思路"形式化为严格证明
在海量数学文献中搜索相关定理和引理
验证证明步骤中的逻辑漏洞

这类似于 AI 编程助手在软件工程领域扮演的角色：不是替代人类，而是大幅降低数学家处理繁琐细节的认知负担。

图：算力增长趋势为各领域（含数学）的能力外推提供了基础，来源：Epoch AI

更大的问题尚无答案：AI 何时能"自主证明一个有意义的新定理"？报告给出的答案是——或许在 2030 年之前，但确实不确定。这是当前 AI 基准测试中几乎没有进步的空白区域之一。

领域三：分子生物学——AI 加速"书桌上的科研"

结论：AI 将大幅提升基础生物学研究的产出，但药物真正上市至少要等到 2030 年之后。

分子生物学的 AI 进展分两个层次：

第一层：结构预测（已经很强）

AlphaFold 系列已经彻底改变了蛋白质结构预测领域。类似的基准测试（如 PoseBusters，衡量蛋白质与配体结合的预测精度）预计在未来几年内被攻克。

第二层：复杂的蛋白质互作预测（仍有挑战）

对于更复杂的蛋白质-蛋白质相互作用（尤其是训练数据稀少的新型蛋白质），准确率仍然有限，时间线更长且充满不确定性。

图：AI 能力快速扩张（如电力需求增长曲线所示），而药物监管审批时间线（7—12 年）是无法被算力加速的"硬约束"，来源：Epoch AI × EPRI

最关键的洞察：AI 在生物学领域最大的贡献，将首先体现在"书桌上的研究"——文献综述、假说生成、实验方案设计——而不是实验台上的湿实验操作。

按现有药物审批流程，2030 年能上市的药物，现在已经进入临床试验了。AI 今天在分子生物学上的突破，对公众可感知的影响，大概率要等到 2030 年之后才会显现。

领域四：天气预报——已经超越传统方法

结论：AI 天气预报已经在多数指标上超过传统数值模型，且仍在快速改进。

这是四个领域中进展最确定、已经最接近落地的一个。

AI 天气预报模型（如谷歌的 GraphCast、DeepMind 的 NeuralGCM）已经在数小时到数周的预报时效上全面超越传统数值天气预报模型，且运算成本只有后者的几百分之一。

未来的挑战集中在两点：

极端事件预报：台风、暴洪等罕见灾害事件，历史训练数据太少，预报仍不够准确。
实时数据集成：要进一步提升精度，需要接入更多传感器数据（卫星、浮标、地面站），涉及数据授权、低延迟传输等复杂工程问题。

图：算力和集群规模的持续投入是 AI 天气预报等领域不断突破传统方法的底层驱动力，来源：Epoch AI

改进天气预报的潜在影响远不止于"出门带不带伞"——它覆盖电力电网调度、农业收成预测、航运路线规划、灾害应急响应等关键基础设施。

横向比较：四个领域的进展速度

领域	当前阶段	预计"接近人类水平"时间	主要瓶颈
软件工程	已大规模部署	2026—2027 年	开放性任务中的人类监督
数学	快速追赶中	2027 年前后	基准与真实数学的代表性差距
分子生物学	部分领域已超越	2028—2030 年（基础研究）	实验验证和监管审批周期
天气预报	已超越传统方法	已达到，持续提升中	极端事件数据与实时传感器集成

共同结论：AI 将是"无限助理"，而非立即的"替代者"

这四个领域的案例指向同一个模式：

AI 最先改变的是"桌面工作"，而不是"动手工作"。

软件工程师多了一个会写代码的伙伴；数学家多了一个会搜索文献、验证逻辑的助手；生物学家多了一个会分析数百篇论文的文献助理；气象学家有了更精准的预报工具。这些变化将提升每个领域的产出总量，但最终对物理世界的影响——药物获批、新技术落地——需要数年的额外时间。

下一期预告： 当 AI 能做这一切之后，世界会变成什么样？社会结构、监管边界、不确定性风险——第三期聚焦更宏观的图景。

资料来源：Epoch AI《AI in 2030: Extrapolating current trends》（受 Google DeepMind 委托）编辑整理：AI 2030 系列组

作者：Leon Peng （Contact Me Through: sig_idm_peng@163.com）