想象一下,你是一位生活在2023年的科学家。有人问你:"到2025年,会不会有人发明出一种能同时看清蛋白质、DNA和药物分子之间相互作用的新方法?"或者更具体一点:"你觉得这项突破会在哪个月发生?"
这听起来像是科幻小说里的情节,但正是当今最前沿的人工智能(AI)正在面对的挑战。随着AI在生物、化学、物理等领域大显身手——从预测蛋白质结构到设计新材料——一个自然而然的问题浮现出来:这些聪明的AI,能不能像科学界的"预言家"一样,提前预见未来的重大发现?
最近,一群来自牛津大学、斯坦福大学和艾伦人工智能研究所的科学家设计了一场前所未有的"考试",专门测试AI的"科学预言能力"。考试的名字叫CUSP,全称可以理解为"基于知识截止线的未知科学进展预测"。结果既令人惊讶,又发人深省。
给AI出的"时间胶囊"考题
这场考试的核心设计非常巧妙。研究人员收集了2024年1月到2026年3月之间发生的4760个真实科学突破,涵盖了生物学、化学、物理学、医学、神经科学、材料学,以及AI自身的发展。这些突破都来自《自然》《科学》《细胞》等顶级期刊,或是AI领域广受认可的重大进展。
关键在于"时间胶囊"机制。每个科学突破都被加上了一个严格的时间锁。比如,如果一个模型的训练知识只更新到2024年7月,那么它就只能看到2024年7月之前发表的论文,绝不允许"偷看"之后的发现。这就好比让一位2024年的考生去预测2025年的诺贝尔奖得主,而且不能作弊。
基于这些真实事件,研究人员为AI设计了四种题型,全方位考察它的"预言"能力:
第一题:这事能成吗? 给AI描述一个具体的科学目标,问它"到某个时间点,这个目标会不会实现?"比如:"到2025年10月,会不会有一种方法让电磁干扰屏蔽材料在1微米厚度下达到70分贝的效能?"AI只需要回答"是"或"否"。
第二题:靠的是什么招? 给AI一个科学难题,再提供四个听起来都很专业的解决方案,让它选出后来真正成功的那一种。这考验的是AI对科学机制的理解——它是否知道什么样的技术路径真正走得通。
第三题:你来设计个方案。 给AI一个开放性的难题,让它自己提出一套完整的解决方案,包括高层思路和技术细节。这是最考验创造力的部分。
第四题:什么时候会发生? 让AI预测某个突破会在未来的哪年哪月实现。这考验的是它对科学发展节奏的判断。
AI的成绩单:偏科严重,"时间感"很差
那么,这些最聪明的大语言模型——包括GPT-5.4、Claude、DeepSeek R1等——考得怎么样呢?
先说好消息。在第二题(选择正确技术路径)上,最强模型GPT-5.4的准确率达到了约82%。这说明AI确实读过很多论文,它能从几个看似合理的选项中,挑出那个后来真正成功的技术路线。换句话说,AI对"什么样的方法靠谱"有一定的直觉。
但在其他题目上,AI的表现就让人大跌眼镜了。
在第一题(判断能否实现)上,所有模型的表现都接近抛硬币——准确率基本在45%到52%之间,和随机猜测差不多。这意味着,AI根本无法可靠地判断一个科学目标到底能不能在规定时间内实现。它可能会说"能",也可能会说"不能",但基本上是在瞎猜。
在第四题(预测时间)上,情况更奇怪。所有模型都表现出一种"拖延症"——它们系统性地把突破发生的时间预测得更晚。比如一个实际上在2025年2月发表的成果,AI平均会预测它在2025年下半年甚至2026年才出现。更讽刺的是,那些知识更新更慢的模型(比如知识截止到2023年底的LLaMA 3.3),反而比知识更新到2025年的前沿模型预测得更准一些。这就像一个总是迟到的人,他的手表走得越准,反而越容易误判时间。
在第三题(设计方案)上,虽然AI能写出看起来很专业的技术方案,但评委(由另一个AI担任,并经人类专家校验)发现,这些方案往往"听起来很对,但文不对题"。AI能写出充满术语、结构完整的计划,但它提出的方法经常和后来真正成功的方法不是一回事。这就好比一个学生能写出辞藻华丽的作文,但完全跑题了。
一个意外的发现:不是"没读过书"的错
你可能会想,AI预测不准,是不是因为它没看过相关的旧论文?毕竟,很多科学突破都是基于前人工作的渐进式创新,如果AI的训练数据里没有这些前置知识,它当然猜不出来。
但研究结果否定了这个简单的解释。
研究人员对比了AI在训练截止日期"之前"和"之后"的事件上的表现,发现了一个反直觉的现象:AI在预测"未来"事件时,表现并没有比预测"过去"事件时差多少。 也就是说,即使某个科学突破发生在AI训练数据的时间范围内(理论上AI可能"读过"相关论文),它的预测准确率也并没有显著提升。
为了进一步验证,研究人员还给AI开了"小灶":允许它们在考试时使用搜索引擎,但只能搜索考试截止日期之前的资料。结果确实有所改善,但改善幅度有限。更关键的是,即使有了这些额外的"旧知识",AI的表现依然远远不如那些可以直接查看"标准答案"(即事后才知道结果)的情况。
这说明,AI的问题不是"知识不够",而是"不会用知识去预测未来"。 它能记住过去发生了什么,也能识别合理的趋势,但它缺乏一种真正的"前瞻性推理"能力——把零散的知识碎片组合起来,推断出下一步会发生什么。就像一个人读了很多历史书,但不代表他能准确预测下一场战争的爆发时间。
AI的"性格缺陷":过度自信与偏见
除了能力不足,这场考试还暴露了AI在"性格"上的两个严重缺陷。
第一个是过度自信。 无论答对还是答错,AI都倾向于给自己打很高的信心分数。在多项选择题上,它经常自信满满地选一个答案,哪怕选错了;在时间预测上,它明明猜得离谱,却依然表现得胸有成竹。这种"不知道自己不知道"的特性,让它在作为科学决策顾问时非常危险。
第二个是系统性的回答偏见。 研究人员发现,不同的AI模型有各自的"口头禅"。比如,有些模型(如GPT-4o和GPT-OSS)天生倾向于说"不",不管问题是什么,先否定再说;而另一些模型(如LLaMA 3.3)则是个"乐天派",倾向于说"是"。这种偏见不是基于对问题的分析,而是模型训练过程中形成的条件反射。在需要冷静判断的科学预测中,这种"性格"显然是个大麻烦。
为什么预测AI自身的进展反而更容易?
有趣的是,在所有科学领域中,AI在预测AI领域的突破时间上表现得相对最好。虽然准确率依然不高,但比其他领域(如生物学、化学、物理学)要好一些。
这可能是因为AI的发展轨迹相对更有规律——比如模型规模越大、算力越强,性能往往就越好,这种"缩放定律"让AI更容易推断自己领域的未来。相比之下,生物学或物理学中的突破往往依赖于偶然的实验发现或全新的理论洞察,这些更难从已有知识中线性外推。
不过,即便是在AI领域,AI也严重低估了某些突破的到来速度,或者高估了另一些目标的实现难度。它对自己"同伴"的了解,也远谈不上精准。
结语:从"书童"到"先知",还有很长的路
这项研究告诉我们一个清醒的事实:当前最先进的AI系统,还不是可靠的未来预测者。
它们可以是极其优秀的"书童"——帮你查阅文献、整理思路、甚至提出看似合理的假设。但当涉及到真正的"科学预言"——判断一个未知的目标能否实现、何时实现、以及如何实现时,AI的表现和人类理想中的"超级预言家"还有天壤之别。
这不是因为AI读的书不够多。给它更多的旧书、更多的前置知识,它依然无法把知识转化为精准的预测。真正的科学预测需要的不仅仅是记忆和模式识别,还需要对不确定性深刻的理解、对因果机制的把握,以及对偶然性和创造性突破的敬畏。
或许,AI在科学发现中的最佳角色,现阶段仍然是人类的得力助手,而非独立的先知。它能帮我们更快地遍历已知的可能性,但那些真正改变世界的"意外之喜",可能依然需要人类科学家带着直觉、勇气和一点点运气,去亲手揭开。
毕竟,如果连AI都能轻松预测下一个诺贝尔奖,那科学最迷人的部分——它的不可预测性——也许就消失了。
详情见《Forecasting Scientific Progress with Artificial Intelligence》
夜雨聆风