斯坦福HAI报告揭示AI在科学领域表现

根据斯坦福大学以人为本人工智能中心（HAI）发布的最新人工智能指数（AI Index）报告，人工智能在一系列专业领域的进展持续加速。在科学、数学和推理方面，多个前沿AI模型现已达到或超越博士级问题的基准线。然而，AI模型仍存在缺限，其在现实世界中的应用方式也仍有不足。

斯坦福HAI中心的AI Index报告具有较高价值，因为它们收集的是运行于现实世界的AI模型的硬数据，而非仅询问人们的意见（HAI也开展这方面的调查）。在2026年的报告中，HAI研究了多种AI模型的已发表基准测试结果，发现它们持续以惊人速度改进。

例如，研究人员发现，前沿模型在"人类终极考试"（Humanity's Last Exam）上一年内提升了30个百分点——这是一个由近1000名学科专家（主要是教授、研究人员和研究生学位持有者）出题组成的基准测试。HAI在报告中指出，"人类终极考试"旨在真正考验AI模型的能力，但模型已变得如此强大，原本预期需要数年才能完成的评估，如今数月内即可完成。

HAI报告称根据Arena排行榜，2026年初排名前六的AI模型——来自Anthropic、xAI、谷歌、OpenAI、阿里巴巴和DeepSeek——在能力上已趋于收敛。Meta目前位居顶尖模型阵营之外，且在该基准测试上过去22个月未有提升。总体而言，HAI指出，像Meta的Llama这样的开源模型表现不如OpenAI等闭源模型。顶尖闭源模型与顶尖开源模型之间的差距，从2024年8月的0.3%扩大到2026年3月的3.3%。

"AI能力并未进入平台期，而是在加速发展，并触达比以往更多的人。"AI Index报告作者写道，"2025年，业界生产了超过90%的知名前沿模型，其中多个模型现已在博士级科学问题、多模态推理和竞赛数学方面达到或超越人类基准。在关键编程基准SWE-bench Verified上，性能在一年内从60%提升至接近100%的人类基准线。组织采用率达88%，五分之四的大学生现使用生成式人工智能（GenAI）。"

在科学领域，AI模型持续取得大幅进展。然而，其整体实用性表现参差不齐。例如，HAI指出，前沿模型现已普遍超越人类化学家，这一点由ChemBench证明——这是一个旨在评估大语言模型化学知识和推理能力的基准测试。据HAI介绍，最佳AI模型现已在ChemBench超过2700道化学问题上超越人类专家平均水平。

HAI还提及Polymathic的AION-1的发布——这是首个天文学基础模型，并指出天气预报领域的重大进展，包括FourCastNet 3全球天气模型和剑桥大学开发的Aardvark Weather AI预报器。

HAI还指出，2025年首篇完全由AI生成的论文被同行评议研讨会接收。Sakana的AI Scientist-v2模型生成了一篇被ICLR研讨会接收的论文，且未使用任何人工模板；该论文此后已被《自然》期刊接受发表。HAI表示，谷歌的AI Co-Scientist在三个生物医学领域得到验证。

尽管取得这些进展，AI的科学能力库仍存在空白，包括复现科学研究的能力。HAI指出，前沿模型在ReplicationBench的天体物理学论文级复现任务上得分低于20%——这是2025年由斯坦福和多伦多大学研究人员引入的框架，用于评估AI辅助天体物理学研究的有效性。HAI还指出，LLM智能体在UnivEarth上回答地球观测问题的准确率仅为33%——这是为衡量AI辅助地球观测和地理空间分析研究可靠性而创建的基准测试。此外，LLM智能体的代码在UnivEarth上的失败率达58%。

科学LLM智能体处理端到端任务的能力也尚未达标。HAI指出，最佳智能体在康奈尔大学研究人员去年推出的PaperArena评估工具上达到38.8%的准确率，而博士专家基准为83.5%。前沿模型在BixBench衡量的现实世界生物信息学分析中准确率约为17%——这是去年推出的计算生物学基准测试。

AI在医学领域也在取得进展，这在AI Index中占据完整一章。得益于AI转录准确性的广泛提升，医生在就诊后撰写病历的时间减少了高达83%。报告指出，这对减少职业倦怠产生了实质性影响。AI在疾病诊断方面也展现出一定技能，微软的AI诊断编排器（利用OpenAI的o3）证明了这一点——在一项复杂已发表病例研究测试中准确率达85.5%。相比之下，"无辅助医生"（意味着无法使用其"常规工具"）仅得分20%。

但AI模型在衡量端到端科学工作流的PaperArena等基准上尚未达到人类基准。

AI Index指出，分子生物学领域正出现向更小模型的转变。HAI提到MSA Pairformer的报道——这是一个1.11亿参数的蛋白质语言模型，尽管参数量少两个数量级，却在ProteinGym基准上超越了此前的领先者。报告还指出，2亿参数的基因组学模型GPN-Star超越了400亿参数的模型。

尽管AI已取得长足进步，但仍存在一些差距，这导致了AI的"锯齿状前沿"问题。例如，还存在一个奇怪的问题：AI模型无法可靠地读取时间。据斯坦福HAI介绍，顶尖模型读取模拟时钟的正确率仅为50.1%。

幻觉问题仍然存在。GPT-4o的准确率从98.2%下降至64.4%，而DeepSeek R1从约90%下降至14.4%。

模型还会区分"虚假陈述"的归属主体。"当虚假陈述被呈现为其他人相信的内容时，模型能够妥善处理。"AI Index作者写道，"当同样的虚假陈述被呈现为用户自己相信的内容时，性能便急剧下降。"

点击阅读原文，可访问报告完整版。