根据斯坦福大学以人为本人工智能中心(HAI)发布的最新人工智能指数(AI Index)报告,人工智能在一系列专业领域的进展持续加速。在科学、数学和推理方面,多个前沿AI模型现已达到或超越博士级问题的基准线。然而,AI模型仍存在缺限,其在现实世界中的应用方式也仍有不足。

斯坦福HAI中心的AI Index报告具有较高价值,因为它们收集的是运行于现实世界的AI模型的硬数据,而非仅询问人们的意见(HAI也开展这方面的调查)。在2026年的报告中,HAI研究了多种AI模型的已发表基准测试结果,发现它们持续以惊人速度改进。
例如,研究人员发现,前沿模型在"人类终极考试"(Humanity's Last Exam)上一年内提升了30个百分点——这是一个由近1000名学科专家(主要是教授、研究人员和研究生学位持有者)出题组成的基准测试。HAI在报告中指出,"人类终极考试"旨在真正考验AI模型的能力,但模型已变得如此强大,原本预期需要数年才能完成的评估,如今数月内即可完成。

HAI报告称根据Arena排行榜,2026年初排名前六的AI模型——来自Anthropic、xAI、谷歌、OpenAI、阿里巴巴和DeepSeek——在能力上已趋于收敛。Meta目前位居顶尖模型阵营之外,且在该基准测试上过去22个月未有提升。总体而言,HAI指出,像Meta的Llama这样的开源模型表现不如OpenAI等闭源模型。顶尖闭源模型与顶尖开源模型之间的差距,从2024年8月的0.3%扩大到2026年3月的3.3%。
"AI能力并未进入平台期,而是在加速发展,并触达比以往更多的人。"AI Index报告作者写道,"2025年,业界生产了超过90%的知名前沿模型,其中多个模型现已在博士级科学问题、多模态推理和竞赛数学方面达到或超越人类基准。在关键编程基准SWE-bench Verified上,性能在一年内从60%提升至接近100%的人类基准线。组织采用率达88%,五分之四的大学生现使用生成式人工智能(GenAI)。"
在科学领域,AI模型持续取得大幅进展。然而,其整体实用性表现参差不齐。例如,HAI指出,前沿模型现已普遍超越人类化学家,这一点由ChemBench证明——这是一个旨在评估大语言模型化学知识和推理能力的基准测试。据HAI介绍,最佳AI模型现已在ChemBench超过2700道化学问题上超越人类专家平均水平。
HAI还提及Polymathic的AION-1的发布——这是首个天文学基础模型,并指出天气预报领域的重大进展,包括FourCastNet 3全球天气模型和剑桥大学开发的Aardvark Weather AI预报器。
HAI还指出,2025年首篇完全由AI生成的论文被同行评议研讨会接收。Sakana的AI Scientist-v2模型生成了一篇被ICLR研讨会接收的论文,且未使用任何人工模板;该论文此后已被《自然》期刊接受发表。HAI表示,谷歌的AI Co-Scientist在三个生物医学领域得到验证。
尽管取得这些进展,AI的科学能力库仍存在空白,包括复现科学研究的能力。HAI指出,前沿模型在ReplicationBench的天体物理学论文级复现任务上得分低于20%——这是2025年由斯坦福和多伦多大学研究人员引入的框架,用于评估AI辅助天体物理学研究的有效性。HAI还指出,LLM智能体在UnivEarth上回答地球观测问题的准确率仅为33%——这是为衡量AI辅助地球观测和地理空间分析研究可靠性而创建的基准测试。此外,LLM智能体的代码在UnivEarth上的失败率达58%。
科学LLM智能体处理端到端任务的能力也尚未达标。HAI指出,最佳智能体在康奈尔大学研究人员去年推出的PaperArena评估工具上达到38.8%的准确率,而博士专家基准为83.5%。前沿模型在BixBench衡量的现实世界生物信息学分析中准确率约为17%——这是去年推出的计算生物学基准测试。
AI在医学领域也在取得进展,这在AI Index中占据完整一章。得益于AI转录准确性的广泛提升,医生在就诊后撰写病历的时间减少了高达83%。报告指出,这对减少职业倦怠产生了实质性影响。AI在疾病诊断方面也展现出一定技能,微软的AI诊断编排器(利用OpenAI的o3)证明了这一点——在一项复杂已发表病例研究测试中准确率达85.5%。相比之下,"无辅助医生"(意味着无法使用其"常规工具")仅得分20%。
但AI模型在衡量端到端科学工作流的PaperArena等基准上尚未达到人类基准。
AI Index指出,分子生物学领域正出现向更小模型的转变。HAI提到MSA Pairformer的报道——这是一个1.11亿参数的蛋白质语言模型,尽管参数量少两个数量级,却在ProteinGym基准上超越了此前的领先者。报告还指出,2亿参数的基因组学模型GPN-Star超越了400亿参数的模型。
尽管AI已取得长足进步,但仍存在一些差距,这导致了AI的"锯齿状前沿"问题。例如,还存在一个奇怪的问题:AI模型无法可靠地读取时间。据斯坦福HAI介绍,顶尖模型读取模拟时钟的正确率仅为50.1%。
幻觉问题仍然存在。GPT-4o的准确率从98.2%下降至64.4%,而DeepSeek R1从约90%下降至14.4%。
模型还会区分"虚假陈述"的归属主体。"当虚假陈述被呈现为其他人相信的内容时,模型能够妥善处理。"AI Index作者写道,"当同样的虚假陈述被呈现为用户自己相信的内容时,性能便急剧下降。"
点击阅读原文,可访问报告完整版。
夜雨聆风