乐于分享
好东西不私藏

AI距离成为“物理学家”还有多远?上交团队发布PRL-Bench,探索大模型科研能力边界

AI距离成为“物理学家”还有多远?上交团队发布PRL-Bench,探索大模型科研能力边界

随着AI智能体(Agent)时代来临,智能体驱动的科学研究(Agentic Science)应运而生,一个本质问题也随之浮现:

当前的AI在科研领域的能力边界在哪,是否能像真正的科学家一样执行科研工作?

为了回答这一问题,来自上海交通大学人工智能学院、物理与天文学院、李政道研究所、赛兰德智能、深势科技等科研机构的联合团队建立了一个Ph.D.级别的前沿物理研究评测基准——PRL-Bench(Physics Research by LLMs)。这一测试基准基于物理学领域权威期刊 Physiscs Review Letters 上的100项真实研究构建,超过十位物理领域专家提取其中研究背景、工作流与核心结果,构建可验证的研究任务,用以评估大模型在真实物理科研任务中自主规划、长程探索、完整复现真实研究的能力。

Arxiv链接:http://arxiv.org/abs/2604.15411

Github链接:https://github.com/sjtu-sai-agents/PRL_Bench

Hugging Face链接:https://huggingface.co/datasets/AdrianMiao/PRL_Bench

(PRL-Bench技术报告,Arxiv链接:http://arxiv.org/abs/2604.15411

在PRL-Bench上,团队测试了GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、Doubao-Seed-2.0-Pro等主流模型,结果令人印象深刻:

没有模型超过50分

(各主流模型在PRL-Bench上表现出研究能力短板)

而对于“AI距离成为物理学家还有多远?”我们给出的回答是:当前大模型的能力,距离“能做科研”仍存在结构性差距,创造真正合格的AI科学家依然任重道远。

🤔从“做题机器”到“科学家”,AI还差什么?

过去几年,大模型在科学任务上的表现突飞猛进:

  • OlympiadBench、OlympicArena:奥赛级推理

  • Humanity’s Last Exam(HLE):高难度综合能力

但这些 benchmark 有一个共同局限:问题路径是“已知的”,换句话说,它们更像是考试,而不是科研

而真实科研的核心在于:

  • 需要自主规划

  • 需要进行长程探索(long-horizon exploration)

  • 需要工具协同(搜索,代码,计算)

特别的,理论与计算物理方向格外适合用来测试AI的这几项能力,因为这一方向:

  • 知识壁垒高,推理复杂

  • 进行研究时会自然地引入工具调研,例如:检索论文并整合信息,编写代码以执行数值计算

  • 无需操纵实验仪器,有能被模型独立复现的可能性

PRL-Bench 正是为此而生——它试图回答:

如果把 AI 放进真实的物理科研场景,它的表现距离科学家还有多远?

PRL-Bench:将真实 PRL 研究论文转化成题目

在PRL-Bench 的构建过程中,我们:

  • 📄 精选100 篇权威论文,全部来自 Physical Review Letters 最新期刊(2025–2026)

  • 🔬 与10+ 物理学专家密切合作,提取其中研究背景、工作流与核心结果并进行简要改编

PRL-Bench 共覆盖五大前沿子领域 🧩

  • 天体物理(Astro)

  • 凝聚态(Cond-Mat)

  • 高能物理(HEP)

  • 量子信息(Quantum)

  • 统计物理(Stat)

(PRL-Bench题目子领域分布)

任务设计上,PRL-Bench 有不同于传统 benchmark的三大核心特性:

  1. 探索导向(Exploration-oriented):以最简的信息给出研究动机 + 目标,避免给出解题路径提示

  2. 长程任务(Long-horizon):多步推导 + 计算 + 验证,确保推理难度与上下文长度

  3. 可验证性(Verifiability):每一项任务既有可验证答案,也有精细化的rubric,细致刻画真实科研工作流

(PRL-Bench题目结构)

⚠️ 为什么模型做不好科研?问题不在“算不出来”

在研究中我们发现一个直观结论是:问题不在“算不出来”,而在许多关键的“一念之差”。

(各主流模型在PRL-Bench上的错因分布)

从统计上看,约 45%–55% 集中在理论、公式层面,模型往往选错理论框架,或者套用“看起来像”的公式——本质上还是在做模式匹配,而不是理解物理。这类问题一旦发生,后面的推导再正确也无济于事 。

反而,大家直觉中最难的“计算”,占比相对稳定(约 20%–30%),并不是主要瓶颈。

另外,测试还揭示出更深一层的问题,即推理的稳定性。面对多步推导,模型很容易在中间引入不可靠的假设,或者反复“修正自己”,最终导致整条推理链条断裂。这种现象,本质上是长程推理缺乏全局控制 。

综合来看,当前模型更像是👉 会解题,但不会做研究

它可以相对良好地完成既定路径下的研究任务,但一旦需要自己选方法、走完整个长程的研究流程,就容易偏航甚至失控。

在更开放、问题更多元、模板更少的领域(如天体物理、统计物理),模型表现明显更差——问题越接近真实科研,短板就越明显。

💡 结论:AI科学家,还在路上

比起单纯的模型排名,PRL-Bench 的核心发现是:

在科研场景下,主流大模型的普遍存在微小但致命的缺陷,导致无法胜任科研任务。

实验结果显示,即便是最强模型,在长链路任务中仍频繁失效:要么在关键物理建模上出现偏差(模型缺乏领域知识),要么在多步推导中逐渐失去一致性(模型长程推理能力不足),最终无法维持一个完整、可靠的科研链条。

PRL-Bench 的价值,不只是“更难”,而是它改变了评估的对象:

从考察模型“能不能解题”,转向考察“能不能做研究”。

这意味着评估标准正在发生转移——不再只是看单点正确率,而是看模型是否具备持续推进问题的能力:能否在不明确路径下选择方法、在长程推理中保持稳定,并最终完成一个自洽的研究闭环。

这正是 agentic science 所真正关心的能力边界。