AI距离成为“物理学家”还有多远?上交团队发布PRL-Bench,探索大模型科研能力边界-夜雨聆风

AI距离成为“物理学家”还有多远?上交团队发布PRL-Bench,探索大模型科研能力边界

随着AI智能体（Agent）时代来临，智能体驱动的科学研究（Agentic Science）应运而生，一个本质问题也随之浮现：

当前的AI在科研领域的能力边界在哪，是否能像真正的科学家一样执行科研工作？

为了回答这一问题，来自上海交通大学人工智能学院、物理与天文学院、李政道研究所、赛兰德智能、深势科技等科研机构的联合团队建立了一个Ph.D.级别的前沿物理研究评测基准——PRL-Bench（Physics Research by LLMs）。这一测试基准基于物理学领域权威期刊 Physiscs Review Letters 上的100项真实研究构建，超过十位物理领域专家提取其中研究背景、工作流与核心结果，构建可验证的研究任务，用以评估大模型在真实物理科研任务中自主规划、长程探索、完整复现真实研究的能力。

Arxiv链接：http://arxiv.org/abs/2604.15411

Github链接：https://github.com/sjtu-sai-agents/PRL_Bench

Hugging Face链接：https://huggingface.co/datasets/AdrianMiao/PRL_Bench

（PRL-Bench技术报告，Arxiv链接：http://arxiv.org/abs/2604.15411）

在PRL-Bench上，团队测试了GPT-5.4、Gemini-3.1-Pro、Claude-Opus-4.6、Doubao-Seed-2.0-Pro等主流模型，结果令人印象深刻：

没有模型超过50分

（各主流模型在PRL-Bench上表现出研究能力短板）

而对于“AI距离成为物理学家还有多远？”我们给出的回答是：当前大模型的能力，距离“能做科研”仍存在结构性差距，创造真正合格的AI科学家依然任重道远。

🤔从“做题机器”到“科学家”，AI还差什么？

过去几年，大模型在科学任务上的表现突飞猛进：

OlympiadBench、OlympicArena：奥赛级推理
Humanity’s Last Exam（HLE）：高难度综合能力

但这些 benchmark 有一个共同局限：问题路径是“已知的”，换句话说，它们更像是考试，而不是科研。

而真实科研的核心在于：

需要自主规划
需要进行长程探索（long-horizon exploration）
需要工具协同（搜索，代码，计算）

特别的，理论与计算物理方向格外适合用来测试AI的这几项能力，因为这一方向：

知识壁垒高，推理复杂
进行研究时会自然地引入工具调研，例如：检索论文并整合信息，编写代码以执行数值计算
无需操纵实验仪器，有能被模型独立复现的可能性

PRL-Bench 正是为此而生——它试图回答：

如果把 AI 放进真实的物理科研场景，它的表现距离科学家还有多远？

PRL-Bench：将真实 PRL 研究论文转化成题目

在PRL-Bench 的构建过程中，我们：

📄 精选100 篇权威论文，全部来自 Physical Review Letters 最新期刊（2025–2026）
🔬 与10+ 物理学专家密切合作，提取其中研究背景、工作流与核心结果并进行简要改编

PRL-Bench 共覆盖五大前沿子领域 🧩

天体物理（Astro）
凝聚态（Cond-Mat）
高能物理（HEP）
量子信息（Quantum）
统计物理（Stat）

（PRL-Bench题目子领域分布）

在任务设计上，PRL-Bench 有不同于传统 benchmark的三大核心特性：

探索导向（Exploration-oriented）：以最简的信息给出研究动机 + 目标，避免给出解题路径提示
长程任务（Long-horizon）：多步推导 + 计算 + 验证，确保推理难度与上下文长度
可验证性（Verifiability）：每一项任务既有可验证答案，也有精细化的rubric，细致刻画真实科研工作流

（PRL-Bench题目结构）

⚠️ 为什么模型做不好科研？问题不在“算不出来”

在研究中我们发现一个直观结论是：问题不在“算不出来”，而在许多关键的“一念之差”。

（各主流模型在PRL-Bench上的错因分布）

从统计上看，约 45%–55% 集中在理论、公式层面，模型往往选错理论框架，或者套用“看起来像”的公式——本质上还是在做模式匹配，而不是理解物理。这类问题一旦发生，后面的推导再正确也无济于事。

反而，大家直觉中最难的“计算”，占比相对稳定（约 20%–30%），并不是主要瓶颈。

另外，测试还揭示出更深一层的问题，即推理的稳定性。面对多步推导，模型很容易在中间引入不可靠的假设，或者反复“修正自己”，最终导致整条推理链条断裂。这种现象，本质上是长程推理缺乏全局控制。

综合来看，当前模型更像是👉 会解题，但不会做研究

它可以相对良好地完成既定路径下的研究任务，但一旦需要自己选方法、走完整个长程的研究流程，就容易偏航甚至失控。

在更开放、问题更多元、模板更少的领域（如天体物理、统计物理），模型表现明显更差——问题越接近真实科研，短板就越明显。

💡 结论：AI科学家，还在路上

比起单纯的模型排名，PRL-Bench 的核心发现是：

在科研场景下，主流大模型的普遍存在微小但致命的缺陷，导致无法胜任科研任务。

实验结果显示，即便是最强模型，在长链路任务中仍频繁失效：要么在关键物理建模上出现偏差（模型缺乏领域知识），要么在多步推导中逐渐失去一致性（模型长程推理能力不足），最终无法维持一个完整、可靠的科研链条。

PRL-Bench 的价值，不只是“更难”，而是它改变了评估的对象：

从考察模型“能不能解题”，转向考察“能不能做研究”。

这意味着评估标准正在发生转移——不再只是看单点正确率，而是看模型是否具备持续推进问题的能力：能否在不明确路径下选择方法、在长程推理中保持稳定，并最终完成一个自洽的研究闭环。

这正是 agentic science 所真正关心的能力边界。