官方请AI来做科研评审,学术界要变天了吗?

官方请AI来做科研评审,学术界要变天了吗? | 自然职场

尽管人工智能具有节省人力的潜力，但研究密集型大学中对这项技术的抵制尤为普遍。

原文作者：Rodolfo Benites, Lawrie Phipps, Richard Watermeyer & Tom Crick

原文以AI could transform research assessment — and some academics are worried标题发表在2026年2月4日《自然》的职业版块上

2023年，澳大利亚取消了其耗资巨大且程序繁琐的学者主导型科研评估项目。不久之后，新西兰也采取了同样的做法。根据澳大利亚联邦政府教育部与科研部门共同发布的过渡计划，这一举措旨在寻找一种“更现代化、数据驱动的方式”。

高等教育研究人员调查了学界对在科研评估中使用AI的态度。来源：Jose Sarmento Matos / Bloomberg / Getty

英国大学的财政压力尤为严峻，因此也出现了类似的呼声，希望改革研究卓越框架（REF）这一以绩效为基础的科研资助评估体系。2021年REF最近一次评估时，耗资约达4.71亿英镑（约合42亿人民币）。提交评估材料的157所机构平均承担约300万英镑（约合2774万人民币），许多已经财政赤字严重的机构难以承受这笔费用。下一轮REF将在2029年进行。

选择AI是否理所应当？

越来越多的证据表明，人工智能可以提高科研评估的效率和成本效益[1]。例如，它可以减轻学者审阅、评分已发表成果或记录社会影响的负担。因此，一个问题应运而生：在REF中使用AI是否“理所应当”？

为了检验这一假设，我们组成了一支研究团队，人员来自英国布里斯托大学高等教育转型中心和Jisc（一个为英国教育与研究部门提供技术和数据服务的非营利会员组织），在Research England资助的一项调研中走访了英国16所大学。Research England隶属于英国国家科研与创新署（UK Research and Innovation），那是英国高等教育科研资助机构，在2025–26年度负责分配88亿英镑（约合813亿人民币）的科研经费。我们的目标是调查AI在科研评估中的实际使用情况，并了解学界对这种应用的看法。

我们的访问对象包括9所大型研究型大学、6所由理工学院转型而来的现代大学（它们在科研方面的贡献较少，但同样重要），以及1所专门从事特定学科领域研究的院校。

我们与200多名资深学者和专业服务人员进行了焦点讨论，并对32名大学主管研究的副校长以及各机构的REF负责人进行了访谈，同时还开展了一项全国态度调查，共有386名英国学者和大学专业服务人员自愿参与。

观点不一

调查参与者认为，大型语言模型（LLMs）尤其能够减轻REF中许多劳动密集型工作的负担。然而，我们的调研结果显示，人们对AI在大学科研评估中的实际应用方式知之甚少。

我们发现，英国各大学官方认可将生成式AI（genAI）用于REF工作的情况并不普遍，但非正式的尝试和使用却相当常见。一些参与者强烈反对在REF中使用genAI工具。讽刺的是，这些反对意见通常来自学者，而不是那些最有可能因AI在科研评估中的应用而受到影响的专业服务人员。

相反，那些专业服务人员似乎更倾向于接受并认可AI工具的好处。我们还发现，学术界的抵触情绪在研究型大学中尤为明显。在艺术、人文和社会科学领域，这种抵触也更加明显，因为这些学科往往很少使用人工智能，甚至根本没有使用过。

学界的抵触情绪主要源于一种担忧：学术同行评议不应被那些易受不准确信息和偏见影响的工具所“污染”。

我们的调研还发现，人们对REF本身存在相当程度的中立或观望态度，这反而让他们更容易接受在其评估流程中引入AI。例如，一些调研参与者认为，把REF描述为“专家同行评审”的说法有些夸大，甚至具有误导性。他们认为，REF更像是大学在猜测评审小组会如何给研究成果打分的过程，而一些人认为人工智能可以更高效、更准确地完成这项工作。此外，在科研评估方面，许多受访者表示，对REF2021中185594篇已经过同行评审并发表的研究成果再进行长达一年的评估，并非对专家时间的最佳利用。

全新世界

不出所料，调研参与者普遍认为，到2029年下一轮REF评审小组召开会议时，更先进的大型语言模型（LLMs）将成为评估中的常见工具。大多数参与者表示，传统的科研评估模式已经过时，可以预见，从2030年代开始，AI将彻底改变REF的整体架构。许多人指出，REF未来可能会完全实现自动化，使学者完全退出评估过程。如果REF没有被AI改变——尽管这种可能性不大——一些受访者担心，英国将显得与时代脱节。他们认为，在REF评估中引入AI将对维持英国科研领先地位至关重要。

尽管我们的研究阐明了在科研评估中使用AI的利（更高效、更实时、数据驱动）与弊（脱离人工监督），但我们也发现，各机构针对在REF中“负责任地”使用AI所制定的政策或指导原则几乎不存在，或者仍处于起步阶段。人们已经在使用AI进行科研评估，但关于如何以合乎伦理和公平的方式使用这些工具的指导却十分匮乏。因此，目前AI在REF中的应用某种程度上仍处于一种“西部荒野”状态。建立一种以良好治理和统一工具为基础的标准化方法迫在眉睫。

在我们看来，REF以及更广泛科研评估体系的公信力正岌岌可危。AI在开发更灵活、更经济且更准确的国家科研评估模型方面的“贡献”不容忽视。如果学者希望继续参与这一过程，他们必须迅速提升AI素养。同样，科研评估的管理者也必须确保在AI工具使用的透明度、问责制和公平性。那些选择把头埋进沙子里（译注：指回避现实）的学者和机构终将被时代甩在后面。