乐于分享
好东西不私藏

用AI写综述?SLR-AI工具的比较分析与使用启示

用AI写综述?SLR-AI工具的比较分析与使用启示

1217期 | 2026.03.13

为探索科学落地的学术评价体系,推动新时代学术评价的改革和实践,复旦大学国家智能评价与治理实验基地与复旦新学术共同开设“新评价”栏目,以“知评价”“谈评价”“践评价”等话题聚焦、共议当代学者共同关心的学术学科评价的理论、方法与实践问题,为新时代中国哲学社会科学的良性发展与繁荣、建构中国自主的知识体系贡献绵薄之力。

1

引言

生成式人工智能(如ChatGPT)已对各领域产生颠覆性变革。在学术写作中,支持系统性文献综述功能的人工智能平台(以下简称SLR-AI)的应用率不断攀升,研究人员面临的难题是如何选择最适配的SLR-AI,以保障高质量的研究成果。随着功能特性各异的各类SLR-AI不断涌现,能否选对、能否用好这类工具,已成为决定研究效率的关键因素。当前,研究人员正面临一项全新的两难抉择:应当选用基于文献数据库训练的SLR-AI,还是借助通用人工智能所具备的系统性文献综述功能?

本研究旨在对SLR-AI工具进行简明介绍,对比其功能特性与性能表现,为研究人员选择和使用这类工具提供参考。本研究仅聚焦于主流SLR-AI工具,与任何相关产品均无利益关联;同时力求以客观公允的态度,分享个人实践经验,以对SLR-AI工具的理论与实践应用价值作出全面客观的阐述

笔者首先通过谷歌搜索引擎与文献数据库收集基础资料。随后,利用可免费获取或低成本使用的主流SLR-AI工具,查阅其针对特定检索请求的反馈结果,收集用于对比分析的数据。最后,对比近期研究中阐述的SLR-AI理论定位与现有SLR-AI工具的实际特性,本文立足于实际应用,而非技术开发。

2

ChatGPT发布以来

关于SLR-AI的研究综述

SLR-AI的应用价值与局限性

类ChatGPT人工智能凭借其知识覆盖的广度与准确性,可作为有效的SLR-AI为新手研究人员提供协助。ChatGPT在系统性文献综述的文献筛选自动化环节展现出应用潜力,尤其是GPT-4,已被证实是提升文献筛选效率的有效工具,展现出可与人类专家相媲美的“类人化”和“近乎完美”的表现。

此外,大型语言模型可通过筛选相关研究、提取关键信息,为系统性文献综述流程提供支持。在涵盖文献检索、评审、数据提取与整合的系统性文献综述工作流中,基于检索增强生成(RAG)的大型语言模型(融合实时信息检索与生成能力)能够显著提升准确性、相关性与语境理解能力。

尽管大型语言模型尚未能在摘要筛选环节完全取代人类专家,但ChatGPT4.0已展现出改善系统性文献综述工作的巨大潜力,在敏感性、特异性方面实现了良好平衡,且整体准确性较高。因此,基于大型语言模型的SLR-AI正被日益广泛地应用于提升研究发现效率、优化研究成果可视化呈现以及实现高效文献总结。

为支持构建稳健的AI学术信息服务、推动可靠的数据驱动型研究开展、提升学术写作质量,有必要对学术类AI工具进行对比评估。故而,针对用于系统性文献综述的大型语言模型,更详尽的质量对比应采用定性指标,例如准确性、响应时间、一致性、知识深度、语境理解能力及透明度等。虽然用于系统性文献综述的大语言模型能够缩短所需时间、提升分析结果的价值,但仍需人类监督,以确保研究结论的准确性与可靠性

SLR-AI的现状与未来

诸如ChatGPT这类GenAI模型,最初是基于互联网上广泛的非学术数据训练而成,如今得益于技术的快速发展,也开始具备系统性文献综述功能。与之相对应,文献数据库服务商开发出了基于其数据库内摘要数据训练的SLR-AI工具,并将其作为附加订阅服务提供给各类图书馆。

因此,近期针对SLR-AI的相关研究,主要聚焦于文献评审的筛选与提取阶段。一项基于PubMed数据库文献的分析显示,尽管ChatGPT及其他基于GPT架构的大语言模型召回率相对偏低,但仍是最具应用前景的SLR-AI技术架构,有望推动系统性文献综述方法体系的变革。

然而,即便是输入相同的提示词,SLR-AI生成的检索式往往也存在差异,进而导致生成效果不尽如人意。因此,在借助这类工具开展快速系统性文献综述时,需保持审慎态度

未来仍需持续推进SLR-AI技术研发,以提升文献检索的精准度,实现对检索数据的系统性整合,并支持模型从各类专业及新兴信息源中学习,进而产出高附加值的研究洞见,例如识别现有研究的空白点。

要让SLR-AI生成可靠且具备实践指导意义的成果,依旧是一项艰巨的技术与伦理挑战,这就要求模型必须提升精准度,以满足复杂分析的需求。在医疗这类对准确性与可靠性要求极高的领域,应用SLR-AI时,还亟需严格遵循系统综述和荟萃分析优先报告的条目(PRISMA)指南。

ChatGPT以来主流SLR-AI特性对比

表1汇总了笔者实际使用过或文献中已有报道的主流SLR-AI的特性、优势与不足,本处仅呈现其中核心要点。DeepSeekR1(DeepSeek公司研发)在推理任务上的性能表现与OpenAI的o1模型相当,且具备透明可解释的推理过程,能够通过拆解复杂问题,实现结构化问题求解。笔者并未直接使用过该模型,原因是韩国对DeepSeekR1的使用实施了限制。

3

基于文献数据库的SLR-AI工具

Scopus AI

Scopus AI是爱思唯尔基于Scopus数据库中2003年后发表文章的摘要开发,该工具的研发目标在于规避参考文献“幻觉”问题,确保不存在“虚假”引用。Scopus AI可自主构建检索式并执行向量检索,以此生成针对检索需求的综述内容;随后,它会通过核验被引参考文献,实现结论的验证与可追溯,进而生成最终答复。该工具尤其适用于系统性文献综述的初始阶段,或方法论要求相对宽松的研究领域——其依托同行评议文献产出的内容,在质量与可靠性层面均优于通用大型语言模型生成的答复。目前,Scopus AI已推出移动版本,其引入的系统性文献综述全新解决方案,亦可能对同类竞品的发展产生影响。

研究助手

研究助手(RA,科睿唯安公司推出的文献综述2.0工具)自2025年起,作为WoS数据库的附加订阅服务,向订阅图书馆开放使用。科睿唯安基于Web of Science核心合集研发了这款工具,该核心合集的文献数据库建库时间早于Scopus数据库。为保障学习数据源的高质量与可靠性,科睿唯安采用Web of Science数据库中的文献摘要对研究助手模型开展训练。然而,与Scopus AI不同的是,研究助手在问答交互过程中会显示提示语:“我将围绕这些研究方向,构建一套包含关键词与同义词的检索策略”。其工作机制为在现有关键词基础上进行扩展检索,并借助GPT技术生成答复内容。尽管这种工作模式与Scopus AI存在相似之处,但二者仍有区别:研究助手会先自动完成检索关键词的筛选工作,再调用大型语言模型,针对检索结果中相关性最高的研究生成答复文本,且生成内容的文献时间范围仅限于Web of Science数据库的订阅年限区间内。

Dimensions Research GPT

Digital Science旗下的Dimensions数据库,收录了超过70%的全文索引文献,同时构建了全球覆盖面极广的研究数据资源库,囊括项目资助、学术文献、专利成果、临床试验与数据集等多种类型的数据。自2000年起,Dimensions数据库的扩容速度便远超Web of Science数据库,其收录范围涵盖众多小型出版商的文献及开放获取类文章。得益于此,Dimensions Research GPT能够调取更为丰富的参考文献资源,依托包含数据集在内的科学实证生成综述内容、研究洞见与引文信息,进而提供全新的研究视角。

Elicit Reports

Ought Inc Elicit工具,其运行依托于文献数据库中的文献摘要。该工具的Elicit Reports功能(即Elicit系统综述功能),能够基于源自Ai2、PubMed、arXiv、JAMA及其他平台的高被引文献生成答复内容。此功能采用语义检索技术,检索重心在于用户的检索意图而非单纯的关键词匹配;同时,该功能会从最多500条检索结果中筛选出8篇相关文献,并以这8篇文献的综述形式呈现最终结果。

SciSpace Deep Review

SciSpace平台(由Business Integra与d3i公司联合开发)定位为面向学生与科研人员的一站式AI平台,提供PDF对话、AI写作辅助等功能。该平台支持用户创建自定义栏目,设有免费标准版与付费深度综述版两种使用方案,可基于50篇高度相关的论文生成研究报告。相较于其他SLR-AI工具,SciSpace的深度综述功能生成的报告目录架构清晰规整,但存在答复内容冗长繁琐、细节过度堆砌的问题,且部分内容的准确性有时难以保证。

4

基于生成式AI的SLR-AI工具

Deep Research

OpenAI、Perplexity与谷歌公司均已推出名为“Deep Research”的SLR-AI工具,此举加剧了相关领域的技术竞争,同时也时常给用户造成困扰,即便是对熟悉大型语言模型的用户而言亦是如此。这类工具借助逻辑推理对研究结论进行汇总,并同时引用学术来源与公开网络信息作为佐证,助力产出时效性强的系统性文献综述。该类工具能够根据用户输入的提示词,对检索词进行重组、扩充、修正与调整,但面对相同的提示词,其结果的可重复性、可再现性与一致性往往较差。尽管如此,本研究仍建议使用OpenAI的“Deep Research”。Perplexity公司与谷歌公司推出的工具与OpenAI的同类型工具存在显著差异,因此本研究未将前两者纳入对比范畴。

Felo Agent

Felo Agent(Felo公司开发)从技术层面而言并非一款真正意义上的SLR-AI,因其并非基于文献数据库构建,但为便于对比,本文仍将其纳入讨论范畴。该工具可检索海量学术文献,并整合了DeepSeek R1、OpenAI o4-mini、OpenAI GPT-4o及Anthropic Claude 4.0 Sonnet等多款模型,支持用户输入单一提示词,即可便捷地选择并调用多个AI模型的答复结果。Felo Agent生成整合式答复时,其内容架构逻辑清晰、结构规整,能够为用户提供类智能体的SLR-AI使用体验。根据笔者的实践经验,相较于其他SLR-AI工具,Felo Agent在处理非经同行评议的最新学术证据方面表现更为出色,但与此同时,它也更容易产生虚构参考文献的问题。

5

基于文献综述及

主流SLR-AI工具使用的启示

明确SLR-AI训练数据源的准确性与可靠性

随着基于文献数据库的AI工具的问世,如今的SLR-AI已具备无需人工干预即可生成学术论文引言部分的能力。然而,即便是精准度与可靠性表现最为出色的大型语言模型,在系统性文献综述流程中也应仅作为辅助工具发挥作用,而非主导性核心力量。尽管基于文献数据库的SLR-AI在学习数据源的准确性与可靠性上优势显著,但人们对于其生成答复所依托的AI技术是否足够稳定可靠仍存疑问。对于那些以互联网信息为训练数据的SLR-AI,其生成结果的准确性与可靠性更难以得到保障,这一点也引发了相关担忧。在评估SLR-AI的质量时,不仅需要考量其训练数据源的可靠性,还必须纳入技术的高频迭代与系统的快速更新这两个影响因素——这类变化会对模型学习数据源的一致性产生直接冲击

警惕潜在的剽窃行为、著作权法违规

及科研伦理失范风险

尽管基于文献数据库的SLR-AI均宣称,其模型训练覆盖了数据库内收录的所有文献摘要,但目前仍无法明确,这些训练是否真正纳入了所有摘要内容,其中也包括受著作权保护的文献摘要。这一问题在科睿唯安(Clarivate)与Digital Science开发的SLR-AI上表现得更为突出——与爱思唯尔旗下的Scopus AI不同,这两家机构本身并非出版商,因此在获取受版权保护的文献摘要时,会面临更大的限制。用于论文写作、数据分析、同行评议及编辑工作的生成式AI技术,可能会给论文作者、评审专家与编辑人员带来诸多科研伦理层面的问题。为规避此类问题,SLR-AI生成的内容需以人类可理解的语言进行全面改写,并以恰当的方式整合到论文当中。已有案例表明,过度依赖AI工具,已造成部分论文因违反科研伦理而被撤稿。因此,披露SLR-AI的使用情况至关重要,例如可在论文中增设专门的方法论章节,以此提升研究的透明度

权衡SLR-AI的功能实用性与潜在的幻觉风险

当SLR-AI被用于文献覆盖度不足的新兴主题或领域时,生成幻觉的风险会显著上升。这一现象也让学界对基于全文与网络信息训练、而非仅依赖文献摘要的学术AI模型抱有更高期待。受制于自身的固有局限性,SLR-AI始终离不开人工干预的支持。从理想状态来看,SLR-AI应当允许用户上传自有PDF文献,并能针对检索结果展开直接交互。若要推动这类工具的广泛应用,就必须对其功能实用性与潜在幻觉风险进行全面评估,同时还需支持英语以外的多语言问答交互功能

需持续关注RAG与AI Agent等

新兴技术的发展动态

为新增功能而进行的频繁更新,可能导致SLR-AI模型快速被淘汰,进而给用户带来持续性的学习负担。在首次使用SLR-AI完成检索后,随着时间推移,用户或许需要重新输入提示词以补充相关研究内容。这并不意味着要依赖单一的SLR-AI工具;相反,用户应当了解各类SLR-AI的优势与短板,并根据研究主题和具体场景,选择最为适配的工具。借助RAG或AI Agent等前沿技术,SLR-AI的精准度有望得到提升,应用范围也会进一步扩大,最终实现科研效率的提高。对于深度研究任务而言,基于智能体的AI(无需用户干预即可自主解决问题)的表现甚至能超越基于RAG与提示词工程的方法,因此,基于智能体的SLR-AI的进一步发展值得期待。随着OpenAI推出具备深度研究能力的ChatGPT Agent(其功能与Felo Agent相近)等新产品,SLR-AI领域的技术竞争正日趋激烈。

6

结论

自ChatGPT问世以来,各类SLR-AI工具层出不穷,极大加速了文献检索与综述的进程。其中,基于文献数据库的SLR-AI尤其适合作为研究起步阶段的切入点:它们能帮助研究者深化对全新概念的理解,高效收集可信度较高的文献,并通过自动筛选关键词生成综述内容。但这类工具在面对新兴研究领域时,往往会产出不够全面的结论。与之相对,非文献数据库类SLR-AI则常常存在遗漏关键参考文献与重要研究成果的问题。

当前,越来越多的SLR-AI工具可提供自然语言综述、可视化结果输出以及后续研究方向的问题建议。在大型语言模型推理能力、智能体技术与RAG技术持续发展的推动下,SLR-AI领域的技术竞争也日趋白热化。现阶段的SLR-AI技术尚无法完全取代研究者,其定位应当是辅助与增强研究者的专业能力。人类研究者所具备的批判性分析能力、对研究趋势的独特洞察力,以及对未来研究方向的前瞻性判断,都是单纯的文献综述无法比拟的。过度依赖SLR-AI,不利于培养独立开展研究工作所需的能力。

根据笔者的实践经验,要精准判定一款SLR-AI的可靠性,目前仍存在较大难度。SLR-AI的未来发展,应当以产出可信、高效的内容为核心,并辅以负责任的AI应用准则。本研究认为,审慎选择适配的SLR-AI工具,能够有效提升文献综述的效率,例如采用Felo Agent这类工具,并严格遵循本文前述的四项启示,便是一种稳妥的选择。但需要注意的是,过度依赖依托公开数据源的SLR-AI,会直接引发科研伦理层面的风险,因此由人类完成最终的全面审核至关重要。随着采用SLR-AI辅助完成的论文日益增多,相关成果真实性的核验工作也将消耗更多精力,甚至可能演变为一项社会层面的负担。

(全文及参考文献见Sci Ed 2025;12(2):200-205,原文链接:https://doi.org/10.6087/kcse.384,本期推文为节选摘编,略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

复旦大学新学术网

供稿 | 金潇苒  王译晗

本期编辑 | 学术君001号

本平台图文发布除特别注明外,版权归新学术网

新学术合作联系:fudanxinxueshu@163.com

平台使用图片除特别注明来源,均来自公版权网站

https://pixabay.com/zh

新学术门户:www.fudanxinxueshu.com

         www.xinxueshu.cn

 • end • 

长按识别二维码,了解学术新风向

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 用AI写综述?SLR-AI工具的比较分析与使用启示

猜你喜欢

  • 暂无文章