用AI写综述?SLR-AI工具的比较分析与使用启示-夜雨聆风

用AI写综述?SLR-AI工具的比较分析与使用启示

1217期 | 2026.03.13

为探索科学落地的学术评价体系，推动新时代学术评价的改革和实践，复旦大学国家智能评价与治理实验基地与复旦新学术共同开设“新评价”栏目，以“知评价”“谈评价”“践评价”等话题聚焦、共议当代学者共同关心的学术学科评价的理论、方法与实践问题，为新时代中国哲学社会科学的良性发展与繁荣、建构中国自主的知识体系贡献绵薄之力。

引言

生成式人工智能（如ChatGPT）已对各领域产生颠覆性变革。在学术写作中，支持系统性文献综述功能的人工智能平台（以下简称SLR-AI）的应用率不断攀升，研究人员面临的难题是如何选择最适配的SLR-AI，以保障高质量的研究成果。随着功能特性各异的各类SLR-AI不断涌现，能否选对、能否用好这类工具，已成为决定研究效率的关键因素。当前，研究人员正面临一项全新的两难抉择：应当选用基于文献数据库训练的SLR-AI，还是借助通用人工智能所具备的系统性文献综述功能？

本研究旨在对SLR-AI工具进行简明介绍，对比其功能特性与性能表现，为研究人员选择和使用这类工具提供参考。本研究仅聚焦于主流SLR-AI工具，与任何相关产品均无利益关联；同时力求以客观公允的态度，分享个人实践经验，以对SLR-AI工具的理论与实践应用价值作出全面客观的阐述。

笔者首先通过谷歌搜索引擎与文献数据库收集基础资料。随后，利用可免费获取或低成本使用的主流SLR-AI工具，查阅其针对特定检索请求的反馈结果，收集用于对比分析的数据。最后，对比近期研究中阐述的SLR-AI理论定位与现有SLR-AI工具的实际特性，本文立足于实际应用，而非技术开发。

ChatGPT发布以来

关于SLR-AI的研究综述

SLR-AI的应用价值与局限性

类ChatGPT人工智能凭借其知识覆盖的广度与准确性，可作为有效的SLR-AI为新手研究人员提供协助。ChatGPT在系统性文献综述的文献筛选自动化环节展现出应用潜力，尤其是GPT-4，已被证实是提升文献筛选效率的有效工具，展现出可与人类专家相媲美的“类人化”和“近乎完美”的表现。

此外，大型语言模型可通过筛选相关研究、提取关键信息，为系统性文献综述流程提供支持。在涵盖文献检索、评审、数据提取与整合的系统性文献综述工作流中，基于检索增强生成（RAG）的大型语言模型（融合实时信息检索与生成能力）能够显著提升准确性、相关性与语境理解能力。

尽管大型语言模型尚未能在摘要筛选环节完全取代人类专家，但ChatGPT4.0已展现出改善系统性文献综述工作的巨大潜力，在敏感性、特异性方面实现了良好平衡，且整体准确性较高。因此，基于大型语言模型的SLR-AI正被日益广泛地应用于提升研究发现效率、优化研究成果可视化呈现以及实现高效文献总结。

为支持构建稳健的AI学术信息服务、推动可靠的数据驱动型研究开展、提升学术写作质量，有必要对学术类AI工具进行对比评估。故而，针对用于系统性文献综述的大型语言模型，更详尽的质量对比应采用定性指标，例如准确性、响应时间、一致性、知识深度、语境理解能力及透明度等。虽然用于系统性文献综述的大语言模型能够缩短所需时间、提升分析结果的价值，但仍需人类监督，以确保研究结论的准确性与可靠性。

SLR-AI的现状与未来

诸如ChatGPT这类GenAI模型，最初是基于互联网上广泛的非学术数据训练而成，如今得益于技术的快速发展，也开始具备系统性文献综述功能。与之相对应，文献数据库服务商开发出了基于其数据库内摘要数据训练的SLR-AI工具，并将其作为附加订阅服务提供给各类图书馆。

因此，近期针对SLR-AI的相关研究，主要聚焦于文献评审的筛选与提取阶段。一项基于PubMed数据库文献的分析显示，尽管ChatGPT及其他基于GPT架构的大语言模型召回率相对偏低，但仍是最具应用前景的SLR-AI技术架构，有望推动系统性文献综述方法体系的变革。

然而，即便是输入相同的提示词，SLR-AI生成的检索式往往也存在差异，进而导致生成效果不尽如人意。因此，在借助这类工具开展快速系统性文献综述时，需保持审慎态度。

未来仍需持续推进SLR-AI技术研发，以提升文献检索的精准度，实现对检索数据的系统性整合，并支持模型从各类专业及新兴信息源中学习，进而产出高附加值的研究洞见，例如识别现有研究的空白点。

要让SLR-AI生成可靠且具备实践指导意义的成果，依旧是一项艰巨的技术与伦理挑战，这就要求模型必须提升精准度，以满足复杂分析的需求。在医疗这类对准确性与可靠性要求极高的领域，应用SLR-AI时，还亟需严格遵循系统综述和荟萃分析优先报告的条目（PRISMA）指南。

ChatGPT以来主流SLR-AI特性对比

表1汇总了笔者实际使用过或文献中已有报道的主流SLR-AI的特性、优势与不足，本处仅呈现其中核心要点。DeepSeekR1（DeepSeek公司研发）在推理任务上的性能表现与OpenAI的o1模型相当，且具备透明可解释的推理过程，能够通过拆解复杂问题，实现结构化问题求解。笔者并未直接使用过该模型，原因是韩国对DeepSeekR1的使用实施了限制。

基于文献数据库的SLR-AI工具

Scopus AI

Scopus AI是爱思唯尔基于Scopus数据库中2003年后发表文章的摘要开发，该工具的研发目标在于规避参考文献“幻觉”问题，确保不存在“虚假”引用。Scopus AI可自主构建检索式并执行向量检索，以此生成针对检索需求的综述内容；随后，它会通过核验被引参考文献，实现结论的验证与可追溯，进而生成最终答复。该工具尤其适用于系统性文献综述的初始阶段，或方法论要求相对宽松的研究领域——其依托同行评议文献产出的内容，在质量与可靠性层面均优于通用大型语言模型生成的答复。目前，Scopus AI已推出移动版本，其引入的系统性文献综述全新解决方案，亦可能对同类竞品的发展产生影响。

研究助手

研究助手（RA，科睿唯安公司推出的文献综述2.0工具）自2025年起，作为WoS数据库的附加订阅服务，向订阅图书馆开放使用。科睿唯安基于Web of Science核心合集研发了这款工具，该核心合集的文献数据库建库时间早于Scopus数据库。为保障学习数据源的高质量与可靠性，科睿唯安采用Web of Science数据库中的文献摘要对研究助手模型开展训练。然而，与Scopus AI不同的是，研究助手在问答交互过程中会显示提示语：“我将围绕这些研究方向，构建一套包含关键词与同义词的检索策略”。其工作机制为在现有关键词基础上进行扩展检索，并借助GPT技术生成答复内容。尽管这种工作模式与Scopus AI存在相似之处，但二者仍有区别：研究助手会先自动完成检索关键词的筛选工作，再调用大型语言模型，针对检索结果中相关性最高的研究生成答复文本，且生成内容的文献时间范围仅限于Web of Science数据库的订阅年限区间内。

Dimensions Research GPT

Digital Science旗下的Dimensions数据库，收录了超过70%的全文索引文献，同时构建了全球覆盖面极广的研究数据资源库，囊括项目资助、学术文献、专利成果、临床试验与数据集等多种类型的数据。自2000年起，Dimensions数据库的扩容速度便远超Web of Science数据库，其收录范围涵盖众多小型出版商的文献及开放获取类文章。得益于此，Dimensions Research GPT能够调取更为丰富的参考文献资源，依托包含数据集在内的科学实证生成综述内容、研究洞见与引文信息，进而提供全新的研究视角。

Elicit Reports

Ought Inc Elicit工具，其运行依托于文献数据库中的文献摘要。该工具的Elicit Reports功能（即Elicit系统综述功能），能够基于源自Ai2、PubMed、arXiv、JAMA及其他平台的高被引文献生成答复内容。此功能采用语义检索技术，检索重心在于用户的检索意图而非单纯的关键词匹配；同时，该功能会从最多500条检索结果中筛选出8篇相关文献，并以这8篇文献的综述形式呈现最终结果。

SciSpace Deep Review

SciSpace平台（由Business Integra与d3i公司联合开发）定位为面向学生与科研人员的一站式AI平台，提供PDF对话、AI写作辅助等功能。该平台支持用户创建自定义栏目，设有免费标准版与付费深度综述版两种使用方案，可基于50篇高度相关的论文生成研究报告。相较于其他SLR-AI工具，SciSpace的深度综述功能生成的报告目录架构清晰规整，但存在答复内容冗长繁琐、细节过度堆砌的问题，且部分内容的准确性有时难以保证。

基于生成式AI的SLR-AI工具

Deep Research

OpenAI、Perplexity与谷歌公司均已推出名为“Deep Research”的SLR-AI工具，此举加剧了相关领域的技术竞争，同时也时常给用户造成困扰，即便是对熟悉大型语言模型的用户而言亦是如此。这类工具借助逻辑推理对研究结论进行汇总，并同时引用学术来源与公开网络信息作为佐证，助力产出时效性强的系统性文献综述。该类工具能够根据用户输入的提示词，对检索词进行重组、扩充、修正与调整，但面对相同的提示词，其结果的可重复性、可再现性与一致性往往较差。尽管如此，本研究仍建议使用OpenAI的“Deep Research”。Perplexity公司与谷歌公司推出的工具与OpenAI的同类型工具存在显著差异，因此本研究未将前两者纳入对比范畴。

Felo Agent

Felo Agent（Felo公司开发）从技术层面而言并非一款真正意义上的SLR-AI，因其并非基于文献数据库构建，但为便于对比，本文仍将其纳入讨论范畴。该工具可检索海量学术文献，并整合了DeepSeek R1、OpenAI o4-mini、OpenAI GPT-4o及Anthropic Claude 4.0 Sonnet等多款模型，支持用户输入单一提示词，即可便捷地选择并调用多个AI模型的答复结果。Felo Agent生成整合式答复时，其内容架构逻辑清晰、结构规整，能够为用户提供类智能体的SLR-AI使用体验。根据笔者的实践经验，相较于其他SLR-AI工具，Felo Agent在处理非经同行评议的最新学术证据方面表现更为出色，但与此同时，它也更容易产生虚构参考文献的问题。

基于文献综述及

主流SLR-AI工具使用的启示

明确SLR-AI训练数据源的准确性与可靠性

随着基于文献数据库的AI工具的问世，如今的SLR-AI已具备无需人工干预即可生成学术论文引言部分的能力。然而，即便是精准度与可靠性表现最为出色的大型语言模型，在系统性文献综述流程中也应仅作为辅助工具发挥作用，而非主导性核心力量。尽管基于文献数据库的SLR-AI在学习数据源的准确性与可靠性上优势显著，但人们对于其生成答复所依托的AI技术是否足够稳定可靠仍存疑问。对于那些以互联网信息为训练数据的SLR-AI，其生成结果的准确性与可靠性更难以得到保障，这一点也引发了相关担忧。在评估SLR-AI的质量时，不仅需要考量其训练数据源的可靠性，还必须纳入技术的高频迭代与系统的快速更新这两个影响因素——这类变化会对模型学习数据源的一致性产生直接冲击。

警惕潜在的剽窃行为、著作权法违规

及科研伦理失范风险

尽管基于文献数据库的SLR-AI均宣称，其模型训练覆盖了数据库内收录的所有文献摘要，但目前仍无法明确，这些训练是否真正纳入了所有摘要内容，其中也包括受著作权保护的文献摘要。这一问题在科睿唯安（Clarivate）与Digital Science开发的SLR-AI上表现得更为突出——与爱思唯尔旗下的Scopus AI不同，这两家机构本身并非出版商，因此在获取受版权保护的文献摘要时，会面临更大的限制。用于论文写作、数据分析、同行评议及编辑工作的生成式AI技术，可能会给论文作者、评审专家与编辑人员带来诸多科研伦理层面的问题。为规避此类问题，SLR-AI生成的内容需以人类可理解的语言进行全面改写，并以恰当的方式整合到论文当中。已有案例表明，过度依赖AI工具，已造成部分论文因违反科研伦理而被撤稿。因此，披露SLR-AI的使用情况至关重要，例如可在论文中增设专门的方法论章节，以此提升研究的透明度。

权衡SLR-AI的功能实用性与潜在的幻觉风险

当SLR-AI被用于文献覆盖度不足的新兴主题或领域时，生成幻觉的风险会显著上升。这一现象也让学界对基于全文与网络信息训练、而非仅依赖文献摘要的学术AI模型抱有更高期待。受制于自身的固有局限性，SLR-AI始终离不开人工干预的支持。从理想状态来看，SLR-AI应当允许用户上传自有PDF文献，并能针对检索结果展开直接交互。若要推动这类工具的广泛应用，就必须对其功能实用性与潜在幻觉风险进行全面评估，同时还需支持英语以外的多语言问答交互功能。

需持续关注RAG与AI Agent等

新兴技术的发展动态

为新增功能而进行的频繁更新，可能导致SLR-AI模型快速被淘汰，进而给用户带来持续性的学习负担。在首次使用SLR-AI完成检索后，随着时间推移，用户或许需要重新输入提示词以补充相关研究内容。这并不意味着要依赖单一的SLR-AI工具；相反，用户应当了解各类SLR-AI的优势与短板，并根据研究主题和具体场景，选择最为适配的工具。借助RAG或AI Agent等前沿技术，SLR-AI的精准度有望得到提升，应用范围也会进一步扩大，最终实现科研效率的提高。对于深度研究任务而言，基于智能体的AI（无需用户干预即可自主解决问题）的表现甚至能超越基于RAG与提示词工程的方法，因此，基于智能体的SLR-AI的进一步发展值得期待。随着OpenAI推出具备深度研究能力的ChatGPT Agent（其功能与Felo Agent相近）等新产品，SLR-AI领域的技术竞争正日趋激烈。

结论

自ChatGPT问世以来，各类SLR-AI工具层出不穷，极大加速了文献检索与综述的进程。其中，基于文献数据库的SLR-AI尤其适合作为研究起步阶段的切入点：它们能帮助研究者深化对全新概念的理解，高效收集可信度较高的文献，并通过自动筛选关键词生成综述内容。但这类工具在面对新兴研究领域时，往往会产出不够全面的结论。与之相对，非文献数据库类SLR-AI则常常存在遗漏关键参考文献与重要研究成果的问题。

当前，越来越多的SLR-AI工具可提供自然语言综述、可视化结果输出以及后续研究方向的问题建议。在大型语言模型推理能力、智能体技术与RAG技术持续发展的推动下，SLR-AI领域的技术竞争也日趋白热化。现阶段的SLR-AI技术尚无法完全取代研究者，其定位应当是辅助与增强研究者的专业能力。人类研究者所具备的批判性分析能力、对研究趋势的独特洞察力，以及对未来研究方向的前瞻性判断，都是单纯的文献综述无法比拟的。过度依赖SLR-AI，不利于培养独立开展研究工作所需的能力。

根据笔者的实践经验，要精准判定一款SLR-AI的可靠性，目前仍存在较大难度。SLR-AI的未来发展，应当以产出可信、高效的内容为核心，并辅以负责任的AI应用准则。本研究认为，审慎选择适配的SLR-AI工具，能够有效提升文献综述的效率，例如采用Felo Agent这类工具，并严格遵循本文前述的四项启示，便是一种稳妥的选择。但需要注意的是，过度依赖依托公开数据源的SLR-AI，会直接引发科研伦理层面的风险，因此由人类完成最终的全面审核至关重要。随着采用SLR-AI辅助完成的论文日益增多，相关成果真实性的核验工作也将消耗更多精力，甚至可能演变为一项社会层面的负担。

(全文及参考文献见Sci Ed 2025;12(2):200-205，原文链接：https://doi.org/10.6087/kcse.384，本期推文为节选摘编，略有删减和编辑。)

本期策划 | 复旦大学国家智能评价与治理实验基地

复旦大学新学术网

供稿 | 金潇苒王译晗

本期编辑 | 学术君001号

本平台图文发布除特别注明外，版权归新学术网

新学术合作联系：fudanxinxueshu@163.com

平台使用图片除特别注明来源，均来自公版权网站

https://pixabay.com/zh

新学术门户：www.fudanxinxueshu.com

www.xinxueshu.cn

• end •

长按识别二维码，了解学术新风向

用AI写综述?SLR-AI工具的比较分析与使用启示

wang

猜你喜欢