8 款 AI 文献助手实测:DeepSeek/Grok 更稳,但 AI 引用的 “不可靠性” 才是核心问题

点击蓝字

关注我们

【摘要】

本文评估了8种生成式人工智能聊天机器人在学术参考文献生成中的可靠性，包括ChatGPT、Claude、Gemini、DeepSeek等，重点考察其在大学研究情境中的文献检索准确性。研究采用标准化提示词方法，在健康科学、工程技术、实验科学、社会科学与人文学科5个知识领域中，共生成并分析400条参考文献。研究依据作者、年份、标题、来源与定位信息5项正式标准，对所有参考文献进行人工核验，并根据错误频率与文献类型进行分类。结果显示，仅有26.5%的参考文献完全准确，接近40%存在错误或完全伪造。Grok与DeepSeek未出现幻觉式文献，但Copilot、Perplexity与Claude的错误率最高，尤其在期刊论文引用中问题最为严重。研究指出，生成式AI在学术任务中的不加甄别使用存在明显风险，高校亟需加强信息素养教育与批判性思维训练，以应对AI中介化科研环境所带来的挑战。

一、研究背景与动机

No.1

在高校学习与科研过程中，正确获取与使用参考文献是学生进行学术写作的重要能力。传统上，学生主要依赖Web of Science、Scopus、PubMed等学术数据库完成文献检索。然而，自2022年底以来，以ChatGPT、Gemini、Copilot等为代表的生成式人工智能工具迅速普及，学生开始通过对话式聊天机器人直接获取学术信息。

已有研究表明，生成式AI能够辅助内容生成、信息组织与文本总结，在高等教育场景中被广泛用于学习支持、写作辅助与知识获取。但与此同时，研究者也发现，这类工具经常会生成“看似合理但实际上不存在”的参考文献，即所谓的“幻觉式引用”。尤其对于缺乏学科知识基础与文献检索经验的大学生而言，这类错误文献很容易被误认为真实可信，从而影响学术质量与研究可靠性。

既有研究虽然已经对ChatGPT等模型的参考文献生成能力进行了初步分析，但大多集中于单一模型或少量模型比较，对多种主流聊天机器人在不同学科场景中的表现缺乏系统性实证研究。因此，本文希望通过对8种主流免费AI聊天机器人进行横向比较，考察其在不同知识领域中的参考文献生成准确率、文献类型特征、来源重叠程度以及文献权威性，从而评估这些工具在大学学术写作中的适用性与风险。

二、理论基础与研究假设

No.2

研究建立在生成式人工智能“幻觉”（Hallucination）问题的理论基础之上。文章指出，大语言模型在生成参考文献时，并非实时检索真实数据库，而是依据训练语料中的引用模式自动推断作者、年份、期刊与DOI等元素。因此，模型往往会生成语言形式合理、但实际上不存在的参考文献。

文献综述部分系统梳理了既有研究关于AI生成参考文献准确率的实证结果。已有研究发现，ChatGPT-3.5、GPT-4、Gemini等模型均存在较高比例的伪造引用问题。部分研究甚至显示，某些模型生成的参考文献中超过90%属于错误或虚构文献。

基于上述研究脉络，本文并未提出传统意义上的统计假设，而是围绕4项研究目标展开分析，包括：不同AI模型的参考文献准确率比较、参考文献类型与错误特征分析、不同AI之间的文献重叠程度分析，以及AI引用来源的权威性与适配性评估。

三、研究设计

No.3

（一）数据与样本

研究选取了8种生成式AI聊天机器人，包括ChatGPT、Claude、Copilot、DeepSeek、Gemini、Grok、Le Chat与Perplexity，均使用免费版本进行测试，以模拟大学生真实使用场景。具体模型信息见正文表1“Main characteristics of the chatbots compared”。

测试时间为2025年2月7日至9日。研究分别在健康科学、工程技术、实验科学、社会科学与人文学科5个知识领域中构建标准化提示词，具体对应心脏病学、机械工程、有机化学、社会学与艺术史5个学科方向。提示词统一要求AI“为毕业论文提供10篇APA第7版格式的相关学术参考文献”，详见正文表2“Prompts used by the area of knowledge and discipline”。

最终，每个聊天机器人生成50条参考文献，共获得400条参考文献样本，其中每个知识领域包含80条参考文献。

（二）研究方法

研究采用比较分析方法，对8种AI生成的参考文献进行人工核验。研究将每条参考文献拆分为5个核心元素，包括作者、年份、标题、出版来源以及定位信息（卷期页码与DOI），并通过Google与Google Scholar进行逐条检索验证。

若5项信息全部准确，则判定为完全正确；若文献真实存在，但部分元数据存在错误或缺失，则判定为部分正确；若无法对应任何真实文献记录，则认定为错误或伪造文献。

数据处理使用Microsoft Excel完成，图形可视化则通过SCImago Graphica 1.0.49生成。

（三）变量测度

Reference accuracy：用于衡量参考文献的真实性与准确程度，分为完全正确、部分正确以及错误/伪造三类。

Document type：用于区分AI生成文献的类型，包括期刊论文、图书以及其他类型文献。

Publication year：用于计算参考文献的平均年代，以评估不同AI生成文献的新颖程度。

Number of citations：依据Google Scholar统计参考文献被引次数，以衡量文献的学术影响力。

四、研究结论

No.4

1. 表现最好的AI模型为Grok与DeepSeek。图1“Percentage of completely correct, partially correct, and incorrect or fabricated references, by AI chatbot”显示，Grok有60%的参考文献完全正确，DeepSeek为48%；两者均未生成完全伪造的参考文献。

2. Copilot、Perplexity与Claude表现最差。图1显示，Copilot生成的参考文献100%属于错误或伪造文献；Perplexity与Claude的伪造比例分别达到72%与64%。

3. 图2“Distribution of errors per reference by AI chatbot”显示，不同模型在参考文献元数据错误数量上存在明显差异。Grok与DeepSeek平均每条参考文献错误数最少，而Copilot、Perplexity与Claude错误数量最高。

4. 图3“Percentage of references by document type and AI chatbot”表明，大部分AI更倾向于生成图书类参考文献。其中Gemini、DeepSeek与Grok生成图书比例最高，而Copilot生成的文献全部为期刊论文，但均属于伪造文献。

5. 图4“Percentage of completely correct, partially correct, and wrong or fabricated references by area of knowledge”显示，工程技术领域的伪造文献比例最高，达到52.5%；社会科学与人文学科相对较低。

6. 研究发现，AI生成期刊论文引用时更容易出现幻觉问题。仅有12.9%的图书类参考文献属于错误或伪造，而期刊论文的错误或伪造比例高达78%。

7. 图5“Average publication age of references generated by each AI chatbot”与图6“Average publication age of references generated by the area of knowledge”显示，不同模型与不同学科在参考文献年代上存在明显差异。Perplexity与Claude倾向于生成最新年份的文献，但其中大量属于虚构文献；Le Chat则生成大量年代较早的参考文献。

8. 表3“Percentage of overlap among AI chatbots based on absolute references provided”显示，DeepSeek、Grok、Gemini与ChatGPT之间存在较高文献重叠率，说明这些模型在学术推荐来源上具有明显趋同现象。

9. 表4“Primary sources provided by AI chatbots”与表5“Most frequently cited bibliographic references across AI chatbots”显示，AI倾向于引用Wiley、Oxford University Press、McGraw-Hill等大型学术出版社中的高被引经典教材与权威著作。

五、研究贡献

No.5

本文的理论贡献在于，系统比较了8种主流生成式AI聊天机器人在学术参考文献生成中的表现，进一步揭示了大语言模型在学术信息组织与知识生成中的结构性局限。研究不仅验证了“幻觉式引用”问题的普遍存在，还指出不同模型在文献真实性、文献类型与知识来源方面存在显著差异。

实践层面上，研究为高校信息素养教育与AI使用规范提供了重要依据。研究结果表明，学生不能将AI生成的参考文献直接用于学术写作，而必须进行人工核验。同时，高校在推进AI教育应用过程中，需要加强学生对AI生成内容的批判性评估能力，避免因过度依赖AI而削弱学术判断与信息检索能力。

【声明】本文内容仅供学术交流使用，著作权与版权归原作者及期刊出版商所有。如需引用、转载或使用，请注明原文出处。