实测8款AI学术写作工具:谁最靠谱?

AI 已成为高校学生完成课程论文、毕业设计的常用工具，但AI 生成的学术参考文献到底靠谱吗？近期发表于Journal of Data and Information Science的一项实证研究，对 8 款主流免费 AI 聊天机器人展开对照测试，结果令人警醒。

Part 1

研究设计：贴近真实学术场景

研究全程模拟高校学生的真实使用场景，评估8款免费访问的 AI 聊天机器人在五个关键知识领域所提供的参考文献的可靠性、准确性和相关性。

测试对象

ChatGPT、Claude、Copilot、DeepSeek、Gemini、Grok、Le Chat、Perplexity的免费版本（如下）。

样本获取方法

研究对每个机器人使用统一提示词，要求其为五大学科（健康科学、工程与技术、实验科学、社会科学、人文科学五大学科）分别提供10条学术参考文献。

“I am a university student working on my Final Degree Project. I need you to provide me with 10 relevant academic references in the field of Cardiology. Please format the references in APA 7th edition.” （Health Sciences-Cardiology）

最终研究获得8个机器人 × 5个学科领域 × 10条参考文献，共 400 条分析样本。

分析维度

参考文献准确性：从作者、年份、标题、出版来源、定位信息（卷期、页码和DOI）5 个要素进行核验。
文献类型
发表时间
期刊名/出版商
引用次数

Part.2

研究发现：文献质量堪忧

准确率堪忧，幻觉问题突出

对每条参考文献通过Google和Google Scholar手动检索进行验证（使用标题精确匹配）。检验结果分为：完全正确：5个要素全部准确；部分正确：对应真实文献但至少一个要素错误或不完整；错误/捏造：无法对应任何可识别的文献记录。

整体准确率低

在400条参考文献中，仅26.5% 完全准确；33.8% 部分正确；39.8% 错误或完全捏造。平均每条参考文献约2个要素错误。Grok错误最少（0.4个/参考文献），Copilot最多（4.2个/参考文献）。

各聊天机器人表现差异显著：

表现最好：Grok（60%完全正确，0%捏造）、DeepSeek（48%完全正确，0%捏造）。

表现最差：Copilot（100%捏造）、Perplexity（72%捏造）、Claude（64%捏造）。

图1.AI聊天机器人提供参考文献的完全正确、部分正确、错误或捏造的百分比。

捏造模式

Copilot表现出明显的模板化捏造（相同作者、年份、卷期，仅改标题和期刊名）；其他AI则更隐蔽地混合真实与捏造文献。

不同文献类型的准确性差异

AI生成的参考文献类型，58.3%是书籍，39.8%是期刊文章，2%的其它类型。
期刊文章中78% 为错误或捏造，来自书籍的参考文献仅12.9% 为错误或捏造。

不同学科的准确性差异

捏造率最高的领域：工程/技术（52.5%）、健康科学（50%）。
捏造率较低的领域：人文学科（26.3%）、社会科学（28.8%）。

图2.各知识领域参考文献的完全正确、部分正确、错误或捏造的百分比。

文献分布特征

参考文献出版年代较早，真实和捏造的参考文献的平均年龄是14.7年。社科学科与人文学科参考文献最旧（24.5年、21.8年），工程/技术最新（7.4年）。
学科中参考文献类型差异。社科和人文学科包含更多的书籍类参考文献，而实验科学、工程与技术以及健康科学领域的参考文献则有更多的期刊论文。这也导致了不同学科的参考文献中悬殊的错误/捏造参考文献比例。
来源重叠现象：多个AI（ChatGPT、DeepSeek、Grok、Gemini）输出的参考文献高度重叠。可能反映其使用了相似的训练数据或推理模型。这容易导致学术视野同质化，限制创新思维。

Part.3

研究启示

学术使用AI必须核验，强化AI信息素养教育

拒绝盲目信任：当前免费版 AI 无法独立胜任学术参考文献生成。在不同学科中使用AI时应保持差异化的警惕程度。
提升 AI 信息素养：高校应将 AI 引用核验纳入信息素养课程，培养学生辨别虚假文献、规范引用的能力，守护学术诚信底线。
对批判性思维的长期挑战：AI倾向于重复主流、经典、高被引知识，可能限制知识多样性和创新思维，教育应鼓励学生超越AI提供的框架。

AI 可作为学术辅助工具，但绝非可靠的文献生成器。理性使用、严格核验、提升素养，才是 AI 时代学术研究的正确打开方式。

Research Papers

Assessing the Performance of 8 AI Chatbots in Bibliographic Reference Retrieval: Grok and DeepSeek Outperform ChatGPT, but None are Entirely Accurate

对八种人工智能聊天机器人的文献检索性能评估研究：Grok与DeepSeek表现优于ChatGPT，但均未实现完全准确

Álvaro Cabezas-Clavijo, Pavel Sidorenko-Bautista

Universidad Internacional de La Rioja (UNIR)

DOI:10.1515/jdis-2025-0326

CSTR: 32295.14.jdis-2025-0326

识别阅读全文

JDIS致力于为不同领域的科学家搭建交流平台，通过基于数据的洞察来提升各界对科学研究活动基础机制的量化认识。期刊聚焦跨学科的共性议题，涵盖基金资助策略、国际合作模式、科学家的职业发展与流动、学科演变、学术交流、研究评估体系、技术转移、科研诚信建设，以及科学界与其他社会系统的互动。

欢迎所有领域的研究者投稿，收文类型包括原创研究、综述、数据论文、观点、通讯、笔记等八种长短文。

平均审稿周期4至6周，文章录用后10个工作日线上出版。

投稿链接：www.j-jdis.com

ImpactFactor：1.8，Q2

CiteScore：3.7，Q1

中科院期刊分区表 2区

FMS管理科学高质量期刊 D类

投稿：www.j-jdis.com

联络：jdis@mail.las.ac.cn

微信公众号丨JDIS_CAS

科学网丨blog.sciencenet.cn

/u/menmen

点击，查看更多精选文章