2026必备AI科研插件:academic-research-skills 深度解析【2】

论文写到一半，AI说"引用是假的"：这条流水线救了它

本文是「ARS学术写作系列」第②篇。上一篇说了AI幻觉引用的问题，这篇说ARS是怎么解决的——从PRISMA系统综述，到10阶段强制流水线，再到那道让论文"写不完"的诚信核查关。

上一篇结尾提到，ARS的真实运行记录里，诚信核查关抓出了15篇假引用和3个统计错误。

很多人看到这里的第一反应是：那不是更麻烦吗？写了一半发现一堆问题，还得回去改。

这个反应完全正常。但换个角度想：这15篇假引用，是被你自己的工具在提交前发现的，还是被审稿人在评审意见里发现的——哪个更麻烦？

我见过一个学生，论文初稿写完了，等着投。诚信核查关一跑，检测出4处统计描述和原始数据对不上，2处引用在原文里找不到对应的结论。他花了三天重新核对数据、重新找文献、改完重新跑——流程停了三次才过去。

后来他投出去，三个月后收到审稿意见，没有一条涉及统计方法或引用问题。小修后接收。

如果不是那三天在投稿前堵住，这封审稿意见大概会在三个月后才到。那个时候他改起来的成本，远不止三天。

这篇把ARS的核心运行逻辑讲明白。不只是"有哪些功能"，而是整套流程为什么要这样设计，每个环节在防什么。

一、先说系统综述：公卫研究里最难写、也最值钱的那类文章

在公共卫生领域，系统综述（systematic review）有一个特殊地位。

它不是把现有文献读一遍然后总结一下。它有严格的方法学要求：检索策略要可重复，纳入排除标准要预先注册，文献筛选要双人独立完成，偏倚风险要逐篇评估，证据质量要分级……

这套规范叫 PRISMA 2020（Preferred Reporting Items for Systematic reviews and Meta-Analyses）。几乎所有公卫领域的顶刊，收系统综述都要对着PRISMA清单逐条核查。

问题是，符合PRISMA规范的系统综述，写起来非常费时间。文献检索要跑好几个数据库，筛选要两个人交叉，质量评估工具要根据研究类型选对……很多研究生光文献筛选就要做几周。

ARS的 systematic-review 模式专门处理这个场景。

触发方式：

用 systematic-review 模式，帮我针对"城市热岛效应与老年人全因死亡率"做一个系统综述，遵循PRISMA 2020规范

它会做什么：

检索阶段：自动生成布尔检索式，覆盖MeSH主题词和自由词，标注推荐检索的数据库（PubMed/Embase/CENTRAL等）。

筛选阶段：按你设定的PICO框架（人群、干预/暴露、对照、结局）生成纳入排除标准，并对每篇文献逐条判断，标注判断依据。

质量评估：自动识别研究类型（RCT选RoB2，观察性研究选NOS/ROBINS-I），逐篇完成偏倚风险评估。

输出内容：PRISMA流程图、文献特征提取矩阵、偏倚风险汇总表、综合叙述。报告字数通常在5,000-15,000字之间，直接对应SCI投稿格式。

但有一点要说清楚：ARS不会替你联网搜文献。它帮你生成检索策略、制定筛选标准、执行质量评估的判断逻辑——具体的文献你还是需要从PubMed或数据库里拿过来给它处理。这是它的边界——ARS负责处理文献，文献本身还是你去找。

二、10阶段流水线：顺序不能乱，每步都要过关

写完文献综述，进入正式写作阶段。

这是ARS和其他AI写作工具最明显的差异所在。

ChatGPT写论文的模式是：你输入，它输出，你复制粘贴，结束。

ARS的模式是：流水线。

10个阶段，按顺序推进，每个阶段结束必须你确认才能进下一步，中间设有两道强制关卡。

第①步 文献研究    → 检索文献，形成研究设计（deep-research技能）         ↓第②步 论文撰写    → 生成完整初稿（academic-paper技能）         ↓⛔ 诚信核查关    → 强制关卡：引用核查 + 统计核查         ↓第③步 同行评审    → 5份模拟审稿报告（academic-paper-reviewer技能）         ↓第④步 修改后复审  → 验证修改是否解决问题         ↓第⑤步 整合修改    → 逐条整合审稿意见，修改稿件         ↓⛔ 终审核查关    → 强制关卡：确认零问题遗留         ↓第⑥步 格式输出    → 最终格式化，支持Markdown/DOCX/LaTeX         ↓第⑦步 协作评分    → 对你的参与质量打分（可选）         ↓第⑧步 生成记录    → 输出完整过程记录PDF

两道强制关卡是整套设计的核心。过不了，流程不能继续。

很多人第一次被诚信核查关拦下来的时候，会觉得很烦。写得好好的，AI说"检测到3处统计描述与原始数据不符，2处引用无法定位原文"，整个流程停在那里等你处理。

但这就是设计意图。它在模拟的是真实投稿后的审稿过程——只不过把审稿人的工作提前到你自己手里。审稿前发现问题，和审稿后收到拒稿再改，成本差一个量级。

每个阶段结束为什么都要人工确认？

不是因为AI不够聪明，是因为每个阶段产出的东西，都包含只有你能判断的内容。

文献研究阶段结束，你要判断文献覆盖是否够用，研究设计是否合理。写作阶段结束，你要判断论文的论证框架是否符合你的实际研究意图。这些判断，AI可以提供参考，但最终要你拍板。

强制确认机制的技术名词叫"自适应检查点"（Adaptive Checkpoints）——系统会根据你这一阶段的输出质量，动态调整检查点的严格程度。初稿问题越明显，诚信核查关的核查就越严格。

统计分析这块，谁来做？

要说清楚一个边界：ARS覆盖的是文献研究和论文撰写，不包含数据统计分析。你的数据处理——用R、Stata还是SPSS跑模型、做回归、跑生存分析——这部分是你自己完成的。ARS拿到的是你已经跑好的结果，帮你按学术规范写进论文。流水线是在"你有了数据分析结果"这个前提下才启动的。

三、诚信核查关：那15篇假引用是怎么被抓出来的

诚信核查关执行的是一个7项阻断检查清单。

通过全部7项，才能进入同行评审阶段。有一项没通过，整个流程暂停，等你修复。

这7个检查项覆盖：

检查项	检查什么	不通过的后果
引用存在性核查	每条引用是否真实存在	流程暂停，标注问题引用
统计描述一致性	正文中的数字与参考表格/图是否一致	流程暂停，列出不符项
声明支撑检查	每个论点是否有对应的引用支撑	标注 [material gap]，不生成假引用
方法论合规	所用统计方法是否适合数据类型	警告，提供替代建议
数据来源追溯	引用数据是否能追溯到原始来源	标注高风险项
逻辑一致性	引言、方法、结果、讨论之间有无矛盾	列出矛盾点
AI声明合规	是否需要添加AI使用声明（视目标期刊）	提示，不强制

Anti-leakage protocol（防泄漏协议）是其中最关键的机制。

传统AI写作工具的行为是：检测到某个论点没有引用，自动生成一条引用补进去。这条引用可能真实，也可能是编的。

ARS的行为完全相反：没有支撑的论点，在文稿里标注 [material gap: 此处需要真实文献支撑]，流程停住，等你去找文献补进来。

它宁可让论文"写不完"，也不帮你编引用。

三层引用定位器是v3.7.3之后新增的机制。每条引用不只记录文献本身，还记录：这条引用支持的是原文的哪一句话（quote）、在原文的哪一页（page）、在原文的哪个段落（paragraph）。

这意味着，不只能核查"这篇文献存在不存在"，还能核查"你引用的这个结论，在那篇文献里有没有真的说过"——断章取义这种操作，也能被检出。

v3.8版本进一步增加了可选的L3声明可信度审计（ARS_CLAIM_AUDIT=1）：自动抓取引用原文，逐条比对声明内容与原文是否一致。五类高风险违规（声明不被支撑、引用不存在、无定位锚点等）会直接在格式化输出环节阻断输出。这个功能默认关闭，适合对引用精度要求特别高的场景。

真实运行结果：在ARS的完整流水线showcase中，诚信核查关共检测出15篇幻觉引用和3处统计描述错误。终审核查关确认修复后零问题遗留。

四、写了一半要断开怎么办：Material Passport

写一篇完整的学术论文，不是一个下午能坐下来做完的事。

可能今天把文献综述部分做完，明天才有时间写方法，后天还要改结果。更常见的是：对话窗口关了，下次打开，AI不记得你上次说了什么。

ARS用 Material Passport（材料护照）解决这个问题。

可以把它理解成一个贯穿全程的"项目黑匣子"——每次阶段推进，它都自动记录当前状态、完成内容、决策历史和待处理项。保存在一个可以跨Session读取的结构化文件里。

下次打开新的Claude Code会话，你不需要重新解释背景，直接用：

resume_from_passport=<hash值>

这个hash值是ARS在每次阶段完成时自动输出的——类似 Checkpoint saved: a3f8b2c1 这样一串字符，出现在对话结尾。你只需要在完成某个阶段后把它复制保存，下次续传时粘贴进去就行。

它会找到上次的断点，从那个阶段继续，不丢失任何进展。

这个设计对公卫人员特别实用。很多论文是利用零散时间推进的——日常工作间隙写一段，周末做一个分析，收假前改一下讨论。有了Material Passport，这种碎片化工作方式不影响整体流程的完整性。

使用前提：需要在第一次运行时设置 ARS_PASSPORT_RESET=1，这样系统才会生成可断点续传的checkpoint。

五、10种写作模式，按你的实际情况选

进入写作阶段时，academic-paper 技能提供10种模式。不需要全部记住，根据你目前的情况选一个就行。

我现在的情况	选这个模式	一句话说清楚它做什么
从头开始写一篇完整论文	`full`	12个Agent并行，从大纲到完整初稿
想先把章节结构想清楚再动笔	`plan`	苏格拉底对话式逐章规划，不生成正文
只需要一个详细提纲	`outline-only`	提纲+证据地图，不写正文
收到审稿意见，需要修改	`revision`	逐条整合审稿意见，生成修改稿和回复信
想先看看审稿意见说了什么	`revision-coach`	解析审稿意见，给出修改路线图（不直接改稿）
只需要写摘要	`abstract-only`	中英双语结构化摘要 + 关键词
手里有初稿，需要单独补写综述章节	`lit-review`	论文格式的文献综述章节
需要转换格式（LaTeX/DOCX/PDF）	`format-convert`	一键格式转换，支持5种引用格式
需要核查已有稿件的引用	`citation-check`	引用错误报告，不改内容
投稿前需要生成AI使用声明	`disclosure`	按目标期刊规范生成合规声明

关于引用格式：

ARS支持5种引用格式的一键切换：APA7、Chicago、MLA、IEEE、Vancouver。

对公卫场景来说，大多数情况用APA7或Vancouver就够了。切换方式：

把这篇文章的引用格式从APA7转换为Vancouver格式

ARS会处理全文的引用和参考文献列表，不需要你手动逐条修改。

六、写作进行中：Style Calibration让输出听起来是你写的

ARS有一个叫 Style Calibration（风格校准）的功能，是 academic-paper 技能的一部分。

把你过去写的1-3篇文章（或报告）上传给它，它会分析你的写作特征：句式偏好、专业术语习惯、段落节奏、论证风格……然后在后续写作中模拟这些特征。

这不是"帮你造假"。导师看你的文章，看的是逻辑、结构、论证质量，这些核心内容还是你自己来把控。Style Calibration解决的是"为什么这篇读起来不像我写的"这个问题——输出格式和语言风格跟你过去的工作一致，不是突然变成美式学术英语或者一眼AI味的表述。

另外还有一个 Writing Quality Check，专门检测"AI写作痕迹"——那些让审稿人一眼看出来"这是AI写的"的模式：过度使用连接词、每段结构高度一致、论点缺乏具体细节……检测出来之后，它会给出具体的修改建议。

结语

这篇的核心信息就一句话：ARS不是帮你更快地写出一篇论文，是帮你在发出去之前把问题找出来。

诚信核查关挡下的那15篇假引用，如果没有这道关卡，大概率会跟着论文一起投出去。也许顺利发表，也许被审稿人发现，也许发表后被人追责。代价不一样，运气不一样。

流水线多一道关卡，是慢了一点。但这一点时间，买的是你往后不需要在审稿意见里看到"Reference XX appears to be fabricated"。

下一篇讲那7个审稿人——特别是那个专门来怼你的 Devil's Advocate，以及0-100分的评分标准是怎么来的。

收藏卡：流水线速查

步骤	做什么	核心动作	是否强制
第①步	文献研究	检索文献 + 形成研究设计	✓
第②步	论文撰写	生成完整初稿	✓
⛔	诚信核查关	引用核查 + 统计核查	强制通过才能继续
第③步	同行评审	5份模拟审稿报告	✓
第④步	修改后复审	验证修改是否解决问题	✓
第⑤步	整合修改	逐条整合审稿意见	✓
⛔	终审核查关	确认零问题遗留	强制通过才能继续
第⑥步	格式输出	最终格式化，多格式支持	✓
第⑦步	协作评分	对你的参与质量打分	可选
第⑧步	生成记录	输出完整过程记录PDF	✓

进入方式：

# 全流程从头开始我要写一篇关于[你的主题]的论文# 已有初稿，从审稿阶段进入我已经有一篇稿件，帮我做同行评审# 已有审稿意见，从修改阶段进入我收到了审稿意见，帮我修改

ARS会自动识别你当前所在的阶段，不需要手动指定从哪步开始。

本文是「ARS学术写作系列」第②篇。第③篇：投稿前，先让AI把你的论文批到60分以下。

如果你正在被审稿意见折磨，或者刚收到修改通知，把这篇发给你的同门——审稿流程可以提前在自己手里走一遍。