论文写到一半,AI说"引用是假的":这条流水线救了它
本文是「ARS学术写作系列」第②篇。上一篇说了AI幻觉引用的问题,这篇说ARS是怎么解决的——从PRISMA系统综述,到10阶段强制流水线,再到那道让论文"写不完"的诚信核查关。
上一篇结尾提到,ARS的真实运行记录里,诚信核查关抓出了15篇假引用和3个统计错误。
很多人看到这里的第一反应是:那不是更麻烦吗?写了一半发现一堆问题,还得回去改。
这个反应完全正常。但换个角度想:这15篇假引用,是被你自己的工具在提交前发现的,还是被审稿人在评审意见里发现的——哪个更麻烦?
我见过一个学生,论文初稿写完了,等着投。诚信核查关一跑,检测出4处统计描述和原始数据对不上,2处引用在原文里找不到对应的结论。他花了三天重新核对数据、重新找文献、改完重新跑——流程停了三次才过去。
后来他投出去,三个月后收到审稿意见,没有一条涉及统计方法或引用问题。小修后接收。
如果不是那三天在投稿前堵住,这封审稿意见大概会在三个月后才到。那个时候他改起来的成本,远不止三天。
这篇把ARS的核心运行逻辑讲明白。不只是"有哪些功能",而是整套流程为什么要这样设计,每个环节在防什么。
一、先说系统综述:公卫研究里最难写、也最值钱的那类文章
在公共卫生领域,系统综述(systematic review)有一个特殊地位。
它不是把现有文献读一遍然后总结一下。它有严格的方法学要求:检索策略要可重复,纳入排除标准要预先注册,文献筛选要双人独立完成,偏倚风险要逐篇评估,证据质量要分级……
这套规范叫 PRISMA 2020(Preferred Reporting Items for Systematic reviews and Meta-Analyses)。几乎所有公卫领域的顶刊,收系统综述都要对着PRISMA清单逐条核查。
问题是,符合PRISMA规范的系统综述,写起来非常费时间。文献检索要跑好几个数据库,筛选要两个人交叉,质量评估工具要根据研究类型选对……很多研究生光文献筛选就要做几周。
ARS的 systematic-review 模式专门处理这个场景。
触发方式:
用 systematic-review 模式,帮我针对"城市热岛效应与老年人全因死亡率"做一个系统综述,遵循PRISMA 2020规范它会做什么:
检索阶段:自动生成布尔检索式,覆盖MeSH主题词和自由词,标注推荐检索的数据库(PubMed/Embase/CENTRAL等)。
筛选阶段:按你设定的PICO框架(人群、干预/暴露、对照、结局)生成纳入排除标准,并对每篇文献逐条判断,标注判断依据。
质量评估:自动识别研究类型(RCT选RoB2,观察性研究选NOS/ROBINS-I),逐篇完成偏倚风险评估。
输出内容:PRISMA流程图、文献特征提取矩阵、偏倚风险汇总表、综合叙述。报告字数通常在5,000-15,000字之间,直接对应SCI投稿格式。
但有一点要说清楚:ARS不会替你联网搜文献。它帮你生成检索策略、制定筛选标准、执行质量评估的判断逻辑——具体的文献你还是需要从PubMed或数据库里拿过来给它处理。这是它的边界——ARS负责处理文献,文献本身还是你去找。
二、10阶段流水线:顺序不能乱,每步都要过关
写完文献综述,进入正式写作阶段。
这是ARS和其他AI写作工具最明显的差异所在。
ChatGPT写论文的模式是:你输入,它输出,你复制粘贴,结束。
ARS的模式是:流水线。
10个阶段,按顺序推进,每个阶段结束必须你确认才能进下一步,中间设有两道强制关卡。
第①步 文献研究 → 检索文献,形成研究设计(deep-research技能) ↓第②步 论文撰写 → 生成完整初稿(academic-paper技能) ↓⛔ 诚信核查关 → 强制关卡:引用核查 + 统计核查 ↓第③步 同行评审 → 5份模拟审稿报告(academic-paper-reviewer技能) ↓第④步 修改后复审 → 验证修改是否解决问题 ↓第⑤步 整合修改 → 逐条整合审稿意见,修改稿件 ↓⛔ 终审核查关 → 强制关卡:确认零问题遗留 ↓第⑥步 格式输出 → 最终格式化,支持Markdown/DOCX/LaTeX ↓第⑦步 协作评分 → 对你的参与质量打分(可选) ↓第⑧步 生成记录 → 输出完整过程记录PDF
两道强制关卡是整套设计的核心。过不了,流程不能继续。
很多人第一次被诚信核查关拦下来的时候,会觉得很烦。写得好好的,AI说"检测到3处统计描述与原始数据不符,2处引用无法定位原文",整个流程停在那里等你处理。
但这就是设计意图。它在模拟的是真实投稿后的审稿过程——只不过把审稿人的工作提前到你自己手里。审稿前发现问题,和审稿后收到拒稿再改,成本差一个量级。
每个阶段结束为什么都要人工确认?
不是因为AI不够聪明,是因为每个阶段产出的东西,都包含只有你能判断的内容。
文献研究阶段结束,你要判断文献覆盖是否够用,研究设计是否合理。写作阶段结束,你要判断论文的论证框架是否符合你的实际研究意图。这些判断,AI可以提供参考,但最终要你拍板。
强制确认机制的技术名词叫"自适应检查点"(Adaptive Checkpoints)——系统会根据你这一阶段的输出质量,动态调整检查点的严格程度。初稿问题越明显,诚信核查关的核查就越严格。
统计分析这块,谁来做?
要说清楚一个边界:ARS覆盖的是文献研究和论文撰写,不包含数据统计分析。你的数据处理——用R、Stata还是SPSS跑模型、做回归、跑生存分析——这部分是你自己完成的。ARS拿到的是你已经跑好的结果,帮你按学术规范写进论文。流水线是在"你有了数据分析结果"这个前提下才启动的。
三、诚信核查关:那15篇假引用是怎么被抓出来的
诚信核查关执行的是一个7项阻断检查清单。
通过全部7项,才能进入同行评审阶段。有一项没通过,整个流程暂停,等你修复。
这7个检查项覆盖:

Anti-leakage protocol(防泄漏协议)是其中最关键的机制。
传统AI写作工具的行为是:检测到某个论点没有引用,自动生成一条引用补进去。这条引用可能真实,也可能是编的。
ARS的行为完全相反:没有支撑的论点,在文稿里标注 [material gap: 此处需要真实文献支撑],流程停住,等你去找文献补进来。
它宁可让论文"写不完",也不帮你编引用。
三层引用定位器是v3.7.3之后新增的机制。每条引用不只记录文献本身,还记录:这条引用支持的是原文的哪一句话(quote)、在原文的哪一页(page)、在原文的哪个段落(paragraph)。
这意味着,不只能核查"这篇文献存在不存在",还能核查"你引用的这个结论,在那篇文献里有没有真的说过"——断章取义这种操作,也能被检出。
v3.8版本进一步增加了可选的L3声明可信度审计(ARS_CLAIM_AUDIT=1):自动抓取引用原文,逐条比对声明内容与原文是否一致。五类高风险违规(声明不被支撑、引用不存在、无定位锚点等)会直接在格式化输出环节阻断输出。这个功能默认关闭,适合对引用精度要求特别高的场景。
真实运行结果:在ARS的完整流水线showcase中,诚信核查关共检测出15篇幻觉引用和3处统计描述错误。终审核查关确认修复后零问题遗留。
四、写了一半要断开怎么办:Material Passport
写一篇完整的学术论文,不是一个下午能坐下来做完的事。
可能今天把文献综述部分做完,明天才有时间写方法,后天还要改结果。更常见的是:对话窗口关了,下次打开,AI不记得你上次说了什么。
ARS用 Material Passport(材料护照)解决这个问题。
可以把它理解成一个贯穿全程的"项目黑匣子"——每次阶段推进,它都自动记录当前状态、完成内容、决策历史和待处理项。保存在一个可以跨Session读取的结构化文件里。
下次打开新的Claude Code会话,你不需要重新解释背景,直接用:
resume_from_passport=<hash值>这个hash值是ARS在每次阶段完成时自动输出的——类似 Checkpoint saved: a3f8b2c1 这样一串字符,出现在对话结尾。你只需要在完成某个阶段后把它复制保存,下次续传时粘贴进去就行。
它会找到上次的断点,从那个阶段继续,不丢失任何进展。

这个设计对公卫人员特别实用。很多论文是利用零散时间推进的——日常工作间隙写一段,周末做一个分析,收假前改一下讨论。有了Material Passport,这种碎片化工作方式不影响整体流程的完整性。
使用前提:需要在第一次运行时设置 ARS_PASSPORT_RESET=1,这样系统才会生成可断点续传的checkpoint。
五、10种写作模式,按你的实际情况选
进入写作阶段时,academic-paper 技能提供10种模式。不需要全部记住,根据你目前的情况选一个就行。
full | ||
plan | ||
outline-only | ||
revision | ||
revision-coach | ||
abstract-only | ||
lit-review | ||
format-convert | ||
citation-check | ||
disclosure |
关于引用格式:
ARS支持5种引用格式的一键切换:APA7、Chicago、MLA、IEEE、Vancouver。
对公卫场景来说,大多数情况用APA7或Vancouver就够了。切换方式:
把这篇文章的引用格式从APA7转换为Vancouver格式ARS会处理全文的引用和参考文献列表,不需要你手动逐条修改。
六、写作进行中:Style Calibration让输出听起来是你写的
ARS有一个叫 Style Calibration(风格校准)的功能,是 academic-paper 技能的一部分。
把你过去写的1-3篇文章(或报告)上传给它,它会分析你的写作特征:句式偏好、专业术语习惯、段落节奏、论证风格……然后在后续写作中模拟这些特征。
这不是"帮你造假"。导师看你的文章,看的是逻辑、结构、论证质量,这些核心内容还是你自己来把控。Style Calibration解决的是"为什么这篇读起来不像我写的"这个问题——输出格式和语言风格跟你过去的工作一致,不是突然变成美式学术英语或者一眼AI味的表述。
另外还有一个 Writing Quality Check,专门检测"AI写作痕迹"——那些让审稿人一眼看出来"这是AI写的"的模式:过度使用连接词、每段结构高度一致、论点缺乏具体细节……检测出来之后,它会给出具体的修改建议。
结语
这篇的核心信息就一句话:ARS不是帮你更快地写出一篇论文,是帮你在发出去之前把问题找出来。
诚信核查关挡下的那15篇假引用,如果没有这道关卡,大概率会跟着论文一起投出去。也许顺利发表,也许被审稿人发现,也许发表后被人追责。代价不一样,运气不一样。
流水线多一道关卡,是慢了一点。但这一点时间,买的是你往后不需要在审稿意见里看到"Reference XX appears to be fabricated"。
下一篇讲那7个审稿人——特别是那个专门来怼你的 Devil's Advocate,以及0-100分的评分标准是怎么来的。
收藏卡:流水线速查
| ⛔ | 诚信核查关 | 引用核查 + 统计核查 | 强制通过才能继续 |
| ⛔ | 终审核查关 | 确认零问题遗留 | 强制通过才能继续 |
进入方式:
# 全流程从头开始我要写一篇关于[你的主题]的论文# 已有初稿,从审稿阶段进入我已经有一篇稿件,帮我做同行评审# 已有审稿意见,从修改阶段进入我收到了审稿意见,帮我修改ARS会自动识别你当前所在的阶段,不需要手动指定从哪步开始。
本文是「ARS学术写作系列」第②篇。第③篇:投稿前,先让AI把你的论文批到60分以下。
如果你正在被审稿意见折磨,或者刚收到修改通知,把这篇发给你的同门——审稿流程可以提前在自己手里走一遍。
夜雨聆风