这套开源学术AI工具,并不能帮你写论文

你的论文，还是要自己写。但烦人的脏活，它全包了。

先跟你聊一件事。

前几天，一个做教育的朋友发消息说，他投的一篇SSCI二审回来了，三个审稿人，两个小修，一个直接过。他很开心，我问他用了什么秘诀，他丢过来一个GitHub链接，说：“我装了个插件，别的什么都没变。”

我点开一看，是academic-research-skills，一套基于Claude Code的学术研究技能包。

老实说，我一开始是怀疑的。现在学术圈里，“AI写论文”的噱头太多了。但用了三周之后，我觉得值得认真跟你聊聊——不是因为它多“智能”，恰恰相反，是因为它很笨。

笨到不会替你写论文，笨到非要你自己把问题想清楚才肯干活。

一、为什么要有这么一个东西？

先回答一个问题：全自动AI写论文，靠谱吗？

2026年，Nature上发表了一篇关于“AI Scientist”的研究（Lu等人），就是那种从零到一全自动生成论文的系统。结果呢？它在ICLR的workshop盲审里得了6.33分（同期workshop平均4.87）。听起来还行？

但你去看论文自己的Limitations部分，列了一大串结构性问题：实现错误、幻觉实验结果、方法论伪造、引用幻觉——全是硬伤。

还有一组更吓人的数据：Zhao等人（2026）扫描了arXiv、bioRxiv、SSRN、PMC上的250万篇论文、1.11亿条引用，保守估计仅2025年一年就有14.7万条幻觉引用。更可怕的是，这些幻觉引用里，有85.3%在从预印本变成正式发表版本时依然存活。

所以这套工具的核心前提很简单：人和AI一起干，比任何一方单干都靠谱。

二、它到底是什么？一句话说清楚

这是一套运行在Claude Code里的技能包（插件形式），覆盖从“我有一个研究想法”到“论文正式发表”的全流程。

核心承诺：

AI是你的副驾驶，不是机长。

什么意思？它不会帮你写论文。它处理的是那些繁琐但必须做的工作：

搜文献、整理文献
排格式（LaTeX/APA/Chicago/IEEE...）
验数据、检查统计错误
查逻辑一致性、引用是否真实
多视角同行评审（甚至包括魔鬼代言人）

而你要做的，是那些只有你能做的事：定义问题、选择方法、解读数据、写出“我认为”后面那句话。

三、核心功能：四个技能模块

整个工具包由四个技能组成，你可以单独用，也可以串起来跑完整流程。

1. Deep Research — 深度研究团队（13个Agent）

研究阶段最怕什么？怕你没想清楚就开始写，写完了才发现框架有问题。

这个模块有7种模式：

full mode：完整研究流程
quick mode：快速摘要
systematic-review mode：PRISMA系统性文献回顾
**socratic mode**（我最喜欢的）：苏格拉底式引导对话，它会不断问你问题，逼你把研究问题想透
fact-check mode：核查某个说法
lit-review mode：专门做文献回顾
review mode：审查已有论文的研究质量

使用示例：

你：「引导我研究AI对高等教育质量保障的影响」

然后它就会开始提问，像学术版的苏格拉底。你别嫌烦——它问的每个问题，都是审稿人将来会问的。

2. Academic Paper — 论文撰写团队（12个Agent）

这个模块帮你把研究结果写成论文，但不是代写。

10种模式：

full mode：完整撰写流程（从大纲到完稿）
plan mode：引导式写作（推荐）
outline-only mode：只搭大纲
revision mode：拿初稿+审稿意见，帮你改
revision-coach mode：帮你把一堆审稿意见整理成修订路线图
format-convert mode：转换引用格式（APA/Chicago/IEEE/MLA/Vancouver）
citation-check mode：检查引用是否正确
disclosure mode：生成NeurIPS要求的AI使用声明

一个关键功能：风格校准

它会从你过去的文章里学习你的写作风格。你给几篇自己写的文章，它学完后生成的文字会更像你本人，而不是AI味很重的那种“首先、其次、最后”。

还有一个写作质量检查，专门识别那些读起来像机器生成的模式——比如过度使用连接词、句式单一、被动语态滥用。

3. Academic Paper Reviewer — 同行评审团队（7个Agent）

这个模块是我觉得最“狠”的。

7个角色：

主编（综合判断）
3位动态审查者（不同角度）
魔鬼代言人（专门挑刺）

输出一个0-100的质量量表：

≥80分 → 接受
65-79 → 小修
50-64 → 大修
<50 → 退稿

魔鬼代言人有让步门槛：它提出一个挑战性的反驳，你必须给出1-5分的评分，只有≥4分它才允许让步。而且不允许连续让步。这就防止了AI“谄媚”——你一说它就怂。

你可以在投稿前用它自审，也可以在收到真实审稿意见后，用它来模拟第二轮。

还有一个calibration mode（校准模式）：你提供一组自己标注好的gold set（比如10篇论文的“应该接受/应该退稿”），它会测量自己的假阳性率和假阴性率，确保不是瞎打分。

4. Academic Pipeline — 全流程调度器（10个阶段）

这是把上面三个模块串起来的“总指挥”。

10个阶段，从研究设想到最终完稿。每个阶段都设了checkpoint，需要你确认才能继续。

两个不可跳过的学术诚信闸门：

Stage 2.5：写作前的诚信检查（虚构引用、统计错误）
Stage 4.5：完稿前的复查

我朋友那篇二审通过的论文，就是用这个pipeline跑的。他说Stage 2.5那次检查逮到了15个虚构引用+3个统计错误——这些如果直接投出去，轻则desk reject，重则进学术不端调查。

四、怎么装？怎么用？

前置条件

Claude Code（版本v3.7.0以上）
已设置ANTHROPIC_API_KEY
可选：Pandoc（生成DOCX）、tectonic（生成PDF）

安装（30秒）

在Claude Code里运行：

/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills

装完后测试一下：

/ars-plan

然后描述你正在写的论文，它会用苏格拉底式对话帮你规划章节结构。

常用命令速查

你想做什么	跟ARS说
完整研究+写作流程	「我想做一篇关于XXX的研究论文」
先做文献回顾	「帮我做XXX的系统性文献回顾，含PRISMA」
引导式写作	「引导我写一篇关于XXX的论文」
审查自己写的论文	「帮我审查这篇论文」+ 贴内容
检查引用是否真实	「帮我核查这篇论文的引用」
转换引用格式	「引用格式转IEEE」
看pipeline进度	「进度」或「status」

费用参考

官方给的估算：一篇1.5万字的完整论文，全程跑下来大概4-6美元的API费用（按Claude 3.7 Sonnet的价格算）。

当然这只是参考，如果你反复修改、多次审查，会更高一些，但总体比请一个专业校对便宜多了。

五、它实际产出了什么？

官网上展示了完整10阶段pipeline的真实产出，包括：

完稿论文（中英文，APA 7.0格式，LaTeX编译）
学术诚信报告（审稿前版：发现15个虚构引用+3个统计错误；最终版：确认零回归）
同行评审第一轮（主编+3审查者+魔鬼代言人意见）
再审（修订后验证）
回复审查意见（逐条回复）
出版后审计报告（独立全引用审计：发现21/68篇有问题——注意，这是在过了3轮学术诚信审查之后仍然漏掉的）

最后这个“出版后审计”很有意思。它说明了一个事实：工具能减少问题，但不能根除所有问题。 审稿人也会漏，AI也会漏，所以要的是“人和工具一起工作”，而不是把一切都交给工具。

六、几个你一定要知道的设计细节

1. 人机协作，不是人机替代

v3.0版本优化时，开发团队在用ARS写一篇关于“AI与高等教育”的反思文章时，遇到了三个问题：

框架锁定：AI在给定框架内越来越精致，但不会质疑框架本身
谄媚倾向：魔鬼代言人的每次攻击，AI都让步太快
意图检测错误：用户还在探索，AI就急着收敛

于是他们改了：

魔鬼代言人让步必须≥4分
苏格拉底模式检测用户是“探索型”还是“目标型”，探索型不停用自动收敛
每5轮对话后台自检“对话健康度”（是否持续同意、回避冲突、过早收敛）

2. 引用的三层追踪（v3.7.3）

受Zhao等人那篇关于幻觉引用的大规模研究启发，v3.7.3给每一条引用加上了locator anchor，能精确指向原文的具体位置。如果你开启ARS_CLAIM_AUDIT=1，它会主动去取每个anchor指向的原文，判断你的claim是否真的被那篇文献支撑。

发现不支撑的情况，会打出HIGH-WARN标记，甚至直接阻止输出。

3. 支持中文

用户用中文对话，默认出中文。学术论文会自动产出中英文双语摘要。

苏格拉底模式采用意图匹配而非关键词匹配，所以理论上任何语言都能用。不过触发器关键词目前以英文和繁体中文为主，如果你的语言触发不稳定，可以在各个SKILL.md的Trigger Keywords区块自己加。

4. 支持哪些论文结构？

不只是传统的IMRaD（实证研究），还有：

主题式文献回顾
理论分析
个案研究
政策简报
研讨会论文

引用格式：APA 7.0（默认，含中文引用规则）、Chicago、MLA、IEEE、Vancouver。

七、几点实在的建议

1. 别指望它替你写。

如果你想要一个输入主题、输出论文的工具，那不是ARS。它的设计前提就是“你必须自己思考”。它更像一个严格的学术教练，不是代笔。

2. 从苏格拉底模式开始。

第一次用，不要直接开full pipeline。先跑/ars-plan，让它问你问题。你觉得烦，说明你还没想清楚。你觉得“这些问题我早想到了”，那说明你准备好了。

3. 把Stage 2.5和4.5当真。

这两个学术诚信闸门，很多人觉得“走个形式”。但我朋友那15个虚构引用就是在Stage 2.5抓出来的。如果你跑完2.5什么都没发现，有两种可能：你的论文真的很干净，或者——你的引用方式可能有问题，但ARS没识别出来（后者也是可能的，工具不是万能的）。

4. 魔鬼代言人的意见，认真看。

它会挑你最难堪的地方戳。如果你觉得“这个人说的不对”，那很好——说明你有反駁的理由，写进response to reviewers里。如果你觉得“他说得好像有点道理”，那麻烦了，说明你的论文真有漏洞。

5. 价格不贵，别自己扛。

4-6美元的成本，换一轮完整的10阶段pipeline。你随便找个人帮你校对一遍都不止这个价。何况它能做的不只是校对。

最后说说

学术写作从来不是一个人的事。以前要靠导师、同侪、审稿人、编辑——每个人帮你挑一点毛病，论文才慢慢变好。

ARS做的是把其中一部分机械的、重复的、但极其重要的工作用AI做了，而且做得不比你差。但它不会替你思考。

所以标题那句话可以再重复一遍：它没替我写一个字，但我写的每个字都因为它而更扎实。

项目地址（开源）：github.com/Imbad0202/academic-research-skills

快速安装（需要Claude Code v3.7.0+）：

/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills

如果你用VS Code或JetBrains的Claude Code插件，同样的命令。装完后运行/ars-plan开始你的第一段苏格拉底式对话。

另外，如果你用的是Codex CLI，有专门的姐妹版：Imbad0202/academic-research-skills-codex。