你的论文,还是要自己写。但烦人的脏活,它全包了。
先跟你聊一件事。
前几天,一个做教育的朋友发消息说,他投的一篇SSCI二审回来了,三个审稿人,两个小修,一个直接过。他很开心,我问他用了什么秘诀,他丢过来一个GitHub链接,说:“我装了个插件,别的什么都没变。”
我点开一看,是academic-research-skills,一套基于Claude Code的学术研究技能包。
老实说,我一开始是怀疑的。现在学术圈里,“AI写论文”的噱头太多了。但用了三周之后,我觉得值得认真跟你聊聊——不是因为它多“智能”,恰恰相反,是因为它很笨。
笨到不会替你写论文,笨到非要你自己把问题想清楚才肯干活。
一、为什么要有这么一个东西?
先回答一个问题:全自动AI写论文,靠谱吗?
2026年,Nature上发表了一篇关于“AI Scientist”的研究(Lu等人),就是那种从零到一全自动生成论文的系统。结果呢?它在ICLR的workshop盲审里得了6.33分(同期workshop平均4.87)。听起来还行?
但你去看论文自己的Limitations部分,列了一大串结构性问题:实现错误、幻觉实验结果、方法论伪造、引用幻觉——全是硬伤。
还有一组更吓人的数据:Zhao等人(2026)扫描了arXiv、bioRxiv、SSRN、PMC上的250万篇论文、1.11亿条引用,保守估计仅2025年一年就有14.7万条幻觉引用。更可怕的是,这些幻觉引用里,有85.3%在从预印本变成正式发表版本时依然存活。
所以这套工具的核心前提很简单:人和AI一起干,比任何一方单干都靠谱。
二、它到底是什么?一句话说清楚
这是一套运行在Claude Code里的技能包(插件形式),覆盖从“我有一个研究想法”到“论文正式发表”的全流程。
核心承诺:
AI是你的副驾驶,不是机长。
什么意思?它不会帮你写论文。它处理的是那些繁琐但必须做的工作:
搜文献、整理文献 排格式(LaTeX/APA/Chicago/IEEE...) 验数据、检查统计错误 查逻辑一致性、引用是否真实 多视角同行评审(甚至包括魔鬼代言人)
而你要做的,是那些只有你能做的事:定义问题、选择方法、解读数据、写出“我认为”后面那句话。
三、核心功能:四个技能模块
整个工具包由四个技能组成,你可以单独用,也可以串起来跑完整流程。
1. Deep Research — 深度研究团队(13个Agent)
研究阶段最怕什么?怕你没想清楚就开始写,写完了才发现框架有问题。
这个模块有7种模式:
full mode:完整研究流程quick mode:快速摘要systematic-review mode:PRISMA系统性文献回顾** socratic mode**(我最喜欢的):苏格拉底式引导对话,它会不断问你问题,逼你把研究问题想透fact-check mode:核查某个说法lit-review mode:专门做文献回顾review mode:审查已有论文的研究质量
使用示例:
你:「引导我研究AI对高等教育质量保障的影响」然后它就会开始提问,像学术版的苏格拉底。你别嫌烦——它问的每个问题,都是审稿人将来会问的。
2. Academic Paper — 论文撰写团队(12个Agent)
这个模块帮你把研究结果写成论文,但不是代写。
10种模式:
full mode:完整撰写流程(从大纲到完稿)plan mode:引导式写作(推荐)outline-only mode:只搭大纲revision mode:拿初稿+审稿意见,帮你改revision-coach mode:帮你把一堆审稿意见整理成修订路线图format-convert mode:转换引用格式(APA/Chicago/IEEE/MLA/Vancouver)citation-check mode:检查引用是否正确disclosure mode:生成NeurIPS要求的AI使用声明
一个关键功能:风格校准
它会从你过去的文章里学习你的写作风格。你给几篇自己写的文章,它学完后生成的文字会更像你本人,而不是AI味很重的那种“首先、其次、最后”。
还有一个写作质量检查,专门识别那些读起来像机器生成的模式——比如过度使用连接词、句式单一、被动语态滥用。
3. Academic Paper Reviewer — 同行评审团队(7个Agent)
这个模块是我觉得最“狠”的。
7个角色:
主编(综合判断) 3位动态审查者(不同角度) 魔鬼代言人(专门挑刺)
输出一个0-100的质量量表:
≥80分 → 接受 65-79 → 小修 50-64 → 大修 <50 → 退稿
魔鬼代言人有让步门槛:它提出一个挑战性的反驳,你必须给出1-5分的评分,只有≥4分它才允许让步。而且不允许连续让步。这就防止了AI“谄媚”——你一说它就怂。
你可以在投稿前用它自审,也可以在收到真实审稿意见后,用它来模拟第二轮。
还有一个calibration mode(校准模式):你提供一组自己标注好的gold set(比如10篇论文的“应该接受/应该退稿”),它会测量自己的假阳性率和假阴性率,确保不是瞎打分。
4. Academic Pipeline — 全流程调度器(10个阶段)
这是把上面三个模块串起来的“总指挥”。
10个阶段,从研究设想到最终完稿。每个阶段都设了checkpoint,需要你确认才能继续。
两个不可跳过的学术诚信闸门:
Stage 2.5:写作前的诚信检查(虚构引用、统计错误) Stage 4.5:完稿前的复查
我朋友那篇二审通过的论文,就是用这个pipeline跑的。他说Stage 2.5那次检查逮到了15个虚构引用+3个统计错误——这些如果直接投出去,轻则desk reject,重则进学术不端调查。
四、怎么装?怎么用?
前置条件
Claude Code(版本v3.7.0以上) 已设置ANTHROPIC_API_KEY 可选:Pandoc(生成DOCX)、tectonic(生成PDF)
安装(30秒)
在Claude Code里运行:
/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills装完后测试一下:
/ars-plan然后描述你正在写的论文,它会用苏格拉底式对话帮你规划章节结构。
常用命令速查
费用参考
官方给的估算:一篇1.5万字的完整论文,全程跑下来大概4-6美元的API费用(按Claude 3.7 Sonnet的价格算)。
当然这只是参考,如果你反复修改、多次审查,会更高一些,但总体比请一个专业校对便宜多了。
五、它实际产出了什么?
官网上展示了完整10阶段pipeline的真实产出,包括:
完稿论文(中英文,APA 7.0格式,LaTeX编译) 学术诚信报告(审稿前版:发现15个虚构引用+3个统计错误;最终版:确认零回归) 同行评审第一轮(主编+3审查者+魔鬼代言人意见) 再审(修订后验证) 回复审查意见(逐条回复) 出版后审计报告(独立全引用审计:发现21/68篇有问题——注意,这是在过了3轮学术诚信审查之后仍然漏掉的)
最后这个“出版后审计”很有意思。它说明了一个事实:工具能减少问题,但不能根除所有问题。 审稿人也会漏,AI也会漏,所以要的是“人和工具一起工作”,而不是把一切都交给工具。
六、几个你一定要知道的设计细节
1. 人机协作,不是人机替代
v3.0版本优化时,开发团队在用ARS写一篇关于“AI与高等教育”的反思文章时,遇到了三个问题:
框架锁定:AI在给定框架内越来越精致,但不会质疑框架本身 谄媚倾向:魔鬼代言人的每次攻击,AI都让步太快 意图检测错误:用户还在探索,AI就急着收敛
于是他们改了:
魔鬼代言人让步必须≥4分 苏格拉底模式检测用户是“探索型”还是“目标型”,探索型不停用自动收敛 每5轮对话后台自检“对话健康度”(是否持续同意、回避冲突、过早收敛)
2. 引用的三层追踪(v3.7.3)
受Zhao等人那篇关于幻觉引用的大规模研究启发,v3.7.3给每一条引用加上了locator anchor,能精确指向原文的具体位置。如果你开启ARS_CLAIM_AUDIT=1,它会主动去取每个anchor指向的原文,判断你的claim是否真的被那篇文献支撑。
发现不支撑的情况,会打出HIGH-WARN标记,甚至直接阻止输出。
3. 支持中文
用户用中文对话,默认出中文。学术论文会自动产出中英文双语摘要。
苏格拉底模式采用意图匹配而非关键词匹配,所以理论上任何语言都能用。不过触发器关键词目前以英文和繁体中文为主,如果你的语言触发不稳定,可以在各个SKILL.md的Trigger Keywords区块自己加。
4. 支持哪些论文结构?
不只是传统的IMRaD(实证研究),还有:
主题式文献回顾 理论分析 个案研究 政策简报 研讨会论文
引用格式:APA 7.0(默认,含中文引用规则)、Chicago、MLA、IEEE、Vancouver。
七、几点实在的建议
1. 别指望它替你写。
如果你想要一个输入主题、输出论文的工具,那不是ARS。它的设计前提就是“你必须自己思考”。它更像一个严格的学术教练,不是代笔。
2. 从苏格拉底模式开始。
第一次用,不要直接开full pipeline。先跑/ars-plan,让它问你问题。你觉得烦,说明你还没想清楚。你觉得“这些问题我早想到了”,那说明你准备好了。
3. 把Stage 2.5和4.5当真。
这两个学术诚信闸门,很多人觉得“走个形式”。但我朋友那15个虚构引用就是在Stage 2.5抓出来的。如果你跑完2.5什么都没发现,有两种可能:你的论文真的很干净,或者——你的引用方式可能有问题,但ARS没识别出来(后者也是可能的,工具不是万能的)。
4. 魔鬼代言人的意见,认真看。
它会挑你最难堪的地方戳。如果你觉得“这个人说的不对”,那很好——说明你有反駁的理由,写进response to reviewers里。如果你觉得“他说得好像有点道理”,那麻烦了,说明你的论文真有漏洞。
5. 价格不贵,别自己扛。
4-6美元的成本,换一轮完整的10阶段pipeline。你随便找个人帮你校对一遍都不止这个价。何况它能做的不只是校对。
最后说说
学术写作从来不是一个人的事。以前要靠导师、同侪、审稿人、编辑——每个人帮你挑一点毛病,论文才慢慢变好。
ARS做的是把其中一部分机械的、重复的、但极其重要的工作用AI做了,而且做得不比你差。但它不会替你思考。
所以标题那句话可以再重复一遍:它没替我写一个字,但我写的每个字都因为它而更扎实。
项目地址(开源):github.com/Imbad0202/academic-research-skills
快速安装(需要Claude Code v3.7.0+):
/plugin marketplace add Imbad0202/academic-research-skills/plugin install academic-research-skills如果你用VS Code或JetBrains的Claude Code插件,同样的命令。装完后运行/ars-plan开始你的第一段苏格拉底式对话。
另外,如果你用的是Codex CLI,有专门的姐妹版:Imbad0202/academic-research-skills-codex。
夜雨聆风