ARIS:让AI在你睡觉时自主做科研

论文链接：

https://arxiv.org/abs/2605.03042

代码地址：

https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep

ARIS（Auto-Research-in-Sleep）由上海交通大学的团队构建，核心思路是：把一整套机器学习研究流程，从查文献、想点子、跑实验，到写论文、回复审稿意见，交给多个 AI Agent 自动完成，而你只需要给出研究方向，然后去睡觉。

但这篇论文的真正价值，不在于"AI 做科研"本身有多酷，而在于它认真回答了一个更难的问题：怎样才能让自动化科研的过程是可信的？

最危险的失败：看起来成功，实则无据可查

作者们发现，让单个 AI Agent 执行长时间科研任务时，最令人头疼的问题不是系统崩溃，而是一种"表面上成功"的失败，Agent 写出了一篇头头是道的论文，引用了一堆数字，但那些数字根本没有对应的实验日志支撑，或者评估代码里用的是模型自己生成的标签作为"正确答案"，形成自我循环的虚假好看结果。

基于这个判断，ARIS 提出了一个严苛的核心假设，任何由单一 Agent 执行的长期任务，其结果都是不可靠的。这个假设听起来极端，但作者认为在科研这种高严谨度领域，宁愿严格也不愿放宽。

解决方法

ARIS 的核心机制叫做跨模型对抗式协作。具体来说，系统配置两个角色。

执行者（Executor）：负责推进研究，写代码、跑实验、起草论文段落。默认使用 Claude 系列模型。

审查者（Reviewer）：负责批评，读取执行者产出的文件，打分、列出需要修改的问题，然后执行者修改后再次提交，形成循环。审查者必须来自不同模型家族，比如 GPT-5.4 或 Gemini。

三层架构

ARIS 在内部分为三个层次，每一层解决一个特定的工程问题。

执行层：把科研能力模块化

执行层的核心是超过 65 个"技能（Skill）"，每个技能是一个 Markdown 文件（SKILL.md），用自然语言描述了这个能力的输入、输出、步骤、质量门槛和失败处理方式。

AI Agent 读取这些文件，就像读工作说明书一样执行对应任务。这些技能能够被跨平台复用，同一个 SKILL.md 在 Claude Code、Codex CLI 和 Cursor 里都能运行，不需要修改。

执行层还维护一个持久化研究 Wiki，记录论文、想法、实验和声明，形成跨会话的"知识图谱"。这解决了一个很现实的问题，Agent 的上下文窗口是有限的，跑完这一轮就忘了上一轮做了什么。有了 Wiki，系统能记住"这个方向之前试过，失败了"，不会反复踩同一个坑。

编排层：五个端到端工作流

编排层把技能串联成完整的研究流程。最核心的两个工作流是"自动审稿循环（W2）"和"论文撰写（W3）"。前者让执行者和审查者在审稿分数达到阈值前（默认6分/4轮上限）反复打磨同一篇稿子；后者则把论文从叙述框架一路变成可投稿的 PDF，中间嵌入了多重保障检查。

保障层：让声明有据可查

这是 ARIS 最独特的贡献。保障层的核心是一个三阶段的证据到声明审计级联，专门用来检查论文里的每一个实验声明是否真的有数据支撑。

实际部署

论文记录了一次端到端的真实运行。在约8小时内，系统完成了4轮审稿-修改循环，内部审查者评分从5.0分提升到7.5分，发起了超过20次 GPU 实验，并自动删除了无证据支撑的声明。

ARIS 还有一个值得一提的设计：元优化外循环。系统在正常运行时，悄悄记录每一次工具调用、成功/失败、用户覆盖了哪些默认参数（被频繁覆盖意味着默认值可能不对）。

分析这些日志后，/meta-optimize 技能会提出对 SKILL.md 文件本身的改进建议——相当于让系统反思自己"哪里做得不好"。

但有个关键限制，每一条改进建议都必须经过审查者模型批准（评分≥7/10），且最终由用户决定是否采纳，系统永远不会自动修改自身的执行规则。这是一个审慎而合理的自我演化机制。

总结

ARIS 不是在研究"AI 能不能做科研"，而是在构建让 AI 科研过程可信赖、可审计的基础设施。它最重要的贡献是把"实验声明是否有据可查"这件事，从人工核查变成了系统级的自动保障流程。

从工程角度看，65+ 个 Markdown 技能文件、持久 Wiki、跨模型对抗协作、三阶段声明审计——这些组件并不神秘，但把它们系统性地组合在一起，专门对抗自主科研中最棘手的"优雅幻觉"问题，正是这项工作的独特之处。

灵光一闪

灵光一闪是专为高校学生、课题组及导师打造的科研资讯工具。通过论文合集、论文导读等核心方向，助您快速定位课题、突破科研瓶颈。

知识库内包含多个开源项目复现指南，再到前沿论文速递全部打包。我们将保持每周更新，赶快收藏起来吧！点击下方阅读原文进入知识库。

灵光一闪 | 具身AI热门论文导读

Sapiens2 解析：Meta 用 10 亿张人类图像炼出的视觉基础模型

Embox具身知识库 | 新手仿真从0到1

CLIP 检索上手指南：从原理到跑通你的第一个 Demo

Embox具身知识库 | 每日具身智能资讯

每日具身智能动态【2026.4.30】

……

获取知识库最新动态，欢迎大家关注

【EmboX具身工坊】⬇