论文链接:
https://arxiv.org/abs/2605.03042
代码地址:
https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep
ARIS(Auto-Research-in-Sleep)由上海交通大学的团队构建,核心思路是:把一整套机器学习研究流程,从查文献、想点子、跑实验,到写论文、回复审稿意见,交给多个 AI Agent 自动完成,而你只需要给出研究方向,然后去睡觉。
但这篇论文的真正价值,不在于"AI 做科研"本身有多酷,而在于它认真回答了一个更难的问题:怎样才能让自动化科研的过程是可信的?
01
最危险的失败:看起来成功,实则无据可查
作者们发现,让单个 AI Agent 执行长时间科研任务时,最令人头疼的问题不是系统崩溃,而是一种"表面上成功"的失败,Agent 写出了一篇头头是道的论文,引用了一堆数字,但那些数字根本没有对应的实验日志支撑,或者评估代码里用的是模型自己生成的标签作为"正确答案",形成自我循环的虚假好看结果。
基于这个判断,ARIS 提出了一个严苛的核心假设,任何由单一 Agent 执行的长期任务,其结果都是不可靠的。 这个假设听起来极端,但作者认为在科研这种高严谨度领域,宁愿严格也不愿放宽。
02
解决方法
ARIS 的核心机制叫做跨模型对抗式协作。具体来说,系统配置两个角色。
执行者(Executor):负责推进研究,写代码、跑实验、起草论文段落。默认使用 Claude 系列模型。
审查者(Reviewer):负责批评,读取执行者产出的文件,打分、列出需要修改的问题,然后执行者修改后再次提交,形成循环。审查者必须来自不同模型家族,比如 GPT-5.4 或 Gemini。

03
三层架构
ARIS 在内部分为三个层次,每一层解决一个特定的工程问题。

执行层:把科研能力模块化
执行层的核心是超过 65 个"技能(Skill)",每个技能是一个 Markdown 文件(SKILL.md),用自然语言描述了这个能力的输入、输出、步骤、质量门槛和失败处理方式。
AI Agent 读取这些文件,就像读工作说明书一样执行对应任务。这些技能能够被跨平台复用,同一个 SKILL.md 在 Claude Code、Codex CLI 和 Cursor 里都能运行,不需要修改。
执行层还维护一个持久化研究 Wiki,记录论文、想法、实验和声明,形成跨会话的"知识图谱"。这解决了一个很现实的问题,Agent 的上下文窗口是有限的,跑完这一轮就忘了上一轮做了什么。有了 Wiki,系统能记住"这个方向之前试过,失败了",不会反复踩同一个坑。

编排层:五个端到端工作流
编排层把技能串联成完整的研究流程。最核心的两个工作流是"自动审稿循环(W2)"和"论文撰写(W3)"。前者让执行者和审查者在审稿分数达到阈值前(默认6分/4轮上限)反复打磨同一篇稿子;后者则把论文从叙述框架一路变成可投稿的 PDF,中间嵌入了多重保障检查。
保障层:让声明有据可查
这是 ARIS 最独特的贡献。保障层的核心是一个三阶段的证据到声明审计级联,专门用来检查论文里的每一个实验声明是否真的有数据支撑。

04
实际部署
论文记录了一次端到端的真实运行。在约8小时内,系统完成了4轮审稿-修改循环,内部审查者评分从5.0分提升到7.5分,发起了超过20次 GPU 实验,并自动删除了无证据支撑的声明。
ARIS 还有一个值得一提的设计:元优化外循环。系统在正常运行时,悄悄记录每一次工具调用、成功/失败、用户覆盖了哪些默认参数(被频繁覆盖意味着默认值可能不对)。
分析这些日志后,/meta-optimize 技能会提出对 SKILL.md 文件本身的改进建议——相当于让系统反思自己"哪里做得不好"。
但有个关键限制,每一条改进建议都必须经过审查者模型批准(评分≥7/10),且最终由用户决定是否采纳,系统永远不会自动修改自身的执行规则。这是一个审慎而合理的自我演化机制。
05
总结
ARIS 不是在研究"AI 能不能做科研",而是在构建让 AI 科研过程可信赖、可审计的基础设施。它最重要的贡献是把"实验声明是否有据可查"这件事,从人工核查变成了系统级的自动保障流程。
从工程角度看,65+ 个 Markdown 技能文件、持久 Wiki、跨模型对抗协作、三阶段声明审计——这些组件并不神秘,但把它们系统性地组合在一起,专门对抗自主科研中最棘手的"优雅幻觉"问题,正是这项工作的独特之处。
灵光一闪
灵光一闪是专为高校学生、课题组及导师打造的科研资讯工具。通过论文合集、论文导读等核心方向,助您快速定位课题、突破科研瓶颈。
知识库内包含多个开源项目复现指南,再到前沿论文速递全部打包。我们将保持每周更新,赶快收藏起来吧!点击下方阅读原文进入知识库。
灵光一闪 | 具身AI热门论文导读
Sapiens2 解析:Meta 用 10 亿张人类图像炼出的视觉基础模型
当扩散模型遇上多模态大模型:深入解读 LLaDA2.0-Uni
Embox具身知识库 | 新手仿真从0到1
Embox具身知识库 | 每日具身智能资讯
……
获取知识库最新动态,欢迎大家关注
【EmboX具身工坊】⬇

夜雨聆风