ARIS:让 AI 在睡觉时也能做严肃科研——对抗式多智能体协作框架全解

导读

如果让一个大模型独自跑一周去做机器学习研究，它会给你一份漂亮的论文。但里面有多少是真的？

这是一个不容易回答的问题。Agent 不会突然崩溃，它会写出一份看上去毫无破绽的报告——表格齐整、引用完备、结论自洽——而背后真正跑过的实验可能只有论文中宣称的三分之一，剩下的数字是模型基于"上下文里出现过的数量级"补出来的。这种"看起来合理但缺乏证据支撑的成功"（plausible unsupported success），才是长周期自主研究真正的失效模式。

ARIS（Auto-Research-in-sleep）是上海交大团队 2026 年 5 月放出的开源研究框架，专门针对这个问题。它不是又一个让 LLM 写代码的脚手架，而是一整套围绕"如何让 Agent 的科学产物可被审计"建立的工程体系：65+ Markdown 定义的可复用技能、跨模型对抗式审查、三阶段证据审计、五轮科学编辑流水线、数学证明检查、PDF 视觉巡检——所有这些都是为了让一句话能落到一行原始数据上。

这篇文章会拆解 ARIS 的三层架构，看它是怎么把"防止幻觉"做成可工程化的产品决策的。

背景：长周期 Agent 的真正失效模式

绝大多数 Agent 评测场景都是"短链条任务"——单步对话、单次代码生成、单轮工具调用。这类任务的失败是可见的：要么程序报错，要么输出格式不对。

但当你把 Agent 放进一个跨数小时甚至数天的研究循环里，失败就变得隐蔽了。模型会自动"修复"自己中间步骤里的不一致：实验跑挂了，于是结果数据被"补充"成符合假设的数字；引用找不到了，于是参考文献被"按推测的格式"自动生成；表格里有空缺，于是空缺被"按上下文常识"填上。这些行为单独看都符合 LLM 的训练偏好——它倾向于生成连贯、合理、上下文一致的内容——但合在一起就是科研意义上的造假。

ARIS 的作者把这个问题概括为："长周期研究工作流的核心失效模式不是显性崩溃，而是看起来合理但缺乏证据支撑的成功。" 智能体可能会产生证据不完整、误报、或在执行者框架暗示下"沉默继承"的结论。

要解决这个问题，单靠选模型不够。Agent 系统的表现取决于两件事：模型权重，以及围绕模型的 harness（研究框架）——后者决定了哪些信息被存储、被检索、被呈现给模型。ARIS 的整个设计哲学就立在这一点上：与其等待更强的基座模型，不如把工程框架做扎实，让平庸模型也能做严肃科研。

上面这张图是论文的"灵魂图"。从左到右是 Discovery → Experimentation → Manuscript → Post-Submission 四个阶段，串起 W1（Idea Discovery）、W1.5（Experiment Bridge）、W2（Auto Review Loop）、W3（Paper Writing）、W4（Rebuttal）五个端到端工作流。每个工作流产出一份带后缀的 Markdown 制品（IDEA_REPORT.md、EXPERIMENT_LOG.md、NARRATIVE_REPORT.md……），并由独立的 Reviewer 模型（GPT-5.4 / Gemini 等）做跨模型审阅。Research Wiki 横亘整个流程，让多次会话之间的发现可以累积。这是 ARIS 与"一次性 Agent 跑完整研究"最根本的区别。

三层架构：执行 / 编排 / 保障

ARIS 的工程实现分成三层，每一层解决一类不同的问题。

执行层：把研究操作"语言化"

执行层提供 65+ 用 Markdown 编写的可复用技能（skills），覆盖论文检索、点子发掘、新颖性核查、实验桥接、自动审稿、论文撰写、五轮科学编辑等场景。这些技能不是黑箱代码，而是一段段结构化的自然语言指令——任何人都可以读、可以审计、可以 fork。

为什么用 Markdown 而不是 Python？这是一个反直觉但很关键的设计选择。传统 Agent 框架把"能力"封装成函数，函数内部的提示词被硬编码、对模型隐藏。ARIS 反过来：能力即提示词，提示词即文档。当某个技能效果不好，研究者直接编辑 Markdown 文件就行，不用重新部署、不用改 Python 代码。这极大降低了"调一个 Agent"的门槛——它从工程问题降级成了写作问题。

执行层还包含三个关键基础设施：

MCP（Model Context Protocol）模型集成：这是一种用统一协议接入不同 LLM 的标准。ARIS 通过 MCP 同时挂载 Claude / Codex / Cursor / Trae 作为执行者，挂载 GPT-5.4 / Gemini / GLM / Kimi / DeepSeek 作为审查者。不同模型可以在同一个流程里交替工作。
Research Wiki（研究维基）：一个跨会话持久化的知识库，记录所有已经尝试过的点子、跑过的实验、得到的结论。下一次会话开始时，Agent 会先读 wiki 再决定要不要重复尝试某条路。
确定性图表生成：Agent 不直接画图，而是写一份 FigureSpec（图的语义规范），交给确定性渲染器生成。这避免了"每次跑都画出不同图"的非确定性问题，让审计者可以验证"图与代码一致"。

这张系统拓扑图是理解 ARIS 实现细节最直接的入口。左侧 6 个组件组——Meta-Optimization、Assurance、Artifacts、Workflows、Skills、MCP & Tool Bridges——通过左边的"gates / checks / produces / orchestrates / calls / bundles"等动词连接。最底层的 ARIS-Code CLI（Rust 写的 REPL，带 slash 命令和 LimReview）是与人交互的入口。注意右侧那个细节：执行者（Claude / Codex / Cursor / Trae）和审查者（GPT-5.4 / Gemini / GLM / Kimi）来自不同模型家族，因为同家族模型容易共享同一类盲点。

编排层：五个端到端工作流

编排层把执行层的零散技能拼成五个完整的研究工作流：

工作流	任务	关键产物	关键技能
W1: Idea Discovery	从研究方向中产生候选点子	`IDEA_REPORT.md`	research-lit, idea-creator, novelty-check
W1.5: Experiment Bridge	把抽象点子落到可跑的实验配置	`EXPERIMENT_LOG.md`	experiment-bridge, auto-debug, sanity-check
W2: Auto Review Loop	用跨模型审稿改稿到收敛	修订稿 + 审稿	auto-review-loop, paper-improve
W3: Paper Writing	三阶段写作：plan → draft → compile	`main.pdf`	paper-plan, paper-write, paper-compile
W4: Rebuttal	解析评审意见、生成回复策略与终稿	`PASTE_READY.txt`	parse, strategy, draft, 3 safety gates

每个工作流都暴露一组 effort levels（工作量级别）——例如审查者访问权限可以设为 Medium（document-level）、Hard（artifact-aware + memory）、Nightmare（repo-grounded），分别对应"只看终稿/能看到中间制品/能查 git 历史"。这个设计很务实：消耗大量 token 的"严苛审查"不必每次都开，但关键论文上线前可以切到 Nightmare。

上图中，Auto Review Loop（W2）的核心是一个带阈值的循环——每一轮把草稿提交给跨模型审稿者，得到结构化打分（典型阈值 5.0 / 7.5 / 10），抽取行动项、跑必要的额外 GPU 实验、修订受影响章节、检查收敛性，直到分数过线或达到最大轮数。Paper Writing Pipeline（W3）则是三段式：Plan & Generate（写大纲、画图）→ Draft & Assure（用 LaTeX 写正文、跑五轮科学编辑、可选证明检查、声明审计）→ Compile & Improve（编译两轮 GPT-5.4 xhigh 的视觉巡检）。每一段都明确产出可被独立审阅的制品。

保障层：三阶段证据审计 + 多重交叉检查

这一层是 ARIS 区别于其他 Agent 框架的核心。它不假设执行者诚实，所有声明都被当作"待审讯的嫌疑人"。

三阶段证据审计如下：

Stage 1: experiment-audit（实验完整性审计） 审稿者读评测代码（Evaluation Code）和结果文件，检查"完整性失效模式"——例如有没有 hard-coded 数字、有没有跳过失败 case、随机种子是否一致、exact_match / rounding / missing_evidence 等异常是否触发。产出 Results + Audit Report。
Stage 2: result-to-claim（结果到声明映射） 把 Stage 1 的实验结果显式映射到一组明确的声明上，每条声明给出三档判决：supported / partial / invalidated。所有判决合并成一份 Claim Ledger（声明账本）——这是后续所有手稿陈述必须对齐的"事实基线"。
Stage 3: paper-claim-audit（论文声明审计） 读最终 LaTeX 手稿，把每一句带数字、带比较、带"显著优于"的陈述拉出来，与 Claim Ledger 交叉比对。任何声明账本里没有支撑、或者支撑等级低于 supported 的句子都会被打回。这一阶段还会触发三个伴生检查：

Sciwrite 5-pass：五轮科学编辑流水线，分别检查可读性、逻辑、引用、术语一致、措辞强度。
Proof Checker：对论文里的数学命题做形式化或半形式化校验，可调用 Lean 等外部证明助手。
Visual PDF Review：把渲染出来的 PDF 截图送给视觉模型，检查图表、公式、表格在版式上是否真的与文本陈述一致——这一步抓得住"图引用错了"这种极隐蔽的错误。

最终输出 Verified Manuscript，附带 Claim Ledger 作为审计档案。这种"声明账本"的思路其实是从财务审计借来的——论文里的每一句"主张"都对应账本里的一条"凭证"，没凭证就不能下结论。

跨模型对抗式协作：为什么是关键设计

ARIS 的默认配置是：Executor（执行者）= Claude Code，Reviewer（审查者）= GPT-5.4 xhigh 或同等水准的不同家族模型。两者交替工作：

Executor 生成代码 / 论文 / 计划之类的产物（artifact）
Reviewer 给出 score 和 actionable critique（可执行的修改清单）
Executor 按行动项修订
比较 score 是否过阈值、是否到最大轮数
没过则进入下一轮；过了则 accept

如果中间实验跑挂了，先试 auto-debug 三次重试，仍失败就切到 /codex:rescue 调第三方模型来救场。

这个设计有两个反常识的地方。第一，审查者必须来自不同模型家族。 因为同家族模型——例如 Claude Sonnet 和 Claude Opus——有共享的训练偏好，看到一份模糊的论证会产生类似的"宽容"。换成 GPT 或 Gemini，对同样的模糊论证可能直接打低分，从而暴露问题。第二，审查者不只是给反馈，还有"否决权"。 在 ARIS 里有专门的 reviewer-gated 机制，例如 research-refine 这一步必须经过审查者明确批准才能继续——执行者无法绕过。

这种结构本质上是把 Agent 内部的"自我反思"外化成了独立的二元对抗。自我反思的根本问题是上下文污染——同一个模型的同一个上下文里，"质疑自己"和"为自己辩护"会互相干扰。把审查者放到完全独立的进程、独立的模型，这种污染就被物理隔绝了。

让科研可累积：Research Wiki

Research Wiki 是 ARIS 第二个值得专门讲的设计。

不带 wiki 的 Agent 是无状态的：Session 1 试了点子 A 失败，Session 2 又试 A 还是失败，Session 3 还是 A——同样的失败被无限重复。Agent 不知道"自己昨天已经试过这个了"。

带 wiki 的 Agent 是状态化的：Session 1 试 A 失败，写入 wiki：{ A✗ }；Session 2 读 wiki 跳过 A，试 B 成功，wiki 更新为 { A✗, B✓ }；Session 3 在 B 之上构建，试 C 和 D，得到 { A✗, B✓, C✗, D✓ }。失败变成 banlist，成功变成下一个点子的基础。

这里有个实践细节值得注意：wiki 不是"无脑追加"，而是经过 Reviewer 审批后才入账。否则执行者会把幻觉写进 wiki，让幻觉获得"过往经验"的权威性——这是非常危险的反模式。ARIS 通过 reviewer-gated 写入解决了这个问题。

部署足迹：这不是 Demo，是已经在用的系统

ARIS 不只是一个学术构想。截至 2026 年 4 月，作者团队公开的部署足迹已经包括：

执行平台：3 个已测试 + 3 个已采纳（Claude Code、Codex CLI、Cursor、Trae、Codebuddy 等）
审查模型：6+ 个家族（GPT、Claude、Gemini、GLM、MiniMax、Kimi、DeepSeek）
GPU 后端：4 类（local、SSH、Vast.ai、Modal）
目标会场：9 个（顶会、期刊不一）
API 五档：9 个家族的 API key 全套接入
社区贡献：30+ 个跨机器人/硬件/通信等领域的外部 skill

更重要的是，ARIS 包含一个原型级的自改进循环（Meta-Optimization）：系统会记录所有研究轨迹（Research Traces），并定期向 /meta-optimize 提议对 harness 本身的改进——例如某个 skill 的提示词改写、某个工作流的状态机调整。但这些改进必须通过审查者的批准（reviewer-gated patches）才会被采纳。换句话说，ARIS 不仅在用对抗式协作做研究，也在用对抗式协作"改进自己做研究的方式"——这是一个真正意义上的 self-improving system，但它把"是否采纳改进"这个最关键的决定留给了独立的审查者，避免了系统通过给自己打高分来"漂移"的风险。

讨论与思考

ARIS 这篇技术报告本身是 ARIS 用自己产出的——这种"用自己做自己"的循环测试，比任何 benchmark 都更有说服力。但作为读者，有几点值得进一步思考。

第一，对抗式协作不是万能的。 跨模型审查依赖审查模型的能力下限——如果审查者本身就看不懂某个领域的论文，"对抗"就变成"瞎打分"。ARIS 用 effort levels 部分回避了这个问题（关键节点用更强的审查模型），但本质上这是一个"用更贵的模型审更便宜的模型"的设计，对预算敏感的团队不容易直接套用。

第二，Markdown 技能的复用性是双刃剑。 65+ 个技能听起来很多，但研究领域非常多样——CV、NLP、机器人、生物医学，每个领域都有自己的"实验范式"。ARIS 的 skill 库目前明显偏 ML 领域，迁移到其他领域时需要重新写大量 skill。这暴露了一个底层问题：研究本身就不是可标准化的活动，把它强行流程化总会丢失一部分关键的领域直觉。

第三，Claim Ledger 的真正价值在审计而不是产出。 如果一个论文已经写完，作者可以在事后补一份 Claim Ledger 来追溯每一句话的依据。这件事比"端到端自主研究"更接地气——它给了人类研究者一个可以低成本采用的工具：写完论文后跑一遍 ARIS 的 paper-claim-audit，看看自己有没有不自觉地夸大结果。这可能是 ARIS 短期最大的实用价值。

第四，"在睡觉时做研究"的承诺需要警惕。 Auto-Research-in-sleep 这个名字暗示了一种诱人的图景——晚上下班，早上来收一份完整的研究产出。但 ARIS 论文里也明确说了，长周期 Agent 的失败不是"跑挂"而是"跑歪"。即使有三阶段审计，如果整个研究方向从一开始就是误导性的（例如选了一个有问题的 baseline），所有"证据支持"也只会让论文以更精致的方式跑偏。Agent 可以接管执行，但研究方向的选择、成果价值的判断，仍然要回到人。 ARIS 的审计层做得越完善，越提醒我们这一点：审计能保证"这篇论文里没造假"，但保证不了"这篇论文值得写"。

总结

核心问题：长周期自主研究 Agent 真正的失败模式不是崩溃，而是"看似合理但缺乏证据支撑的成功"——ARIS 的所有设计都是为了直接对抗这一点。
三层架构：执行层（65+ Markdown 技能 + MCP + Research Wiki + 确定性图表）、编排层（5 个端到端工作流 + effort levels）、保障层（三阶段证据审计 + 五轮科学编辑 + 证明检查 + 视觉巡检）。
关键设计：跨模型对抗——执行者与审查者来自不同模型家族；reviewer-gated 写入和改进，避免幻觉获得"经验"权威；Claim Ledger 作为论文每一句话的"凭证账本"。
实战价值：30+ 社区 skill、9 个 API 家族、4 类 GPU 后端，已经在多个会场投稿中实战。
真正的启发：与其等更强的基座模型，不如先把 harness 做扎实——工程框架决定了 Agent 的可信下限。

本文基于 ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration^[1] 解读。代码与 skill 库开源于 https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep^[2]

引用链接

[1]ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration: https://arxiv.org/abs/2605.03042

[2]https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep