AutoResearch科研自动化工具对比分析报告
对比分析对象:AI-Scientist-v2、AutoResearchClaw、PaperForge
均来自GitHub
目录
-
概述对比
-
功能特性对比
-
技术架构对比
-
依赖与环境要求
-
API 与模型支持
-
资源消耗与成本
-
限制与约束
-
适用场景建议
-
总结
1. 概述对比
| 维度 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 开发者 |
Sakana AI |
Aiming Lab |
个人开发者 |
| 定位 |
全自主科学生产系统 |
全自主学术论文流水线 |
自动化论文写作流水线 |
| 核心卖点 |
首个AI论文被同行评审接收 |
23阶段完整流水线+自进化 |
多阶段流水线+远程执行 |
| 开源协议 |
自定义AI科学家许可证(非商用) |
MIT |
PaperForge许可证(非商用) |
| 代码成熟度 |
研究型,结构清晰 |
工程型,模块化完善 |
工程型,生产导向 |
| 文档完善度 |
中等 |
详细 |
中等 |
| 社区活跃度 |
较高 |
新兴 |
较低 |
核心能力概览
| 能力 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 自动生成研究想法 |
✅ |
✅ |
✅ |
| 文献搜索与引用 |
✅ |
✅ |
✅ |
| 自动实验执行 |
✅ |
✅ |
✅ |
| 自动论文撰写 |
✅ |
✅ |
✅ |
| 自动同行评审 |
✅ |
✅ |
✅ |
| 多模态分析(图表) |
✅ |
✅ |
✅ |
| 断点续传/恢复 |
❌ |
✅ |
✅ |
| 远程GPU执行 |
❌ |
✅ |
✅ |
| 跨运行学习 |
❌ |
✅ |
❌ |
| 反AI检测写作 |
❌ |
❌ |
✅ |
2. 功能特性对比
2.1 流水线阶段对比
| 工具 |
阶段数 |
流水线结构 |
| AI-Scientist-v2 |
~7阶段 |
想法生成 → 实验树搜索 → 图表聚合 → 引用收集 → 论文撰写 → 评审 |
| AutoResearchClaw |
23阶段 |
主题初始化 → 问题分解 → 文献发现(4阶段) → 知识综合 → 实验设计(3阶段) → 分析决策 → 论文撰写(4阶段) → 质量门控 → 导出验证 |
| PaperForge |
5阶段 |
Bootstrap → Feedback → Optimize → Refine → Cloud |
2.2 特色功能详解
AI-Scientist-v2 核心特色
| 功能 |
描述 |
| 最佳优先树搜索 (BFTS) |
使用并行探索树进行实验优化,支持draft/debug/improve三种操作 |
| 4阶段实验流程 |
初始实现 → 基线调优 → 创新研究 → 消融实验 |
| VLM图表分析 |
使用视觉语言模型分析生成的实验图表 |
| 多种子评估 |
最佳节点在多个随机种子下验证可重复性 |
| 交互式树可视化 |
生成HTML文件可视化整个实验探索树 |
AutoResearchClaw 核心特色
| 功能 |
描述 |
| 23阶段细粒度流水线 |
从研究范围界定到最终验证的完整覆盖 |
| 4层引用验证 |
arXiv ID → DOI → 标题匹配 → LLM相关性评分,自动移除幻觉引用 |
| 硬件自适应执行 |
自动检测CUDA/MPS/CPU,适配代码生成 |
| 反伪造系统 |
VerifiedRegistry构建真值白名单,拒绝未验证数值 |
| PIVOT/REFINE决策循环 |
自主决定继续、微调参数或转向新方向 |
| 自学习进化系统 |
每次运行提取教训,30天半衰期衰减,跨运行学习 |
| OpenCode野兽模式 |
复杂实验自动路由到OpenCode AI代理 |
| 多领域适配器 |
支持9个领域:ML、生物、化学、物理、数学、神经科学、机器人、安全、经济 |
| 会议LaTeX导出 |
NeurIPS 2025、ICLR 2026、ICML 2026模板 |
PaperForge 核心特色
| 功能 |
描述 |
| SSH远程执行 |
完整的上传→训练→下载循环,支持实时stdout流 |
| 增量云端同步 |
基于大小+修改时间+哈希的变更检测 |
| 多模型路由 |
不同阶段可分配不同LLM(想法/代码/撰写/评审) |
| Anthropic故障转移 |
主端点→Opus优先→备份端点故障转移链 |
| 反AI检测写作控制 |
20+双语文写作提示词,主题匹配选择 |
| 统计显著性检验 |
Welch t检验、Wilcoxon符号秩检验、精确符号检验 |
| 质量门控 |
可配置指标阈值,5种动作类型 |
| LaTeX净化 |
自动清理LLM生成的作者块、AI自引用、重复图表 |
2.3 实验执行环境对比
| 环境 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 本地沙盒 |
✅ |
✅ |
✅ |
| Docker容器 |
✅ (推荐) |
✅ |
✅ |
| SSH远程 |
❌ |
✅ |
✅ |
| Google Colab |
❌ |
✅ |
❌ |
| AI代理执行 |
❌ |
✅ |
❌ |
2.4 人机交互模式
| 模式 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 全自动 |
✅ |
✅ |
✅ |
| 半自动 |
❌ |
✅ |
✅ |
| 交互式Co-pilot |
❌ |
✅ |
❌ |
| 门控审批 |
❌ |
✅ (3个门控阶段) |
❌ |
3. 技术架构对比
3.1 代码结构
AI-Scientist-v2/├── launch_scientist_bfts.py # 主入口├── ai_scientist/│ ├── treesearch/ # 核心树搜索引擎│ ├── tools/ # 工具集成│ └── fewshot_examples/ # 少样本示例AutoResearchClaw/├── researchclaw/ # 主包│ ├── pipeline/ # 23阶段流水线引擎│ ├── llm/ # LLM客户端抽象│ ├── experiment/ # 实验执行引擎│ ├── literature/ # 文献搜索验证│ ├── templates/ # LaTeX模板│ ├── domains/ # 多领域适配器│ ├── memory/ # 进化记忆系统│ └── web/ # Web搜索爬虫PaperForge/├── launch_user_entry.py # 统一入口├── engine/ # 核心引擎模块│ ├── llm.py # LLM客户端工厂│ ├── generate_ideas.py # 想法生成│ ├── perform_experiments.py # 实验执行│ ├── perform_writeup.py # 论文撰写│ ├── perform_review.py # 自动评审│ ├── remote_runner.py # SSH远程执行│ └── gate.py # 质量门控└── templates/paper_writer/ # 实验模板
3.2 架构模式
| 维度 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 设计模式 |
阶段式+树搜索 |
23阶段流水线 |
5阶段流水线 |
| 代码组织 |
单体模块化 |
高度模块化 |
模块化 |
| 配置管理 |
YAML + CLI参数 |
YAML + CLI + 环境变量 |
环境变量为主 |
| 状态管理 |
无持久化 |
JSON检查点 |
JSON检查点 |
| 扩展性 |
中等 |
高(领域适配器、技能库) |
中等 |
4. 依赖与环境要求
4.1 系统要求
| 要求 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 操作系统 |
Linux (POSIX信号) |
macOS/Linux/WSL2 |
macOS/Linux/Windows |
| Python版本 |
3.11 |
>=3.11 |
>=3.10 |
| GPU |
必需 (CUDA) |
可选 (沙盒模式CPU) |
可选 |
| LaTeX |
必需 |
可选 (仅PDF输出需要) |
必需 |
4.2 核心依赖对比
| 依赖类型 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| LLM客户端 |
anthropic, openai |
httpx (自实现) |
anthropic, openai |
| 文献搜索 |
semantic-scholar |
openalex, semantic-scholar, arxiv |
openalex, semantic-scholar |
| PDF处理 |
pymupdf4llm, pypdf |
PyMuPDF (可选) |
pymupdf, pymupdf4llm, pypdf |
| 实验框架 |
torch, transformers |
numpy (沙盒) |
torch, transformers, datasets |
| 代码编辑 |
– |
– |
aider-chat |
| 远程执行 |
– |
paramiko, docker |
paramiko |
| 可视化 |
matplotlib, seaborn |
matplotlib (可选) |
matplotlib |
| 配置解析 |
omegaconf |
pyyaml |
pyyaml |
4.3 外部工具依赖
| 工具 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| pdflatex |
✅ 必需 |
⭕ 可选 |
✅ 必需 |
| bibtex |
✅ 必需 |
⭕ 可选 |
✅ 必需 |
| chktex |
✅ 必需 |
❌ 不需要 |
✅ 必需 |
| poppler |
✅ 必需 |
❌ 不需要 |
❌ 不需要 |
| Docker |
⭕ 推荐 |
⭕ 可选 |
⭕ 可选 |
| Node.js/npm |
❌ 不需要 |
⭕ 可选 (OpenCode) |
❌ 不需要 |
5. API 与模型支持
5.1 LLM提供商支持
| 提供商 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| OpenAI |
✅ |
✅ |
✅ |
| Anthropic |
✅ |
✅ |
✅ |
| AWS Bedrock |
✅ |
❌ |
✅ |
| Google Vertex AI |
✅ |
❌ |
✅ |
| Google Gemini |
✅ |
✅ |
✅ |
| DeepSeek |
✅ |
✅ |
✅ |
| xAI Grok |
❌ |
❌ |
✅ |
| OpenRouter |
✅ |
✅ |
✅ |
| MiniMax |
❌ |
✅ |
❌ |
| Novita AI |
❌ |
✅ |
❌ |
| Kimi/Moonshot |
❌ |
✅ |
❌ |
| Ollama (本地) |
✅ |
❌ |
❌ |
5.2 推荐模型配置
AI-Scientist-v2 默认配置
| 任务阶段 |
推荐模型 |
| 实验代码生成 |
Claude 3.5 Sonnet v2 (Bedrock) |
| 反馈评估 |
GPT-4o-2024-11-20 |
| VLM图表分析 |
GPT-4o-2024-11-20 |
| 图表聚合 |
o3-mini-2025-01-31 |
| 论文撰写 |
o1-preview-2024-09-12 |
| 引用收集 |
GPT-4o-2024-11-20 |
| 论文评审 |
GPT-4o-2024-11-20 |
AutoResearchClaw 推荐配置
| 任务阶段 |
推荐模型 |
| 全流程 |
GPT-5.4 / Claude Opus 4.6 |
| 经济型 |
GPT-4o / Claude Sonnet 4.6 |
| ACP本地代理 |
Claude Code / OpenCode |
PaperForge 多模型路由建议
| 任务阶段 |
推荐模型 |
理由 |
| 想法生成 |
Grok |
发散思维、创意角度 |
| 创新验证 |
Gemini |
逻辑推理、可行性 |
| 论文撰写 |
Claude |
自然学术行文 |
| 代码生成 |
GPT Codex |
200k+ token上下文 |
5.3 视觉语言模型(VLM)支持
| 工具 |
VLM用途 |
支持模型 |
| AI-Scientist-v2 |
图表分析、图表审核 |
GPT-4o, Ollama VLM |
| AutoResearchClaw |
图表生成、架构图 |
Gemini 2.5 Flash Image |
| PaperForge |
– |
– |
6. 资源消耗与成本
6.1 API成本估算(每篇论文)
| 工具 |
估算成本 |
备注 |
| AI-Scientist-v2 |
$20-25 |
想法$5 + 实验$15-20 + 撰写$5 |
| AutoResearchClaw |
$5-15 |
取决于模型选择 |
| PaperForge |
$1-5 |
优化后的流水线,成本较低 |
6.2 运行时间估算
| 工具 |
预计时间 |
影响因素 |
| AI-Scientist-v2 |
数小时 |
实验复杂度、并行度 |
| AutoResearchClaw |
30分钟-4小时 |
沙盒/Docker模式、GPU可用性 |
| PaperForge |
1-4小时 |
模型选择、远程执行 |
6.3 硬件资源
| 资源 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| GPU |
必需 (实验) |
可选 |
可选 |
| 内存 |
中等 |
8GB最低/16GB推荐 |
中等 |
| 存储 |
中等 |
500MB-2GB |
中等 |
| 网络 |
必需 |
必需 |
必需 |
7. 限制与约束
7.1 平台限制
| 限制 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 操作系统 |
仅Linux |
跨平台 |
跨平台 |
| 工作空间锁 |
无 |
有 |
POSIX only |
| 断点恢复 |
无 |
有 |
有 |
7.2 实验限制
| 限制 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 单次执行超时 |
3600秒 (可配置) |
300秒 (沙盒) |
7200秒 |
| 最大迭代次数 |
阶段相关 (12-20) |
10次修复循环 |
4次迭代/运行 |
| 最大运行次数 |
– |
– |
5次/想法 |
| 代码形式 |
单文件自包含 |
多文件支持 |
多文件支持 |
7.3 输出限制
| 限制 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 输出格式 |
LaTeX + PDF |
Markdown + LaTeX + PDF |
LaTeX + PDF |
| 会议模板 |
ICML, ICLR workshop |
NeurIPS, ICLR, ICML |
ICLR 2024 |
| 页数限制 |
4页/8页 |
可配置 |
无限制 |
7.4 法律约束
| 约束 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 商用许可 |
❌ 禁止 |
✅ MIT允许 |
❌ 禁止 |
| AI声明要求 |
✅ 强制 |
无明确要求 |
✅ 强制 |
| 禁止用途 |
未明确 |
未明确 |
监控、欺骗媒体等 |
8. 适用场景建议
8.1 推荐使用场景
| 场景 |
推荐工具 |
理由 |
| 快速原型验证 |
PaperForge |
低成本、快速迭代 |
| 完整学术研究 |
AutoResearchClaw |
23阶段覆盖全流程 |
| 机器学习研究 |
AI-Scientist-v2 |
树搜索优化、多种子验证 |
| 远程GPU实验 |
AutoResearchClaw / PaperForge |
SSH远程执行支持 |
| 多领域研究 |
AutoResearchClaw |
9个领域适配器 |
| 跨项目学习 |
AutoResearchClaw |
自学习进化系统 |
| 成本敏感 |
PaperForge |
最低API成本 |
| 反AI检测需求 |
PaperForge |
专门的反检测写作控制 |
8.2 选择决策树
需要跨运行学习经验?├── 是 → AutoResearchClaw└── 否 → 需要最低成本? ├── 是 → PaperForge └── 否 → 研究领域? ├── 机器学习 → AI-Scientist-v2 └── 多领域 → AutoResearchClaw
8.3 各工具最佳实践
AI-Scientist-v2
AutoResearchClaw
PaperForge
-
使用多模型路由优化各阶段效果
-
启用SSH远程执行利用远程GPU
-
配置质量门控自动决策
-
使用深度配置文件获得最佳论文质量
9. 总结
综合评分
| 维度 |
AI-Scientist-v2 |
AutoResearchClaw |
PaperForge |
| 功能完整性 |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
| 易用性 |
⭐⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐ |
| 成本效率 |
⭐⭐ |
⭐⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
| 可扩展性 |
⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐ |
| 文档质量 |
⭐⭐⭐ |
⭐⭐⭐⭐⭐ |
⭐⭐⭐ |
| 社区支持 |
⭐⭐⭐⭐ |
⭐⭐⭐ |
⭐⭐ |
核心优势总结
| 工具 |
核心优势 |
| AI-Scientist-v2 |
首创性、树搜索优化、VLM图表分析、已被同行评审接收 |
| AutoResearchClaw |
最完整流水线、自学习进化、多领域支持、引用验证严格 |
| PaperForge |
最低成本、SSH远程执行、反AI检测、质量门控 |
核心劣势总结
| 工具 |
核心劣势 |
| AI-Scientist-v2 |
仅Linux、无断点恢复、成本较高 |
| AutoResearchClaw |
新项目社区小、配置复杂 |
| PaperForge |
文档不完善、社区活跃度低 |
报告时间: 2026年3月25日
数据来源: 项目源代码、README文档、配置文件分析