
导读:FutureHouse团队发布Robin——首个能够自动完成「假说生成→实验设计→数据分析→迭代优化」全流程的AI科学家系统,并在干性黄斑变性的药物发现中成功验证。
AI科学家Robin:从假说到验证的全自动科研革命
ROBIN: A Multi-Agent System for Automating Scientific Discovery
期刊:Nature IF:64.8年份:2026JCR:Q1
作者:GHAREEB Ali Essam, CHANG Benjamin, MITCHENER Ludovico 等
机构:FutureHouse, San Francisco, USA; University of Oxford, UK
DOI:10.1038/s41586-026-10652-y
为什么需要这个研究
科学发现的核心循环是什么?是「背景调研→假说生成→实验验证→数据分析」的不断迭代。然而,尽管AI在文献检索、数据分析等单一环节已经展现出超越人类的能力,从未有系统能够将这四个步骤串联成一个完整的自动化闭环。
药物重定位的困境尤为突出——医学文献中常常已经包含了足够的线索,只是没有人把不同领域的碎片拼在一起。达拉菲尼(dabrafenib)从分子机制被阐明到耳保护作用被发现,整整花了10年;氯胺酮从药理研究到抗抑郁应用,花了22年。这些「时间差」不是因为科学不够聪明,而是因为人类的认知带宽有限,无法同时消化所有领域的文献。
如果AI能够像科学家一样思考——阅读文献、提出假说、设计实验、分析数据、再迭代——科研的「时钟速度」会不会被彻底改变?
认知盲区
很多人以为AI只能做「辅助工具」,比如帮忙查文献或分析数据。但Robin证明,AI已经可以自主完成科研的全链路智力步骤——从提出全新的治疗假说到分析实验数据再到发现新靶点,全程无需人类干预核心决策。
Robin是如何设计的
Robin的核心创新在于将文献搜索智能体与数据分析智能体整合到同一个工作流中,形成一个「实验室在环」(lab-in-the-loop)的半自主发现系统。
系统由三个专业化智能体协同工作:
三大智能体分工
Crow(乌鸦) — 文献快搜:快速检索文献并生成精炼摘要,30分钟分析551篇论文(人类需540小时),为假说生成提供背景知识
Falcon(猎鹰) — 深度综述:对每个候选药物进行详尽的文献评估,分析科学依据与潜在局限性,生成结构化评估报告
Finch(雀鸟) — 数据分析:自主分析流式细胞术、RNA-seq等实验数据,在标准化Docker环境中执行可复现的生物信息学流程

图1. Robin系统架构与工作流程。给定疾病名称,Robin自动生成假说并筛选候选药物;实验完成后自主分析数据并迭代优化。
从疾病名称到候选药物:Robin的四步闭环
第一步:疾病机制识别。给定疾病名称,Robin首先通过Crow检索相关文献,识别10个潜在的致病机制,然后通过LLM裁判的配对比较排序,选出最值得实验验证的机制。
第二步:候选药物生成。确定机制后,Robin再次调用Crow进行深度文献调研,提出30个候选药物。Falcon为每个药物生成详尽评估报告(科学依据+局限性),通过「锦标赛」机制排序。
第三步:实验与数据分析。人类科学家按照Robin建议的实验方案执行实验,将原始数据上传。Finch自主完成数据分析——流式细胞术的门控策略、RNA-seq的差异表达分析等——生成可复现的Jupyter notebook。
第四步:迭代优化。Robin基于数据分析结果,提出新的假说和候选药物,形成新一轮「假说→实验→分析」循环,直到找到满意的治疗候选。
关键发现:Robin发现了什么
核心发现速览
✅ Robin提出「增强RPE细胞吞噬功能」作为干性AMD的全新治疗策略
✅ 发现Ripasudil(日本已批准的青光眼药物)可使RPE吞噬活性提高7.5倍
✅ 自主RNA-seq分析发现ABCA1(脂质外排泵)上调3倍,揭示全新分子靶点
✅ 首个在迭代「实验室在环」框架中自主发现并验证新治疗候选的AI系统
Robin选择干性年龄相关性黄斑变性(dAMD)作为验证对象——这是发达国家致盲的首要原因,仅美国就有150万视力威胁性dAMD患者,60万人因AMD法定失明,预计2050年这一数字将增长近3倍。然而,当前治疗方案极其有限。
Robin在分析约400篇RPE吞噬功能与干性AMD治疗相关文献后,提出了30个候选药物。经过首轮实验验证,ROCK抑制剂Y-27632显著增强了RPE吞噬功能。Robin随即建议进行RNA-seq分析,以探究ROCK抑制剂增强吞噬功能的分子机制。

图2. Robin为干性AMD生成治疗候选假说并分析体外实验数据。Robin提出RPE吞噬增强实验策略,并通过Finch自主完成流式细胞术数据分析。
从药物到靶点:Finch的自主RNA-seq分析
Robin建议对Y-27632处理的RPE细胞进行RNA测序。Finch自主完成了差异基因表达分析,揭示了令人兴奋的发现:ABCA1——一个关键的脂质外排泵——在Y-27632处理后上调了3倍(校正p值=2.13×10⁻⁸³)。
这个发现绝非偶然。ABCA1与ABCA4同属一个转运蛋白家族——ABCA4正是黄斑变性中已被确认的治疗靶点。ABCA1负责将胆固醇和磷脂从细胞膜主动转运到受体蛋白,而其脂质受体Apo-E也被认为是dAMD的潜在治疗靶点。这意味着Robin不仅发现了有效的药物,还顺藤摸瓜揭示了全新的分子靶点。

图3. Finch自主完成的Y-27632处理ARPE-19细胞的RNA-seq分析。火山图展示差异表达基因;共识分析显示Finch在超50%分析轨迹中识别出相同基因;GO富集分析揭示肌动蛋白调控与自噬通路变化。
药物重定位:Ripasudil——从青光眼到黄斑变性
基于第一轮实验结果,Robin进行了第二轮迭代,提出了包括Ripasudil在内的10个新候选药物。Ripasudil是一种在日本已获批用于治疗青光眼的ROCK抑制剂——从未有人提出将其用于干性AMD。
Finch的数据分析显示,Ripasudil使RPE细胞吞噬活性相比DMSO对照组提高了7.5倍,甚至优于Y-27632。Ripasudil已有的安全性数据和眼科临床使用经验,使其成为一个极具前景的快速转化候选。

图4. Ripasudil显著增强RPE吞噬功能。Robin基于首轮实验结果提出Ripasudil候选,流式细胞术分析显示其增强效果优于Y-27632。
关键技术细节
• LLM裁判排序:使用Anthropic Claude 3.7 Sonnet进行假说的配对比较,采用Bradley-Terry-Luce模型计算排名,与专家评分高度一致(Top10重合度7.25/10)
• 共识分析:Finch同时启动10条分析轨迹,通过元分析综合结论,在超50%轨迹中一致识别的差异基因被视为可靠发现
• 幻觉防护:使用专门文献检索工具Crow/Falcon,当换用OpenAI o4-mini替代Crow时,幻觉引用率从0%飙升至45%
• 裁判一致性:LLM裁判在相同比较中选择一致的比例为88%,高于人类专家的61%
意义与展望
Robin的意义远不止于发现了一个药物重定位候选。它标志着AI驱动的科学发现进入了一个新范式——从被动的辅助工具,变成能够主动提出假说、设计验证方案、解读实验数据的「AI科学家」。
当前FDA每年批准的新药仅有约50种,而传统药物研发周期长达10年以上。Robin所代表的自动化发现模式,有望从根本上升速这一过程。论文还展示了Robin为10种其他疾病生成假说的能力,暗示其通用性远超单一疾病。
当然,Robin也有局限:它还不能生成精确可执行的实验方案,Finch的数据分析仍依赖领域专家的提示工程,且系统的可靠性还有待在更多疾病和更大规模实验中验证。但方向已经无比清晰——AI不再是科学家的工具,而是科学家的同事。
一图总结
🔬 Robin = Crow(快搜)+ Falcon(深研)+ Finch(分析)
💊 目标疾病:干性AMD → 策略:增强RPE吞噬 → 药物:Ripasudil(7.5倍提升)
🧬 新靶点:ABCA1上调3倍 → 连接ABCA4与Apo-E治疗通路
⚡ 核心突破:首个在迭代实验闭环中自主发现并验证新治疗候选的AI系统
同日重磅
Google DeepMind同日在Nature发表了Co-Scientist论文(DOI: 10.1038/s41586-026-10644-y),同样采用多智能体架构,基于Gemini构建「想法锦标赛」假说演化系统,已在肝纤维化药物重定位、抗菌耐药机制等方面得到实验验证。两篇论文共同标志着AI科学家从概念走向现实。
参考文献
1. Ghareeb AE, Chang B, Mitchener L, et al. A multi-agent system for automating scientific discovery. Nature, 2026. DOI: 10.1038/s41586-026-10652-y
2. Gottweis J, Weng WH, Daryin A, et al. Accelerating scientific discovery with Co-Scientist. Nature, 2026. DOI: 10.1038/s41586-026-10644-y
3. Skarlinski MD, et al. Language agents achieve superhuman synthesis of scientific knowledge. arXiv:2409.13740, 2024.
4. Mitchener L, et al. BixBench: A comprehensive benchmark for LLM-based agents in computational biology, 2025.
夜雨聆风