Nature正刊:AI多智能体系统Robin:为干性黄斑变性挖出老药新用,从读文献到跑实验闭环

干性年龄相关性黄斑变性，是发达国家老年人不可逆致盲的首位原因。美国目前约有150万人因它面临视力威胁，约60万人已因AMD达到法定盲；随着人口老龄化，这一疾病负担到2050年预计还将增至近三倍。可临床上至今没有真正有效的靶向药。老药新用本是一条捷径，却高度依赖人去翻文献、提假设、做体外筛选。要在海量、彼此割裂的文献里，发现某个疾病机制和某个现成药物之间不显眼的联系，时间成本很高。2026年发表在《Nature》上的一项工作给出了新解法：由FutureHouse团队开发的多智能体系统Robin。它不只会自己读文献、生成治疗假设，还能直接接手实验室跑出来的真实数据做分析，再根据结果反过来修正下一轮假设。文献猜想到实验验证的这段路，被它明显缩短了。

01 /研究概览

这套系统让多个各管一摊的语言智能体协同起来，把从文献综合、生成治疗假设，一直到分析真实实验数据的整条链路跑通，并最终筛出能明显增强视网膜色素上皮细胞吞噬功能的已上市药物。

吞吐量很可观。一次完整运行，约30分钟就读完并综合了551篇专业文献。同样的活儿换人来干，按公开的科研耗时基准估算，整个文献检索、假设构思、实验设计到生物信息学分析的认知环节，相当于一位科研人员要投入数百小时；论文据此估算，效率提升约200倍。更关键的是它能直接对接实验室仪器的输出，处理的不只是文字，还包括流式细胞术的FCS原始文件和RNA测序的基因表达计数矩阵。

现有医学AI已经很有很多相关写作工具，而这套系统的优势在于真正闭上了实验这个环（这也是为什么能发nature的原因）。眼下多数医学大模型或垂直预测工具是开环的，只做单一辅助任务：有的只管检索文献，有的只根据分子结构预测药代动力学和毒性，最后都停在电脑里生成一堆理论假设。Robin往前多走了几步。它先提出生物学假设，再给出人能照着做的体外实验方案；实验跑完，它接手原始数据做生物信息学和统计分析，从客观结果里读出新的线索，再自动改写下一轮的药物候选清单。提假设、上实验台验证、回头修假设，这个循环是它和纯文本工具最大的不同。

02 /核心创新

把文献工作拆成两个智能体，像科室分工那样各管一段

系统底层放弃了用一个超大模型包打天下的思路。负责文献的部分，被拆成两个独立的智能体：一个做轻量、大范围的检索筛选，另一个对筛出来的文献做深度的机制提炼和报告撰写。

没人指望一个人从翻既往病历到最终拍板全包。住院医先把无关信息筛掉，主治和影像科医师再就关键问题深入推演。让一个大模型同时兼顾海量文献的广撒网和核心文献的深推理，它的注意力会被大量无关上下文稀释，幻觉和逻辑断裂就跟着来了。把粗筛和精读分开，正是为了避开这一点。

Figure 1：Robin系统架构与工作流

图1：Robin系统的架构与工作流。输入目标疾病名称后，系统在"假设生成"与"实验分析"两个模块间循环：Crow做轻量检索、Falcon做深度综合、Finch负责实验数据分析，三者协同推动一轮轮的假设生成与验证。

分工到底有没有用，对照实验给了答案。研究团队把负责文献检索的智能体换成一个普通通用大模型来生成方案。在体外实验方案的引用核查里，普通大模型给出的参考文献有44.5%是凭空编造、现实中查无此文的；而保留专门检索智能体时，这个编造率是0。

原文还点出一处巧思：生成药物清单时，即便前面的粗筛环节带进了几条不靠谱的引用，后面负责深度综合的智能体会在最终报告里把它们一一纠掉。这层把关是单一通用模型给不了的。

会随数据现写代码的分析引擎

专职做生物信息学分析的智能体，工作方式有点特别：它在标准化的隔离环境里，根据当下读到的数据分布，一行行现写、现跑包含生物信息学统计包的代码，而不依赖任何预先写死的脚本模板。

为什么不用固定流水线？生物数据天生带噪声、带不确定性。流式里细胞亚群怎么圈门，转录组里差异基因卡哪个阈值，都得看具体批次的数据分布临场调整。这和ICU里调血管活性药很像：不能照着指南上的固定数字给，得盯着病人当下的血压、肝肾功能和代谢反应一点点滴定。写死的脚本，应付不了这种生物学变异。

放到具体任务上看，效果立得住。在系统预设的工作流里，这个分析引擎处理干性黄斑变性第二轮筛选的RNA测序任务时，符合专家评分标准的程度达到86%，流式细胞术分析更是做到100%。为了压住大模型自身输出的随机性，系统会同时开8条并行的分析轨迹，各自独立地去试不同的过滤和检验路径，最后用元分析取各条轨迹的共识结论。八条路走下来取交集，给到研究者的结果就稳得多，也更经得起重复。

Figure 2：流式细胞术分析全过程

图2：数据分析智能体自主完成的流式细胞术分析。从散点图剔除细胞碎片、识别单个细胞、用特定通道排除死细胞，最后给出各候选药物相对对照组的荧光强度倍数变化。

靠两两对决给治疗假设排序

文献挖出几十个候选分子后，系统得决定先把哪几个送进昂贵的实验室筛选。它用了一个基于Bradley-Terry排序模型的裁判智能体，让候选药物两两捉对、反复对决，再据此排出优先级。

这套打法有它的好处。一堆潜力相近的分子摆在面前，让模型直接给每个打绝对分，它很难捕捉分子间细微的药理优劣。两两放一起比，谁更适合就一目了然，这和临床方案讨论里把两个方案摆上桌逐对PK、再淘汰是一个意思。分布式的捉对锦标赛还顺带消掉了一个麻烦：药物在提示词里排序不同带来的位置偏倚。

数据上，这个裁判相当稳。给它完全相同的比较任务，它做出一致裁决的比例是88%，而人类专家的内部一致性只有61%。和资深专家的偏好比，它选出的前十名候选里，平均有7.25个落进了专家的前十名，远高于随机水平。在专业判断这件事上，它的排序值得信。

03 /关键结果

这项工作没有停在框架层面。它真刀真枪做了一轮干性黄斑变性的药物筛选，跑出了有信息增量的数据。干性黄斑变性的一个病理核心，是视网膜色素上皮细胞随年龄增长，逐渐吞不动、清不掉光感受器外段的代谢废物。所以系统通过文献梳理，把突破口准确锁定在增强这层细胞的吞噬功能上。成本也压得很低：单次基础运行约10美元。

接下来是几轮真实实验的迭代。值得一提的是，系统原本建议用更接近真实人体的原代或干细胞来源RPE细胞；研究者首轮为了加快进度，先用了常用的ARPE-19细胞系做初筛。第一轮就确认了既往文献提到的ROCK激酶抑制剂Y-27632能明显提升RPE吞噬能力。拿到流式原始数据后，系统主动提议加做转录组测序，去挖背后的分子机制。综合测序结果，它在第二轮假设里推出了同靶点、已在日本获批治青光眼的Ripasudil。分析显示，Ripasudil在体外表现更亮眼。

对照基线	实验干预组	吞噬功能提升表现
DMSO对照组	Ripasudil处理组	显著提升约1.89倍
DMSO对照组	Y-27632处理组	同样提升，但效价低于Ripasudil

效价上也分得出高下。剂量响应曲线显示，在常用的ARPE-19细胞系里，Ripasudil的效价约为Y-27632的2.5倍。为验证转化潜力，研究者又用一位60岁以上老年供体的原代RPE细胞做了复核。这种原代模型更贴近真实的人类衰老状态，保留了极性屏障功能和经典色素上皮标志物。在这套更高级别的模型里，Ripasudil和Y-27632同样是有效命中，Ripasudil依旧更强效；连昼夜节律调节剂KL001也被确认有效。安全性方面，细胞上清的乳酸脱氢酶检测，未见随Ripasudil剂量上升的细胞毒性信号。

Figure 4：Ripasudil与KL001在原代RPE中的验证

图4：Ripasudil与KL001在原代人体RPE细胞中的吞噬增强验证，并附Ripasudil与Y-27632的剂量响应曲线，可见Ripasudil在较低浓度下即可诱导较强的吞噬反应。

更有学术价值的，是系统从它自己提议、又自己分析的转录组数据里，翻出了一条以前没被充分重视的通路。过去一般认为，ROCK抑制剂主要靠调节肌动蛋白的聚合解聚这类转录后修饰，改变细胞骨架的机械张力来促成吞噬杯形成。但这次的差异基因表达分析显示，吞噬发生的同时，细胞还伴随着快速的转录层面变化。

对照基线	关键差异表达基因	表达变化幅度
未处理野生型细胞	ABCA1	显著上调约3倍

Figure 3：RNA测序火山图与ABCA1上调

图3：对Y-27632处理的RPE细胞做RNA测序的分析结果。火山图标出了差异表达基因，其中ABCA1显著上调；右侧为差异基因的功能富集，集中在肌动蛋白组织、小GTP酶信号和自噬等通路。

其中一条线索很关键。ABCA1是细胞里负责把胆固醇和磷脂主动转运到质膜外的脂质外排泵，是维持脂质稳态的枢纽。顺着文献再查下去：载脂蛋白E是ABCA1的脂质接受体，而它本身就是干性黄斑变性里被反复报道的遗传易感等位基因。系统从实验数据里抓出的这个上调现象，等于把细胞骨架重塑和脂质代谢异常这两套机制，在分子层面连到了一起，为后续的疾病干预提供了一个新的靶点假设。

另一个意外收获是KL001。它本是一种昼夜节律调节剂，靠阻止生物钟核心蛋白CRY的降解来调节生物钟。系统的依据是一个基础生理学常识：RPE的吞噬活动本就受昼夜节律严格调控。据此，它把KL001引进了黄斑变性的治疗视野，并在原代细胞里被确认为有效命中。这个方向，完全在现有眼科药物研发的常规路径之外。

04 /延伸讨论

研究带来的新方向

从方法学看，这项工作验证了"组合式发现"在老药新用里的价值。如今的医学知识越来越碎、越来越孤岛化：青光眼的神经保护文献和黄斑变性的吞噬清除文献，常年待在彼此不相往来的专科圈子里。传统药物发现依赖单一领域的深耕，而这套系统能跳出人类专家的学科盲区，在海量、分散的跨学科文献里找到那些不显眼的关联，再把已经验证过临床安全性的成熟药物，平移到全新的适应症上。

和单纯的通用大模型比，专攻实验闭环的系统优势很明显。研究者把同一套药物生成提示词，喂给了当时先进的通用研究智能体OpenAI Deep Research。它也给出了17个有依据的候选药物，但在原代细胞的真实验证里，这17个无一命中；而且它压根没从文献里挖出ROCK抑制剂这一核心类别。这说明在严谨的转化医学里，要跨过"看着合理"到"真的有效"之间那道坎，得靠能强制执行实验约束、又深度整合专业生物信息学工具链的垂直系统。这种"跨学科机制串联加实验室反馈"的范式，不止用于眼科，也能平移到肿瘤、免疫和罕见病这些同样需要大量线索挖掘和快速验证的方向。

还有一点对做产品的同行有参考意义：Robin对底层模型并不挑。这一版用OpenAI的o4-mini负责文献综合与假设生成，用Anthropic的Claude 3.7 Sonnet充当裁判，而裁判的评判标准是先让专家做两两比较、再交给Google的Gemini 2.5 Pro提炼成提示词。模型可换，意味着它会随着基础大模型的进步自然变强。

存在的局限性

专职分析的智能体在系统给好的标准工作流里表现亮眼，可一旦抽掉针对具体任务的引导提示，让它处理复杂、多步的泛化任务就吃力了。在一套170道题的专业基准里，它做结构整洁的单步生物统计计算能拿47.9%，可面对参数敏感、管线繁杂的综合生物信息学任务，准确率掉到15.3%。也就是说，它目前仍高度依赖领域专家把提示词调好，还离不开人在前面搭逻辑。补一句公平话：哪怕只有这个水平，配上"工具加执行"的智能体外壳后，它的整体成绩也有22.8%，而同款大模型裸跑只有1.6%，差距摆在那里。
实验室自动化这头也有断点。系统能给出详细的实验原理、药物浓度建议和分析代码，但还输不出能让自动化加样机器人直接执行的底层控制协议。真到操作环节，细胞培养、药物配制、微孔板加样、上机，还得靠人在超净台上一步步做。它大幅提升的是脑力活，体力活这段仍是人机协作。
考虑到这类系统可能生成危险的生物学方案，架构里加了护栏：内置分类器筛查所有查询是否触及不安全主题，并优先推荐安全特征已知的现有药物。"实验室在环"本身也是一道屏障，凡是算法生成的分子假设，都得先过标准的体外细胞毒性和体内安全测试，才有资格进入临床转化的视野。

离临床还有多远

虽然从培养皿里挑出一个更强效的重定位化合物到真正改写干性黄斑变性的临床诊疗规范中间还隔着相当长的论证路。Ripasudil在二维细胞系和原代细胞里的好表现，只完成了新药管线最前面的概念验证。要证明它在活体上同样能逆转或延缓病程，还得在视网膜变性动物模型里做长期的药代和药效评估，再走大规模随机双盲安慰剂对照试验，拿到确凿的循证证据。

但是它把靶点发现、文献调研和先导化合物筛选里最耗时的认知环节，从相当于数百小时的人力，压进了两小时以内的迭代循环。过去十年，美国FDA每年批准的新药数量长期停在50种上下，传统研发模式的投入产出比越来越紧。这套把假设生成和数据分析接到一起的系统，给日渐枯竭的研发管线，提供了一条看得见、也用得上的提速路径。

05 /个人观点

Robin的本事，是把已有知识重新组合。ROCK抑制剂能促进RPE吞噬，这个机制其实早写在文献里。Robin做的，是把分散在青光眼、视网膜、脂质代谢这些不同专科、本就各自成立、却没人连起来的线索接上。可以说它是一台超人级的文献综合与连线引擎。这是它最可靠的地方，证据都能回溯到已发表的研究；也划出了它的天花板：一个问题的答案若根本没在文献里留下线索，它就够不着。所以"AI发现新药"这个说法，更贴切的版本是，AI替我们读完了读不完的文献，再把那些被学科墙挡住的连线指出来。

也正因如此，这次概念验证的成色，得放在具体语境里看。它跑在了一个作者的主场上：Robin"重新发现"的RPE吞噬与ROCK机制，相当一部分正是本文资深作者Finnemann实验室过去已经发表的工作。在一个团队早就知道答案的领域里命中答案，结果可信，但"盲发现"的分量要打个折，能不能推广到真正没人知道答案的问题，论文还没给出答案。另有两处也值得留个心眼：一是用来考核分析智能体的BixBench基准，由同一拨人自己搭建；二是方法部分有一句很坦诚的交代，他们发现Robin几乎总按相同顺序调用工具、流程趋于固定，于是干脆把它改写成了一条固定的Jupyter流水线。换句话说，最终落地的"Robin"更接近一条结构化的分析管线，离"自由决策的自主智能体"还有距离。

这篇能登上Nature，靠的是那套闭环能力本身。Ripasudil的体外信号其实相当温和，约1.89倍、每组只有3到4个孔；dAMD这条线，更像是用来演示这套能力的一个载体。把它读成"AI找到了一个治黄斑变性的好药"，会高估这个药；读成"AI第一次把假设生成和真实实验数据分析接成了一个闭环"，才贴近它真正的贡献。这也是我们前面把临床距离讲得那么保守的原因。

原文出处：Ghareeb, A.E., Chang, B., Mitchener, L. et al. A multi-agent system for automating scientific discovery. Nature (2026). https://doi.org/10.1038/s41586-026-10652-y

— END —

我们手上有个AI+医疗的行业小群,里面是创业者、临床医生、医药企器械这些真在一线做AI临床落地的人。群里更实在的是线下,我们差不多每两周就会攒一次小局,十来个人围一桌,喝咖啡吃点心,聊各自在做什么、卡在哪。线上没赶上的,线下能补回来。

另外还有个偏科研向的群,想去的可以一起跟我说。

备注你的方向,我看到回你。