大家好,我是吃瓜群众。
你开过学术组会吗?
老板提一个问题——"这个白血病为什么耐药?"——然后实验室所有人轮番上去讲自己的假说。有人觉得是某个激酶被过度活化了,有人怀疑是表观遗传重编程,有人甚至会觉得是代谢通路的问题。
讲完之后,互相质疑,互相攻击。活下来的假说拿去做实验验证。
但如果我告诉你:Google DeepMind造了六个AI智能体,让它们像博士后一样吵了一架——吵完之后,不仅提出了一个没人想过的AML候选药物,还在体外实验中验证有效。你怎么看?
2026年5月19日,《自然》(Nature)刊登了Google DeepMind的一篇论文:《Accelerating scientific discovery with Co-Scientist》(用Co-Scientist加速科学发现)。
同一天Nature还登了另一篇论文——FutureHouse的Robin。两者路径完全不同,但指向同一个终点。
Robin像一个"实验助理"——帮忙读文献、分析数据、跑代码。而Co-Scientist更像一个"学术导师"——它的独特之处,在于不会直接给你答案,而是逼着一群AI吵架,吵出最好的假说。
这不是科幻。
一、六个AI开会——Co-Scientist的「吵架车间」
Co-Scientist不是一个模型,而是六个专业智能体组成的"虚拟研究团队"。每个智能体各司其职:

六个人围着圆桌吵。每一次辩论都在刷Elo分。分数低的淘汰,分数高的进化。这个循环叫做"生成→辩论→进化"(Generate → Debate → Evolve)。
最让人震撼的是:测试时使用的算力越多,Co-Scientist的Elo评分就越高——而且没有观察到性能饱和。
在203个科学目标上,它的假说质量显著超过了Gemini 2.0 Pro、OpenAI o1、OpenAI o3-mini-high和DeepSeek R1。在15个专家级高难度问题上,盲评结果(新颖性、潜在影响力、总体偏好)全维度胜出。
二、KIRA6的诞生——AI吵出了一个没人想过的白血病候选药
最震撼的验证来自急性髓系白血病(AML)。
Co-Scientist被要求从2,300种已获批药物中,找出可能对AML有效的"老药新用"候选。
第一轮筛出的5个药物都在体外实验中抑制了AML细胞生长。其中Binimetinib(MEK1/2抑制剂)在多个AML细胞系中IC₅₀低至2nM。Pacritinib(JAK2抑制剂)和Cerivastatin(他汀类降脂药)同样验证有效。
但真正的惊喜不在这5个里面。
在后面的几轮辩论和进化中,Co-Scientist自主提出了一个叫KIRA6的分子。KIRA6是一种IRE1α抑制剂——IRE1α是一个内质网应激传感器,它能被"AI团队"看中,说明Co-Scientist在文献里自己连出了"内质网应激→AML存活"这条线。
在KG-1a白血病细胞中,KIRA6的IC₅₀仅为10nM——而对正常TK6细胞的IC₅₀是180nM。18倍的治疗窗口。
Co-Scientist还设计了几组联合用药方案:JNJ-64619178 + Selinexor的CI值小于1,JQ1 + Olaparib + MSA2三联方案也验证有协同效应。
从任务定义到候选药物出单,不到4小时。人工等价流程——数天到数周。
更关键的是:KIRA6不是人类科学家"提示"出来的,是AI自己"吵"出来的。 这种涌现式的跨领域连接——把内质网应激和白血病存活连在一起——恰恰是人类专家因为学科分科而容易忽略的。
三、两天,单独重现了科学家近十年的未发表发现
AML还不是Co-Scientist最让人脊背发凉的结果。
在另一个任务里,Co-Scientist被要求解释一个叫cf-PICI的细菌遗传元件的传播机制。这个课题,一支人类团队已经秘密研究了近十年,得出了结论但还没有发表。
Co-Scientist只用了两天。
在没有给出任何已发表文献的情况下,它通过搜索公开数据库和文献,独立推导出了完全相同的机制:cf-PICI通过和不同噬菌体的尾部结构相互作用来扩展宿主范围——从而实现跨物种传播。
这篇人类团队的论文后来发表在《细胞》(Cell)上。也就是说——Co-Scientist在没有看到人类实验数据的前提下,达到了专家级推理水平。
在肝纤维化方向上,同样有惊喜。Co-Scientist提出了三个全新的表观遗传靶点,在人源肝脏类器官中验证:两种药物显著抗纤维化,一种还能促进肝细胞再生。其中Vorinostat已经是FDA批准的上市药物——直接可复用。
还有一个被人类研究者初始漏掉的转录因子靶点,靶向它可以降低约40%的纤维化程度。AI把它捡回来了。
四、从AlphaGo到Co-Scientist——一个机制,两种宇宙
Ranking Agent的Elo锦标赛机制,直接继承自AlphaGo和AlphaStar。
在棋盘上,AlphaGo让两个AI自己下棋,Elo分决定谁更强。经过数百万局自我对弈,它变得比人类冠军更强。
在科学中,Co-Scientist让假说两两辩论,Elo分决定谁更有科学依据。经过多轮生成-辩论-进化,胜出的假说在体外实验中验证有效。
但科学不是围棋。一个假说在辩论中赢了,不一定是真理——可能只是"写得更好"或"包含了更多引用"。
Co-Scientist的论文也坦诚了这个局限:Elo分可能会偏向表面上有说服力的假说,而非真正正确的假说。这也是为什么反思智能体的"深度验证"——把假说拆成子命题、逐一用外部数据核查——是整个系统最关键的纠偏环节。
不过,Nature同一天刊登的Robin和同期的另外两篇DeepMind论文(Empirical Research Assistance、以及Cell上验证的cf-PICI机制),共同指向了同一件事:AI科学发现不再是孤立的demo,而是一个正在被多团队、多路径、多杂志验证的新范式。
五、科学家最需要的,可能不是一个"更聪明的AI",而是一个"敢和他吵的AI"
Co-Scientist出来之后,最值得琢磨的不是它的技术架构,而是它重新定义了"AI辅助科研"的接口。
以前AI科研工具的核心交互模式是"问答"——你问,它答。你问"这个靶点有没有文献?",它给你列表。你问"这个分子的性质如何?",它给你预测。
但真正的科学发现,从来不发生在"一问一答"中。它们发生在质疑、碰撞、反驳、甚至"这个方向不对,我赌另一个"的冒险中。
Co-Scientist的"生成-辩论-进化"循环,就是在模仿这个过程——而且它把"质疑"自动化了。六个智能体互相挑毛病、互相补充、互相进化——这样一个科学家拿到手里的,不再是"一个AI的答案",而是"一个AI团队的辩论纪要"。
Google已经通过labs.google/science向个人研究者开放了Hypothesis Generation工具。这意味着任何一个博士生,都可以用一个"AI研究团队"来辅助自己的课题。
当然,Co-Scientist离不开人类。Nature编辑部的同期评论标题说得很直白——"为什么AI不能在没有人类的情况下做好科学"。实验验证、临床转化、研究目标的定义——这些仍然需要人。
但把"想"的效率提升两个数量级,已经足以改变科研的节奏了。
AI不是答案机器。它是那个在组会上敢跟你拍桌子说"你这个假说有问题"的同事。而正是这种碰撞,才产出了KIRA6——一个人类可能永远不会想到的AML候选药。
参考资料:
Gottweis, J., Weng, W., Daryin, A., Tu, T., et al. (2026). Accelerating scientific discovery with Co-Scientist. Nature. DOI: 10.1038/s41586-026-10644-y.
Nature Editorial. (2026). Why AI cannot do good science without humans. Nature, 653, 650. DOI: 10.1038/d41586-026-01551-3.
我是吃瓜群众,关注我,只吃AI医疗前沿的瓜。
夜雨聆风