AI 如何嵌入科学发现流程

Intro

科学发现的瓶颈正在从“是否能生成答案”转向“是否能把研究过程拆成可验证、可迭代、可计分的工作流”。这三篇 Nature 论文指出，人工智能系统开始嵌入科学方法中的关键环节，包括提出假设、搜索候选方案、写出可运行软件、解释实验数据，并把前一轮结果反馈给下一轮推理。

这组工作覆盖了三条不同路线。

Co-Scientist 侧重科学假设生成，把研究目标、文献证据、专家反馈和测试时计算（test-time compute）结合起来，让候选假设在生成、批判、排序和演化中逐步提高质量。
经验研究助手（Empirical Research Assistance, ERA）把科学软件写作改造成可评分任务，用大型语言模型（large language model）反复改写程序，再用树搜索（tree search）选择值得继续探索的代码分支。
Robin 则把文献检索、治疗假设生成、实验数据分析和下一轮候选提出串成闭环，在干性年龄相关性黄斑变性（dry age-related macular degeneration）中提出并验证了药物再定位线索。

当科学问题能够被拆成候选生成、外部评分、实验或数据反馈几个环节时，多智能体系统已经可以在局部流程中产生接近专家水平、甚至超过既有基线的结果。Co-Scientist 和 Robin 的湿实验验证主要是早期体外证据，ERA 的优势集中在有清晰评分函数的经验软件任务；它们还没有证明人工智能能够独立完成开放科学问题中的理论判断、因果解释和临床转化。

研究1|Co-Scientist

Co-Scientist 的核心问题是让假设在多智能体系统内部经历接近科学共同体的筛选过程。系统接收自然语言研究目标后，由生成、反思、排序、演化、相关性评估和元审阅等专门智能体协作，在持续生成、批判和改写中形成候选假设。

作者用两类证据支撑这个设计。第一类是自动和专家评估：在 203 个研究目标中，随着系统推理时间推进，候选假设的 Elo 评分持续上升；在 15 个专家策划的生物医学难题中，Co-Scientist 经过迭代后超过多种前沿推理模型和专家“最佳猜测”；在 11 个专家评估目标中，它在新颖性和影响力评分上也更受偏好。第二类是实验验证：系统在急性髓系白血病（acute myeloid leukemia）中提出药物再定位候选和联合用药方案，其中 Binimetinib、Pacritinib、Cerivastatin 以及 IRE1α 抑制剂 KIRA6 显示出不同程度的体外活性；它还在肝纤维化和抗微生物耐药机制问题中产生了可实验检验的候选解释。

这项研究对共同问题的贡献在于，它把提出有价值假设，改写成可扩展的候选空间搜索。它没有证明人工智能可以替代专家判断，因为候选选择、实验优先级和临床解释仍有专家参与；但它显示出一个更实际的方向：科学家可以把开放目标交给系统做大规模假设探索，再用实验、领域知识和安全约束筛出值得投入资源的少数候选。

🙋‍♂️最近正在开发类似的构架，在工作流和human-in-the-loop的设计的思路与他们的类似，但是他们的工作流和agent的更细化，其中agent tournaments比较有意思，很多地方是值得借鉴的。

研究2|ERA

ERA 处理的是科学发现中更容易被机器接管的一类任务：存在明确评分函数的经验软件。许多科学工作依赖代码来最大化某个指标，例如单细胞数据整合、流行病预测、时间序列预测、卫星图像分割、神经活动预测和数值积分。传统科研软件往往靠长期经验、局部调参和研究者直觉推进，ERA 则把这个过程改成“生成代码候选、运行评分、保留有前途分支、继续改写”的树搜索。

这个系统的强项不是一次性写出优雅代码，而是能在大规模试错中找到性能跃迁。作者先在 Kaggle Playground 任务上开发系统，再转向多个科学任务。最有代表性的结果来自单细胞测序批次整合：ERA 在 OpenProblems 基准上生成的方案超过既有领先方法，其中一个基于 Batch Balanced K-Nearest Neighbors 的实现通过引入 ComBat 校正后的主成分嵌入，在总体评分上比最佳已发表方法提高 14%，并在多数数据集和指标上达到或超过对应发表方法。更重要的是，系统不是只调超参数，而是通过重组已有方法，把不同算法中的有效结构合并成新的实现。

该图展示 ERA 如何在 OpenProblems 基准中改写和重组既有方法，并在保留生物差异的同时提高批次效应校正表现，是全文最能说明“可评分科学软件搜索”的证据。

ERA 擅长的是有明确验证集、清晰指标和快速运行反馈的任务。它能优化预测模型、数据处理流程和算法实现，却不能直接回答这些模型背后的因果机制是否成立。换言之，ERA 的贡献是把科学工具制造速度提高，而不是自动给出理论解释。

研究3|Robin

Robin 进一步把人工智能系统放入实验科学的循环中。它不是只生成治疗候选，而是把文献检索、疾病机制整理、体外模型选择、候选药物排序、实验数据分析和下一轮候选更新连接起来。系统内部包括负责文献搜索的 Crow 和 Falcon，以及负责实验数据分析的 Finch；在这篇论文中，Robin 被用于寻找干性年龄相关性黄斑变性的潜在治疗方案。

Robin 先分析疾病机制和可用体外模型，最后选择增强视网膜色素上皮（retinal pigment epithelium）吞噬功能作为治疗策略，并提出 30 个候选药物。作者随后测试了前列候选，并把流式细胞术和测序数据交给 Finch 分析。第一轮实验显示 ROCK 抑制剂 Y-27632 能增强吞噬功能，随后 Robin 建议进行 RNA 测序以解释机制；Finch 的差异表达分析发现 ABCA1 上调，这把吞噬增强、脂质外排和黄斑变性风险通路连接起来。下一轮候选中，Robin 提出已在日本用于青光眼治疗的 ROCK 抑制剂 ripasudil，实验显示它比 Y-27632 更能增强吞噬功能；KL001 也在原代人视网膜色素上皮细胞中成为新的命中候选。

该图展示 Robin 如何从第一轮实验和 Finch 分析中提出后续候选，并在 ARPE-19 细胞与原代人视网膜色素上皮细胞中验证 ripasudil 和 KL001 对吞噬功能的增强作用。

作者估计，Robin 在一次工作流中约 30 分钟分析 551 篇论文，相比人工阅读可显著压缩认知劳动；但它并没有取消实验环节，反而更依赖实验结果作为反馈。限制也在这里：体外吞噬增强不能直接等同于临床疗效，Finch 在更复杂生物信息学任务上的准确率仍有限，候选药物最终还需要疾病模型、动物实验和临床试验支撑。

🙋‍♂️所以人类成为了它们现实世界的代理。

小结

人工智能系统已经可以在科学发现的局部流程中承担高强度搜索任务。Co-Scientist 证明假设生成可以通过多智能体辩论和演化提高质量，ERA 证明科研软件可以在自动评分下快速迭代，Robin 证明文献综合、实验分析和下一轮候选提出可以形成半自动闭环。但是，人工智能生成的候选仍需要外部现实检验，专家评估、湿实验、人工复核和临床前验证都是必须的。