让 AI 自主写出专家级科研代码,单细胞整合与 COVID 预测双双超越人类基线|谷歌 DeepMind / Brenner 团队 Nature 新作

做临床研究的人多半有过这种经历。手里有一批数据，脑子里有个想法，可光是把分析代码写出来、调通、再反复优化，就能耗掉好几个月。真正用来想科学问题的时间被写代码挤没了。2026 年 5 月，谷歌 DeepMind 和谷歌研究院的团队在《Nature》上发表了一项工作。他们做了一套系统，能根据你定好的评分标准，自己写代码、自己跑、自己改，一步步把分数往上提。值得一看的地方在于：在单细胞数据整合、新冠住院人数预测这些医学研究里很常见的计算任务上，它自己琢磨出来的算法，在多个公开评测里跑赢了顶尖人类专家手工搭的方案。

01 /推文概览

研究把大模型和一种叫树搜索的策略接在一起，AI 就能自己生成、评估、反复改写复杂的科研分析代码。过去要花几个月才能搭好的定制工具，被压缩到几天，甚至几小时。

医学和公共卫生研究里，很多分析工具有个共同点：它的好坏可以用一个明确的分数来衡量。生物现象和疫情变化太复杂，没办法靠一条干净的数学公式直接算出来。研究者只能用代码把模型搭起来，再拿大量真实数据反复试、反复调参数，看哪一版分数更高。这套系统针对的就是这类活儿。

测试的数据跨度很大。基因组学这边，处理的是一百七十多万个单细胞的转录组数据，维度高，又非常稀疏。流行病学这边，分析的是全美五十二个州和地区好几年的住院时间序列，上报有滞后，噪音也多。除此之外，还做了斑马鱼全脑七万多个神经元的活动预测、卫星影像的地理分割，以及通用的时间序列预测。

它和大家平时印象里的 AI 写代码不太一样。平时多半是你给一句话，它给你一段代码，一次性交付。这套系统不止于此。它能读懂医学评测的打分规则，把生成的代码丢进一个隔离的运行环境里自动跑，提取出像批次校正效果、区间预测准不准这样的客观分数，再照着分数自己改代码。它会不断长出新的代码版本，像一棵树一样越分越多，最后在大量候选里挑出表现最好的那一版。

图 1a

图注：系统的总体工作流。把一个可打分的任务和相关研究思路一起喂给大模型，生成初始代码后丢进计算沙盒里跑分，再用树搜索不断扩大候选方案树，最终输出高分的科研代码。

02 /两个底层设计

它能在这么多专业领域都拿到好成绩，主要靠两个底层设计。

第一个：用树搜索来探索代码的各种可能

普通大模型写复杂算法，常见打法要么写一版就交，要么一口气生成上千版再挑最好的。问题是，这种打法很容易在某个瓶颈上卡住。一段核心逻辑只要差了一点，后面整个程序的输出就全废了。研究团队借用了下棋 AI 里常用的树搜索：系统每写出一版代码，先在隔离环境里跑一遍、打个分，再决定下一步从哪个版本接着改。所有历史版本都留着，这条路走死了，就退回去从另一个分支重来。

挑下一步改哪一版，系统不靠瞎猜。它会给每个版本算一个分，既看这个版本现在分高不高，也看它被试过几次、还有没有挖掘空间。那些被试得少、又可能有潜力的版本，会被优先探索。

这套思路，临床上其实很熟悉。面对一个还没摸清的耐药菌感染，医生不会认准一个方案一条道走到黑。每天看炎症指标、体温、脏器灌注的变化，在几套备选里动态调整。这一组联合用药把肝肾指标拖坏了，就赶紧退回来，换一条副作用更小、又有希望的路。这套系统也是这么干，把代码在运行环境里的得分当成"体征"盯着，不停地试，不停地回退，不停地长出新分支。

这么设计的直接好处是，系统不再被单次生成的上限卡住。研究团队先拿了 16 项机器学习竞赛任务来打磨这套系统。综合测试里，树搜索写出来的代码，明显好过单纯多调用几次大模型的做法。搜索过程中，系统还能抓住那些让分数突然跳一大截的关键改动，一小步一小步攒下来，最后搭出比一开始设想的强得多的算法。

图 1b

图注：在 16 项竞赛任务上，几种代码生成方式的公开榜单百分位对比。从左到右依次是单次生成、从一千次里挑最优、AIDE，以及树搜索的几个版本。树搜索明显高出一截。

第二个：把文献思路喂进去，再做交叉重组

光让系统自己瞎调代码语法，效率还是不够高。真实的科研创新，很多时候是研究者读了不同领域的文献，把里头的核心机理拎出来、互相嫁接。系统模仿的就是这个动作。它先用大模型把顶级期刊里各种基准算法的原理读一遍、总结好，再把这些思路翻译成具体的写代码指令。

换个临床场景就好懂了。大医院的多学科会诊上，心内科的抗凝策略和神经外科的防出血原则，机制上常常打架。但有经验的会诊团队能把两边的核心原则各取一块，给合并症复杂的病人拼出一条全新的个体化方案。这套系统也能这么干。它不光能照着一篇文献把原方法复现出来，还能把两个看着八竿子打不着的算法逻辑，缝到一起。

重组出来的混合算法，表现常常超出预期。在单细胞数据整合任务上，系统把 11 种不同的基线算法两两配对，做了 55 种重组。每次都让大模型先分析两个"母本"各自的长短处，再取精华做杂交。结果是，这 55 种新算法里，有 44% 在客观评分上同时压过了它借鉴的那两个原始算法。更有意思的是，最后跑赢现有榜单的方法来源很杂：有的来自文献复现，有的来自重组，还有一部分思路根本没看文献，是大模型自己生成的。

03 /关键结果

这套系统的本事，在好几个严格的医学和科研计算基准上都验证过。下面挑单细胞和全美流行病预测这两块讲。

单细胞数据的批次效应校正

在单细胞层面看人体组织，是现在发现新细胞类型、推断基因调控网络、找治疗靶点的核心手段。但有个老大难问题：来自不同实验室、不同测序平台的数据要合在一起分析时，平台差异会带进明显的技术性批次效应。校正这事很难拿捏。手太重，真实存在的罕见细胞亚群信号会被一起抹掉。手太轻，又会冒出一堆根本不存在的假聚类。

这个领域有个公认的公开评测平台，标尺定得很严。算法要在六个涵盖人和小鼠的大型独立数据集上跑，输出 13 项指标，综合看它在保住生物学差异和去掉技术噪音之间平衡得怎么样。为了防止系统在测试集上过拟合，研究团队专门另找了两万个细胞的子集让它演化代码、调参数，最后拿到一百七十多万个细胞的盲测集上验真本事。

数据上，系统自己摸索出了 40 种全新的整合方法。它们在核心盲测集上的综合表现，整体超过了这个公开榜单上现有的、人类专家多年打磨出来的顶级算法。其中最亮眼的，是一个经过树搜索优化的 BBKNN 版本。

这个版本拿高分的路子挺有启发。常规做法是直接在主成分空间里找近邻。这个版本多走了一步：先借用另一种经典算法 ComBat 的全局降噪思路，把高维主成分里的全局线性技术差异先抹平，再在这个已经初步去噪的空间里搭出局部的批次平衡近邻网络。两步合在一起，既校准了全局，又平滑了局部。专家逐行审查也确认，这些机器写的脚本确实照着预设逻辑在跑，没出常识性的低级错误。

几个能核实的数字摆在这。这个树搜索版 BBKNN，综合得分比此前最好的已发表方法高出约 14%。在 13 项指标里，它有 11 项追平或超过了已发表的 BBKNN。把系统产出的所有方法算总账，87 种里有 40 种超过了榜单上已发表的全部方法。

可核实的结果	数值
树搜索版 BBKNN 综合得分相对此前最佳已发表方法的提升	约 14%
树搜索版 BBKNN 在 13 项指标中追平或超过已发表版本的项数	11 / 13
系统产出方法中超过现有榜单全部已发表方法的数量	40 / 87

图 2d

图注：单细胞批次整合任务上，各种方法的综合得分排序。系统产出的方法占据了榜单前列，其中既有基线复现、也有重组和大模型生成的思路。

全美新冠住院人数预测

公共卫生决策和医疗资源调配，很依赖对疫情趋势的提前预判。美国疾控中心牵头建了一个权威预测平台，要求各团队用带滞后、带噪音的实时上报数据，每周提交全美五十二个州和地区未来四周的住院人数预测。光给个数还不够，得给出覆盖 23 个分位数的概率范围。官方用一个叫加权区间得分的指标打分，它既罚预测中位数偏得离谱，也罚那种把范围估得过窄、过于自信的预测。分越低，说明又准、对不确定性的把握又好。

长期占据领先的几类模型，有基于历史气候均值的简单基线，有统计学的自回归时序模型，也有梯度提升这类机器学习模型。疾控中心把所有顶尖团队的结果整合成一个官方集成模型，这个集成一直被当成美国流行病预测里很难撼动的标杆。

在这么个高手云集、噪音又多的环境里，研究团队做了一个严谨的回溯实验。系统拿 2024 到 2025 年度的真实历史数据，用六周一滑的验证窗口持续演化代码。结果是，它不仅复现出了多数公开的人类专家基线，还自动造出了 14 种能稳定压过疾控中心官方集成的全新预测架构。

它能突破的关键，在树搜索自己摸出来的一条杂交规律：把历史气候均值模型和现代统计模型深度融合。气候均值给出一个基于常年季节规律的稳底盘，免得模型一遇到局部数据暴涨或者节假日迟报就反应过激。在这个稳底盘上，再叠一个高灵敏的自回归组件，专门盯着突发聚集性感染带来的短期异常。一个管长期大势，一个管短期突变，正好互补。

预测方案	平均加权区间得分	说明
CDC 官方集成模型	29	整合全美数十个顶尖团队结果的官方标杆
最优回溯生成混合模型	26	季节性底盘与短期波动捕捉之间的平衡解

注：得分越低越好。除最优混合模型外，系统另有 14 种架构稳定优于官方集成。

图 3

图注：各团队逐周预测表现的对比热力图。蓝色表示比官方集成更准，红色表示更差。系统的回溯模型大面积偏蓝。

除了这两块重头，系统的泛化能力在另外三个领域也得到了验证。神经科学这边，它写的代码能预测斑马鱼全脑七万多个神经元的活动。地理空间这边，它自动写出了给卫星影像做多标签语义分割的脚本。通用时间序列这边，它干脆从最基础的数学库起步，丢开所有现成的时序软件包，跑了上千轮树搜索，自己攒出一套带八套预设配置的统一预测代码库。这套库能自动剥离数据里的假期效应、趋势和周期噪音，在 97 个完全不同的时间序列数据集上都拿到了顶尖水平。

04 /延伸讨论

它打开的新方向

科研基础设施这一层，传统流程里，搭底层数据清洗管道、调神经网络超参数、写一堆评估脚本，往往得靠有深厚编程功底的生物信息学家耗大量精力。有了这套自动搜索的系统，临床科研人员有机会从这些繁琐的工程实现里抽身出来。

往后临床科研的分工可能会变。临床医生把精力放在提出有临床价值的假设、定义清楚什么样的数据算好、指出哪个方向的文献最值得参考。剩下那些枯燥又庞大的算法推演、特征工程和代码落地，交给系统去跑。门槛因此压低了不少。以前一个跨学科团队要协作几个月才能跑通的验证管道，现在可能几天、甚至几个小时就能拿到一份靠谱的数值反馈。

还有个细节：研究者用了五种不同的大模型来驱动这套系统，说明它不挑模型。同时也能看出来，模型越强，在简单任务上单靠它一次生成就已经很好，树搜索的价值更多落在难任务上。也就是说，大模型基础能力越往上走，这套系统能搭出来的代码上限也会跟着抬高。

局限性

在多个基准上拿了好成绩，不代表它没有短板。这些短板是工程设计和算法原理决定的。

第一个是算力消耗和数据取舍之间的矛盾。做单细胞算法寻优时，每变异一次代码，都得在隔离环境里完整跑一遍训练和推理。为了不让搜索拖太久，系统在工程上做了妥协，只截取两万个细胞的缩小样本来演化和评估代码。这么做搜索是快了，代价是它在打磨代码逻辑时，可能漏掉那些只有在上百万级全量数据、罕见细胞充分暴露时才会触发的细微生物学反馈。

第二个是它不懂因果。这套系统本质上是个死盯着分数往上爬的优化器。它靠算相关性、算残差，找到了让分数变高的数据处理组合，但它并不真的理解疾病怎么发生、细胞通路谁因谁果、药物分子之间在物理化学上如何相互作用。

这就埋了个隐患。如果你定的评分指标本身有缺陷、没能完整反映临床现实，系统很可能造出一个数值上完美贴合、生物学上却站不住脚的假模型。这种纯靠经验试错堆出来的代码，替代不了科学家基于理论推导去做的机制探索。

原文出处：Aygün, E., Belyaeva, A., Comanici, G. et al. An AI system to help scientists write expert-level empirical software. Nature (2026).

— END —

我们手上有个AI+医疗的行业小群,里面是创业者、临床医生、医药企器械这些真在一线做AI临床落地的人。群里更实在的是线下,我们差不多每两周就会攒一次小局,十来个人围一桌,喝咖啡吃点心,聊各自在做什么、卡在哪。线上没赶上的,线下能补回来。

另外还有个偏科研向的群,想去的可以一起跟我说。