AI Agent 时代的药物发现迷局 | AIDD 深度解析
引言:算力可以购买,物理直觉不能
过去一年里,AI-Driven Drug Discovery(AIDD)最时髦的词,已经从”生成式 AI(Generative AI)“换成了”智能体 AI(Agentic AI)”。大语言模型(LLM)开始展现出惊人的推理(Reasoning / Thinking)能力,我们似乎可以把读文献、设计实验、甚至写代码,统统”外包”给 AI Agent。
但这里藏着一个残酷的双关悖论:你可以外包 thinking(让 AI 替你跑逻辑推理与流程调度),却无法外包 understanding。
当我们惊叹于 AstraZeneca 的 ChatInvent 在几分钟内做完人类需要数周的工作时,也必须正视 DO Challenge 基准里那记响亮的耳光:在不限时的开放虚拟筛选测试中,顶尖人类专家的命中率(77.8%)依然对最强多智能体系统(33.5%)形成了降维打击。
为什么?本文将硬核拆解近期 AIDD 的几项重磅进展——从 AstraZeneca 的工业级智能体系统,到打破”非蛋白原子”设计瓶颈的 LigandMPNN——透过算法的华丽外衣,直击其物理化学本质,并探讨在 AI Agent 时代,药物化学家究竟该如何跨越从”会用软件”到”看懂代码”的那道墙。
一、外包出去的 “Thinking”:当 Agentic AI 走进真实的药厂
2026 年初,《Drug Discovery Today》上接连出现两篇分量十足的文章,把”智能体落地”这件事从 PPT 拉进了流水线。值得先把两者分清楚——这本身就是一道 understanding 题:
•一篇来自AstraZeneca的 Molecular AI 团队(He、Lai、Saigiridharan 等),首次披露了已真正部署到内部药物发现流程的工业级智能体系统ChatInvent[2];•另一篇是Uppsala 大学、剑桥大学、Broad Institute联合AIAgents4Science(AIA4S)联盟撰写的综述与案例集(Huynh、Seal 等)[1],把散落在欧美初创公司里的真实战果系统地梳理了一遍。
一个是”我家流水线上跑着的系统”,一个是”全行业的体检报告”。下面的拆解,分别取自这两篇。
1. 永不疲倦的”虚拟项目组”
[1] 综述提炼出的 Agentic AI 架构,本质上是把 LLM 当成一个”大脑(Orchestrator)”,再为它配上四类工具:
| 工具类型 | 功能 | 药物发现中的对应角色 |
| 感知(Perception) | 从 ChEMBL、PubChem、STRING 等数据库抓数据 | 文献调研员 / 数据库管理员 |
| 计算(Computation) | 调用 AlphaFold、Nextflow 等专业计算流程 | 计算化学家 / 生物信息学家 |
| 行动(Action) | 驱动实验室自动化设备(如自动合成平台) | 合成化学家 / 实验员 |
| 记忆(Memory) | 在多步推理中保持上下文连贯 | 项目经理 / 知识管理 |
💡药物化学家的直觉映射:这就像一场效率高到反常的”项目讨论会”。LLM 是项目经理,各路工具是 DMPK 专家、合成专家和生物学家。LLM 通过 Attention 动态地把注意力压在当前最关键的节点上,自主协调靶点分析、毒性预测等多个子 Agent,完成端到端决策。那些繁琐的资料搜集与流程调度——也就是 thinking 的执行层——确实可以整包甩出去。
2. 效率上的降维打击
落到真实场景,AstraZeneca 的 ChatInvent 已经”从一个概念验证的单 Agent,长成了可扩展、稳健、带图形界面的多智能体架构”[2]——这句话翻译成人话是:它扛住了生产环境。而 [1] 综述给出的量化结论更直白:真实部署把文献分析从数周压缩到几分钟,把 assay 开发从数月压缩到数小时[1]。
在药物重定位(Drug Repurposing)类案例中,基于Supervisor 架构的多智能体系统能自主协调多个子 Agent,完成从靶点分析到毒性预测的端到端决策[1]。流程层面的脏活累活,AI 接得稳稳的。
到这里,故事还是一片光明。然后,DO Challenge 来了。
二、无法外包的 “understanding”:DO Challenge 揭示的物理天花板
既然 Agent 这么能干,我们是不是可以躺平了?2025 年,Deep Origin 团队发布的DO Challenge[3][4] 给整个行业泼了一盆冷水——而且是带冰碴的那种。
1. 资源受限的”饥饿游戏”
DO Challenge 复刻了真实的虚拟筛选(Virtual Screening)困境[4]:
•一个100 万分子构象的库,每个构象带一个DO Score(用一个治疗靶点加三个 ADMET 相关蛋白做对接、再用逻辑回归综合结合能与毒性算出来的综合评分);•Agent 的目标是捞出 DO Score 最高的Top-1000;•但只能查询其中 10%(10 万个)的真实分数;•最终提交 3,000 个候选,按与真实 Top-1000 的重叠率打分;•只有 3 次提交机会。
Agent 必须自己写代码、自己选模型,在探索(Exploration)与利用(Exploitation)之间走钢丝。这不是答题,是做项目。
2. 人类物理直觉的”绝杀”
先说 AI 的高光时刻:在10 小时限时赛里,Deep Thought 多智能体系统(核心大脑用 Claude 3.7 Sonnet、Gemini 2.5 Pro 和 o3)拿到33.5%,几乎追平顶尖人类专家的33.6%[3][4]。更狠的是,它把 20 支入选人类团队的最好成绩(16.4%)按在地上摩擦。也就是说——面对普通战队,AI 已经赢麻了。
⚠️残酷的真相(The “No-AI-Fluff” Principle):可一旦把时间限制摘掉、让所有人放开手脚,剧情急转——人类专家的最高成绩冲到77.8%,而 Deep Thought 依然卡在33.5%,只排到全场第三[3][4]。能跨过那道坎、把 AI 远远甩开的,不是哪支团队,而是两位单枪匹马的领域专家。
这暴露了当前 AI Agent 的物理天花板:它们极度依赖预设的启发式规则,缺乏对化学空间底层拓扑的物理直觉。Deep Origin 自己复盘的”失败模式”几乎是逐条打脸——Agent 频繁误解甚至无视关键指令,攻击高级深度学习方案(自定义 GNN、3D CNN)时多半因调参拙劣而失败,还常常烧光预算却不自知[4]。
这里藏着全文最妙的一个反差,值得你记到笔记本上:该任务的 DO Score 来自固定的对接构象,所以”位置非不变性(position non-invariance)“恰恰是高分要素[4]。可 AI Agent 偏偏反复地、不顾明确指令地,端出旋转/平移”不变”或”等变”的方案——结果一头撞墙。换句话说,它们把别处的”标准答案”当成了万能钥匙,却没看懂这把锁的物理结构。
请记住这个反差。我们马上会看到,同一个”等变/不变性”的直觉,在下一个故事里是神器,在这里却是陷阱。这种”看场合下菜”的判断力,正是无法外包的 understanding。
三、底层逻辑的重构:从 ProteinMPNN 到 LigandMPNN
要理解什么叫”无法外包的 understanding”,我们去看 David Baker 实验室(2024 年诺贝尔化学奖团队)的一手活。
他们的ProteinMPNN[6] 曾是蛋白质逆向折叠(Inverse Folding)的王者:给一个目标 3D 骨架,反推出最优氨基酸序列。但它有个致命盲区——它是个”纯蛋白”模型,看不见小分子、核酸和金属离子。对一个要做酶设计、做小分子结合口袋的药物化学家来说,这等于让裁缝在没有客人的房间里量体裁衣。
1. 引入”配体感知”的第一性原理
2025 年,Justas Dauparas 等人在《Nature Methods》上发表了LigandMPNN[5]。它在 ProteinMPNN 的基础上接上了一个专门的”蛋白-配体编码器(Protein-Ligand Encoder)”,从第一性原理出发,解掉了三个核心问题:
| 物理问题 | LigandMPNN 的解法 | 药物化学类比 |
| 非蛋白原子的空间几何 | 显式建模 N、Cα、C、O、Cβ 与配体原子间距离,作为边特征 | 精确测量口袋尺寸与配体形状互补性 |
| 旋转/平移不变性(invariance) | 用原子间距离编码 + 消息传递,使设计结果不随刚体运动改变 | 分子在空间里转个身,结合自由能不变 |
| 侧链构象(PSCP) | 自回归预测 χ₁–χ₄ 扭转角的混合分布 | 给”毛坯房骨架”做精装修、摆软装 |
一个值得较真的小注:LigandMPNN(和 ProteinMPNN 一样)靠的是距离特征带来的不变性(invariance),严格说并不是 e3nn / Tensor Field Network 那一类形式化的 SE(3)等变(equivariance)网络。两个词差一个字,物理含义差一层楼,对要”看懂代码”的人来说,这种区别恰恰是分水岭。
2. 性能碾压与”代码 vs 论文”的潜规则
在与小分子相互作用的残基序列恢复率上,LigandMPNN 达到63.3%,远超 ProteinMPNN(50.5%)和传统 Rosetta(50.4%);核酸位点 50.5%(对 35.2% / 34.0%);金属离子结合位点更冲到惊人的77.5%(对 36.0% / 40.6%)[5]。
🔍代码 vs 论文的潜规则:当你真的去啃 LigandMPNN 的 GitHub 源码,会发现论文里那套优雅的”消息传递机制”,在实现里往往是一堆高度优化的张量乘法和掩码(masking)。许多人能看懂论文的数学公式,可一打开源码,看到密密麻麻的
torch.einsum和维度变换,瞬间就懵了。这道鸿沟,正是”无法外包的 understanding”最具体的样子。
请注意第三节和第二节的对照:在 LigandMPNN 里,旋转/平移不变性是让模型理解结合口袋的超能力;在 DO Challenge 里,盲目套用不变/等变性却是让 Agent 翻车的陷阱。工具是同一把,分寸是两回事——而分寸,从来不在 API 文档里。
四、从”调包侠”到”架构师”:技与道,重夺主导权
《庄子·养生主》里,庖丁为文惠君解牛,“砉然向然,奏刀騞然,莫不中音”。文惠君赞他技术好,庖丁却纠正:“臣之所好者道也,进乎技矣。” 他凭的不是眼睛去看、刀去砍,而是”以神遇而不以目视,官知止而神欲行”——对牛的肌理结构了然于胸,刀自然游走于筋骨之间的空隙。
调包是”技”,物理直觉是”道”。AI Agent 已经能把”技”卷到普通人难以企及的高度;而横亘在它面前、也横亘在每个 AIDD 从业者面前的,是那道”进乎技矣”的”道”。在这个 thinking 可外包、understanding 不可外包的时代,能力断层正在急剧放大。下面是一张诚实的能力地图:
| 级别 | 能力特征 | 面临的风险 |
| Novice 新手 | 只会用网页版工具(如在线版 LigandMPNN),知其然不知其所以然 | 完全可被 AI 替代 |
| Intermediate 中级 | 能跑通 GitHub 开源代码,会改简单参数,自称”调包侠” | 大概率被 AI Agent 替代 |
| Advanced 高级 | 读得懂论文公式,理解 Attention、等变性的物理意义 | 部分工作被替代,但仍有价值 |
| Expert 专家 | 能把论文公式与底层源码一一对应,能改模型架构,能从零搭建 Agentic 工作流 | 驾驭 AI,不可替代 |
“看懂代码并能动手魔改”,是横亘在 Advanced 与 Expert 之间的那道叹息之墙。只有翻过它,你才守得住那份”无法被外包的”东西。
尾声:别忘了问题是什么
给那台超级计算机起名 “Deep Thought” 的人,一定读过《银河系搭车客指南》。在道格拉斯·亚当斯的故事里,超级电脑 Deep Thought 足足算了750 万年,最后郑重其事地宣布:生命、宇宙以及一切的终极答案,是42。
可笑之处在于——没有人记得”终极问题”到底是什么。
这恰恰是整个 Agentic AI 时代最精妙的隐喻。你可以把”计算答案”这件事外包给一台算上 750 万年也不喊累的机器;但“我们到底在问什么”——这个问题,永远得由人来扛。DO Challenge 里那 77.8% 与 33.5% 的鸿沟,不是算力的差距,是”懂得问对问题”的差距。
如果你在啃 LigandMPNN 源码时感到吃力;如果你想在公司里部署类似 ChatInvent 的多智能体系统却无从下手;如果你想在 DO Challenge 这样的真实战场上,做那个跨过 50% 的人——
欢迎加入 42 号远征队。

长按识别上方二维码 → 加入微信群,一起翻墙、一起进步。
我们不负责给你”42”。我们负责,陪你把问题问清楚。
参考文献
注:以下 [1][2] 为 2026 年新刊文章,卷期与文章编号建议以出版方页面最终核定为准。
[1] Huynh, D. L., Seal, S., Reid, D., Carpenter, A. E., Bender, A., & Spjuth, O. (2026). AI agents in drug discovery: applications and case studies.Drug Discovery Today. (Uppsala 大学 / 剑桥大学 / Broad Institute 及 AIAgents4Science 联盟)https://doi.org/10.1016/j.drudis.2026.104650[1]
[2] He, J., Lai, H., Saigiridharan, L., Ghiandoni, G. M., et al. (2026). Democratising real-world drug discovery through agentic AI.Drug Discovery Today. (AstraZeneca, Molecular AI — ChatInvent 系统)https://doi.org/10.1016/j.drudis.2026.104605[2]
[3] Smbatyan, K., Ghukasyan, T., Aghajanyan, T., Dabaghyan, H., et al. (2025). Can AI Agents Design and Implement Drug Discovery Pipelines?arXiv:2504.19912.https://arxiv.org/abs/2504.19912[3]
[4] The Deep Origin Team. (2025). Benchmarking and Development of AI-Based Agentic Systems for Autonomous Drug Discovery.Deep Origin Blog.https://deeporigin.com/blog/benchmarking-and-development-of-ai-based-agentic-systems-for-autonomous-drug-discovery[4]
[5] Dauparas, J., Lee, G. R., Pecoraro, R., An, L., Anishchenko, I., Glasscock, C., & Baker, D. (2025). Atomic context-conditioned protein sequence design using LigandMPNN.Nature Methods, 22(4), 717–723.https://doi.org/10.1038/s41592-025-02626-1[5]
[6] Dauparas, J., Anishchenko, I., Bennett, N., et al. (2022). Robust deep learning–based protein sequence design using ProteinMPNN.Science, 378(6615), 49–56.https://doi.org/10.1126/science.add2187[6]
References
[1]:https://doi.org/10.1016/j.drudis.2026.104650[2]:https://doi.org/10.1016/j.drudis.2026.104605[3]:https://arxiv.org/abs/2504.19912[4]:https://deeporigin.com/blog/benchmarking-and-development-of-ai-based-agentic-systems-for-autonomous-drug-discovery[5]:https://doi.org/10.1038/s41592-025-02626-1[6]:https://doi.org/10.1126/science.add2187
夜雨聆风