AI Agent 时代的药物发现迷局

AI Agent 时代的药物发现迷局 | AIDD 深度解析

引言：算力可以购买，物理直觉不能

过去一年里，AI-Driven Drug Discovery（AIDD）最时髦的词，已经从”生成式 AI（Generative AI）“换成了”智能体 AI（Agentic AI）”。大语言模型（LLM）开始展现出惊人的推理（Reasoning / Thinking）能力，我们似乎可以把读文献、设计实验、甚至写代码，统统”外包”给 AI Agent。

但这里藏着一个残酷的双关悖论：你可以外包 thinking（让 AI 替你跑逻辑推理与流程调度），却无法外包 understanding。

当我们惊叹于 AstraZeneca 的 ChatInvent 在几分钟内做完人类需要数周的工作时，也必须正视 DO Challenge 基准里那记响亮的耳光：在不限时的开放虚拟筛选测试中，顶尖人类专家的命中率（77.8%）依然对最强多智能体系统（33.5%）形成了降维打击。

为什么？本文将硬核拆解近期 AIDD 的几项重磅进展——从 AstraZeneca 的工业级智能体系统，到打破”非蛋白原子”设计瓶颈的 LigandMPNN——透过算法的华丽外衣，直击其物理化学本质，并探讨在 AI Agent 时代，药物化学家究竟该如何跨越从”会用软件”到”看懂代码”的那道墙。

一、外包出去的 “Thinking”：当 Agentic AI 走进真实的药厂

2026 年初，《Drug Discovery Today》上接连出现两篇分量十足的文章，把”智能体落地”这件事从 PPT 拉进了流水线。值得先把两者分清楚——这本身就是一道 understanding 题：

•一篇来自AstraZeneca的 Molecular AI 团队（He、Lai、Saigiridharan 等），首次披露了已真正部署到内部药物发现流程的工业级智能体系统ChatInvent[2]；•另一篇是Uppsala 大学、剑桥大学、Broad Institute联合AIAgents4Science（AIA4S）联盟撰写的综述与案例集（Huynh、Seal 等）[1]，把散落在欧美初创公司里的真实战果系统地梳理了一遍。

一个是”我家流水线上跑着的系统”，一个是”全行业的体检报告”。下面的拆解，分别取自这两篇。

1. 永不疲倦的”虚拟项目组”

[1] 综述提炼出的 Agentic AI 架构，本质上是把 LLM 当成一个”大脑（Orchestrator）”，再为它配上四类工具：

工具类型	功能	药物发现中的对应角色
感知（Perception）	从 ChEMBL、PubChem、STRING 等数据库抓数据	文献调研员 / 数据库管理员
计算（Computation）	调用 AlphaFold、Nextflow 等专业计算流程	计算化学家 / 生物信息学家
行动（Action）	驱动实验室自动化设备（如自动合成平台）	合成化学家 / 实验员
记忆（Memory）	在多步推理中保持上下文连贯	项目经理 / 知识管理

💡药物化学家的直觉映射：这就像一场效率高到反常的”项目讨论会”。LLM 是项目经理，各路工具是 DMPK 专家、合成专家和生物学家。LLM 通过 Attention 动态地把注意力压在当前最关键的节点上，自主协调靶点分析、毒性预测等多个子 Agent，完成端到端决策。那些繁琐的资料搜集与流程调度——也就是 thinking 的执行层——确实可以整包甩出去。

2. 效率上的降维打击

落到真实场景，AstraZeneca 的 ChatInvent 已经”从一个概念验证的单 Agent，长成了可扩展、稳健、带图形界面的多智能体架构”[2]——这句话翻译成人话是：它扛住了生产环境。而 [1] 综述给出的量化结论更直白：真实部署把文献分析从数周压缩到几分钟，把 assay 开发从数月压缩到数小时[1]。

在药物重定位（Drug Repurposing）类案例中，基于Supervisor 架构的多智能体系统能自主协调多个子 Agent，完成从靶点分析到毒性预测的端到端决策[1]。流程层面的脏活累活，AI 接得稳稳的。

到这里，故事还是一片光明。然后，DO Challenge 来了。

二、无法外包的 “understanding”：DO Challenge 揭示的物理天花板

既然 Agent 这么能干，我们是不是可以躺平了？2025 年，Deep Origin 团队发布的DO Challenge[3][4] 给整个行业泼了一盆冷水——而且是带冰碴的那种。

1. 资源受限的”饥饿游戏”

DO Challenge 复刻了真实的虚拟筛选（Virtual Screening）困境[4]：

•一个100 万分子构象的库，每个构象带一个DO Score（用一个治疗靶点加三个 ADMET 相关蛋白做对接、再用逻辑回归综合结合能与毒性算出来的综合评分）；•Agent 的目标是捞出 DO Score 最高的Top-1000；•但只能查询其中 10%（10 万个）的真实分数；•最终提交 3,000 个候选，按与真实 Top-1000 的重叠率打分；•只有 3 次提交机会。

Agent 必须自己写代码、自己选模型，在探索（Exploration）与利用（Exploitation）之间走钢丝。这不是答题，是做项目。

2. 人类物理直觉的”绝杀”

先说 AI 的高光时刻：在10 小时限时赛里，Deep Thought 多智能体系统（核心大脑用 Claude 3.7 Sonnet、Gemini 2.5 Pro 和 o3）拿到33.5%，几乎追平顶尖人类专家的33.6%[3][4]。更狠的是，它把 20 支入选人类团队的最好成绩（16.4%）按在地上摩擦。也就是说——面对普通战队，AI 已经赢麻了。

⚠️残酷的真相（The “No-AI-Fluff” Principle）：可一旦把时间限制摘掉、让所有人放开手脚，剧情急转——人类专家的最高成绩冲到77.8%，而 Deep Thought 依然卡在33.5%，只排到全场第三[3][4]。能跨过那道坎、把 AI 远远甩开的，不是哪支团队，而是两位单枪匹马的领域专家。

这暴露了当前 AI Agent 的物理天花板：它们极度依赖预设的启发式规则，缺乏对化学空间底层拓扑的物理直觉。Deep Origin 自己复盘的”失败模式”几乎是逐条打脸——Agent 频繁误解甚至无视关键指令，攻击高级深度学习方案（自定义 GNN、3D CNN）时多半因调参拙劣而失败，还常常烧光预算却不自知[4]。

这里藏着全文最妙的一个反差，值得你记到笔记本上：该任务的 DO Score 来自固定的对接构象，所以”位置非不变性（position non-invariance）“恰恰是高分要素[4]。可 AI Agent 偏偏反复地、不顾明确指令地，端出旋转/平移”不变”或”等变”的方案——结果一头撞墙。换句话说，它们把别处的”标准答案”当成了万能钥匙，却没看懂这把锁的物理结构。

请记住这个反差。我们马上会看到，同一个”等变/不变性”的直觉，在下一个故事里是神器，在这里却是陷阱。这种”看场合下菜”的判断力，正是无法外包的 understanding。

三、底层逻辑的重构：从 ProteinMPNN 到 LigandMPNN

要理解什么叫”无法外包的 understanding”，我们去看 David Baker 实验室（2024 年诺贝尔化学奖团队）的一手活。

他们的ProteinMPNN[6] 曾是蛋白质逆向折叠（Inverse Folding）的王者：给一个目标 3D 骨架，反推出最优氨基酸序列。但它有个致命盲区——它是个”纯蛋白”模型，看不见小分子、核酸和金属离子。对一个要做酶设计、做小分子结合口袋的药物化学家来说，这等于让裁缝在没有客人的房间里量体裁衣。

1. 引入”配体感知”的第一性原理

2025 年，Justas Dauparas 等人在《Nature Methods》上发表了LigandMPNN[5]。它在 ProteinMPNN 的基础上接上了一个专门的”蛋白-配体编码器（Protein-Ligand Encoder）”，从第一性原理出发，解掉了三个核心问题：

物理问题	LigandMPNN 的解法	药物化学类比
非蛋白原子的空间几何	显式建模 N、Cα、C、O、Cβ 与配体原子间距离，作为边特征	精确测量口袋尺寸与配体形状互补性
旋转/平移不变性（invariance）	用原子间距离编码 + 消息传递，使设计结果不随刚体运动改变	分子在空间里转个身，结合自由能不变
侧链构象（PSCP）	自回归预测 χ₁–χ₄ 扭转角的混合分布	给”毛坯房骨架”做精装修、摆软装

一个值得较真的小注：LigandMPNN（和 ProteinMPNN 一样）靠的是距离特征带来的不变性（invariance），严格说并不是 e3nn / Tensor Field Network 那一类形式化的 SE(3)等变（equivariance）网络。两个词差一个字，物理含义差一层楼，对要”看懂代码”的人来说，这种区别恰恰是分水岭。

2. 性能碾压与”代码 vs 论文”的潜规则

在与小分子相互作用的残基序列恢复率上，LigandMPNN 达到63.3%，远超 ProteinMPNN（50.5%）和传统 Rosetta（50.4%）；核酸位点 50.5%（对 35.2% / 34.0%）；金属离子结合位点更冲到惊人的77.5%（对 36.0% / 40.6%）[5]。

🔍代码 vs 论文的潜规则：当你真的去啃 LigandMPNN 的 GitHub 源码，会发现论文里那套优雅的”消息传递机制”，在实现里往往是一堆高度优化的张量乘法和掩码（masking）。许多人能看懂论文的数学公式，可一打开源码，看到密密麻麻的torch.einsum和维度变换，瞬间就懵了。这道鸿沟，正是”无法外包的 understanding”最具体的样子。

请注意第三节和第二节的对照：在 LigandMPNN 里，旋转/平移不变性是让模型理解结合口袋的超能力；在 DO Challenge 里，盲目套用不变/等变性却是让 Agent 翻车的陷阱。工具是同一把，分寸是两回事——而分寸，从来不在 API 文档里。

四、从”调包侠”到”架构师”：技与道，重夺主导权

《庄子·养生主》里，庖丁为文惠君解牛，“砉然向然，奏刀騞然，莫不中音”。文惠君赞他技术好，庖丁却纠正：“臣之所好者道也，进乎技矣。” 他凭的不是眼睛去看、刀去砍，而是”以神遇而不以目视，官知止而神欲行”——对牛的肌理结构了然于胸，刀自然游走于筋骨之间的空隙。

调包是”技”，物理直觉是”道”。AI Agent 已经能把”技”卷到普通人难以企及的高度；而横亘在它面前、也横亘在每个 AIDD 从业者面前的，是那道”进乎技矣”的”道”。在这个 thinking 可外包、understanding 不可外包的时代，能力断层正在急剧放大。下面是一张诚实的能力地图：

级别	能力特征	面临的风险
Novice 新手	只会用网页版工具（如在线版 LigandMPNN），知其然不知其所以然	完全可被 AI 替代
Intermediate 中级	能跑通 GitHub 开源代码，会改简单参数，自称”调包侠”	大概率被 AI Agent 替代
Advanced 高级	读得懂论文公式，理解 Attention、等变性的物理意义	部分工作被替代，但仍有价值
Expert 专家	能把论文公式与底层源码一一对应，能改模型架构，能从零搭建 Agentic 工作流	驾驭 AI，不可替代

“看懂代码并能动手魔改”，是横亘在 Advanced 与 Expert 之间的那道叹息之墙。只有翻过它，你才守得住那份”无法被外包的”东西。

尾声：别忘了问题是什么

给那台超级计算机起名 “Deep Thought” 的人，一定读过《银河系搭车客指南》。在道格拉斯·亚当斯的故事里，超级电脑 Deep Thought 足足算了750 万年，最后郑重其事地宣布：生命、宇宙以及一切的终极答案，是42。

可笑之处在于——没有人记得”终极问题”到底是什么。

这恰恰是整个 Agentic AI 时代最精妙的隐喻。你可以把”计算答案”这件事外包给一台算上 750 万年也不喊累的机器；但“我们到底在问什么”——这个问题，永远得由人来扛。DO Challenge 里那 77.8% 与 33.5% 的鸿沟，不是算力的差距，是”懂得问对问题”的差距。

如果你在啃 LigandMPNN 源码时感到吃力；如果你想在公司里部署类似 ChatInvent 的多智能体系统却无从下手；如果你想在 DO Challenge 这样的真实战场上，做那个跨过 50% 的人——

欢迎加入 42 号远征队。

长按识别上方二维码 → 加入微信群，一起翻墙、一起进步。
我们不负责给你”42”。我们负责，陪你把问题问清楚。

参考文献

注：以下 [1][2] 为 2026 年新刊文章，卷期与文章编号建议以出版方页面最终核定为准。

[1] Huynh, D. L., Seal, S., Reid, D., Carpenter, A. E., Bender, A., & Spjuth, O. (2026). AI agents in drug discovery: applications and case studies.Drug Discovery Today. （Uppsala 大学 / 剑桥大学 / Broad Institute 及 AIAgents4Science 联盟）https://doi.org/10.1016/j.drudis.2026.104650^[1]

[2] He, J., Lai, H., Saigiridharan, L., Ghiandoni, G. M., et al. (2026). Democratising real-world drug discovery through agentic AI.Drug Discovery Today. （AstraZeneca, Molecular AI — ChatInvent 系统）https://doi.org/10.1016/j.drudis.2026.104605^[2]

[3] Smbatyan, K., Ghukasyan, T., Aghajanyan, T., Dabaghyan, H., et al. (2025). Can AI Agents Design and Implement Drug Discovery Pipelines?arXiv:2504.19912.https://arxiv.org/abs/2504.19912^[3]

[4] The Deep Origin Team. (2025). Benchmarking and Development of AI-Based Agentic Systems for Autonomous Drug Discovery.Deep Origin Blog.https://deeporigin.com/blog/benchmarking-and-development-of-ai-based-agentic-systems-for-autonomous-drug-discovery^[4]

[5] Dauparas, J., Lee, G. R., Pecoraro, R., An, L., Anishchenko, I., Glasscock, C., & Baker, D. (2025). Atomic context-conditioned protein sequence design using LigandMPNN.Nature Methods, 22(4), 717–723.https://doi.org/10.1038/s41592-025-02626-1^[5]

[6] Dauparas, J., Anishchenko, I., Bennett, N., et al. (2022). Robust deep learning–based protein sequence design using ProteinMPNN.Science, 378(6615), 49–56.https://doi.org/10.1126/science.add2187^[6]

References

[1]:https://doi.org/10.1016/j.drudis.2026.104650
[2]:https://doi.org/10.1016/j.drudis.2026.104605
[3]:https://arxiv.org/abs/2504.19912
[4]:https://deeporigin.com/blog/benchmarking-and-development-of-ai-based-agentic-systems-for-autonomous-drug-discovery
[5]:https://doi.org/10.1038/s41592-025-02626-1
[6]:https://doi.org/10.1126/science.add2187