
https://doi.org/10.1016/j.aichem.2024.100072
本综述聚焦人工智能技术在药物化学与新药研发全流程的应用与落地,核心目标是弥合现代 AI 技术与实验药物化学家之间的应用鸿沟,解决当前大量 AI 算法停留在代码开发阶段、易用性工具普及度不足导致的新药研发效率低下行业痛点。论文系统梳理了药物研发全链条中先进且易操作的 AI 技术与商用平台,分析了工业界与临床端的规模化落地案例,阐述了新冠疫情对 AI 药物研发技术的催化作用,最终明确了 AI 对药物化学科研范式、乃至整个自然科学领域的变革性价值。
一、研究背景与核心行业痛点
人工智能已为自然科学全领域带来关键性变革,大量机器学习算法已实现落地应用,覆盖分子性质预测、药物合成路线规划等药物研发常规任务,同时实现了三大突破性能力:可调控目标性质化合物的逆向设计、实时自主化实验流程优化、化学空间的虚拟探索;市面上也已出现可实现每日数千次自动化实验、同步完成结果分析与实验方案优化的低成本机器人平台。

当前行业核心痛点集中于技术落地断层:绝大多数 AI 研发成果停留在代码脚本阶段,未转化为易用型工具,被实验一线的药物化学家忽视;现有面向终端用户的友好型工具,可见度与市场覆盖度严重不足,无法弥补技术落地缺口,最终导致新型治疗化合物的研发效率长期处于低位。基于此,本综述全面梳理了药物研发全流程中可直接服务于药物化学家日常工作的先进、易用 AI 技术,包括新冠疫情期间催生出的快速精准解决方案,同时分析了工业界与临床机构对相关技术的整合应用路径。
二、药物化学领域核心 AI 基础技术
论文重点解析了两类在药物化学领域实现核心突破、应用最广泛的 AI 基础架构,明确了其技术原理、核心应用场景与现存局限。
2.1 图神经网络(GNN)
GNN 是专为处理图结构数据设计的专用神经网络,而分子结构可天然转化为由原子(节点)与化学键(边)构成的图数据,是其适配药物化学领域的核心基础。

核心技术机制:采用消息传递机制(Fig.2g),将单个节点的邻域关联信息嵌入该节点本身,通过该机制完成图数据特征提取,支撑机器学习算法识别数据规律并完成预测任务,核心用于挖掘数据点间关联关系中的隐藏模式。 药物化学领域核心应用: 分子构效关系解析:通过编码原子与键级的基础特征,精准预测药物 - 靶点结合亲和力、分子溶剂化吉布斯自由能 (ΔG_solv) 等核心参数,模型输出的清晰可解释结果,为实验化学家优化合成路线提供了可靠依据。 系统生物学与疾病机制研究:基于蛋白 - 蛋白相互作用(PPI)网络拓扑结构,结合基因表达、DNA 甲基化等多组学特征完成患者个体建模,推动疾病相关子网络的精准发现。 技术局限: 计算成本高,大规模图数据的训练过程对算力与内存要求极高,存在可扩展性瓶颈; 原生架构针对静态图设计,处理结构随时间变化的动态图,需额外增加复杂的专项方案; 模型决策的底层逻辑与推理过程解读难度较高,可解释性仍有提升空间。
2.2 Transformer 模型
Transformer 是率先在自然语言处理(NLP)领域实现革命性突破的深度学习模型,目前已全面拓展至化学等科学领域,是当前药物研发 AI 工具的核心技术底座之一。
核心技术机制:核心创新为自注意力机制(Fig.2i),可同时处理输入数据的所有片段,自主为输入数据的不同部分分配差异化权重,精准捕捉数据内部的复杂关联与长程依赖关系。区别于循环神经网络(RNN)的串行处理模式(长程依赖捕捉能力受限)、卷积神经网络(CNN)的局部模式聚焦特性(序列类任务适配性差),Transformer 可一次性完成完整序列的全局分析,通用性与泛化能力极强。 药物化学领域核心价值:核心用于生物分子性质预测,包括化合物毒性预测等关键任务。其解决了传统药物研发的三大核心痛点:传统高通量筛选(HTS)成本高、耗时长,仅能覆盖极小范围的化学空间,仅能输出局部最优解;传统计算机建模计算成本极高,难以规模化应用;基于科研文献的研发方法,仅能开发作用机制常规的候选药物。而基于 Transformer 的 AI 技术,可实现从 “实体 - 性质” 直接预测、特定任务分子优化,到基于目标性质的从头分子生成的全流程覆盖。
三、先导化合物生成与优化的易用型 AI 平台
论文重点梳理了可直接服务于药物化学家日常工作、无需编程基础的商用 AI 平台,核心解决传统方法中 “具备目标生物活性的候选分子库筛选、可成药先导分子识别” 周期过长的行业痛点,相关平台可将原本数月的研发周期压缩至数天内完成。
3.1 Chemistry42 平台(Insilico Medicine 开发)
核心定位:全自动化药物设计平台,同时支持基于配体的药物设计(LBDD)与基于结构的药物设计(SBDD),Fig.6a 展示了该平台用于药物候选分子搜索的全流程框架。 核心功能:用户仅需上传药物靶点数据、选择靶点活性位点即可启动药物设计流程,可通过一种或多种理化性质约束生成的分子实体,最终输出具备目标生物活性的候选分子库,数天内完成可成药先导分子的识别与筛选。 技术底座:依托超 30 种生成模型搭建,包括自编码器(AE)、生成对抗网络(GAN)、进化算法、基于 NLP 的算法。 核心筛选与评估体系: 内置药物化学过滤器(MCFs),验证化合物的通用有效性,排查不稳定或有毒基团; 药物化学进化(MCE-18)功能,为分子结构的新颖性完成量化打分; 内置合成可及性评估模块,保障候选分子的实验室合成可行性; 可对接 PandaOmics 资源,整合基于深度学习的转录响应评估、激活类评估算法,实现从靶点发现到分子设计的全流程覆盖。 行业定位:目前生成式 LBDD 与 SBDD 领域,最高效且易用性最强的平台之一,全面覆盖候选分子的安全性、稳定性、合成可及性、结构新颖性与任务特异性有效性评估。 
3.2 腾讯 AI Lab 药物发现平台
AI 驱动的一站式药物发现平台,整合了大规模分子数据库,核心用于候选药物分子识别与高潜力成药分子的筛选。
3.3 RuleDesign 平台(Medchemica 开发)
核心定位:可解释的定向药物优化平台,Fig.6b 展示了该平台的技术框架,核心解决先导分子发现后,“在不影响化合物生物活性的前提下,同步优化多重理化性质” 的核心需求。 核心功能:对参考分子结构进行最小化修饰,同时同步优化多种核心理化性质,包括水溶性、分子电荷、氢键供体 / 受体数量(HBD/HBA)、正辛醇 / 水分配系数(CLogP)、相对分子质量(RMM)范围、极性表面积(PSA)。上述性质直接决定分子的吸收、分布、代谢、排泄和毒性(ADMET)特征,是新药设计的核心评估指标。 技术底座:基于匹配分子对分析(MMPA)的规则系统,与阿斯利康、基因泰克、罗氏 3 家头部制药企业合作开发,结合海量科研文献数据挖掘完成。MMPA 可充分保障数据隐私,无法从转换后的分子结构还原原始分子,为联邦学习提供了可靠的替代方案。算法为每一种分子结构转换计算聚合统计量,同时结合局部化学环境形成优化规则,最终实现多性质同步优化的定向修饰推荐。 行业定位:简单但功能强大的可解释药物优化工具,可无缝融入药物化学家的日常研究工作。
3.4 Molecule AI 平台(Cognistx 开发)
核心定位:多功能药物分子优化平台,Fig.6b 展示了该平台的功能框架。 核心功能: 分子修饰后的性质结果预测; 超 10 种细胞毒性指标、受体结合亲和力、前药样特征等成药相关性质预测; 基于化合物相似度或指定子结构特征,生成具备目标性质的全新化合物; 基于优先级的分子分组功能,有效缩小待探索的化学空间范围。
四、AI 在药物研发全流程的拓展应用与工业落地
论文系统梳理了 AI 技术在新药研发全链条的落地场景,以及制药工业端规模化应用的成熟平台与解决方案。
4.1 临床前研发核心环节的 AI 应用
论文明确了 AI 在临床前研发全流程的核心落地场景,包括四大核心方向:
化合物理化性质预测:基于 AI 模型快速预测化合物的核心理化参数,为分子结构优化提供实时数据支撑; 全身毒性评估:通过 AI 模型提前预判化合物的全身毒性风险,大幅降低临床前研发的失败率; 抗癌药物协同作用筛查:AI 快速识别不同抗癌药物联用的协同效应,为联合用药方案开发提供高效筛选工具; 临床潜力评估:AI 模型综合评估候选药物的成药性与临床转化潜力,助力研发人员优先推进高潜力分子进入临床阶段。
4.2 制药生产与质量控制(QC)的 AI 赋能
传统制药质控体系:基于实验设计(DoE)、过程分析技术(PAT)优化关键工艺参数(CPPs)和关键质量属性(CQAs),严格遵循药品生产质量管理规范(GMP),通过高效液相色谱(HPLC)、气相色谱(GC)、溶出度测试、微生物检测、ICH 指南稳定性研究完成产品质量验证,同时通过近红外(NIR)、拉曼光谱技术实现生产过程的实时监测。 AI 的核心赋能价值: AI 与机器学习算法可基于历史生产数据预测潜在质量问题,实现生产工艺的主动调整,Fig.9d 展示了 AI 在制药质量控制中的应用框架; AI 驱动的预测性维护可显著减少设备非计划停机时间,提升整体设备效率(OEE); 基于大语言模型(LLM)的智能体是该领域最具前景的发展方向,依托 Transformer 架构的注意力层,可分析复杂的上下文生产数据,对监测到的异常数据进行优先级排序,实现生产全流程的智能管控。
4.3 制药工业级 AI 平台落地案例
LandingLens(Landing AI):聚焦制药生产过程中的产品缺陷检测,解决不合格产品导致的安全风险、市场召回、额外生产成本等核心问题。 Connect CPV™:制药生产全流程优化平台,通过强化学习(RL)等方法实现生产全流程的主动决策,核心功能包括多源生产数据整合、实时监测与预测分析、产品生产路径可视化、CFR Part 11 监管合规保障、无代码机器学习模块、纸质记录流程自动化,可帮助药企优化生产工艺、提升产品质量、保障监管合规。 Connect CMC™(Mareana):面向制药与生物科技企业的 CMC 流程优化平台,基于 AI 技术实现 GxP 合规管控、端到端数据可追溯、自动化数据处理,依托可扩展云基础设施、直观操作界面、完善的安全机制,简化复杂的 CMC 数据任务,全面保障 GMP 合规,适配药企的规模化落地需求。
4.4 药物重定位的 AI 应用
AI 技术可高效挖掘已上市药物的全新治疗用途,大幅降低药物研发的成本与周期,是新药研发的重要补充方向,也是当前 AI 落地的热门场景。
五、COVID-19 疫情期间 AI 在药物化学领域的应用突破
新冠疫情催生了对快速、精准药物研发解决方案的迫切需求,成为 AI 药物研发技术规模化验证与落地的重要催化剂,相关成果同时为未来新发传染病的应对提供了技术储备。核心落地案例包括:
Exscientia:全球首个将 AI 设计的分子推进至临床试验阶段的企业,依托其端到端 AI 药物研发平台,开发了靶向新冠病毒主蛋白酶(Mpro/3CLpro)的新型抑制剂,该酶是冠状病毒复制的核心关键靶点。该项目同时致力于开发可应对新冠病毒突变、其他新发冠状病毒的泛冠状病毒治疗药物,获得了比尔及梅琳达・盖茨基金会等机构发起的新冠治疗加速器专项资助。 DeepMind:2020 年 12 月发布 AlphaFold 2,实现了结构生物学与生物信息学领域的革命性突破,为新冠病毒靶点结构解析、抗病毒药物设计提供了核心支撑。 EVEscape 平台:可预测大规模病毒感染的传播行为与演化趋势,为未来新发病毒疫情的提前应对提供了预测工具。 其他场景应用:基于计算机视觉(CV)和大语言模型的专项模型,实现了新冠疾病的早期诊断;强化学习方法优化了疫情期间医院的患者管理流程;生成式 AI 技术大幅缩短了新冠治疗药物的研发周期。
六、行业现存挑战、未来发展前景与核心结论
6.1 当前行业核心挑战
尽管 AI 辅助、数据驱动的药物研发领域已开发出大量算法模型,但行业仍面临三大核心落地障碍:
易用性不足:绝大多数工具仅面向有编程基础的专业用户,无编程经验的一线药物化学家难以使用; 技术转化断层:大量独立代码脚本向易用型商业化服务的转化极为零散,多数平台未提供演示版本、详细使用说明或实际案例展示,目标受众触达严重不足; 规模化应用门槛高:即使是 IBM RoboRXN 等全自动化实验室平台,也存在行业知名度低、使用成本高、操作便捷性不及传统实验室方法的问题,未能被多数实验科学家广泛应用。
6.2 成功落地的 AI 平台核心共性
通过对工业界规模化整合的药物化学 AI 工具的全面分析,成功实现商业化落地的平台具备三大核心特征:
技术先进性:采用大语言模型、Transformer 等最新 AI 模型架构,结合迁移学习(TL)、先进强化学习(RL)、模型集成等前沿训练方法。未来具备行业竞争力的技术,将聚焦于更高可解释性、更强表达能力的新型架构,如柯尔莫哥洛夫 - 阿诺德网络(KAN)。 架构灵活性:并非针对单一窄任务设计,而是先搭建通用技术底座,再针对细分市场需求进行专项优化,在市场环境变化中具备更强的适应性,可快速找到独特的市场定位。 产业协同性:与大型制药企业开展合作项目,解决行业当前的实际研发挑战,推动平台快速迭代升级,同时吸引新的投资者关注。
6.3 核心发展趋势
数据安全与隐私保护:联邦学习(FL)技术将成为行业核心支撑,实现医疗与药物研发数据的协同、安全、高效、匿名化处理,是药企规模化应用 AI 的重要前提。 全流程自动化:全自主化智能实验室将成为重要发展方向,实现从分子设计、合成实验、性质检测到方案优化的全流程无人化运行。 可解释性提升:可解释人工智能(XAI)将成为研发重点,解决 AI 模型决策逻辑不透明的问题,进一步提升实验化学家对 AI 工具的信任度与接受度。
6.4 论文核心结论
AI 已能够解决药物化学家面临的绝大多数日常研究挑战,同时可全面赋能自然科学的其他全领域。但数据科学与药物化学领域之间的沟通不畅,导致先进技术的落地应用陷入停滞。本综述系统梳理了 AI 与数据驱动技术在靶点识别、药物搜索与优化、分子性质预测、临床潜力评估、合成路线规划等药物化学日常工作中的全场景应用,旨在开启两个领域的深度对话,搭建起连接研发问题与技术解决方案的桥梁,推动 AI 技术在药物研发领域的规模化落地,最终实现行业研发效率的全面提升。
夜雨聆风