AI在药物研发全流程的技术应用与工具实操

2025年，国家药监局发布《关于“人工智能+药品监管”的实施意见》，工信部等七部门联合印发《医药工业数智化转型实施方案（2025—2030年）》。政策信号明确：AI正在从药物研发的“可选工具”转变为“基础设施”。

但对于一线药物研发人员而言，真实的问题不是“AI重不重要”，而是：

我的项目现在卡在哪个环节？AI能不能帮上忙？
需要学编程吗？需要招一个计算团队吗？
网上那些AI药物设计的案例，我能复现到自己靶点上吗？
AI预测的结果，我敢不敢用来决定下一个合成方向？

本文基于“人工智能赋能药物研发全流程应用与工具实操”高级研修班课程体系，由中国科学院人才交流开发中心主办，围绕药物研发人员的真实工作场景，逐一回答上述问题。

一、AI进入药物研发：先搞清楚三个基础问题

1.1 AI能解决药物研发中的哪类问题？

药物研发流程中的问题大致可分为五类，AI对每类都有对应方法：

问题类型	药物研发场景	适用AI方法
分类问题	化合物是否具有某活性、是否通过某毒性测试	随机森林、XGBoost、图神经网络
回归预测	IC50值、清除率、溶解度	深度学习回归、高斯过程
生成问题	新分子设计、结构优化	VAE、GAN、扩散模型
优化问题	多参数平衡（活性+ADMET+可合成性）	强化学习、贝叶斯优化、多目标优化
信息提取	文献靶点挖掘、临床数据整理	大语言模型、自然语言处理

关键在于：你的研发问题是否可以被明确定义？是否有足够的相关数据？

1.2 需要多少数据？不同场景的数据门槛

药物研发中数据稀缺是常态，不同方法对数据量的需求差异很大：

传统机器学习（随机森林、SVM）：几十到几百个化合物即可起步（如QSAR建模）
图神经网络：几百到几千个化合物（如化合物-蛋白质相互作用预测）
深度学习生成模型：通常需要数千到数万个分子（预训练模型+微调可降低）
迁移学习/多任务学习：用小样本+相关任务数据，显著降低门槛

课程会详细讲解：什么情况下可以自己建模，什么情况下应该调用预训练模型或商用工具。

1.3 需要学编程吗？药物研发人员的技术定位

答案是：需要一定的脚本能力，但不必成为软件工程师。具体来说：

能够使用RDKit进行基础的分子操作（读SMILES、计算描述符、分子相似性）
能够运行Jupyter Notebook，修改现成的Python脚本
能够调用DeepChem、AlphaFold等开源工具的API
能够理解模型输出，判断结果是否合理

课程将从Python+RDKit环境搭建开始，目标是让学员在自己的电脑上完成从分子数据处理到活性预测的完整流程。

二、药物数据治理：从多源异构到可用数据集

药物研发中，数据来源多样：内部筛选数据、公共数据库（ChEMBL、PubChem、PDB）、文献数据、临床数据。这些数据格式不同、质量参差、标注标准不一。

2.1 国内外代表性数据库

课程将介绍以下数据库的数据结构、获取方式和适用场景：

ChEMBL：生物活性数据，适合QSAR建模
PubChem：化合物信息+生物活性，适合大规模预筛选
PDB：蛋白质结构，适合基于结构的药物设计
BindingDB：蛋白-小分子亲和力数据
ZINC：可商购化合物库，适合虚拟筛选
PDSP Ki数据库：GPCR等靶点活性数据
TCGA/GEO：肿瘤等疾病的组学数据，用于靶点发现

2.2 数据清洗与标准化：哪些步骤不可跳过？

原始数据进入AI模型前，通常需要以下处理：

SMILES标准化：去盐、中和、规范芳香性表示
活性值校正：不同检测方法的IC50值需要归一化或标记批次
离群值处理：实验误差导致的异常活性值
数据不平衡处理：活性化合物远少于非活性化合物时的重采样
重复数据处理：同一化合物的多次测量如何合并

课程将演示使用Python+RDKit进行上述操作的代码。

2.3 多组学数据整合与数据挖掘

在靶点发现和适应症筛选阶段，常需要整合转录组、蛋白质组、代谢组等多维数据。常用方法包括：

差异表达分析后的通路富集：找出疾病相关的核心通路
共表达网络分析（WGCNA）：识别与疾病表型相关的基因模块
基于网络的靶点预测：蛋白质-蛋白质相互作用网络中的关键节点
多组学整合建模：利用多视图学习整合不同组学数据

课程将演示使用Python进行基础的多组学数据整合分析流程。

三、靶向药物设计与虚拟筛选：AI能做什么

3.1 基于结构的药物设计（SBDD）中的AI

传统SBDD依赖分子对接软件（AutoDock、Glide、GOLD）打分函数，计算速度慢、打分精度有限。AI方法可以：

加速对接：深度学习对接方法（EquiBind、DiffDock、Gnina）在保持精度的同时大幅提升速度
提高打分可靠性：基于图神经网络的亲和力预测模型（如GraphBAR、PIGNet）可作为重打分工具
结合位点检测：利用3D卷积神经网络或Transformer识别潜在结合口袋

课程将以一个具体靶点为例，演示从蛋白结构准备到AI加速虚拟筛选的完整流程。

3.2 基于表型的药物设计

对于靶点不明确或不单一的表型筛选（如细胞增殖抑制、表型变化），传统方法难以直接优化。AI方法可以：

高内涵筛选图像分析：使用深度卷积神经网络从细胞图像中提取形态学特征
基因-化合物匹配：基于扰动图谱（如LINCS数据）预测化合物的作用模式
表型-靶点反向映射：从表型数据反推可能的靶点或通路

3.3 抗体设计和抗体预测

大分子药物研发中，AI的应用日益成熟：

CDR区结构预测：DeepAb、ABlooper、IgFold等工具预测抗体可变区三维结构
抗原-抗体对接：AlphaFold3等模型已经具备蛋白-蛋白复合物预测能力
可开发性评估：预测抗体的聚集倾向、粘度、稳定性、免疫原性
亲和力成熟：基于深度学习的虚拟突变扫描，推荐增强结合力的突变位点

课程将演示使用开源工具进行抗体CDR区预测和简单亲和力评估。

3.4 跨尺度多组学整合与时空动态建模

从分子、细胞到组织，药物作用涉及多尺度过程。AI可以辅助：

整合不同尺度的数据（如体外活性、体内PK/PD）
建立疾病进展的动态模型
预测不同给药方案下的生物标志物响应

四、分子设计与优化：从苗头到先导再到候选

4.1 高通量筛选（HTS）与AI预筛选

HTS成本高、阳性率低（通常<1%）。AI可以在HTS之前对虚拟库进行预筛选：

基于配体的虚拟筛选：利用已知活性化合物训练分类模型，对大规模库打分排序
基于结构的虚拟筛选：对接+AI重打分，筛选Top x%化合物送测
主动学习：迭代筛选策略——模型推荐一批化合物 → 实验测试 → 反馈更新模型 → 下一批推荐

课程将演示如何使用主动学习框架，用少量实验数据覆盖更大的化学空间。

4.2 全新分子设计（De Novo Design）

生成式AI模型可以直接生成具有所需性质的新分子结构：

SMILES-based生成：使用VAE、RNN或Transformer学习SMILES语法，生成类药分子
图生成：基于图神经网络的分子图逐原子生成
3D分子生成：生成分子的三维构象（如DiffSBDD）
条件生成：在生成过程中施加活性、ADMET、可合成性等约束

课程将演示使用REINVENT或MolGPT从头生成针对特定靶点的分子骨架。

4.3 多靶点药物分子设计

针对复杂疾病（如肿瘤耐药、自身免疫疾病），单靶点药物往往效果有限。AI可以设计同时作用于两个或多个靶点的分子：

多目标强化学习：在奖励函数中同时设置多个靶点的活性目标
多任务学习模型：同时预测多个靶点的活性，用于筛选多靶点分子
分子拼接/融合策略：AI辅助设计同时结合两个靶点的分子骨架

4.4 分子结构优化

从苗头到先导再到候选，需要优化效价、选择性、ADME、安全性、可合成性等多个参数。AI方法包括：

多参数优化（MPO）：使用贝叶斯优化、遗传算法、强化学习在多目标间寻找帕累托前沿
基于配体的优化：分析SAR数据，推荐修饰位点和取代基
骨架跃迁：使用生成模型保持活性的同时改变分子骨架，以改善ADMET或避开专利

4.5 大分子治疗候选物功能预测

对于治疗性蛋白、mRNA、基因治疗载体，AI可预测：

免疫原性（T细胞表位预测）
表达效率（mRNA稳定性和翻译效率）
聚集倾向和长期稳定性
半衰期和清除机制

五、适应症筛选与成药性评估

5.1 ADMET性质预测

ADMET（吸收、分布、代谢、排泄、毒性）是候选药物进入临床前的关键关卡。AI模型可以：

吸收预测：Caco-2渗透性、人肠道吸收
分布预测：血浆蛋白结合率、血脑屏障穿透、组织分布体积
代谢预测：CYP450酶抑制/诱导、代谢位点识别
排泄预测：清除率、半衰期
毒性预测：肝毒性、hERG风险、遗传毒性、皮肤致敏性

课程将演示使用ADMETlab、DeepTox或开源模型进行批量化ADMET预测。

5.2 基于PK/PD的人体药效预测

整合体外活性数据、动物体内PK/PD数据，利用机器学习或生理药代动力学（PBPK）模型，可以预测：

首次人体试验的有效剂量
给药频率和给药途径建议
不同人群（肝肾功能不全、儿童、老年人）的剂量调整

5.3 动态优化闭环与干湿实验结合

AI模型的预测结果可指导下一轮合成与测试，形成闭环：

设计新分子 → AI预测多参数 → 综合评分 → 合成优选分子 → 实验验证 → 数据反馈 → 模型更新

这种“设计-合成-测试-分析”（DSTA）循环可显著加速候选化合物优化。课程将介绍如何在自己的项目中建立这种闭环。

六、临床前安全性评估

6.1 毒性预测与脱靶效应分析

深度学习模型可以从分子结构直接预测多种毒性终点：

肝毒性：DILI（药物性肝损伤）风险
心脏毒性：hERG通道抑制风险
遗传毒性：Ames测试阳性预测
生殖/发育毒性：基于结构警示片段
脱靶效应：基于化学-蛋白质相互作用组预测非预期靶点结合

课程将讲解如何解读毒性预测结果，以及与体外安全性数据如何交叉验证。

6.2 临床前药代动力学模拟

AI结合PBPK模型，可以模拟不同给药方案下的体内暴露，识别吸收瓶颈，指导制剂设计（如改盐、微乳、纳米晶）。

七、临床试验与智能化决策

7.1 临床方案设计

基于历史试验数据（成功和失败的案例），AI可以优化：

入排标准的设定（哪些患者群体最能从药物获益）
试验终点的选择（主要终点、次要终点、替代终点）
样本量估计和分组策略
适应性设计的中期决策规则

7.2 患者筛选与入组

患者入组慢是临床试验的主要瓶颈之一。AI可以：

从电子健康记录中自动匹配符合条件的患者
基于医学影像或基因组数据辅助评估入组资格
预测患者的依从性和脱落风险

7.3 临床剂量预测与监测

从首次人体试验（FIH）到II期剂量选择，机器学习可以：

整合早期安全性数据（SAD/MAD）和药效学数据
推荐II期研究的剂量范围
监测试验过程中的安全性信号（如实时不良反应检测）

7.4 试验数据管理与分析

AI辅助的数据清洗、缺失值填补、统计建模（特别是贝叶斯自适应设计）可以提高数据质量与分析效率，减少数据管理的人工成本。

7.5 临床终点预测与评估

利用患者基线特征和早期随访数据（如第4周生物标志物变化），AI模型可预测远期终点（如总生存期、无进展生存期）。这在加速审批和适应性设计中具有应用价值。

八、智能体在药物研发中的应用

8.1 智能体技术框架

智能体（Agent）是大语言模型驱动的自主系统，能够执行“感知-推理-行动”循环。主流框架包括AutoGPT、LangChain、CrewAI等。

8.2 在药物研发中的具体应用

文献挖掘智能体：自动扫描最新论文，提取新靶点、新构效关系、新化合物
分子设计助手：智能体调用RDKit、生成模型、ADMET预测工具，按指定目标生成候选分子
实验设计智能体：基于已有数据，推荐下一组合成或测试方案
报告生成智能体：收集分析结果，自动生成项目阶段性报告

8.3 药物研发专属知识库构建

课程将介绍如何构建具有领域知识的智能体：

基于药物化学、药理学、临床医学等专业文献构建向量数据库
设计工具调用链：调用RDKit进行分子性质计算 → 调用对接软件 → 查询数据库API
实现多智能体协作：一个负责文献综述，一个负责分子生成，一个负责性质预测

人工智能正在深刻变革药物研发的技术流程——从靶点发现到临床试验，从分子设计到安全性评估。掌握AI工具、理解模型逻辑、建立数据驱动的研发思维，已成为药物研发人员适应行业数智化转型的关键。

本次研修班立足于药物研发的真实场景，提供从原理到实操的完整技术路径。欢迎从事小分子、大分子、细胞治疗、基因治疗等各领域药物研发的科研人员参与交流。

因场地与线上带宽限制，名额有限，建议尽早联系报名。

九、培训信息与参与方式

本次研修班由中国科学院人才交流开发中心主办，定于2026年6月26日—28日在北京举行（6月25日报到），并同步提供线上直播。

线下参会：3680元/人，包含培训、资料、证书，食宿统一安排费用自理。
线上直播：6900元/单位，含3个直播账号及3份结业证书（含全程直播回放不限时）。

授课专家：来自中国科学院药物研发相关研究所、知名高校及头部药物研发单位，兼具算法研究与实践经验。

面向对象：各科研院所、高校、医药企业、CRO/CDMO等单位的药物研发人员，以及信息科技、人工智能、成果转化等领域的跨学科学者。

报名及咨询

请扫码填写个人信息，稍后将有工作人员与您联系

附红头文件通知：

报名及咨询

请扫码填写个人信息，稍后将有工作人员与您联系