AI+药物国际研究热门方向-夜雨聆风

AI+药物国际研究热门方向

AI 具有彻底改变药物发现和制造的潜力，药物设计和开发包含了一系列现有的人类专业知识，人类和AI之间的协同对于成功提高药物设计和开发至关重要。

人工智能与新药研发

人工智能（artificial intelligence，AI）的发展，为新药研发带来了新的技术手段。通过机器学习（machine learning，ML）、深度学习（deeplearning，DL）等方式辅助药物靶点发现、化合物筛选等，显著提升了新药研发的效率，为降本增效提供了可能。应用AI技术，可缩短前期研发约一半时间，使新药研发的成功率从12%提高到14%，据统计每年为全球节约化合物筛选和临床试验费用约550亿美元。

AI药物开发和设计的预测模型

基于人工智能的预测模型正在成为一种革命性的解决方案，以提高药物设计和开发的效率和速度，特别是通过优化治疗靶点和候选药物的选择。人工智能允许整合大量的多种模式数据，包括结构化和非结构化数据，来建立问题的概率和动态模型。

人工智能驱动的预测模型可以通过使用特定的数据集来生成，为整个药物发现、开发和注册步骤中的一系列决策提供信息（图1）。这些步骤包括选择正确的治疗靶点、最佳候选药物、适当的剂量和给药方案，以及将适当的患者纳入临床研究。

图1.药物发现、开发和注册阶段需要做出的关键决定以及预测模型，和支持这些模型的数据集的例子。

捕捉生物医学大数据的价值

新一代DNA、RNA和外显子组测序、多组学分子分析、高分辨率医学成像和电子捕获技术最近的快速发展，使我们有可能在一个前所未有的水平上，描述个人在生理学、病理生理学以及环境风险暴露方面的特性。癌症基因组图谱（TCGA）、阿尔茨海默病神经影像计划（ADNI）、骨关节炎计划（OAI）和英国生物银行（UK Biobank）都是这种日益增长的趋势的例子，即整合来自大型患者群体的大数据以支持药物开发。在不久的将来，这种全面的分子信息将适用于多种疾病的数以百万计的患者，另外还有数百个结构化生物医学数据库中汇编的指数级数据和知识可用，如欧洲生物信息研究所（EBI）或美国国家生物技术信息中心（NCBI）管理的数据库。

当试图捕捉这些不断增加的数据的价值时，主要的挑战有：如何选择标准化、机器可读的数据，并适当的访问；数据的复杂性、异质性和稀疏性。在数据生命周期管理中，整合由多种技术产生的海量和多模式数据，并保证一致性和可靠性，仍然是一个重大的困难（图2）。获得准确的、经过整理的大量数据也是提高ML重复性的关键。

解决这些问题需要建立适应生命科学特性的计算硬件架构，这些架构通常被部署到云端。为此，出现了许多倡议，如临床数据交换标准联盟（CDISC）或FAIR指导原则，以实现数据的可查找性、可访问性、互操作性、可重用性和交换。此外，欧洲通用数据保护条例（GDPR）和美国经济和临床健康信息技术法案在访问、存储、共享机密和敏感健康数据方面的监管要求，要求实施明确和可操作的数据治理战略（图2）。

图2. 生物医学数据的生命周期管理。该图表示从数据产生到结果共享的一般生物医学数据生命周期，强调在数据治理方面需要更多的标准化和自动化。

在这种情况下，制药公司或学术实验室之间的竞争前合作联盟，如MELLODDY或Drug Target Commons，分别构成了创新的联合知识倡议，为开发ML算法收集、策划和分享具有适当质量的大量数据。MELLODY联盟将几家药物公司聚集在一起，分享他们的化学库，以训练多任务预测算法，随后由每个合作伙伴应用于支持自己的药物发现计划。同时，多个众包挑战，如Kaggle、Dream和PrecisionFDA，给出了参考数据集，为解决复杂的生物医学问题建立了新算法的基准和测试标准。

治疗靶点的识别、优先排序和验证

目前研究人员正在开发计算方法，以确定与疾病相关的基因，或预测参与疾病因果关系的蛋白质，从而寻找潜在的可操作的治疗靶点。第一步，是在相互连接的基因或蛋白质的大规模网络中，体现特定疾病中失调的分子途径。这些网络是由蛋白质–蛋白质相互作用（PPI）建立的，或通过推理技术重建的，如相关或贝叶斯网络。这种表示方法可以划定与疾病相关的子网络模块，作为进一步计算分析其内在拓扑结构的基础，以确定被预测为 “因果“的节点（包括，例如，主调节器、枢纽和驱动突变）。特别是，网络传播算法通常用于放大那些很少或没有疾病相关直接证据的节点的信号。如上所述，主要的计算挑战涉及从不同层次获得的多层网络的整合，以及大规模动态信息的表示。

除了生物相关性外，还应考虑其他方面，以确定考量疾病靶点的优先次序，如” Open Targets initiative”倡议的那样。(i) 可药性（即能够用小型合成药物或生物药物或任何其他治疗方式来调节靶点的功能的可能性）；(ii) 干扰该靶点时的潜在安全影响；(iii) 利用自然语言处理（NLP）技术从专利和文献中挖掘记录的创新性；以及(iv) 药物开发的可行性。确认靶点的可药性大大受益于三维结构建模的进展，包括最近DeepMind的AlphaFold算法，就是基于主要氨基酸序列，改进蛋白质结构预测。

使用网络计算方法对疾病的因果关系进行推断而确定的候选靶点，需要在湿式实验室实验产生的经验证据基础上进行验证。这一验证（例如，CRISPR-Cas9基因缺失或siRNA基因沉默）步骤，包括对来自患者的细胞或组织的靶点表达（相对于健康对照）表型评估，或在动物模型中进行功能检测，在使用计算预测模型时可以大大简化。因此，与药物发现相关的成本和时间都减少了，同时加强了在进入临床开发前选择候选靶点的理由。

AI+新药研发的应用企业

近年来，越来越多的企业布局AI+ 新药研发，探索如何用 AI 技术实现新药研发的降本增效。据Deep Pharma Intelligence 统计，截至 2020 年，全球共有 240 家 AI+ 新药研发企业，主要分布在美国、英国和加拿大，国内也有一些从事此类工作的企业。目前，探索 AI+ 新药研发的企业主要有三类：一是 AI 药物研发创新企业，如Exscienta、BenevolentAI、Atomwise、Relay Therapeutcs、晶泰科技、燧坤智能等；二是 IT 巨头，如 Google、微软、腾讯、阿里巴巴集团等；三是大型制药企业，如罗氏、阿斯利康、强生、葛兰素史克（GSK）等。

AI+ 新药研发研讨会热点议题

◎从自动化到智能化:新药研发的升级之路

◎AI赋能全新机制口服抗新冠小分子药物硏发进展

◎AI蛋白质组学与药物发现

◎Al for science:新范式驱动药物设计新工具与新流程

◎基于AI的药靶相互作用预测

◎从行业大数据到企业小数据,从专家模式刭惠民模式谈技AI术在医药企业落地的数据基础及应用模式

◎高通量筛选工程技术在有机合成领域的应用

◎AI能药物发现:从靶点发现到虚拟筛选

◎设计基因组编辑功能的膜介导传递

◎计算机辅助化学合成规划（逆合成和反应预测）

◎从头分子设计和分子优化

◎化学和生物制造中的机器学习

◎机器学习辅助的自主化学和生物系统

◎机器学习–集成量子化学和分子动力学

文章编辑参考来源：中国AI药物研发大会、Drug Discovery Toda、百度AI开放平台、斯坦福研究所