乐于分享
好东西不私藏

天然产物研究策略与工具进展|基于人工智能策略与工具在促进天然产物及药物开发中的进展

天然产物研究策略与工具进展|基于人工智能策略与工具在促进天然产物及药物开发中的进展

🤖 AI颠覆天然产物药物发现!最新综述揭示智能工具如何加速新药研发

深度学习×基因组×代谢组——从基因到活性的全链条智能突破

✨ 亮点展示

  • 多维度AI整合
     – 深度学习与机器学习打通基因组-化学结构-生物活性关联,构建全景式发现网络
  • 智能去重复
     – MS/NMR结合神经网络快速识别已知化合物,避免重复发现,效率提升百倍
  • 精准代谢调控
     – AI优化生物合成途径,产物产量提升高达74% (violacein/番茄红素案例)
  • 全景式药物重定位
     – 从海量数据中挖掘天然产物新用途,海洋NP抗SARS-CoV-2、阿尔茨海默NP模拟物
  • 开放平台与工具
     – GNPS、antiSMASH 7.0、CANOPUS等AI增强工具推动全球数据共享与自动化注释
  • 多模态数据融合
     – 基因组/代谢组/蛋白质组共解析,发现全新RiPPs、硫肽类化合物

🔬 研究背景

天然产物(NPs)及其衍生物一直是抗生素、抗肿瘤药、免疫抑制剂的核心来源。然而传统“分离-筛选-鉴定”模式周期长、重复率高、暗物质难以挖掘。1990年代后,由于技术瓶颈,大药企一度冷落天然产物。但近年来,人工智能(AI)尤其是深度学习的崛起,彻底改变了这一局面。从基因组挖掘、代谢通路设计,到结构去重复、靶点预测,AI将海量多组学数据转化为可操作的知识。2025年《Critical Reviews in Biotechnology》重磅综述全面盘点了AI驱动的策略与工具,本文带你深度解读这一变革。

📊 图1 / 示意图AI在天然产物发现中的五大核心领域(基因组关联 · 药物重定位 · 代谢通路设计 · 结构去重复 · 生物活性预测)

图1 基于原文Figure 1重构:AI工具流程与数据源

🧪 研究方法与AI算法框架

综述系统梳理了监督学习、无监督学习、深度学习(CNN/RNN/LSTM)、强化学习在天然产物研发中的应用。主要数据来源包括:公共数据库(GNPS、antiSMASH、MIBiG、NPAtlas)、质谱(MS)、核磁共振(NMR)及基因组数据。AI模型通过特征提取、分子图神经网络、自编码器等实现化学空间的高通量筛选和模式识别。代表性算法集成于表1(原文表1),例如支持向量机(SVM)、随机森林(RF)、多层感知器(MLP)被广泛应用于分类与回归任务。

📊 研究结果

1. 基因组挖掘 · 连接BGC与化学结构

AI工具如antiSMASH 7.0、DeepRiPP、RODEO、GECCO利用隐马尔可夫模型(HMM)和深度神经网络,从微生物/植物基因组中精准识别生物合成基因簇(BGC)。例如通过DeepRiPP发现新型林可酰胺类抗生素,NeuRiPP预测未知核糖体肽。结合分子网络(GNPS)与基因组 mining,成功发现了cilagicin、geobacillin等新骨架。图2列举了代表性实例:包括linaridins、tambromycin、thiovarsolin等。

🧬 图2 / 实例集锦AI工具发现的新型天然产物:imiditides, 硫肽类, 深部黄酮等

图2 改编自原文Figure 2:五大领域代表性分子

2. 药物重定位 · 老药新用与靶点预测

基于深度学习的QSAR、虚拟筛选、药物-靶点相互作用预测(DTI)极大加速重定位。DECRyPT(随机森林)识别出β-拉帕醌为5-脂氧合酶别构调节剂;TIGER/SPIDER算法从海洋天然产物库中筛选出SARS-CoV-2 Mpro抑制剂(如bryostatin类似物)。此外,DeepVS、PlayMolecule BindScope等将对接打分与深度卷积结合,使超大规模虚拟筛选成为可能。

3. 代谢通路预测、优化与再设计

RetroPath RL(强化学习)、BioNavi-NP(深度学习)可90%准确预测生物合成路线。ML模型如DeepRF、高斯过程优化番茄红素、青蒿酸产量;MiYA模型使violacein产量提高2.5倍。METIS工作流优化CETCH循环,大大提升体外代谢效率。下表列举了部分AI驱动的代谢工程工具:

工具/算法
应用
效果
BioNavi-NP
导航天然产物生物合成途径
准确率>90%
RetroPath RL
逆合成路径设计
蒙特卡洛树搜索+强化学习
MiYA (YeastFab+ML)
violacein酿酒酵母优化
产量↑2.5倍
ART / TeslaGen EVOLVE
色氨酸产量优化
产率↑74%

4. 生物活性预测与安全性评估

AI工具可快速预测靶点、毒性、ADME性质。CODD-Pred、SwissADME、DeepTox、DeepCYP等深度学习模型在IC50预测、细胞色素抑制、肝毒性等方面表现出色。例如DeepTox在Tox21挑战赛中击败传统方法。NP类特异性工具InflamNat预测抗炎天然产物,精度超过90%。

5. 结构去重复与智能解析 (MS/NMR)

质谱分子网络(GNPS)结合AI:CANOPUS(深度神经网络)无需数据库即可分类未知化合物;MS2Query、MSNovelist可根据MS/MS谱图直接生成分子结构。NMR方面,SMART 2.0(卷积神经网络)使用HSQC谱快速识别化合物类别,DeepSAT从2D NMR预测骨架。图4展示了典型的分子网络工作流和去重复案例。

⚗️ 图4 / 分子网络与去重GNPS分子网络+DEREPLICATOR+ 发现新型肽类 rivulariapeptolides

图4 源自原文Figure 3及引用[203]

其他工具亮点: VarQuest发现新型肽类NP;MS2LDA挖掘亚结构;Dereplication数据库DREP-NP结合NMR/MS快速筛选。表2(原文)汇总了2014-2023年30余种AI赋能的去重工具(如SNAP-MS、MAW、MetDNA等),此处不一一列举。

🧠 讨论与意义

AI已深度融入天然产物药物发现全流程:从基因簇挖掘到结构鉴定,从生物活性预测到合成途径优化。特别是深度学习(CNN/RNN/图神经网络)解决了传统方法难以处理的非线性关系和超高维数据。例如DeepRiPP整合多组学自动发现新型核糖体肽,避免了繁琐的异源表达。此外,多模态融合(如MS+基因组+NMR)正成为趋势,XCMS Online、GNPS2.0等平台支持跨平台协作。这些工具不仅加速了先导化合物的发现,也降低了试错成本。

⚠️ 研究局限性

尽管AI工具发展迅猛,仍面临挑战:• 数据质量与标准化不足(公共数据库注释错误、偏倚);• 模型可解释性差(黑箱问题);• 计算资源需求高,部分工具需付费或特定平台;• 对全新骨架预测能力有限,假阳性/假阴性仍普遍;• 缺乏多模态一站式工具,数据整合困难。未来需要联邦学习、标准化数据共享及更鲁棒的验证策略。

📌 结论

AI赋能的天然产物研发已从“辅助”走向“核心驱动”。2025年综述显示:深度学习与经典算法协同,在基因组挖掘、重定位、代谢工程、去重复等领域带来革命性突破。随着多模态大模型和自动化平台成熟,我们有理由相信,天然产物药物发现将进入智能、高效、精准的新纪元。

🧩 图5 / 总览机制AI多靶点协同作用:从BGC → 化学结构 → 生物活性全景

图5 整合原文Graphical Abstract理念


数据来源 / 核心数据库: GNPS, antiSMASH 7.0, MIBiG 3.0, NPAtlas, METLIN, HMDB, KEGG, Pfam. 主要工具引用详见原文(Basnet et al., 2025)。

往期推荐:
质谱研究|天然产物结构解析利器:LC-MS/MS数据处理与碎片推导工具全攻略
重磅综述:天然产物化学在药物发现中的作用:二十年进展与展望
人工智能在天然产物研究中的应用
需要文章pdf,关注加评论,扫码私信获取!

点击蓝字

关注我们

科研猫猫猫

微信号x17585577064

可私信合作

扫码私信我进学术交流讨论群

关注我,分子网络/代谢组学不迷路!

更多精彩内容,扫码加入社群查看!
本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 天然产物研究策略与工具进展|基于人工智能策略与工具在促进天然产物及药物开发中的进展

猜你喜欢

  • 暂无文章