

01 AI+基因编辑线上直播课
02 AI蛋白质设计(最新前沿/进阶)线上直播课
03 AI辅助抗体设计线上直播课
04 深度学习在多组学融合中的应用直播课
05 机器学习代谢组学直播课
06 AIDD药物设计进阶录播课
优惠1:报二送一(同时报名两个班赠送一个学习班,赠送班任选)
优惠2:提前报名缴费可享受300元优惠(仅限前15名)
优惠3:报名直播课程可赠送往期课程回放
(报名一个直播课可以赠送两个回放)
(报名三个直播课赠送下面全部课程回放)

(可点击跳转详情链接):
回放五: 本课程为视频课!CRISPR-Cas9基因编辑培训!
回放六:本课程为视频课!蛋白质晶体结构解析培训!

上下滑动查看更多


第一天
1. 基因组编辑技术简述
1.1 基因组测序、编辑和读写时代及基因组编辑技术现状简述
2. 基因组编辑四代技术原理
2.1 四代基因组编辑技术发展历程
2.2 ZFN、TALEN和CRISPR/Cas系统的组成和工作原理
3. CRISPR/Cas系统的来源及分类
3.1 CRISPR/Cas系统的发现过程
3.2 CRISPR/Cas系统的适应性免疫原理
3.3 CRISPR/Cas系统的分类依据和类型
4. CRISPR/Cas系统介导的DNA编辑工具
4.1 CRISPR/Cas9基因编辑工具
4.2 CRISPR/Cas12a基因编辑工具
5. CRISPR/Cas系统衍生工具的发展
5.1 碱基编辑工具的组成、作用原理及其应用
5.2 引导编辑的作用机理、应用及其发展动态
6. CRISPR/Cas介导的基因调控、细胞成像和核酸检测技术
6.1 CRISPR/Cas介导基因调控技术的原理和工具组成
6.2 CRISPR/Cas介导细胞成像技术的原理和工具组成
6.3 CRISPR/Cas介导核酸检测技术的原理和工具组成
第二天
1. 脱靶效应及其检测
1.1 脱靶效应的检测方法:扩增子测序、全基因组测序、GUIDE-seq等
1.2 脱靶效应的规避方法
2. 基因编辑流程-以植物为例
2.1 靶位点sgRNA或crRNA的设计原则
2.2 表达盒设计和构建的方法
2.3 植物原生质体瞬时表达系统
2.4 基因编辑载体的遗传转化
2.5 基因编辑突变体的检测
3. 基因组编辑常用软件实操
3.1 靶位点设计软件Cas-Designer、BE-Designer、PE-Designer等
3.2 突变分析软件Cas- Analyzer、BE-Analyzer、PE- Analyzer
4. 基因组编辑技术在各领域的应用现状及前景
4.1 基因组编辑技术在基因治疗、免疫学、病毒诊断等方面的应用
第三天理论部分(人工智能+基因编辑背景)
1.深度学习概述
1.1. 深度学习的基础
1.2. 深度神经元网络的工作原理
1.3. 深度学习技术的发展趋势:自监督学习、迁移学习和少样本学习的进展
2.深度学习在基因编辑中的应用

2.1. 基于监督学习的应用:序列标签模型
2.2. 零样本预测模型的应用:结构模型、大语言模型、多模态模型、
2.3. 少样本预测框架的应用(Design-Build-Test-Learn和Lab-in-the-loop范式)
3.深度学习在gRNA优化与设计中的应用

3.1. gRNA活性预测
3.2. 脱靶效应预测
3.3. gRNA预测模型介绍
4. AI辅助的蛋白定向进化在基因编辑中的应用

4.1. 蛋白定向进化的基本概念与实验方法
4.2 AI辅助的蛋白进化工具
4.3. AI与实验反馈的结合
5. AI蛋白质设计在基因编辑中的应用

5.1. 蛋白质设计工具
5.2. 酶设计
5.3. binder设计
6.AI酶挖掘在基因编辑中的应用

6.1. 基于大语言模型挖掘基因编辑酶
6.2. 基于结构比对挖掘基因编辑酶
第四天深度学习在基因编辑中的应用实操教学
1. 基础知识和环境搭建
1.1. GPU服务器登录
1.2. Linux基础知识
1.3. Python基础知识
1.4. 常用深度学习工具包介绍及安装
2.利用深度学习预测gRNA活性
2.1. 配置深度学习环境,安装gRNA活性预测所需的工具
2.2. 高通量数据获取:公开数据集的介绍与使用
2.3. 数据集划分:训练集、验证集、测试集
2.4. 模型搭建与调试:深度学习模型架构设计(如CNN, RNN)
2.5. 模型性能评估:精度、召回率、F1分数等评估指标
2.6. gRNA活性预测:实际应用案例演示和预测结果的解读与应用

3.利用深度学习预测编辑活性
3.1. 环境配置:安装所需工具与库
3.2. 数据获取:编辑活性相关数据集清洗
3.3. 数据集划分
3.4. 模型搭建与调试
3.5. 模型性能评估
3.6. 编辑活性预测:预测结果的展示与解读
4.零样本蛋白进化工具AiCE实操

4.1. AiCE的原理与应用场景
4.2. 环境搭建
4.3. 逆折叠模型的使用:如何利用AiCE进行高活性突变预测;案例演示与实际操作
4.4. 应用实例:碱基编辑器的高效进化
5.少样本蛋白质定向进化工具EVOLVEpro实操

5.1. EVOLVEpro的背景与应用
5.2. 环境搭建与配置
5.3. 基于DMS数据的少样本微调
5.4. 基于实验数据反馈的少样本微调
5.5. 应用实例:Cas12f的高效进化
第五天基因编辑工具设计与挖掘案例复现
1. 设计MLH1 binder提高引导编辑编辑(PE)效率

1.1. 背景知识:基于RFdiffusion + ProteinMPNN + AlphaFold的binder设计流程
1.2. 环境搭建与配置
1.3. 输入结构准备(AlphaFold预测)
1.4. 结构骨架生成:利用RFdiffusion进行结构采样与优化,生成蛋白质结构骨架
1.5. 序列设计:基于RFdiffusion生成的结构骨架,进行序列的优化设计
1.6.复合体结构预测验证:使用AlphaFold进行binder与目标蛋白复合体的结构预测,验证设计的复合体结构是否符合预期
1.7. 结果可视化:使用PyMOL进行结构和设计结果的可视化
2. Cas13抑制剂设计

2.1. 背景知识:Cas13的结构与功能介绍
2.2. 输入结构准备
2.3. 蛋白质设计流程:结合RFdiffusion、ProteinMPNN与AlphaFold设计Cas13抑制剂
2.4. 设计结果分析和可视化
3.基于蛋白质语言模型挖掘新型CRISPR系统

3.1. 蛋白质语言模型在酶挖掘中的介绍与流程
3.2. 序列数据库介绍与下载
3.3. 搜索(query)序列准备
3.4. 基于ESM语言模型挖掘Cas12家族基因编辑酶
4.基于三维结构挖掘新型CRISPR系统

4.1. 结构比对的背景知识:结构比对的重要性与应用;比较不同结构比对工具的优缺点
4.2. Foldseek系列工具介绍:介绍Foldseek、Foldseek multimer、Folddisco、FoldMason等工具的基本原理和使用
4.3. 结构数据库介绍与下载:PDB,AFDB,ESM Atlas
4.4. 输入结构准备:准备用于比对的目标蛋白质结构文件
4.5. Foldseek网页版使用:演示如何使用Foldseek网页版进行结构比对;讲解如何理解输出结果并进行后续分析
4.6. Foldseek本地版使用:本地部署Foldseek并使用命令行工具进行比对
4.7. DALI和TM-align工具本地版使用:介绍DALI与TM-align工具本地版的安装与使用
4.8. 结构进化树构建:使用FoldMason构建蛋白质结构的进化树


上下滑动查看更多


第一天:熟悉超算环境与蛋白质从头设计实践
1.环境搭建:Linux,VScode,Jupyter notebook*
a)超算的登录
b)Linux系统的常用shell命令:vim, ls, cd, less, rm等;
c)一些package安装的常用命令:pip, conda, source等。
d)Jupyter notebook的安装和使用。
e)VScode的基本配置:连接服务器;选择不同python版本的Interpreter;debug模式的使用等。
2.基础知识讲解
a)三类方法在不同程度上探索蛋白质序列空间:
i.蛋白质定向进化(directed evolution)
ii.固定蛋白质主链的序列设计(Fix-backbone protein design)
iii.蛋白质的从头设计(De novo protein design)

b)关键数据库:RCSB PDB, SCOPe, CATH, UniRef, BFD等
c)常见概念和名词: rotamer,scaffold, motif,domain,backbone,side-chain,apo和holo结构,
d)使用的不同模型的原理,transformer,diffusion模型,Flow Matching等。
3.Rfdiffusion3+ProteinMPNN生成序列
a)Rfdiffusion3生成蛋白质骨架结构,ProteinMPNN精细的生成氨基酸序列。
b)Rfdiffusion3的安装实操

c)Rfdiffusion3的使用实操

d)ProteinMPNN的安装实操

e)ProteinMPNN的使用实操

f)Rfdiffusion+ProteinMPNN生成序列,AphaFold2筛选序列。整体实操流程:
i.计算SAP(Spatial Aggregation Propensity)的值,选择3-6个氨基酸作为hotspot,即结合位点;这里需要使用Rosetta进行计算,首先将安装rosetta,准备蛋白,再计算每一个氨基酸的SAP值,将SAP数值映射到结构上。选择hotspot位点。

ii.Rfdiffusion结构设计,生成~10000个蛋白质主链结构;
根据上面挑选得到的hotspot位点,更改相应的hotspot参数,生成新的结构
iii.ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列;
iv.筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证。
4.其它的蛋白质设计方法的实操*
a)BindCraft——序列生成和筛选的自动化实现


BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好,一站式设计流程,序列的生成和筛选自动化实现。将讲解其中参数的设计和选择,如过滤序列条件、生成氨基酸的偏好性等。使用包括置信度评分(如AlphaFold2预测得到的pLDDT、ipTM)、物理指标(如Rosetta界面能量)和序列特征(如疏水性比例)进行筛选。
b)MIT开发的Bolzgen方法原理、安装使用讲解。
安装和使用boltzgen讲解,将详细讲解yaml配置文件的写法,以一个靶点为例,从头生成VHH与该靶点结合。

c)PPIFlow:基于flow-matching的生成方法,原理,安装和使用方法。
第二天:蛋白质设计基础1——结构分析

1.蛋白质结构预测方法
1)从CASP比赛结果来简述蛋白质结构预测方法的发展。基于能量函数 -> 接触图的应用 -> 端到端的预测结构(AlphaFold2)。

2)AlphaFold2的模型相比于以前的方法有什么改进
a)将基于MSA和基于模板的方法整合,使用注意力机制进行MSA信息和模板信息的相互交流。
b)以前提取MSA信息为计算协方差矩阵,AlphaFold2创造性的直接将MSA信息作为输入,将图像识别的算法转变成了自然语言处理算法,减少了中间处理过程中的信息损失。
3)AlphaFold3相比于AlphaFold2改进了什么,还有什么不足。
a)扩展到了多种生物分子的复合物结构预测,包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子,并使用扩散模型。
b)复合物组装与动态预测缺陷,抗体-抗原复合物结构准确度有待提高。
4)运行网页server上的AlphaFold3预测结构,https://alphafoldserver.com*
5)如何使用AlphaFold3预测蛋白质的糖基化,不同糖基化的类型的输入方法。
6)AlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE。
7)本地部署和运行ColabFold,由于AlphaFold3在安装过程中需要下载大量资源,且不能商用,因此不演示AlphaFold3的安装过程,如有问题可以帮助解决。
a)git clone https://github.com/YoshitakaMo/localcolabfold.git
b)wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh
c)bash install_colabbatch_linux.sh
d)export PATH="/path/to/your/localcolabfold/colabfold
conda/bin:$PATH"
2.蛋白质结构分析和可视化
1)pdb文件的解读,每一行中的内容代表什么含义。
2)用 pymol 可视化蛋白质结构*
a)pymol的基础操作讲解
b)如何将实验值投影到结构图的颜色上,如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离*
a)使用python的文本文件操作实现
b)使用python中biopython包实现
3.蛋白质结构相关物理性质的计算*
1)二级结构的分类和计算
2)溶剂可及表面积(SASA)的讲解及计算
第三天:蛋白质设计基础2——序列分析
讲解和实操:
1.获得同源序列
1)了解不同蛋白质序列库,如UniRef90,UniClust30,Pfam等
2)了解不同工具原理并使用:NCBI BLAST,Jackhmmer,HHblits
3)给定一条蛋白质序列,比对序列库,生成多序列比对(MSA)*
从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习(alphafold/alphafold/data/tools/jackhmmer.py)。
运行示例:jackhmmer --cpu 8 -N 2 -E 1e-7 query.fasta uniprot_sprot.fasta -o output.sto
2.对MSA进行频率分析*
1)使用python的文本文件操作实现
2)使用python中biopython包实现
3)绘制序列Logo,可视化的展示每个位点的氨基酸频率和保守性
3.序列的同源性计算和进化树的绘制*
1)不同同源性的计算方法及应用情景,氨基酸序列的identity和Similarity,BLOSUM62的介绍。
2)进化树的绘制
4.基于序列相似性阈值划分训练集和测试集*
1)为什么要做?避免数据泄露
2)选择相似性度量方法
3)相似性矩阵的计算
4)划分数据集
5.大规模蛋白质序列的聚类分析和去冗余*
1)为什么要做?防止过度学习某一类序列特征,消除序列偏差;也能防止训练过程中数据泄露。
2)聚类方法的选择,CD-HIT、MMseq2和Linclust
3)选择代表序列,去冗余
4)实际复现S2ALM这一模型文章中的聚类方法。mmseqs easy-cluster examples/DB.fasta clusterRes tmp --min-seq-id 0.7 -c 0.8 --cov-mode 1
第四天:蛋白质的大语言模型及其应用
1.基础知识讲解
1)介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)
2)为什么要开发蛋白质大语言模型?1. 相比于结构或功能信息,序列信息更加海量;2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等
3)模型架构和基础理论:transformer,多头注意力机制,Bert,GPT,T5等
2.基于Bert架构的蛋白质语言模型
1)ESM系列(ESM-1b、ESM-1v、ESM2、ESM C)
2)ESMFold:无需MSA信息的结构预测
3)使用抗体序列库训练的语言模型:Ablang,AntiBERTy
3.类似GPT的生成模型ProGen1)36层Transformer解码器架构,包含12亿参数
2)引入“控制标签”(如蛋白质家族ID、功能属性)作为输入,生成蛋白质序列空间以外的新的蛋白质序列
3)成功生成新的溶菌酶
4.多模态的蛋白质语言模型ESM3
1)模型架构融合序列,结构和功能信息
2)相比于ESMFold,单体结构预测精度更好
3)基于多模态提示(序列、结构、功能关键词)设计新的蛋白质序列
4)ESM3的安装,生成序列,快速结构预测。*
5.蛋白质语言模型的应用和实战演练*
1)获得序列embedding以构建下游模型(Cell systmes文章举例),从文章github仓库中提炼序列embedding的代码并学习使用。https://github.com/fhalab/MLDE?tab=readme-ov-file#generating-encodings-with-generate_encoding.py,看懂代码中EncodingGenerator的类,将这个类方法用在我们自己的代码上,实现蛋白质序列的不同方式encoding,包括"onehot", "georgiev", “esm”系列模型。
2)使用不同的蛋白质语言模型,零样本的预测蛋白质突变效应。
3)给定少量的突变效应数据作为训练数据,训练模型,预测新的突变效应值。
第五天:深度学习辅助酶设计
1.基础知识讲解
酶的过渡态理论,theozyme,fitness landscape,epistasis
2.酶学性质预测
1.DLKcat与GotEnzyme数据库介绍
2.UniKP:利用预训练模型挖掘、改造Kcat
3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶
3.蛋白质热稳定性改造
1.MutCompute介绍
2.利用MutCompute改造PETase(Nature)
3.ThermoMPNN介绍与使用*
4.Pythia介绍与使用*
4.从Frances H. Arnold(2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖)的工作看酶的定向进化方法的发展
1.传统定向进化实验流程
2.MLDE(Mechine Learning Directed Evolution),学习序列与酶性能之间的映射关系,推荐新的突变组合(PNAS文章)
3.ftMLDE(focused training MLDE),主动学习流程,构建informative的训练数据(Cell Systems文章)。零样本突变效应预测挑选数据集,再通过小样本数据训练的策略微调。
5.酶的从头设计
1.从头设计Diels-Alder催化酶
a)基于Rosetta的Inside-out策略(Science文章)
b)通过Foldit蛋白质折叠游戏改善结构问题(Nat. Biotechnol.文章);c)Foldit蛋白质折叠游戏的实践*
2.从头设计荧光素酶,Family-wide hallucination,基于该酶家族的结构幻化出新的结构(Nature文章)
3.RFdiffusion+PLACER从头设计丝氨酸水解酶(Science文章)
6.利用预测结构的相似性,挖掘序列的新酶功能(复现顶刊cell文章)*
1.InterPro数据库中下载数据
2.TM-score计算结构距离
3.UPGMA结构聚类,画出进化树
4.挑选序列
第六天: 蛋白质功能与互作预测;实验验证与AI模型训练预测闭环
1.蛋白质功能预测:
1)基础知识:
a)基因本体论(Gene Ontology, GO),
b)MF/BP/CC,MF Molecular Function分子功能;BP Biological Process生物过程;CCCellular Component 细胞组分。
c)GAF (GO Annotation File) 文件。
d)本体文件来理解GO术语之间的层次关系。
e)解析GAF,提取蛋白质ID和GO ID。
2)DeepGO-SE,通过蛋白质的语言模型提取序列嵌入,预测蛋白质的功能
3)DPFunc:先用蛋白语言模型提取残基特征,再在接触图上用 GCN 学习结构信息,并引入结构域(domain)指导,最后把多层特征映射到 GO 图上,显著提升对罕见功能项和低序列相似蛋白的预测精度
4)Prot2Text-V2模型。Prot2Text-V2将图神经网络(Graph Neural Network, GNN)与大型语言模型(Large Language Model, LLM)融合到同一个编码器-解码器框架中,有效整合了包括蛋白质序列、结构和文本注释在内的多种数据,以自由文本形式输出蛋白质功能预测结果 5)ProteinKG65构建蛋白质知识图谱,基于Gene Ontology (GO) 和 UniProt 等权威知识库,将蛋白质的功能、结构、相互作用等知识组织成图谱形式,支持下游的机器学习任务,如蛋白质功能预测、表示学习、药物靶点发现等
2.蛋白质相互作用预测:Science文章:使用更深的进化信号:omicMSA+新的深度学习网络:RF2‑PPI。在全人类蛋白质组中筛出一批高置信度的互作,用于补齐人类互作图谱、解释疾病突变和蛋白功能。
1.更深的进化信号:omicMSA
从约 30 PB 的未组装基因组/转录组数据里挖人类蛋白的同源序列,而不仅仅依赖 UniRef 等传统数据库。
构建omicMSA,使得每个蛋白的深度比常规模板 MSA 深 7 倍左右,协同进化信号显著增强。
2. 新的深度学习网络:RF2‑PPI
基于 RoseTTAFold2 框架开发了一个新的 PPI 预测网络 RF2‑PPI,用来快速估计两条蛋白是否互作以及界面大致形态。
为了训练 RF2‑PPI,构建了很大的数据集:从约 2 亿个预测蛋白结构中抽取各种结构域组合,构建了大规模的 DDI 训练样本,使训练集规模相比传统 PPI 结构数据扩大约 16 倍
筛选流程:
1. 人类蛋白集合
取约 19,500 个人类蛋白序列(UniProt 等),所有可能的配对约 2 亿对。文章中实际筛查约 2 亿对蛋白组合。
2. 构建深度 omicMSA
对每个蛋白,以及蛋白对,基于 30 PB 基因组/转录组数据构建 omicMSA,并对每个蛋白对生成配对 MSA(pMSA),用于协同进化分析和后续深度学习输入。
3. 快速预筛:共进化 / RF2‑PPI 粗打分
先用直接耦合分析(DCA)等共进化方法,结合 RF2‑PPI 对 2 亿对蛋白打一个“互作概率”分数(RFIntProb),过滤掉大部分不可能的组合。
他们在一个中间步骤里,从 4360 万对预筛后的蛋白对中,用RF2‑PPI 进一步筛选出约 190 万对 RFIntProb > 0.3 的候选。
4. 精细建模:AlphaFold2 复合物结构
对这约 190 万对蛋白,用 AlphaFold2(多聚体/复合物模式)进行结构预测,得到每一对的三维复合物模型以及一个基于界面质量的互作概率(AFIntProb)。
根据 AFIntProb 以及界面大小等指标选择高置信度互作。
5. 高置信度集的定义
在所有蛋白对中,他们最终在“完全无先验”的全 2 亿对筛选中得到 6,763 个高置信度 PPI;
进一步结合已有数据库(STRING、BioGRID、UniProt 里有物理互作证据的 115万对蛋白对),在有先验证据的集合上又识别出 21,960 个高置信度PPI。
综合各种来源和精度阈值,共预测出 17,849 个 PPI,预期精度约90%,其中 3,631 个此前实验未报道的新互作。
3. AI模型训练预测和实验闭环
以 EVOLVEpro 为例,实践计算–实验闭环:
初始化
●选取少量已测序列(野生型 + 文献或少量自设计突变),测定活性。
●用蛋白语言模型把序列编码成向量,训练一个初始的监督回归模型(序列向量 → 活性)。
生成候选序列
●设定允许的突变范围(允许 1–3 点突变、限定在特定位点/区域)。
●在该空间内大规模生成候选序列(10^3–10^5),可结合 embedding 空间附近搜索、局部扰动等策略。
预测与智能选样
●用回归模型对所有候选序列预测活性或综合评分。
●依据主动学习策略挑出一小批要做实验的序列:
●直接选预测值最高的 top‑k;或
●结合预测不确定性、序列多样性等,使样本既“高潜力”又“信息量大”。
实验验证
●合成/构建这批候选序列,利用高通量实验(如流式、板读、NGS 条形码筛选等)测定真实活性。
●得到新一轮“序列–活性”数据。
回流更新与迭代 ●将新数据并入训练集,重新训练或微调回归模型(PLM 一般保持不变)。 ●重复“生成候选 → 预测选样 → 实验验证 → 更新模型”的循环,通常 3–4 轮即可显著提升目标性能。 


上下滑动查看更多


*涉及使用代码/计算工具的操作
第一天:代码基础,抗体基础,介绍各大药企在AI辅助抗体药物开发上的布局,复现GSK在抗体亲和力成熟上的工作
1.代码基础知识讲解,环境搭建:Linux,VS code*
a)超算的登录
b)Linux系统的常用shell命令:vim, ls, cd, less, rm等;
c)一些package安装的常用命令:pip, conda, source等。
d)VS code的基本配置:连接服务器;选择不同python版本的Interpreter;debug模式的使用等。
2.抗体基础知识讲解:
a)VDJ重排,germline,CDR区域,表位(epitope/paratope),抗体亲和力成熟,抗体的可开发性等概念介绍
b)不同抗体编号方案(Kabat,Chothia,IMGT)讲解,使用python自动化对抗体序列编号,并识别CDR区域*
c)抗体药物开发的基本流程
3.各大药企在AI辅助抗体药物开发上的布局:讲解各大药企公司发表的文献及报告:
a)Genetech的lab-in-the-loop,结合了实验和计算方法的迭代优化策略的工作b)Genmab手动建立了多样性的抗体可开发性数据集,以进行可开发性数据的训练和预测.
c)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上做的工作等。
4.抗体结构预测
1)通用蛋白结构预测模型:AlphaFold3。
u运行网页server上的AlphaFold3预测结构,https://alphafoldserver.com*
uAlphaFold3输出结果分析,各项置信度指标的含义,以及如何判断预测的准确度,如pLDDT,ipTM,PTM,PAE。
uAlphaFold3的安装过程讲解。
a)抗体专用结构预测模型:ImmuneBuilder,IgFold。实操如何在服务器安装和使用。
5.复现GSK在抗体亲和力成熟上的工作*
第二天:基于大语言模型的抗体亲和力成熟。
1.基础知识讲解
1)介绍蛋白质的语言模型(26字母语言模型->20氨基酸字母表,上下文依赖->氨基酸的共进化)
2)为什么要开发蛋白质大语言模型?
1. 相比于结构或功能信息,序列信息更加海量;
2. 蛋白质序列通过进化而来,可以学习蛋白质基本规律,折叠,共进化等
3)模型架构和基础理论:transformer,多头注意力机制,Bert,GPT,T5等
2.基于Bert架构的蛋白质语言模型
1)ESM系列(ESM-1b、ESM-1v、ESM2、ESM C)
2)ESMFold:无需MSA信息的结构预测
3)多模态的蛋白质语言模型ESM3
4)使用抗体序列库训练的语言模型:Ablang,AntiBERTy
3.Adaptyv EGFR Binder比赛——设计靶向EGFR的更高亲和力binder。1) 比赛结果展示
2)比赛排名靠前的抗体/蛋白是如何设计的
a)第一轮比赛,排名第一的方法:BindCraft
b)第二轮比赛,排名第一的方法:Cradle,在Cetuximab的基础上,用的LLM,突变了10个FR的氨基酸
c)第二轮比赛,排名第二的方法:对一个纳米抗体进行人源化改造
d)第二轮比赛,排名第三的方法:保留与结合重要的氨基酸,生成其它氨基酸RFdiffusion+inverse folding
4.零样本的抗体亲和力成熟*
1) Efficient evolution,基于序列的语言模型推荐突变点(Nat. Biotechnol.文章)
i.了解语言模型推荐突变点的原理;
ii.安装package和模型参数。https://github.com/brianhie/efficient-evolution
iii.运行以推荐突变点:python bin/recommend.py [sequence]
2)Structure evolution,基于结构的语言模型推荐突变点(Science文章)
i.了解inverse folding推荐突变点原理
ii.安装package和模型参数
1.git clonehttps://github.com/varun-shanker/structural-evolution.git
2.conda env create -f environment.yml
3.conda activate struct-evo
4.wget -P ~/.cache/torch/hub/checkpoints https://zenodo.org/records/12631662/files/esm_if1_20220410.zip
5.unzip ~/.cache/torch/hub/checkpoints/esm_if1_20220410.zip
iii.运行以推荐突变点:python bin/recommend.py examples/7mmo_abc_fvar.pdb \
--chain A --seqpath examples/7mmo_chainA_lib.fasta \
--outpath examples/7mmo_chainA_scores.csv \
--upperbound 109 --offset 1
5. 小样本的抗体亲和力成熟*,在已有少量样本的亲和力数据下训练模型。使用MULTI-evolve的方法预测多点的组合突变。

第三天:抗体可开发性预测和优化1
1.抗体可开发性优化在药物开发过程中的意义,
2.衡量抗体可开发性要考虑的因素,如免疫原性、自聚集性、结合特异性、稳定性等等
3.以一篇专利文件为例讲解AI辅助抗体改造的案例。Patent No.: US12110324B2。Generate:Biomedicines公司通过AI方法在tezepelumab上改成的一种靶向(TSLP)的长效单克隆抗体GB-0895。
4.抗体结构简单物理性质的计算:溶剂可及表面积(SASA)的讲解及计算;等电点的计算;蛋白质表面电荷分布的计算。*
5.讲解Ginkgo举办的抗体可开发性预测比赛的结果。
6.公开的抗体可开发性数据的收集。
7.抗体性质预测的模型实践,展示在小样本的情景下训练机器学习模型*1)数据处理,划分数据集
2)模型构建,基于特征工程的机器学习模型(随机森林,XGboost,ElasticNet等);学习根据蛋白质序列和结构信息构建常见特征。seq_features = feature_utils.get_all_seq_features(heavy_seq, light_seq, is_fv=True, isotype='igg1', lc_type='lambda')
3)模型训练和评价,GridSearchCV交叉验证调参等
4)模型的可解释性,特征重要性分析
第四天:抗体可开发性预测和优化2和抗体人源化
1. 基于蛋白质语言模型的可开发性预测*
1)零样本的可开发性预测
2)少样本的可开发性预测。给定抗体序列和相应的性质,构建下游模型预测。
a)数据处理,划分数据集
b)获得序列embedding以构建下游模型,实现蛋白质序列的不同方式encoding,包括"onehot", "georgiev", “esm”系列模型。
c)深度学习模型的构建。上游的大语言模型+下游简单线性层。
d)模型训练和评价:绘制训练曲线,训练集和测试集的评价指标随epoch的变化,
2.免疫原性预测
1)免疫系统介绍,MHC-I和MHC-II,Anti-drug Antibody等基础概念
2)免疫原性预测是MHC结合肽段的预测
3)预测免疫原性。netMHCpan的原理讲解,安装和使用
3.抗体人源化
1)人源化的基础知识和流程。目标:保留亲和力+减小免疫原性+好的稳定性和可开发性。CDR移植到人源框架,回复突变,Vernier Zone,
2)Germline的搜索,IMGT/V-QUEST数据库搜索得到V 基因和J基因相似的人类germline序列。
3)人源化的经典方法biophi的原理讲解、安装和使用。
4)基于AI和基于物理能量(Rosetta)的方法是如何辅助抗体人源化的。
5)排除抗体序列的PTM。

第五天:抗体(scFv, VHH)的从头设计
1.从头设计的意义
1) 跨膜蛋白例如GPCR,难以稳定表达为可溶性蛋白
2)VHH动物免疫羊驼成本高。
3)更高效快速获得候选分子
2.基础模型方法概念介绍:Diffusion模型、 flow-matching、全原子(all-atom)建模等
3.不同公司和方法模型、实验结果讲解
1)Rfdiffusion3+ProteinMPNN生成序列,AphaFold2筛选序列。将学会各个包的安装,不同参数的选择,结合的hotspot位点选择。
a)Rfdiffusion3结构设计,生成~10000个蛋白质主链结构;根据hotspot位点,生成新的结构:
./scripts/run_inference.py 'contigmap.contigs=[B1-100/0 100-100]' 'ppi.hotspot_res=[A30,A33,A34]' inference.output_prefix=test_outputs/binder_test inference.num_designs=10000
b)ProteinMPNN-FastRelax进行序列设计,每一个主链结构两个对应的序列,共设计~20000个序列;
c)筛选:使用AlphaFold2预测设计结构,预测的置信度pAE<10,预测结构与设计结构的RMSD<1A,从中挑选95个进行实验验证。
2)Nabla Bio开发的JAM(Joint Atomic Modeling)系统
3)Chai2 Discovery开发的Chai-2方法,用以实现抗体的从头生成
4)MIT开发的Bolzgen方法原理、安装使用讲解。
安装和使用boltzgen讲解,将详细讲解yaml配置文件的写法,以一个靶点为例,从头生成VHH与该靶点结合。

5)PPIFlow:基于flow-matching的生成方法,原理,安装和使用方法。
4.VHH的生成实践
1)确定纳米抗体序列框架(Framework区域)序列,生成CDR区域序列。分析整理纳米抗体序列,绘制序列保守性的Logo图,以此确定在生成VHH时,哪些位置的氨基酸需要固定。
2)对生成的序列进行筛选。在亲和力、序列稳定性、可开发性等各个方面进行筛选。
a)预测结构与设计结构的RMSD,AlphaFold预测设计结构的置信度pAE等
b)筛选Cys,Met等氨基酸含量
c)减少电荷patch
d)根据等电点等性质筛选。
上下滑动查看更多


第一天
多组学测序技术及数据库
上午、理论讲解
1. 多组学测序技术
2. 介绍多组学数据库
3. 深度学习融合多组学模型及应用介绍
GPU 服务器上机实操
1.Linux 操作系统
1.1 常用的Linux 命令
1.2 Vim 编辑器
1.3 基因组数据文件管理, 修改文件权限
1.4 查看探索基因组区域
2.Python 语言基础
2.1.Python 包安装和环境搭建
2.2.常见的数据结构和数据类型
下午、深度学习实现多组学数据插补模型理论讲解Python代码解析及GPU服务器上机实操
1. 多组学融合通用框架模型CustOmics
2. 非监督深度学习癌细胞系合成数据增强模型MOSA (Multi-Omic Synthetic Augmentation)
第二天
深度学习识别基因变异及疾病亚型
上午、深度学习识别基因变异模型理论讲解Python代码解析及GPU服务器上机实操
1. 深度学习识别基因变异诊断阿尔茨海默病SWAT
2. 多阶段融合多组学表观遗传数据预测转录因子深度学习模型TRAPT
下午、深度学习识别疾病亚型模型Python代码解析及GPU服务器上机实操
1. 多组学识别癌症亚型生成对抗式深度学习模型Subtype-GAN
2. 多尺度可解释的多组学深度学习模型DeepOmix预测癌症生存期
3. 联邦深度学习多组学数据预测癌症演化DeepProg模型
第三天
深度学习识别疾病标志物
上午、深度学习模型识别疾病标志物Python代码解析及GPU服务器上机实操
1. 多组学特征排序识别COVID-19疾病标志物Deep IDA模型
2. 基于肠道微生物组预测肠道代谢物高可解释性神经编码器-解码器网络模型BioNED
下午、深度学习模型识别病理图像标志物Python代码解析及GPU服务器上机实操
1. 基于深度学习的集成方法从组织病理学图像预测胃腺癌分子亚型DEMoS
2. 基于深度学习的结直肠癌病理图像预后标志物挖掘DigiPathAI
第四天
深度学习融合单细胞多组学数据
上午、深度学习融合单细胞多组学模型Python代码解析及GPU服务器上机实操 1. 单细胞多组学聚类多模态深度学习模型scMDC
2. 基于深度学习的生成式模型融合单细胞多组学数据scMM (mixture-of-experts deep generative model)
下午、融合单细胞空间多组学深度学习模型Python代码解析及GPU服务器上机实操
1. 空间反卷积多尺度深度模型TACIT推断细胞类型及细胞状态
2. 深度学习模型从单细胞数据解析醣基化生物过程
第五天
深度学习融合多模态功能学习识别疾病通路、药物重定位
上午、深度学习模型融合多模态功能学习识别疾病通路Python代码解析及GPU服务 器上机实操
1. 基于Transformer 的深度学习模型整合多组学数据与癌症通路DeePathNet
2. 一种识别泛癌种Ras通路激活的深度学习方法NatDRAPl
下午、深度学习模型多组学整合药物重定位Python代码解析及GPU服务器上机实操
1. 基于核方法的深度学习框架实现多组学整合的药物重定位DeepDRK
2. 基于蛋白质相互作用网络嵌入细胞系以预测抗癌协同药物组合模型PRODeepSyn




第一天上午
A1 代谢物及代谢组学的发展与应用
(1) 代谢与生理过程;
(2) 代谢与疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像(MSI);
(5) 代谢组学与药物和生物标志物;
(6) 代谢流与机制研究。
A2 代谢通路及代谢数据库
(1) 几种经典代谢通路简介;
(2) 三大常见代谢物库:HMDB 、METLIN 和 KEGG;
(3) 代谢组学原始数据库:Metabolomics Workbench 和 Metabolights. A3 参考资料推荐
第一天下午
A4 代谢组学实验流程简介
A5 色谱 、质谱硬件与原理解析
(1) 色谱分析原理与构造;
(2) 色谱仪和色谱柱的选择;
(3) 色谱的流动相:梯度洗脱法;
(4) 离子源、质量分析器与质量检测器解析;
(5) 质谱分析原理及动画演示;
(6) 色谱质谱联用技术(LC-MS);
第二天上午
B1 代谢物样本处理与抽提
(1) 各种组织、血液和体液等样本的提取流程与注意事项;
(2) 代谢物抽提流程与注意事项;
(3) 样本及代谢物的运输与保存问题;
B2 LC-MS 数据质控与搜库
(1) LC-MS 实验过程中 QC 和 Blank 样本的设置方法;
(2) LC-MS 上机过程的数据质控监测和分析;
(3) 代谢组学上游分析原理——基于 Compound Discoverer 与 Xcms 软件;
(4) Xcms 软件数据转换、提峰、峰对齐与搜库;
第二天下午
B3 R 软件基础
(1) R 和 Rstudio 的安装;
(2) Rstudio 的界面配置;
(3) R 中的基础运算和统计计算;
(4) R 中的包:包,函数与参数的使用;
(5) R 语言语法,数据类型与数据结构;
(6) R 基础画图;
B4 R 语言画图利器——ggplot2 包
(1) ggplot2 简介
(2) ggplot2 的画图哲学;
(3) ggplot2 的配色系统;
(4) ggplot2 数据挖掘与作图实战;
第三天上午
机器学习
C1 有监督式机器学习在代谢组学数据处理中的应用
(1) 人工智能、机器学习、深度学习的关系;
(2) 回归算法:从线性回归、Logistic 回归与 Cox 回归讲起;
(3) PLS-DA 算法:PCA 降维后没有差异的数据还有救吗?
(4) VIP score 的意义及选择;
(5) 分类算法:决策树,随机森林和贝叶斯网络模型;
C2 一组代谢组学数据的分类算法实现的 R 演练
(1) 数据解读;
(2) 演练与操作;
第三天下午
C3 无监督式机器学习在代谢组学数据处理中的应用
(1) 大数据处理中的降维;
(2) PCA 分析作图;
(3) 三种常见的聚类分析:K-means、层次分析与 SOM
(4) 热图和 hcluster 图的 R 语言实现;
C4 一组代谢组学数据的降维与聚类分析的 R 演练
(1) 数据解析;
(2) 演练与操作;
第四天上午
D1 在线代谢组分析网页 Metaboanalyst 操作
(1) 用 R 将数据清洗成网页需要的格式;
(2) 独立组、配对组和多组的数据格式问题;
(3) Metaboanalyst 中的上游分析(原始数据峰提取、峰对齐与搜库)
(4) Metaboanalyst 的 pipeline 以及参数设置和注意事项;
(5) Metaboanalyst 的结果查看和导出;
(6) Metaboanalyst 的数据编辑;
(7) 全流程演练与操作。
(8) 代谢联合多组学分析网页操作。
第四天下午
D2 代谢组学数据清洗与 R 语言进阶
(1) 代谢组学中的 t、fold-change 和响应值;
(2) 数据清洗流程;
(3) R 语言 tidyverse;
(4) 数据预处理:数据过滤与数据标准化(样本的 Normalization 和代谢物的 Scaling);
(5) 代谢组学数据清洗演练;
第五天上午
E1 文献数据分析部分复现(1 篇)
(1) 文献深度解读;
(2) 实操:从原始数据下载到图片复现;
(3) 学员实操。
第五天下午
E2 机器学习与代谢组学顶刊解读(3 篇);
(1) Signal Transduction and Targeted Therapy 一篇有关饥饿对不同脑区代谢组学影响变
化的小鼠脑组织代谢图谱类的文献;(数据库型)
(2) Cell 一篇代谢组学孕妇全程血液代谢组学分析得出对孕周和孕产期预测的代谢标志物
的文献;(生物标志物型)
(3) Nature 一篇对胰腺癌患者肠道菌群的代谢组学分析找到可以提高化疗效果的代谢物的
文献。(机制研究型)


1.AIDD概述及药物综合数据库介绍

2.人工智能辅助药物设计AIDD概述

3.安装环境
(1)anaconda
(2)vscode
(3)pycharm
(4)虚拟环境
4.第三方库基本使用方法
(1)numpy
(2)pandas
(3)matplotlib
(4)requests
5.多种药物综合数据库的获取方式


(1)KEGG(requests爬虫)
(2)Chebi(libChEBIpy)
(3)PubChem(pubchempy / requests)
(4)ChEMBL(chembl_webresource_client)
(5)BiGG(curl)
(6)PDB(pypdb)
二、 ML-based AIDD
1.机器学习
(1)机器学习种类:
①监督学习
②无监督学习
③强化学习
(2)典型机器学习方法
①决策树
②支持向量机
③朴素贝叶斯
④神经网络
⑤卷积神经网络
(3)模型的评估与验证
(4)分类评估:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算
(5)回归评估:平均绝对误差、均方差、R2分数、可释方差分数
(6)交叉验证
2.sklearn工具包基本使用
3.rdkit工具包的基本使用
4.化合物编码方式和化合物相似性理论知识
5.项目实战1:基于ADME和Ro5的分子筛选
6.项目实战2:基于化合物相似性的配体筛选
7.项目实战3:基于化合物相似性的分子聚类
8.项目实战4: 基于机器学习的生物活性预测
9.项目实战5:基于机器学习的分子毒性预测
三、 GNN-based AIDD
1.图神经网络
(1)框架介绍: PyG,DGL,TorchDrug
(2)图神经网络消息传递机制
(3)图神经网络数据集设计
(4)图神经网络节点预测、图预测任务和边预测任务实战
2.论文精讲:DeepTox: Toxicity Prediction using Deep Learning
3.项目实战1:基于图神经网络的分子毒性预测
(1)SMILES分子数据集构建PyG图数据集
(2)基于GNN进行分子毒性预测
4.项目实战2:基于图神经网络的蛋白质-配体相互作用预测
(1)蛋白质分子图形化,构建PyG图数据集
(2)基于GIN进行网络搭建及相互作用预测
四、 NLP-based AIDD
1.自然语言处理
(1)Encoder-Decoder模型
(2)循环神经网络 RNN
(3)Seq2seq
(4)Attention
(5)Transformer
2.项目实战1:基于自然语言的分子毒性预测
(1)SMILES分子数据集词向量表示方法
(2)基于NLP模型进行分子毒性预测
3.项目实战2:基于Transformer的有机化学反应产量预测 (Prediction of chemical reaction yields using deep learning)
4.论文精读及代码讲解:《Mapping the space of chemical reactions using attention-based neural networks》

五、分子生成与药物设计
1.分子生成模型
(1)循环神经网络RNN
(2)变分自动编码器VAE
(3)生成对抗网络GAN
(4)强化学习RL
2.项目实战1: 基于图数据的小分子化合物生成模型《A Graph to Graphs Framework for Retrosynthesis Prediction》
3.项目实战2: 基于NLP的抗体生成模型《Generative language modeling for antibody design》
1.AIDD概述:从CADD到AIDD
2.软件安装与环境搭建
(1)anaconda
(2)vscode
(3)环境变量的配置
(4)切换pip和conda镜像源
(5)虚拟环境的创建
3.RDKIT工具包的使用
(1)基于RDKit的分子读写
(2)基于RDKit的分子绘制
(3)基于RDKit的分子指纹与分子描述符
(4)基于RDKit的化合物相似性与子结构
4.药物综合数据库的获取方法
(1)基于requests的基本爬虫操作
(2)小分子数据库PubChem数据获取(pubchempy / requests)
(3)蛋白质数据库PDB、UniProt数据获取
5.深度学习辅助药物设计
(1)神经网络基本概念与sklearn工具包介绍
(2)图神经网络与消息传递机制基本知识
(3)Transformer模型基本知识:分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍
(4)模型的评估与验证:准确率、精确率、召回率、F1分数、ROC曲线、AUC计算,平均绝对误差、均方差、R2分数、可释方差分数,交叉验证等
培训内容2:TOP期刊|基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》
1.数据。研究使用了三类数据:
1.1.Buchwald-Hartwig HTE数据集:包含3955个Pd催化C-N偶联反应,涵盖15种卤化物、4种配体、3种碱和23种添加剂组合,产率通过统一实验测量,数据质量高。
1.2.Suzuki-Miyaura HTE数据集:包含5760个反应,涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合,产率分布均匀。
1.3.USPTO专利数据集:从公开专利中提取,包含不同规模(克级与亚克级)的反应产率,数据噪声大且分布不一致,需通过邻近反应产率平滑处理以提升模型表现。
2.模型。核心模型基于预训练的rxnfp(反应指纹)BERT架构,新增回归层构成Yield-BERT。输入为标准化反应SMILES,通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征(如DFT计算描述符),直接端到端预测产率。实验表明,其性能优于传统方法(如随机森林和分子指纹拼接),尤其在HTE数据上接近化学描述符的预测水平,且参数鲁棒性高(超参数调整影响小)。
3.训练。训练分为两步:
3.1.预训练:BERT通过掩码语言任务学习SMILES的通用表示。
3.2.微调:采用简单Transformers库和PyTorch框架,以MSE损失优化回归层,学习率(2×10⁻⁵)和dropout率(0.1–0.8)为主要调参对象。HTE数据采用随机/时间划分验证,USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验(5%训练数据)显示模型能快速筛选高产反应,指导合成优化。

培训内容3:
TOP期刊|基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》
1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练,以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。
2.模型架构和原理。T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型,该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构,并根据任务类型引入了任务特定的提示和不同的输出层,如分子生成头、分类头和回归头,以处理序列到序列的任务、反应类型分类和产品产率预测。
3.训练过程和细节。
3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练,使用BERT类似的“masked language modeling”目标。
3.2.在预训练阶段,源序列中的tokens被随机掩蔽,模型的目标是预测被掩蔽的正确的tokens。
3.3.预训练完成后,模型在下游的监督任务中进行微调,使用不同的任务特定提示和输出层。
3.4.模型在测试阶段通过生成分子token by token的方式进行预测,直到生成“句子结束标记”或达到最大预测长度。

培训内容1:
Nature Communication|体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》
CatPred 提出了一种全面的深度学习框架,用于预测体外酶动力学参数(kcat、Km、Ki),以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测,还引入了对预测不确定性的量化,支持对训练集外(out-of-distribution)酶序列的稳健预测。此外,作者还构建了新的标准化数据集(CatPred-DB),并对多种酶表示方法进行了系统比较。
1.数据:CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库,作者构建了 CatPred-DB,包括:23197 条 kcat,41174 条 Km和11929 条 Ki 数据,每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理,去除缺失值和重复值,并对参数取对数转换以符合正态分布。
2.模型:CatPred 采用模块化设计,酶和底物分别通过不同的神经网络模块进行表征学习,并采用 概率回归 输出(高斯分布形式的均值和方差),允许进行 不确定性估计(aleatoric + epistemic)。
3.训练
3.1.所有模型采用负对数似然损失函数(NLL)训练,以同时预测参数均值和不确定性。
3.2.使用训练-验证-测试三分法(80%-10%-10%),并设立“训练集外”的测试子集用于泛化能力评估。
3.3.为了评估不确定性,CatPred 使用 10个模型的集成,通过不同初始参数训练,以此量化 epistemic uncertainty。
3.4.模型训练时考虑了不同相似性(序列identity<99%、80%、60%、40%)的测试集,体现其鲁棒性。
培训内容2:
Science|基于对比学习的蛋白质分类属性预测《Enzyme function prediction using contrastive learning》
1.数据来源和处理: CLEAN模型的训练基于UniProt数据库中的高质量数据,该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入,输出按可能性排序的酶功能列表(以EC编号为例)。为了验证CLEAN的准确性和鲁棒性,作者进行了广泛的in silico实验,并将CLEAN应用于内部收集的未表征的卤酶数据库(共36个)进行EC编号注释,随后通过案例研究进行体外实验验证。
2.模型架构和原理: CLEAN模型采用了对比学习框架,目标是学习一个酶的嵌入空间,其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示,它由机器可读,同时保留了酶携带的重要特征和信息。在CLEAN的任务中,具有相同EC编号的氨基酸序列具有较小的欧几里得距离,而具有不同EC编号的序列则具有较大的距离。
3.训练过程和细节:
3.1.在训练过程中,CLEAN模型使用对比损失函数进行监督训练,通过优先选择与锚点(anchor)嵌入具有小欧几里得距离的负序列,以提高训练效率。
3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入,输出层产生细化的、功能感知的输入蛋白质嵌入。
3.3.预测时,通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。
3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号:一种是贪婪方法,另一种是基于P值的方法。

培训内容1:
Nature Communication|基于端到端的图生成框架的分子生成:《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》
1.数据来源和处理:Graph2Edits模型使用了公开可用的基准数据集USPTO-50k,包含50016个反应,这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。
2.模型架构和原理:Graph2Edits模型是一个端到端的图生成架构,基于图神经网络(GNN)预测产品图的编辑序列,并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程(识别反应中心和完成合成子)合并为一锅学习,提高了在复杂反应中的适用性,并使预测结果更易于解释。模型的核心是图编码器和自回归模型,用于生成编辑序列,并应用这些编辑来推断中间体和反应物。
3.训练过程和细节:
3.1.Graph2Edits模型使用有向消息传递神经网络(D-MPNN)作为图编码器,以获取原子表示和全局图特征,并预测原子/键编辑和终止符号。
3.2.模型训练使用教师强制策略,即使用真实的编辑序列作为模型输入。在每个编辑步骤中,模型会计算所有可能的编辑的概率,并选择最高分的k个编辑,将这些编辑应用于输入图以获得k个中间体。
3.3.在生成过程中,如果达到最大步骤数或图表示指示终止,则生成分支将停止。
3.4.最终,根据可能性对前k个编辑序列和图进行排名,收集为最终预测结果。
培训内容2
Nature Computational Science|基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》
1.简单介绍。这篇文献提出了一种基于结构的药物设计方法(SBDD),利用SE(3)-等变扩散模型(DiffSBDD)生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务,能够一次性生成所有原子位置,克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计,还能通过属性优化、负向设计和分子局部修饰(inpainting)等多种任务灵活应用。
2.数据总结。该研究使用了CrossDocked和Binding MOAD两个数据集进行训练和评估。
2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对,验证集规模为246个,确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。
2.2.Binding MOAD数据集经过筛选后用于测试,分析限于所有方法均能生成样本的78个CrossDocked和119个Binding MOAD目标。此外,数据集处理涉及移除损坏条目,并通过Zenodo公开提供处理后的数据和采样分子,确保研究可重复性。
3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型,以蛋白质结合口为条件生成三维分子结构,采用3D图表示(原子坐标和类型),避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平

培训内容1:
Nature Communication|交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》
1.简要介绍:本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型,用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足,Interformer引入了交互感知混合密度网络(MDN)来明确捕捉氢键和疏水相互作用,并结合负采样策略和伪Huber损失函数,通过对比学习优化相互作用分布,提升对接姿势的准确性和亲和力预测的鲁棒性。
2.数据集:研究使用了PDBBind时间分割测试集(333个样本)评估对接准确性,Posebusters基准测试验证物理合理性,以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。
3.模型:Interformer基于Graph-Transformer架构,包括:(1) 图表示模块,将原子作为节点、邻近关系作为边;(2) 掩码自注意力(MSA)机制,通过Intra-Blocks和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用;(3) 交互感知MDN,融合四种高斯分布模拟常规力、疏水作用和氢键;(4) 边缘输出层整合节点和边特征预测能量;(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。
4.训练细节:训练分两阶段:首先基于晶体结构训练能量模型生成负样本,随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN,二元交叉熵损失优化姿势评分,伪Huber损失(σ=4)优化亲和力预测(单位IC50、Kd、KI,经负对数归一化)。蒙特卡洛采样生成候选姿势,
研究内容2:
Nature Communication|分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》
1.简单介绍:本研究提出了一种名为DynamicBind的深度学习方法,用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性,难以处理蛋白的大尺度构象变化,而分子动力学模拟虽然能捕捉动态构象,但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观,高效模拟蛋白从无配体(apo)状态到配体结合(holo)状态的构象转变,无需依赖holo结构或大量采样。
2.数据集:研究基于PDBbind2020数据库(19,443个蛋白-配体复合物晶体结构),按时间划分:2019年前的数据用于训练和验证,2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集(599对),聚焦激酶、GPCR等主要药物靶点,要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å,确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。
3.模型:DynamicBind是一个基于图神经网络的等变生成模型,使用粗粒化表示(蛋白以Cα节点和侧链二面角表示,配体以重原子节点表示),输出包括蛋白和配体的平移、旋转、扭转角更新,以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换,优化能量景观,包含63.67百万参数。
4.训练细节:训练在8块Nvidia A100 80GB GPU上进行5天,输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象,目标是去噪操作。损失函数包括八项(配体和蛋白的平移、旋转、扭转等),通过Kabsch算法对齐apo和holo结构,结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。
讲师介绍


AI蛋白质设计(最新前沿+进阶)
主讲老师在学术界和工业界都有丰富算法开发和应用经验,博士毕业于国内顶尖课题组,从事蛋白质结构预测和蛋白质设计的研究工作,相关工作成果已在Cell Systems、Angew. Chem. Int. Ed.、JCIM等国际知名期刊发表论文。目前在知名药企担任高级研究员,主导AI驱动的大分子药物设计平台开发与团队管理。

深度学习多组学融合
主讲老师刘老师,生物信息学博士,从事医学生物信息及人工智能研究15年,曾在新加坡基因组研究院及美国加州大学洛杉矶分校研究多组学数据在复杂疾病诊疗中的应用。研究领域涉及人工智能、自然语言处理、功能基因组学、宏基因组学、转录组学、miRNA 及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省级自然科学基金等项目4项,开发过数个生物信息学工具,发表SCI论文20余篇,其中人工智能算法文章10余篇,编著医学数据分析实用教材一部。

AIDD药物设计
主讲老师来自天津大学,有十余年的计算机算法研究和程序设计经验。研究方向涉及深度学习药物发现,药物合成路径设计等。发表SCI高水平论文10篇,包括BMC Bioinformatics, Journal of Biomedical Informatics, International Journal of Molecular Sciences等知名期刊!讲课一致受到学员极高评价

AI+基因编辑
主讲老师在学术界具有多年的研究经历和应用经验,来自于国内顶尖课题组,从事基因组编辑技术与人工智能交叉融合的研究工作,相关工作成果已在Nature Biotechnology、Nature Plants、Trends in Biotechnology等国际知名期刊发表


2026.5.26-2026.5.27(19:00-22:00)
2026.5.30-2026.5.31(09:00-11:30--13:30-17:00)
机器学习代谢组学
2026.05.10 (09:00-11:30--13:30-17:00)
2026.05.12---2026.05.13 (19:00--22:00)
2026.05.16---2026.05.17 (09:00-11:30--13:30-17:00)
2026.05.20---2026.05.21 (19:00--22:00)
提供全部录播、代码进群解疑
AIDD人工智能药物设计进阶(录播)提供全部录播、代码、进群解疑
培训费用
课程报名费用:
AI蛋白质设计(最新前沿+进阶)、AI+基因编辑、AI抗体设计
公费价:每人每班¥6380元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥6080元 (含报名费、培训费、资料费、提供课后全程回放资料)
深度学习在多组学融合中的应用 机器学习代谢组学
公费价:每人每班¥5280元 (含报名费、培训费、资料费、提供课后全程回放资料)
自费价:每人每班¥4980元 (含报名费、培训费、资料费、提供课后全程回放资料)
AIDD药物发现与设计系统录播与AIDD药物发现与设计进阶顶刊复现录播:
重磅优惠:
注:(参加AI蛋白质设计培训可免费参加AI蛋白质设计(前沿、进阶)培训)
优惠1:报二送一(同时报名两个班赠送一个学习班,赠送班任选)
两班同报:10880元
三班同报:14880元
四班同报:18880元
特惠一:24880元 (可免费学习一整年本单位举办的任意课程)
特惠二:28880元(可免费学习两整年本单位举办的任意课程)
特惠三:48880元(终身会员可终身参加本单位举办的任意课程)
优惠2:提前报名缴费可享受300元优惠(仅限前15名)
优惠3:报名直播课程可赠送往期课程回放
(报名一个直播课可以赠送两个回放)
(报名三个直播课赠送下面全部课程回放)
(可点击跳转详情链接):
回放五: 本课程为视频课!CRISPR-Cas9基因编辑培训!
回放六:本课程为视频课!蛋白质晶体结构解析培训!
报名费用可开具正规报销发票及提供相关缴费证明、邀请函,可提前开具报销发票、文件用于报销 。报名缴费后即可获得全套预习资料供大家课前准备
证书:参加培训并通过考试的学员,可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询,可作为能力评价,考核和任职的重要依据。评测证书查询网址:www.miit-icdc.org(自愿申请,须另行缴纳考试费500元/人)


1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿
2、学习模式--理论知识与上机操作相结合,让零基础学员快速熟练掌握 3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答
授课方式:通过腾讯会议线上直播,理论+实操的授课模式,老师手把手带着操作,从零基础开始讲解,电子PPT和教程开课前一周提前发送给学员,所有培训使用软件都会发送给学员,有什么疑问采取开麦共享屏幕和微信群解疑,学员和老师交流、学员与学员交流,培训完毕后老师长期解疑,培训群不解散,往期培训学员对于培训质量和授课方式一致评价极高!

学员对于培训给予高度评价






联系人:叶老师
报名电话:13838281574 ( 微信同号)
邮箱:y13838281574@163.com
引用往期参会学员的一句话:
夜雨聆风