强烈推荐!AI多肽设计与AI蛋白质设计、AI抗体设计、AI基因编辑、虚拟细胞最新课程!

顶尖专题课程

01 AI多肽设计线上直播课

02 AI蛋白质设计（最新前沿/进阶）线上直播课

03 AI辅助抗体设计线上直播课

04 AI+基因编辑线上直播课

05 AI构建虚拟细胞线上直播课

06 AI抗菌肽设计线上直播课

优惠1：报二送一（同时报名两个班赠送一个学习班，赠送班任选）

优惠2：提前报名缴费可享受300元优惠（仅限前15名）

优惠3：报名直播课程可赠送往期课程回放

（报名一个直播课可以赠送两个回放）

（报名三个直播课赠送下面全部课程回放）

（可点击跳转详情链接）：

回放一：本课程为视频课！机器学习生物医学培训！

回放二：本课程为视频课！单细胞空间转录组培训！

回放三：本课程为视频课！比较基因组学培训！

回放四：本课程为视频课！机器学习蛋白质组学培训

回放五: 本课程为视频课！CRISPR-Cas9基因编辑培训！

回放六：本课程为视频课！蛋白质晶体结构解析培训！

回放七：本课程为视频课！深度学习基因组学培训！

回放八：本课程为视频课！机器学习代谢组学培训！

回放九：本课程为视频课！机器学习微生物多组学联合分析！

AI多肽设计线上直播课

让学员更好的知道当下蛋白质设计的核心热点以及优势!让学员更好的知道当下蛋白质设计的核心热点以及优势能独立完成蛋白结构可视化：用 PyMOL 加载复合物、识别结合界面、测量相互作用、渲染高清结构图。能使用 ESM2 完成序列评分，用 PepMLM 实现靶标定向短肽生成，并通过 Python 完成数据清洗、筛选与可视化。能用 AF2/Multimer 预测肽 - 蛋白复合物结构，解读 pLDDT/ipTM/PAE 指标，完成界面分析与质量评估。能用 LigandMPNN 基于固定骨架优化短肽序列，结合多指标完成候选肽筛选与成药优化方案设计。建立AI 短肽设计完整思维闭环：靶点选择→候选生成→性质筛选→结构评估→优化验证。具备独立解决实操问题的能力，能合理解读 AI 预测结果、规避模型局限，输出可实验验证的短肽候选。掌握跨工具联用能力，实现 ESM2、PepMLM、AF2、LigandMPNN、PyMOL 的流程化配合使用。

Day 1：短肽设计基础、结构数据库与PyMOL可视化

一、短肽设计的生物学基础

1.1 短肽分类与生物医学功能：系统讲解结合肽（binder）、功能肽、抑制肽、细胞穿膜肽（CPP）的定义与功能差异；重点阐述8–30个氨基酸线性短肽的优势（易合成、易修饰、适合蛋白-蛋白相互作用界面）与局限（稳定性差、蛋白酶易降解、细胞通透性低）。

1.2 短肽-蛋白结合界面的结构特征：介绍短肽在结合界面上的典型构象：α-螺旋、β-折叠、polyproline II螺旋、无规卷曲。

1.3 Hotspot残基与相互作用类型：深入讲解PPI界面中的hotspot理论：芳香族残基（Phe/Trp/Tyr）的π-π堆积、疏水残基的疏水作用、带电残基（Arg/Asp/Glu）的盐桥与氢键。

1.4 短肽设计的策略框架与流程概览：展示从“靶点选择”到“候选推荐”的完整闭环：靶点序列获取 → 候选生成（PepMLM/LigandMPNN）→ 性质筛选 → 结构评估（AF2）→ 界面分析 → 实验验证概念。

二、蛋白质结构数据库与Linux服务器基础

2.1 UniProt数据库：序列、功能域与注释检索：演示如何在UniProt中搜索靶蛋白、获取标准FASTA序列、查看功能结构域（Pfam）、亚细胞定位与疾病关联信息。

2.2 RCSB PDB数据库：结构检索与质量评估：讲解PDB数据库的搜索策略：按靶点名称、关键词、序列相似性检索；重点教授分辨率（resolution）判断、生物组装体（biological assembly）选择与实验方法（X-ray/Cryo-EM/NMR）差异。

2.3 FASTA与PDB文件格式解析：通过文本编辑器直接打开FASTA和PDB文件，讲解文件头信息、序列记录、ATOM记录、链标识（chain ID）与残基编号规则。

2.4 Linux基础命令与服务器连接：SSH连接方法、文件系统导航（cd/pwd/ls）、文件查看（cat/head/tail）、路径概念（绝对路径vs相对路径）。

三、PyMOL三维结构可视化实操

3.1 PyMOL核心概念与界面导航：讲解Object、Chain、Residue、Atom、Selection的层级关系；演示GUI界面与命令行双模式操作，加载示例结构1YCR（p53-MDM2复合物）。

3.2 复合物结构加载与多样化显示：练习cartoon、surface、sticks、spheres、lines等多种显示模式的切换与组合；按chain着色（color by chain）、按B-factor着色（反映pLDDT质量）。

3.3 结合界面识别与距离测量：使用PyMOL selection语言选取短肽链（如chain B）及其周围5 Å范围内的靶蛋白残基；使用distance命令测量关键原子间距离，识别hotspot相互作用对。

3.4 高清图片渲染、标注与结果保存：学习ray渲染、标签添加（label）、视角保存（scene）与高清图片输出（png 300dpi）；输出1张带标注的p53-MDM2结合界面图。

Day 2：蛋白质语言模型、ESM2原理与Jupyter入门

一、从自然语言到蛋白质语言模型

1.1 机器学习基本概念：输入、模型、输出、训练与推理：用“识别手写数字”到“ChatGPT对话”的类比，讲解机器学习四要素：输入数据（features）、模型架构（architecture）、参数（parameters）、损失函数（loss）；区分训练（training，模型学习参数）与推理（inference，模型预测新数据）两个阶段。

1.2 自监督学习与掩码语言建模（MLM）原理：解释“没有人工标签时如何学习”：MLM通过随机遮盖输入序列中的部分token，让模型根据上下文预测被遮盖的内容；在蛋白质中，即遮盖某个氨基酸，根据周围残基预测该位置的氨基酸类型。

1.3 Transformer架构与注意力机制：用可视化图示讲解Self-Attention的核心思想：序列中每个位置都能“看到”其他所有位置，并根据相关性分配注意力权重；解释为什么Transformer能捕捉蛋白质中远距离残基的共进化关系。

1.4 蛋白质序列的Token化与上下文学习：将20种标准氨基酸对应为20个token（加特殊token共约33个）；蛋白质序列即“句子”，同源家族即“语法规则”，保守位点即“高频词”，让学员建立直观的NLP→蛋白质类比。

二、ESM2蛋白质语言模型体系

2.1 ESM系列模型演进：回顾ESM-1b（650M参数）→ ESM-2（8M到15B多规格）→ ESMFold（结构预测）→ ESM-IF（反向折叠）的发展脉络；说明ESM-2是当前蛋白质序列表示的state-of-the-art模型。

2.2 ESM2-650M架构解析：讲解33层Transformer、1280维embedding、约6.5亿参数的规模；说明ESM2在UniRef50上自监督预训练，蛋白质家族的进化约束与结构倾向。

2.3 ESM2在短肽评估中的应用：Perplexity打分：讲解perplexity（困惑度）的直观含义：模型认为该序列“像不像”天然蛋白质；perplexity越低，序列越符合天然蛋白质的统计规律，可作为短肽“天然性”的初筛指标。

2.4 从ESM2到PepMLM：微调策略与条件化生成：解释PepMLM如何在ESM2-650M基础上，使用PepNN和Propedia数据库中的肽-蛋白配对数据进行微调；核心变化：将靶蛋白序列作为条件（condition），强制模型学习“给定靶点，生成结合肽”的映射关系。

三、Jupyter入门与ESM2评分实操

3.1 Jupyter Lab界面导航与单元格操作：演示启动Jupyter、浏览器访问、新建notebook、代码单元格（code cell）与Markdown单元格的区分；讲解运行（Run）、中断（Interrupt）、重启内核（Restart Kernel）的操作场景。

3.2 Python基础：变量、字符串、列表与print输出：教授当天必需的Python最小知识集：变量赋值（sequence = "ACE"）、字符串拼接、列表创建（["A","C","E"]）；所有概念均与ESM2评分脚本中的实际代码对应。

3.3 ESM2评分脚本运行与参数修改：打开教师提供的esm2_score.ipynb，演示加载transformers库、加载ESM2-650M模型、输入FASTA序列、获取per-sequence perplexity的完整流程。

3.4 Perplexity结果解读与对比分析：分别对3条天然结合肽、3条随机打乱序列、3条全丙氨酸序列运行评分，记录结果并对比；讨论：为什么天然肽perplexity最低？随机序列为什么分数高？全丙氨酸序列说明什么？

Day 3：PepMLM短肽生成、PPL评估与Python数据处理

一、PepMLM短肽生成核心原理

1.1 PepMLM方法概述：靶序列条件化的掩码语言模型：系统讲解PepMLM的输入输出：输入 = 靶蛋白序列（≤500 aa）+ 目标肽长度参数；输出 = N条候选肽序列 + 对应的PPL分数；强调PepMLM是“完全基于序列”的设计工具，无需结构输入。

1.2 核心创新：肽区域全掩码与条件概率重建：深入解析掩码策略：将靶蛋白序列与肽序列拼接，对肽区域全部设为[MASK]，模型需要根据靶蛋白上下文重建整个肽序列；这种“条件化重建”迫使模型学习靶点-肽的配对关系。

1.3 Top-k采样策略：平衡多样性与生成质量：讲解解码策略：在每个氨基酸位置，模型输出20种氨基酸的概率分布；top-k采样（论文使用k=3）指从概率最高的3个候选中随机选择，而非总是选概率最高的；k值越大，多样性越高，但可能引入低质量残基。

1.4 伪困惑度（PPL）评估体系与阈值解读：详细讲解PPL的数学定义与生物学意义：PPL反映模型对“该肽作为靶点结合剂”的置信度；

1.5 PepMLM的方法边界与适用范围：PepMLM计算候选（in silico），de novo设计等。

二、Python数据处理与配置文件基础

2.1 Python字典与列表：理解结果数据结构：讲解列表（有序集合，用于存储多条序列）和字典（键值对，用于存储序列-分数映射）的基本操作；查看PepMLM输出的JSON/CSV文件，识别其中的列表和字典结构。

2.2 YAML配置文件格式与参数读写：介绍YAML的语法规则（缩进表示层级、键值对格式）；识别target_fasta、peptide_length、num_sequences、top_k等关键参数的含义与修改方法。

2.3 Pandas表格操作：读取、排序、过滤与统计：演示pandas.read_csv()读取结果、sort_values()按PPL排序、条件过滤（如去除含Cys过多的序列）、基本统计（mean/median/count）；完成从原始结果到筛选表的转换。

2.4 Matplotlib基础：PPL分布直方图绘制：绘制PPL分布图、标记阈值线、直观判断生成质量。

三、PepMLM短肽生成与筛选实操

3.1 配置靶点FASTA、肽长度与采样参数：选择标准靶点，修改config.yaml中的目标序列路径、肽长度（默认12 aa）、生成数量（50条）、top-k值（3）。

3.2 运行生成脚本与实时监控输出日志：在命令行执行python pepmlm_generate.py，观察终端输出的进度条、每条生成肽的序列与PPL值。

3.3 结果清洗：去重、去除非标准氨基酸与长度过滤：运行清洗脚本，去除重复序列、含非标准氨基酸（B/J/O/U/X/Z）的序列、与设定长度不符的序列；统计清洗前后的序列数量变化。

3.4 PPL排序、性质统计与Top 20候选输出：使用pandas按PPL升序排列，计算每条肽的净电荷（pH 7）、疏水氨基酸比例、芳香族残基数量、半胱氨酸数量；综合PPL与性质指标，人工精选Top 20候选，导出为CSV备用。

Day 4：复合物结构预测评估、PyMOL界面分析与批量处理

一、深度学习蛋白质结构预测原理

1.1 结构预测方法演进：从同源建模到深度学习：回顾SWISS-MODEL、I-TASSER、Phyre2等传统方法的核心思想与局限；讲解深度学习时代AlphaFold2的突破性贡献：Evoformer架构、MSA（多序列比对）与配对表示（pair representation）联合进化。

1.2 AlphaFold2与AlphaFold-Multimer的核心差异：明确区分AF2（单链结构预测，输出pLDDT）与AF-Multimer（多链复合物预测，额外输出ipTM与PAE）。

1.3 三大评估指标详解：pLDDT、ipTM、PAE：pLDDT（per-residue predicted LDDT）、残基对误差矩阵、界面区域PAE介绍。

1.4 短肽-蛋白复合物预测的特殊挑战：讲解短肽复合物预测的三大难点：① 肽链柔性大、构象空间大；② 训练数据中短肽复合物占比低；③ 弱亲和力界面信号弱；说明为什么AF-Multimer对短肽的预测confidence通常低于单域蛋白，以及如何谨慎解读结果。

二、复合物结构评估与PyMOL界面分析

2.1 加载预计算AF2结果：pLDDT着色与质量判断：在PyMOL中加载pdb文件，使用color by b-factor直观展示pLDDT分布，识别低置信度区域。

2.2 界面接触残基识别：距离阈值与原子对筛选：使用PyMOL selection命令选取肽链与靶蛋白中距离<5 Å的原子对；利用find_pairs或自定义脚本输出接触残基列表；区分“主链-主链”“主链-侧链”“侧链-侧链”接触类型。

2.3 关键相互作用类型判断：氢键、盐桥、疏水堆积：结合PyMOL可视化与距离测量，识别界面上的典型相互作用：氢键（N-O距离2.5-3.5 Å）、盐桥（带电残基对<4 Å）、疏水堆积（芳香环平面间距<5 Å）。

2.4 PAE矩阵热图解读与预测可靠性评估：在Jupyter中绘制PAE热图；重点观察肽残基（链B）与靶蛋白残基（链A）交叉区域的PAE值。

三、Python批量评估与自动化处理

3.1 Python循环与条件判断：批量处理结构文件：教授for循环遍历文件列表、if条件判断筛选高质量结构，批量读取多个AF2结果的ipTM值，自动筛选ipTM>0.7的候选。

3.2 界面接触自动提取脚本运行与结果整理：自动从pdb文件中提取肽-蛋白界面接触残基对；修改脚本中的距离阈值（如从5.0改为4.0 Å），观察接触数变化，理解参数敏感性。

3.3 路径A候选肽的结构评估表填写：将Day 3生成的Top 20候选中已预计算AF2结构的肽，逐一填写评估表：序列、PPL、ipTM、pLDDT均值、界面接触数、关键相互作用、综合评级（推荐/保留/淘汰）。

Day 5：结构驱动设计、LigandMPNN优化

一、结构驱动的短肽设计原理

1.1 传统固定骨架设计：Rosetta能量函数与Rotamer库：回顾RosettaDesign的经典流程：输入蛋白质主链骨架 → 能量函数评估 → rotamer库侧链packing → 输出最优序列；说明传统方法依赖物理能量函数，计算成本高且对骨架质量敏感。

1.2 ProteinMPNN：图神经网络学习Structure-to-Sequence映射：讲解ProteinMPNN的核心创新：将蛋白质主链看作图（节点=残基，边=空间邻近关系），使用图神经网络（GNN）直接学习“骨架 → 最优序列”的映射；相比Rosetta，ProteinMPNN更快、更准确、对骨架误差更鲁棒。

1.3 LigandMPNN：显式建模非蛋白原子与短肽链：在ProteinMPNN基础上，讲解LigandMPNN对非蛋白原子（小分子、核酸、金属离子、肽链）的显式建模。

二、短肽成药优化

2.1 线性短肽的成药瓶颈：稳定性、通透性、免疫原性：系统讲解短肽面临的三大障碍：胃肠道蛋白酶快速降解、难以穿越肠上皮屏障、潜在的免疫原性反应。

2.2 化学修饰策略：环化、订书肽、非天然氨基酸：介绍提升短肽稳定性的常用化学手段：① 头尾环化（end-to-end cyclization）或侧链-侧链环化（如R4-R10内酰胺桥）；② 订书肽（stapled peptide，烯烃桥锁定α-螺旋）；③ 非天然氨基酸替换（如N-甲基氨基酸、D-型氨基酸抵抗蛋白酶）。

2.3 递送策略：细胞穿膜肽融合、纳米颗粒封装：讲解短肽进入细胞的递送方案：与CPP（如TAT、Penetratin）融合、脂质纳米颗粒（LNP）封装、外泌体靶向递送，说明短肽作为蛋白降解靶向嵌合体（PROTAC）配体的应用前景。

三、LigandMPNN固定骨架优化实操

3.1 复合物骨架PDB准备与链指定：识别靶蛋白链（chain A）与肽链（chain B），确认肽链的残基编号范围；讲解PDB文件格式中链标识与原子坐标的对应关系。

3.2 LigandMPNN参数配置：温度、采样数、设计区域：打开config_ligandmpnn.json，讲解关键参数：temperature（温度，控制序列多样性，建议0.1-0.3）、num_seq_per_target（每条骨架输出序列数）、fix_selected_chains（固定靶蛋白链）、redesigned_chains（重设计肽链）；学员根据靶点修改参数。

3.3 序列重设计与结果对比：原肽vs优化肽：运行python run_ligandmpnn.py，获取LigandMPNN设计的新肽序列；将输出序列与原始PDB中的肽序列进行比对，观察：哪些位置被保守保留？哪些位置发生了突变？突变残基的理化性质变化（如疏水→带电）可能带来什么影响？

3.4 优化序列的AF2-Multimer验证与PPL交叉评估：对比原始肽与优化肽的ipTM、pLDDT、界面接触数；同时用Day 2的ESM2评分脚本对优化肽打分，观察perplexity变化；建立“结构优化序列也应具有低perplexity”的交叉验证思维。

AI蛋白质设计线上直播课

多种蛋白质设计方法、深度学习酶设计、深度学习抗体设计等流程！让学员快速学会David baker核心方法！培训理论结合实操！提供服务器使用！通过详细讲解实操AlphaFold2、AlphaFold3以及pymol和Foldseek等软件让学员学会蛋白质结构预测！通过详细讲解实操ESM系列（ESM-1b、ESM-1v、ESM2、ESMC、ESM3）、GPT的生成模型ProGen让学员学会蛋白质大语言模型！通过详细讲解实操ProteinMPNN、LigandMPNN、ThermoMPNN、Rfdiffusion等软件让学员学会多种蛋白质设计方法!最后通过深度学习酶设计与深度学习抗体设计让学员通过不同方向不同方法更全面的了解蛋白质设计当下的全面性!六天培训流程循序渐进！知识点全覆盖！更是讲解十篇顶刊文献，让学员更好的知道当下蛋白质设计的核心热点以及优势

*涉及使用代码/计算工具的操作

第一天：熟悉超算环境与蛋白质从头设计实践

1.环境搭建：Linux，VScode，Jupyter notebook*

a)超算的登录

b)Linux系统的常用shell命令：vim, ls, cd, less, rm等；

c)一些package安装的常用命令：pip, conda, source等。

d)Jupyter notebook的安装和使用。

e)VScode的基本配置：连接服务器；选择不同python版本的Interpreter；debug模式的使用等。

2.基础知识讲解

a)三类方法在不同程度上探索蛋白质序列空间：

i. 蛋白质定向进化（directed evolution）

ii. 固定蛋白质主链的序列设计（Fix-backbone protein design）

iii. 蛋白质的从头设计（De novo protein design）

b)关键数据库：RCSB PDB， SCOPe， CATH， UniRef， BFD等

c)常见概念和名词： rotamer，scaffold， motif，domain，backbone，side-chain，apo和holo结构，

d)使用的不同模型的原理，transformer，diffusion模型，Flow Matching等。

3.Rfdiffusion3+ProteinMPNN生成序列

a)Rfdiffusion3生成蛋白质骨架结构，ProteinMPNN精细的生成氨基酸序列。

b)Rfdiffusion3的安装实操

c)Rfdiffusion3的使用实操

d)ProteinMPNN的安装实操

e)ProteinMPNN的使用实操

f)Rfdiffusion+ProteinMPNN生成序列，AphaFold2筛选序列。整体实操流程：

i. 计算SAP（Spatial Aggregation Propensity）的值，选择3-6个氨基酸作为hotspot，即结合位点；这里需要使用Rosetta进行计算，首先将安装rosetta，准备蛋白，再计算每一个氨基酸的SAP值，将SAP数值映射到结构上。选择hotspot位点。

ii. Rfdiffusion结构设计，生成~10000个蛋白质主链结构；

根据上面挑选得到的hotspot位点，更改相应的hotspot参数，生成新的结构

iii. ProteinMPNN-FastRelax进行序列设计，每一个主链结构两个对应的序列，共设计~20000个序列；

iv. 筛选:使用AlphaFold2预测设计结构，预测的置信度pAE<10，预测结构与设计结构的RMSD<1A，从中挑选95个进行实验验证。

4.其它的蛋白质设计方法的实操*

a)BindCraft——序列生成和筛选的自动化实现

BindCraft相比于Rfdiffusion+ProteinMPNN更加用户友好，一站式设计流程，序列的生成和筛选自动化实现。将讲解其中参数的设计和选择，如过滤序列条件、生成氨基酸的偏好性等。使用包括置信度评分（如AlphaFold2预测得到的pLDDT、ipTM）、物理指标（如Rosetta界面能量）和序列特征（如疏水性比例）进行筛选。

b)MIT开发的Bolzgen方法原理、安装使用讲解。

安装和使用boltzgen讲解，将详细讲解yaml配置文件的写法，以一个靶点为例，从头生成VHH与该靶点结合。

c)PPIFlow：基于flow-matching的生成方法，原理，安装和使用方法。

第二天：蛋白质设计基础1——结构分析

1.蛋白质结构预测方法

1)从CASP比赛结果来简述蛋白质结构预测方法的发展。基于能量函数 -> 接触图的应用 -> 端到端的预测结构（AlphaFold2）。

2)AlphaFold2的模型相比于以前的方法有什么改进

a)将基于MSA和基于模板的方法整合，使用注意力机制进行MSA信息和模板信息的相互交流。

b)以前提取MSA信息为计算协方差矩阵，AlphaFold2创造性的直接将MSA信息作为输入，将图像识别的算法转变成了自然语言处理算法，减少了中间处理过程中的信息损失。

3)AlphaFold3相比于AlphaFold2改进了什么，还有什么不足。

a)扩展到了多种生物分子的复合物结构预测，包括蛋白质-DNA、蛋白质-RNA、蛋白质-小分子，并使用扩散模型。

b)复合物组装与动态预测缺陷，抗体-抗原复合物结构准确度有待提高。

4)运行网页server上的AlphaFold3预测结构，https://alphafoldserver.com*

5)如何使用AlphaFold3预测蛋白质的糖基化，不同糖基化的类型的输入方法。

6)AlphaFold3输出结果分析，各项置信度指标的含义，以及如何判断预测的准确度，如pLDDT，ipTM，PTM，PAE。

7)本地部署和运行ColabFold，由于AlphaFold3在安装过程中需要下载大量资源，且不能商用，因此不演示AlphaFold3的安装过程，如有问题可以帮助解决。

a)git clone https://github.com/YoshitakaMo/localcolabfold.git

b)wget https://raw.githubusercontent.com/YoshitakaMo/localcolabfold/main/install_colabbatch_linux.sh

c)bash install_colabbatch_linux.sh

d)export PATH="/path/to/your/localcolabfold/colabfold

conda/bin:$PATH"

2.蛋白质结构分析和可视化

1)pdb文件的解读，每一行中的内容代表什么含义。

2)用 pymol 可视化蛋白质结构*

a)pymol的基础操作讲解

b)如何将实验值投影到结构图的颜色上，如何画出发表文章中好看的图

3)计算蛋白质结构中两个氨基酸的距离*

a)使用python的文本文件操作实现

b)使用python中biopython包实现

3.蛋白质结构相关物理性质的计算*

1)二级结构的分类和计算

2)溶剂可及表面积（SASA）的讲解及计算

第三天：蛋白质设计基础2——序列分析

讲解和实操：

1. 获得同源序列

1)了解不同蛋白质序列库，如UniRef90，UniClust30，Pfam等

2)了解不同工具原理并使用：NCBI BLAST，Jackhmmer，HHblits

3)给定一条蛋白质序列，比对序列库，生成多序列比对（MSA）*

从AlphaFold2的经典代码仓库中找到它的生成MSA的代码并学习（alphafold/alphafold/data/tools/jackhmmer.py）。

运行示例：jackhmmer --cpu 8 -N 2 -E 1e-7 query.fasta uniprot_sprot.fasta -o output.sto

2. 对MSA进行频率分析*

1)使用python的文本文件操作实现

2)使用python中biopython包实现

3)绘制序列Logo，可视化的展示每个位点的氨基酸频率和保守性

3. 序列的同源性计算和进化树的绘制*

1)不同同源性的计算方法及应用情景，氨基酸序列的identity和Similarity，BLOSUM62的介绍。

2)进化树的绘制

4. 基于序列相似性阈值划分训练集和测试集*

1)为什么要做？避免数据泄露

2)选择相似性度量方法

3)相似性矩阵的计算

4)划分数据集

5. 大规模蛋白质序列的聚类分析和去冗余*

1)为什么要做？防止过度学习某一类序列特征，消除序列偏差；也能防止训练过程中数据泄露。

2)聚类方法的选择，CD-HIT、MMseq2和Linclust

3)选择代表序列，去冗余

4)实际复现S2ALM这一模型文章中的聚类方法。mmseqs easy-cluster examples/DB.fasta clusterRes tmp --min-seq-id 0.7 -c 0.8 --cov-mode 1

第四天：蛋白质的大语言模型及其应用

1.基础知识讲解

1)介绍蛋白质的语言模型（26字母语言模型->20氨基酸字母表，上下文依赖->氨基酸的共进化）

2)为什么要开发蛋白质大语言模型？1. 相比于结构或功能信息，序列信息更加海量；2. 蛋白质序列通过进化而来，可以学习蛋白质基本规律，折叠，共进化等

3)模型架构和基础理论：transformer，多头注意力机制，Bert，GPT，T5等

2.基于Bert架构的蛋白质语言模型

1)ESM系列（ESM-1b、ESM-1v、ESM2、ESM C）

2)ESMFold：无需MSA信息的结构预测

3)使用抗体序列库训练的语言模型：Ablang，AntiBERTy

3.类似GPT的生成模型ProGen1)36层Transformer解码器架构，包含12亿参数

2)引入“控制标签”（如蛋白质家族ID、功能属性）作为输入，生成蛋白质序列空间以外的新的蛋白质序列

3)成功生成新的溶菌酶

4.多模态的蛋白质语言模型ESM3

1)模型架构融合序列，结构和功能信息

2)相比于ESMFold，单体结构预测精度更好

3)基于多模态提示（序列、结构、功能关键词）设计新的蛋白质序列

4)ESM3的安装，生成序列，快速结构预测。*

5.蛋白质语言模型的应用和实战演练*

1)获得序列embedding以构建下游模型（Cell systmes文章举例），从文章github仓库中提炼序列embedding的代码并学习使用。https://github.com/fhalab/MLDE?tab=readme-ov-file#generating-encodings-with-generate_encoding.py，看懂代码中EncodingGenerator的类，将这个类方法用在我们自己的代码上，实现蛋白质序列的不同方式encoding，包括"onehot", "georgiev", “esm”系列模型。

2)使用不同的蛋白质语言模型，零样本的预测蛋白质突变效应。

3)给定少量的突变效应数据作为训练数据，训练模型，预测新的突变效应值。

第五天：深度学习辅助酶设计

1.基础知识讲解

酶的过渡态理论，theozyme，fitness landscape，epistasis

2.酶学性质预测

1.DLKcat与GotEnzyme数据库介绍

2.UniKP:利用预训练模型挖掘、改造Kcat

3.CLEAN:基于对比学习的EC号预测挖掘稀有脱卤酶

3.蛋白质热稳定性改造

1.MutCompute介绍

2.利用MutCompute改造PETase(Nature)

3.ThermoMPNN介绍与使用*

4.Pythia介绍与使用*

4.从Frances H. Arnold（2018年因在酶的定向进化领域的贡献获得诺贝尔化学奖）的工作看酶的定向进化方法的发展

1. 传统定向进化实验流程

2. MLDE（Mechine Learning Directed Evolution），学习序列与酶性能之间的映射关系，推荐新的突变组合（PNAS文章）

3.ftMLDE（focused training MLDE），主动学习流程，构建informative的训练数据（Cell Systems文章）。零样本突变效应预测挑选数据集，再通过小样本数据训练的策略微调。

5.酶的从头设计

1.从头设计Diels-Alder催化酶

a)基于Rosetta的Inside-out策略（Science文章）

b)通过Foldit蛋白质折叠游戏改善结构问题（Nat. Biotechnol.文章）；c)Foldit蛋白质折叠游戏的实践*

2.从头设计荧光素酶，Family-wide hallucination，基于该酶家族的结构幻化出新的结构（Nature文章）

3.RFdiffusion+PLACER从头设计丝氨酸水解酶（Science文章）

6.利用预测结构的相似性，挖掘序列的新酶功能（复现顶刊cell文章）*

1. InterPro数据库中下载数据

2. TM-score计算结构距离

3. UPGMA结构聚类，画出进化树

4. 挑选序列

第六天：蛋白质功能与互作预测；实验验证与AI模型训练预测闭环

1. 蛋白质功能预测：

1) 基础知识：

a) 基因本体论（Gene Ontology, GO），

b) MF/BP/CC，MF Molecular Function 分子功能；BP Biological Process 生物过程；CC Cellular Component 细胞组分。

c) GAF (GO Annotation File) 文件。

d) 本体文件来理解GO术语之间的层次关系。

e) 解析GAF，提取蛋白质ID和GO ID。

2) DeepGO-SE，通过蛋白质的语言模型提取序列嵌入，预测蛋白质的功能

3) DPFunc：先用蛋白语言模型提取残基特征，再在接触图上用 GCN 学习结构信息，并引入结构域（domain）指导，最后把多层特征映射到 GO 图上，显著提升对罕见功能项和低序列相似蛋白的预测精度

4)Prot2Text-V2模型。Prot2Text-V2将图神经网络（Graph Neural Network, GNN）与大型语言模型（Large Language Model, LLM）融合到同一个编码器-解码器框架中，有效整合了包括蛋白质序列、结构和文本注释在内的多种数据，以自由文本形式输出蛋白质功能预测结果 5)ProteinKG65构建蛋白质知识图谱，基于Gene Ontology (GO) 和 UniProt 等权威知识库，将蛋白质的功能、结构、相互作用等知识组织成图谱形式，支持下游的机器学习任务，如蛋白质功能预测、表示学习、药物靶点发现等

2.蛋白质相互作用预测：Science文章：使用更深的进化信号：omicMSA+新的深度学习网络：RF2PPI。在全人类蛋白质组中筛出一批高置信度的互作，用于补齐人类互作图谱、解释疾病突变和蛋白功能。

1.更深的进化信号：omicMSA

从约 30 PB 的未组装基因组/转录组数据里挖人类蛋白的同源序列，而不仅仅依赖 UniRef 等传统数据库。

构建omicMSA，使得每个蛋白的深度比常规模板 MSA 深 7 倍左右，协同进化信号显著增强。

2. 新的深度学习网络：RF2PPI

基于 RoseTTAFold2 框架开发了一个新的 PPI 预测网络 RF2PPI，用来快速估计两条蛋白是否互作以及界面大致形态。

为了训练 RF2PPI，构建了很大的数据集：从约 2 亿个预测蛋白结构中抽取各种结构域组合，构建了大规模的 DDI 训练样本，使训练集规模相比传统 PPI 结构数据扩大约 16 倍

筛选流程：

1. 人类蛋白集合

取约 19,500 个人类蛋白序列（UniProt 等），所有可能的配对约 2 亿对。文章中实际筛查约 2 亿对蛋白组合。

2. 构建深度 omicMSA

对每个蛋白，以及蛋白对，基于 30 PB 基因组/转录组数据构建 omicMSA，并对每个蛋白对生成配对 MSA（pMSA），用于协同进化分析和后续深度学习输入。

3. 快速预筛：共进化 / RF2PPI 粗打分

先用直接耦合分析（DCA）等共进化方法，结合 RF2PPI 对 2 亿对蛋白打一个“互作概率”分数（RFIntProb），过滤掉大部分不可能的组合。

他们在一个中间步骤里，从 4360 万对预筛后的蛋白对中，用RF2PPI 进一步筛选出约 190 万对 RFIntProb > 0.3 的候选。

4. 精细建模：AlphaFold2 复合物结构

对这约 190 万对蛋白，用 AlphaFold2（多聚体/复合物模式）进行结构预测，得到每一对的三维复合物模型以及一个基于界面质量的互作概率（AFIntProb）。

根据 AFIntProb 以及界面大小等指标选择高置信度互作。

5. 高置信度集的定义

在所有蛋白对中，他们最终在“完全无先验”的全 2 亿对筛选中得到 6,763 个高置信度 PPI；

进一步结合已有数据库（STRING、BioGRID、UniProt 里有物理互作证据的 115万对蛋白对），在有先验证据的集合上又识别出 21,960 个高置信度PPI。

综合各种来源和精度阈值，共预测出 17,849 个 PPI，预期精度约90%，其中 3,631 个此前实验未报道的新互作。

3. AI模型训练预测和实验闭环

以 EVOLVEpro 为例，实践计算–实验闭环：

1. 初始化

● 选取少量已测序列（野生型 + 文献或少量自设计突变），测定活性。

● 用蛋白语言模型把序列编码成向量，训练一个初始的监督回归模型（序列向量 → 活性）。

1. 生成候选序列

● 设定允许的突变范围（允许 1–3 点突变、限定在特定位点/区域）。

● 在该空间内大规模生成候选序列（10^3–10^5），可结合 embedding 空间附近搜索、局部扰动等策略。

1. 预测与智能选样

● 用回归模型对所有候选序列预测活性或综合评分。

● 依据主动学习策略挑出一小批要做实验的序列：

● 直接选预测值最高的 topk；或

● 结合预测不确定性、序列多样性等，使样本既“高潜力”又“信息量大”。

1. 实验验证

● 合成/构建这批候选序列，利用高通量实验（如流式、板读、NGS 条形码筛选等）测定真实活性。

● 得到新一轮“序列–活性”数据。

1. 回流更新与迭代●将新数据并入训练集，重新训练或微调回归模型（PLM 一般保持不变）。●重复“生成候选 → 预测选样 → 实验验证 → 更新模型”的循环，通常 3–4 轮即可显著提升目标性能。

*涉及使用代码/计算工具的操作

AI辅助抗体设计

*涉及使用代码/计算工具的操作

第一天：代码基础，抗体基础，介绍各大药企在AI辅助抗体药物开发上的布局，复现GSK在抗体亲和力成熟上的工作

1.代码基础知识讲解，环境搭建：Linux，VS code*

a)超算的登录

b)Linux系统的常用shell命令：vim, ls, cd, less, rm等；

c)一些package安装的常用命令：pip, conda, source等。

d)VS code的基本配置：连接服务器；选择不同python版本的Interpreter；debug模式的使用等。

2.抗体基础知识讲解：

a)VDJ重排，germline，CDR区域，表位（epitope/paratope），抗体亲和力成熟，抗体的可开发性等概念介绍

b)不同抗体编号方案（Kabat，Chothia，IMGT）讲解，使用python自动化对抗体序列编号，并识别CDR区域*

c)抗体药物开发的基本流程

3.各大药企在AI辅助抗体药物开发上的布局：讲解各大药企公司发表的文献及报告:

a)Genetech的lab-in-the-loop,结合了实验和计算方法的迭代优化策略的工作b)Genmab手动建立了多样性的抗体可开发性数据集,以进行可开发性数据的训练和预测.

c)GSK、阿斯利康、诺和诺德等在抗体亲和力成熟上做的工作等。

4.抗体结构预测

1)通用蛋白结构预测模型：AlphaFold3。

u运行网页server上的AlphaFold3预测结构，https://alphafoldserver.com*

uAlphaFold3输出结果分析，各项置信度指标的含义，以及如何判断预测的准确度，如pLDDT，ipTM，PTM，PAE。

uAlphaFold3的安装过程讲解。

a)抗体专用结构预测模型：ImmuneBuilder，IgFold。实操如何在服务器安装和使用。

5.复现GSK在抗体亲和力成熟上的工作*

第二天：基于大语言模型的抗体亲和力成熟。

1.基础知识讲解

1)介绍蛋白质的语言模型（26字母语言模型->20氨基酸字母表，上下文依赖->氨基酸的共进化）

2)为什么要开发蛋白质大语言模型？

1. 相比于结构或功能信息，序列信息更加海量；

2. 蛋白质序列通过进化而来，可以学习蛋白质基本规律，折叠，共进化等

3)模型架构和基础理论：transformer，多头注意力机制，Bert，GPT，T5等

2.基于Bert架构的蛋白质语言模型

1)ESM系列（ESM-1b、ESM-1v、ESM2、ESM C）2)ESMFold：无需MSA信息的结构预测

3)多模态的蛋白质语言模型ESM3

4)使用抗体序列库训练的语言模型：Ablang，AntiBERTy

3.Adaptyv EGFR Binder比赛——设计靶向EGFR的更高亲和力binder。1) 比赛结果展示

2)比赛排名靠前的抗体/蛋白是如何设计的

a)第一轮比赛，排名第一的方法：BindCraft

b)第二轮比赛，排名第一的方法：Cradle，在Cetuximab的基础上，用的LLM，突变了10个FR的氨基酸

c)第二轮比赛，排名第二的方法：对一个纳米抗体进行人源化改造

d)第二轮比赛，排名第三的方法：保留与结合重要的氨基酸，生成其它氨基酸RFdiffusion+inverse folding

4.零样本的抗体亲和力成熟*

1) Efficient evolution，基于序列的语言模型推荐突变点（Nat. Biotechnol.文章）

i.了解语言模型推荐突变点的原理；

ii.安装package和模型参数。https://github.com/brianhie/efficient-evolution

iii.运行以推荐突变点：python bin/recommend.py [sequence]

2)Structure evolution，基于结构的语言模型推荐突变点（Science文章）

i.了解inverse folding推荐突变点原理

ii.安装package和模型参数

1.git clonehttps://github.com/varun-shanker/structural-evolution.git

2.conda env create -f environment.yml

3.conda activate struct-evo

4.wget -P ~/.cache/torch/hub/checkpoints https://zenodo.org/records/12631662/files/esm_if1_20220410.zip

5.unzip ~/.cache/torch/hub/checkpoints/esm_if1_20220410.zip

iii.运行以推荐突变点：python bin/recommend.py examples/7mmo_abc_fvar.pdb \

--chain A --seqpath examples/7mmo_chainA_lib.fasta \

--outpath examples/7mmo_chainA_scores.csv \

--upperbound 109 --offset 1

5. 小样本的抗体亲和力成熟*，在已有少量样本的亲和力数据下训练模型。使用MULTI-evolve的方法预测多点的组合突变。

第三天：抗体可开发性预测和优化1

1.抗体可开发性优化在药物开发过程中的意义，

2.衡量抗体可开发性要考虑的因素，如免疫原性、自聚集性、结合特异性、稳定性等等3.以一篇专利文件为例讲解AI辅助抗体改造的案例。Patent No.: US12110324B2。Generate:Biomedicines公司通过AI方法在tezepelumab上改成的一种靶向（TSLP）的长效单克隆抗体GB-0895。

4.抗体结构简单物理性质的计算：溶剂可及表面积（SASA）的讲解及计算；等电点的计算；蛋白质表面电荷分布的计算。*

5.讲解Ginkgo举办的抗体可开发性预测比赛的结果。6.公开的抗体可开发性数据的收集。

7.抗体性质预测的模型实践，展示在小样本的情景下训练机器学习模型*1)数据处理，划分数据集

2)模型构建，基于特征工程的机器学习模型（随机森林，XGboost，ElasticNet等）；学习根据蛋白质序列和结构信息构建常见特征。seq_features = feature_utils.get_all_seq_features(heavy_seq, light_seq, is_fv=True, isotype='igg1', lc_type='lambda')3)模型训练和评价，GridSearchCV交叉验证调参等4)模型的可解释性，特征重要性分析

第四天：抗体可开发性预测和优化2和抗体人源化

1. 基于蛋白质语言模型的可开发性预测*

1)零样本的可开发性预测2)少样本的可开发性预测。给定抗体序列和相应的性质，构建下游模型预测。

a)数据处理，划分数据集

b)获得序列embedding以构建下游模型，实现蛋白质序列的不同方式encoding，包括"onehot", "georgiev", “esm”系列模型。

c)深度学习模型的构建。上游的大语言模型+下游简单线性层。

d)模型训练和评价：绘制训练曲线，训练集和测试集的评价指标随epoch的变化，2.免疫原性预测

1)免疫系统介绍，MHC-I和MHC-II，Anti-drug Antibody等基础概念

2)免疫原性预测是MHC结合肽段的预测

3)预测免疫原性。netMHCpan的原理讲解，安装和使用

3.抗体人源化

1)人源化的基础知识和流程。目标：保留亲和力+减小免疫原性+好的稳定性和可开发性。CDR移植到人源框架，回复突变，Vernier Zone，

2)Germline的搜索，IMGT/V-QUEST数据库搜索得到V 基因和J基因相似的人类germline序列。

3)人源化的经典方法biophi的原理讲解、安装和使用。

4)基于AI和基于物理能量（Rosetta）的方法是如何辅助抗体人源化的。

5)排除抗体序列的PTM。

第五天：抗体（scFv, VHH）的从头设计

1.从头设计的意义

1) 跨膜蛋白例如GPCR，难以稳定表达为可溶性蛋白

2)VHH动物免疫羊驼成本高。

3)更高效快速获得候选分子

2.基础模型方法概念介绍：Diffusion模型、 flow-matching、全原子（all-atom）建模等

3.不同公司和方法模型、实验结果讲解

1)Rfdiffusion3+ProteinMPNN生成序列，AphaFold2筛选序列。将学会各个包的安装，不同参数的选择，结合的hotspot位点选择。

a)Rfdiffusion3结构设计，生成~10000个蛋白质主链结构；根据hotspot位点，生成新的结构：

./scripts/run_inference.py 'contigmap.contigs=[B1-100/0 100-100]' 'ppi.hotspot_res=[A30,A33,A34]' inference.output_prefix=test_outputs/binder_test inference.num_designs=10000

b)ProteinMPNN-FastRelax进行序列设计，每一个主链结构两个对应的序列，共设计~20000个序列；

c)筛选:使用AlphaFold2预测设计结构，预测的置信度pAE<10，预测结构与设计结构的RMSD<1A，从中挑选95个进行实验验证。

2)Nabla Bio开发的JAM（Joint Atomic Modeling）系统3)Chai2 Discovery开发的Chai-2方法，用以实现抗体的从头生成4)MIT开发的Bolzgen方法原理、安装使用讲解。

安装和使用boltzgen讲解，将详细讲解yaml配置文件的写法，以一个靶点为例，从头生成VHH与该靶点结合。

5)PPIFlow：基于flow-matching的生成方法，原理，安装和使用方法。

4.VHH的生成实践

1)确定纳米抗体序列框架（Framework区域）序列，生成CDR区域序列。分析整理纳米抗体序列，绘制序列保守性的Logo图，以此确定在生成VHH时，哪些位置的氨基酸需要固定。2)对生成的序列进行筛选。在亲和力、序列稳定性、可开发性等各个方面进行筛选。

a)预测结构与设计结构的RMSD，AlphaFold预测设计结构的置信度pAE等

b)筛选Cys，Met等氨基酸含量

c)减少电荷patch

d)根据等电点等性质筛选。

上下滑动查看更多

AI+基因编辑线上直播

第一天

1. 基因组编辑技术简述

1.1 基因组测序、编辑和读写时代及基因组编辑技术现状简述

2. 基因组编辑四代技术原理

2.1 四代基因组编辑技术发展历程

2.2 ZFN、TALEN和CRISPR/Cas系统的组成和工作原理

3. CRISPR/Cas系统的来源及分类

3.1 CRISPR/Cas系统的发现过程

3.2 CRISPR/Cas系统的适应性免疫原理

3.3 CRISPR/Cas系统的分类依据和类型

4. CRISPR/Cas系统介导的DNA编辑工具

4.1 CRISPR/Cas9基因编辑工具

4.2 CRISPR/Cas12a基因编辑工具

5. CRISPR/Cas系统衍生工具的发展

5.1 碱基编辑工具的组成、作用原理及其应用

5.2 引导编辑的作用机理、应用及其发展动态

6. CRISPR/Cas介导的基因调控、细胞成像和核酸检测技术

6.1 CRISPR/Cas介导基因调控技术的原理和工具组成

6.2 CRISPR/Cas介导细胞成像技术的原理和工具组成

6.3 CRISPR/Cas介导核酸检测技术的原理和工具组成

第二天

1. 脱靶效应及其检测

1.1 脱靶效应的检测方法：扩增子测序、全基因组测序、GUIDE-seq等

1.2 脱靶效应的规避方法

2. 基因编辑流程-以植物为例

2.1 靶位点sgRNA或crRNA的设计原则

2.2 表达盒设计和构建的方法

2.3 植物原生质体瞬时表达系统

2.4 基因编辑载体的遗传转化

2.5 基因编辑突变体的检测

3. 基因组编辑常用软件实操

3.1 靶位点设计软件Cas-Designer、BE-Designer、PE-Designer等

3.2 突变分析软件Cas- Analyzer、BE-Analyzer、PE- Analyzer

4. 基因组编辑技术在各领域的应用现状及前景

4.1 基因组编辑技术在基因治疗、免疫学、病毒诊断等方面的应用

第三天理论部分（人工智能+基因编辑背景）

1.深度学习概述

1.1. 深度学习的基础

1.2. 深度神经元网络的工作原理

1.3. 深度学习技术的发展趋势：自监督学习、迁移学习和少样本学习的进展

2.深度学习在基因编辑中的应用

2.1. 基于监督学习的应用：序列标签模型

2.2. 零样本预测模型的应用：结构模型、大语言模型、多模态模型、

2.3. 少样本预测框架的应用（Design-Build-Test-Learn和Lab-in-the-loop范式）

3.深度学习在gRNA优化与设计中的应用

3.1. gRNA活性预测

3.2. 脱靶效应预测

3.3. gRNA预测模型介绍

4. AI辅助的蛋白定向进化在基因编辑中的应用

4.1. 蛋白定向进化的基本概念与实验方法

4.2 AI辅助的蛋白进化工具

4.3. AI与实验反馈的结合

5. AI蛋白质设计在基因编辑中的应用

5.1. 蛋白质设计工具

5.2. 酶设计

5.3. binder设计

6.AI酶挖掘在基因编辑中的应用

6.1. 基于大语言模型挖掘基因编辑酶

6.2. 基于结构比对挖掘基因编辑酶

第四天深度学习在基因编辑中的应用实操教学

1. 基础知识和环境搭建

1.1. GPU服务器登录

1.2. Linux基础知识

1.3. Python基础知识

1.4. 常用深度学习工具包介绍及安装

2.利用深度学习预测gRNA活性

2.1. 配置深度学习环境，安装gRNA活性预测所需的工具

2.2. 高通量数据获取：公开数据集的介绍与使用

2.3. 数据集划分：训练集、验证集、测试集

2.4. 模型搭建与调试：深度学习模型架构设计（如CNN, RNN）

2.5. 模型性能评估：精度、召回率、F1分数等评估指标

2.6. gRNA活性预测：实际应用案例演示和预测结果的解读与应用

3.利用深度学习预测编辑活性

3.1. 环境配置：安装所需工具与库

3.2. 数据获取：编辑活性相关数据集清洗

3.3. 数据集划分

3.4. 模型搭建与调试

3.5. 模型性能评估

3.6. 编辑活性预测：预测结果的展示与解读

4.零样本蛋白进化工具AiCE实操

4.1. AiCE的原理与应用场景

4.2. 环境搭建

4.3. 逆折叠模型的使用：如何利用AiCE进行高活性突变预测；案例演示与实际操作

4.4. 应用实例：碱基编辑器的高效进化

5.少样本蛋白质定向进化工具EVOLVEpro实操

5.1. EVOLVEpro的背景与应用

5.2. 环境搭建与配置

5.3. 基于DMS数据的少样本微调

5.4. 基于实验数据反馈的少样本微调

5.5. 应用实例：Cas12f的高效进化

第五天基因编辑工具设计与挖掘案例复现

1. 设计MLH1 binder提高引导编辑编辑(PE)效率

1.1. 背景知识：基于RFdiffusion + ProteinMPNN + AlphaFold的binder设计流程

1.2. 环境搭建与配置

1.3. 输入结构准备(AlphaFold预测)

1.4. 结构骨架生成：利用RFdiffusion进行结构采样与优化，生成蛋白质结构骨架

1.5. 序列设计：基于RFdiffusion生成的结构骨架，进行序列的优化设计

1.6.复合体结构预测验证：使用AlphaFold进行binder与目标蛋白复合体的结构预测，验证设计的复合体结构是否符合预期

1.7. 结果可视化：使用PyMOL进行结构和设计结果的可视化

2. Cas13抑制剂设计

2.1. 背景知识：Cas13的结构与功能介绍

2.2. 输入结构准备

2.3. 蛋白质设计流程：结合RFdiffusion、ProteinMPNN与AlphaFold设计Cas13抑制剂

2.4. 设计结果分析和可视化

3.基于蛋白质语言模型挖掘新型CRISPR系统

3.1. 蛋白质语言模型在酶挖掘中的介绍与流程

3.2. 序列数据库介绍与下载

3.3. 搜索(query)序列准备

3.4. 基于ESM语言模型挖掘Cas12家族基因编辑酶

4.基于三维结构挖掘新型CRISPR系统

4.1. 结构比对的背景知识：结构比对的重要性与应用；比较不同结构比对工具的优缺点

4.2. Foldseek系列工具介绍：介绍Foldseek、Foldseek multimer、Folddisco、FoldMason等工具的基本原理和使用

4.3. 结构数据库介绍与下载：PDB，AFDB，ESM Atlas

4.4. 输入结构准备：准备用于比对的目标蛋白质结构文件

4.5. Foldseek网页版使用：演示如何使用Foldseek网页版进行结构比对；讲解如何理解输出结果并进行后续分析

4.6. Foldseek本地版使用：本地部署Foldseek并使用命令行工具进行比对

4.7. DALI和TM-align工具本地版使用：介绍DALI与TM-align工具本地版的安装与使用

4.8. 结构进化树构建：使用FoldMason构建蛋白质结构的进化树

上下滑动查看更多

AI构建虚拟细胞

第一天| 细胞数据数字化与基础表征

上午：理论讲解（第一、二阶段）

第一阶段：细胞数据数字化（Data Representation）

核心目标：解决"如何让细胞被AI理解"• 细胞多组学数据的复杂性（RNA、ATAC、Protein、Spatial）• 数据标准化与质量控制的最佳实践• 从原始数据到机器可读结构的核心逻辑配套模型理论：• MultiVI：RNA+ATAC多模态统一表征（重点讲解）• totalVI：RNA+Protein联合编码• MOFA+：多组学因子分析• OmniReg-GPT（新模型，NC2026）：DNA序列基础表征，基因组位点识别与表达预测第二阶段：细胞状态建模（State Learning）

核心目标：解决"如何识别细胞处于什么状态"• 从"细胞数据"到"细胞状态"的转化逻辑• 潜变量空间的生物学意义• 细胞亚群识别与稀有细胞发现配套模型理论：• scVI/scANVI：单细胞潜变量建模（核心）• β-VAE：解耦表征学习• Contrastive Cell Embedding：对比学习在细胞表征中的应用

下午：实操演练（对应上午第一、二阶段理论）实操前置准备：GPU服务器环境适配、Linux与Python环境调试

1. Linux 常用命令进阶：细胞数据文件（单细胞RNA、ATAC数据）的批量管理、权限设置、格式转换；

2. Python 环境搭建与优化：细胞数据处理相关包（scanpy、torch、scvi-tools）的安装与调试。实操模型讲解（Python代码解析 + GPU服务器上机实操）

1. 实操模型1：MultiVI（多模态统一表征）—— 对应第一阶段理论，实现RNA+ATAC数据统一编码，完成数据降噪与批次效应校正，掌握潜变量空间构建方法，理解其作为模型底座的核心作用；

2. 实操模型2：scVI（单细胞潜变量建模）—— 对应第一、二阶段理论，基于单细胞RNA数据，完成潜变量建模、细胞聚类初步分析，掌握基础表征模型的训练与评估方法，衔接细胞状态识别的核心需求；

3. 实操模型：OmniReg-GPT演示（新模型）—— DNA序列特征提取，基因表达预测，理解基础表征模型在基因组学中的应用，展示Nature Communications论文核心技术。

第二天| 细胞状态建模与空间转录组

上午：理论讲解（第二阶段深化）空间转录组基础理论

核心目标：解决"细胞在组织中的空间状态"• 空间转录组技术概览（Visium、Stereo-seq、MERFISH）• 空间约束下的细胞状态识别• 组织微环境与细胞通讯配套模型理论：• GraphST：图神经网络空间表征• STAligner：空间转录组跨样本整合

• Nicheformer（新模型，2025NM）：空间基础模型下午：实操演练（对应上午空间转录组理论）实操前置准备：空间转录组数据预处理与工具包调试

1. Python 工具包适配：PyTorch Geometric（图神经网络）、squidpy（空间分析）工具包的安装与调试；

2. 数据预处理复习：空间转录组数据格式（Visium、Stereo-seq）的读取与预处理方法。实操模型讲解（Python代码解析 + GPU服务器上机实操）

1.实操模型：GraphST实操（空间数据聚类与域识别）—— 基于空间转录组数据，构建空间图网络，完成组织域识别与空间聚类，掌握图神经网络在空间数据中的应用；

2. 实操模型：STAligner实操（空间转录组跨样本整合）—— 理解空间转录组的批次效应如何消除，掌握去批次的基本原理与核心方法，理解空间组的建模思路3. 实操模型：Nicheformer实操（空间基础模型）—— 细胞微环境表征，掌握空间基础模型的核心应用，深化细胞状态识别的实操能力。

第三天| 调控机制推理与细胞动态预测

上午：理论讲解（第三、四阶段）第三阶段：细胞调控机制建模（Regulatory Modeling）

核心目标：解决"为什么细胞会发生变化"• 细胞调控的底层机制• 从表型识别深入到机制层面• 调控机制建模在药物研发中的核心价值配套模型理论：• GAT：图注意力网络，基因调控网络推理• SCENIC：转录因子调控推断• Gene Regulatory Graph：因果关系建模第四阶段：细胞动态预测（Dynamic Evolution）

核心目标：解决"细胞下一步会走向哪里"• 细胞命运轨迹推演的核心逻辑• 动态预测对药物研发（如耐药、复发预测）的重要意义配套模型理论：• CellRank

2：命运概率与轨迹推演• RNA Velocity：转录动力学建模• stVCR（新模型，Nat Methods 2026）：空间细胞发育轨迹推断，基于Neural ODE的空间-基因双速度场建模

下午：实操演练（对应上午第三、四阶段理论）实操前置准备：图神经网络与动态预测工具包调试

1. Python 工具包适配：PyTorch Geometric（图神经网络）、CellRank（动态预测）工具包的安装与调试；

2. 数据预处理复习：回顾上午理论相关的基因表达数据、调控关系数据的预处理方法。实操模型讲解（Python代码解析 + GPU服务器上机实操）

1.实操模型：SCENIC（调控网络机制推理）—— 对应第三阶段理论，基于基因表达数据，构建基因调控网络，识别关键调控节点，掌握机制推理的核心方法，理解其在药物靶点发现中的应用；

2. 实操模型：CellRank 2（命运与轨迹推演）—— 对应第四阶段理论，基于单细胞数据，推演细胞分化轨迹，预测细胞未来状态，掌握动态预测的核心方法，贴合药物研发中耐药、复发预测的需求；

3. 实操模型：stVCR实操（新模型）—— 空间轨迹推断，预测细胞分化方向，理解Neural ODE建模空间-基因双速度场的核心原理，展示Nature Methods 2026论文核心技术；

第四天| 药物扰动建模与疾病系统

上午：理论讲解（第五、六阶段）第五阶段：药物作用建模（Drug Perturbation Modeling）

核心目标：解决"药物如何改变细胞命运"• 药物作用于细胞的核心逻辑• 药物扰动建模在药物研发全流程中的应用场景配套模型理论：• ChemCPA：药物剂量-响应建模• scGen：扰动响应生成• CellOT：最优传输扰动预测• scGPT：大模型预测扰动第六阶段：疾病系统建模（Disease System Modeling）

核心目标：解决"疾病中细胞网络如何重构"• 疾病状态下细胞网络的变化规律• 疾病系统建模在患者分层、疾病亚型预测中的核心价值配套模型理论：• DeepProg：疾病预后预测• Numbat-multiome：从单细胞多组学数据推断CNV并重建肿瘤系统发育

下午：实操演练（对应上午第五、六阶段理论）实操前置准备：药物扰动模型工具包调试

1. Python 工具包适配：ChemCPA、scGen等药物扰动相关工具包的安装与调试；

2. 数据准备：药物作用相关数据（药物剂量、细胞反应数据）的预处理与导入方法。实操模型讲解（Python代码解析 + GPU服务器上机实操）

1. 实操模型：ChemCPA（药物扰动预测）—— 对应第五阶段理论，构建药物扰动模型，预测不同药物剂量的作用效果、联合用药反应，掌握虚拟筛选的核心能力，理解其在药物研发ROI提升中的作用；

2. 实操模型：scGen实操（单药扰动响应生成）—— 基于单细胞数据，生成药物扰动后的细胞状态预测，掌握生成式扰动模型的核心方法；

3. 实操模型：DeepProg（疾病预后分析）——基于多组学数据和AI模型，分析疾病状态下患者预后进展。

第五天| 数字孪生与虚拟临床应用

上午：理论讲解（第七、阶段）第七阶段：数字孪生细胞/组织（Digital Twin）

核心目标：解决"如何构建可推演虚拟人体局部系统"• 数字孪生技术在细胞、组织层面的应用逻辑• 其在降低药企湿实验成本中的核心价值配套模型理论：

• Virtual cell：虚拟细胞总览• DrugCell：药物反应神经网络•PhysiCell（Cell 2026）：细胞仿真引擎第八阶段：虚拟临床与药物研发（Virtual Clinical Translation）

核心目标：解决"如何直接服务药物研发和临床决策"• 虚拟临床试验的设计逻辑• 从体外到体内的预测链条• ROI计算与决策支持配套模型理论：• PK/PD Neural Surrogate：药代动力学神经网络• Clinical Response Simulator：临床响应模拟

下午：实操演练+ 课程总结实操前置准备：数字孪生与虚拟临床模型工具包调试

1. Python 工具包适配：DrugCell、PhysiCell等数字孪生相关工具包的安装与调试。实操模型讲解（Python代码解析 + GPU服务器上机实操）

1. 实操模型：DrugCell（产业级药物反应预测）—— 对应第七阶段理论，构建药物反应预测模型，解释药物作用机制，掌握产业级模型的应用方法，理解其在降低湿实验成本中的作用；

2. 实操模型：PhysiCell（数字孪生底层仿真）—— 对应第七阶段理论，搭建虚拟细胞仿真环境，完成从虚拟细胞到虚拟组织的仿真闭环，掌握数字孪生底层操作，衔接虚拟临床应用；

上下滑动查看更多

AI抗菌肽设计

第一天上午

第一天：基础环境与抗菌肽入门

抗菌肽基础理论

1.抗菌肽的重要性与应用前景：阐述多重耐药菌的严峻挑战，以及抗菌肽作为新型抗菌剂的独特优势（快速杀菌、不易产生耐药性）。

2. 抗菌肽的定义、分类与作用机制：明确抗菌肽是生物体先天免疫产生的短肽，重点讲解以破坏细胞膜为主的作用机制，这是其设计的重要物理基础。

3.抗菌肽的理化特性：深入剖析决定其活性的关键参数：

两亲性：亲水与疏水残基在空间上的排列，影响其与细胞膜的相互作用。

净正电荷：通常为正值，使其能吸引带负电的细菌膜。

螺旋性：常见的二级结构，影响其插入膜的能力。

4.从天然到人工的设计原则：分析天然抗菌肽的结构特征，总结出人工设计所遵循的基本规则，如特定氨基酸组成比例、电荷范围等。

上机操作

手把手带领学员搭建稳定、可复现的AI科研环境，克服入门的第一道技术门槛。

1.Linux基础入门：针对生物背景学员，讲解必备命令。如使用cd、ls导航和查看目录；chmod管理文件权限；grep、pip进行文本搜索和包安装。

2.Conda及Jupyter Notebook安装与配置：演示如何用Conda创建独立的Python环境，避免包冲突。并配置Jupyter Notebook在此环境中运行。

3.Jupyter Notebook基础使用：指导学员创建第一个Notebook，混合使用Markdown撰写实验笔记和代码块执行Python命令，形成良好的可重复研究习惯。

第二天：抗菌肽数据库与序列分析

核心目标：掌握数据获取与处理的技能，学会从权威数据库中提取并格式化分析所需的序列数据。

抗菌肽数据库介绍

1.APD3数据库：介绍其基于活性的分类系统，如何根据目标微生物快速查找相关肽序列。

2.DRAMP数据库：强调其包含抗菌肽、抗癌肽、抗病毒肽的全面性，以及丰富的注释信息（如修改、构象）。

3.CAMP数据库：重点介绍其集成的在线预测工具，可作为后续模型结果的初步验证参考。

上机操作—Python生物信息学实战

1.Python基础编程：快速掌握变量、列表/字典数据结构、for/while循环、if条件判断及函数定义，为后续脚本编写打下基础。

2.Python 进阶：学习导入os, pandas等模块；使用pandas的DataFrame高效管理序列数据表；掌握Biopython核心对象Seq和SeqRecord，用于读取、处理和写入FASTA等格式文件。

3.实战演练：

编写脚本，通过APD3的本地文件，自动检索具有特定长度和电荷范围的抗菌肽。

编写函数，将下载的多条序列从FASTA格式批量转换为包含序列名、序列字符串、长度等信息的CSV表格，便于后续分析。

第三天：AMP-Diffusion架构解读

核心目标：深入理解当前AI蛋白质设计的核心模型原理，并学会提取可用于下游任务的序列特征。

Transformer核心原理及在蛋白语言模型中的应用

1.注意力机制与Encoder Block：摒弃复杂数学，用“信息聚焦”的比喻讲解Self-Attention如何让序列的每个位置都能关注全局信息，这是理解一切现代蛋白模型的基础。

2.序列建模基础：解释如何将氨基酸字母（如A, R, N）转化为数字向量（Token Embedding），并添加位置编码以保留序列顺序信息。

3.ESM-2模型介绍：阐述ESM-2作为一个基于Transformer架构、在海量蛋白质序列上训练而成的“蛋白质大语言模型”，其输出的Embedding（嵌入向量）如何浓缩了该序列的结构与功能语义信息。

上机操作—提取与利用序列Embedding

1.环境配置：在Conda环境中安装pytorch和transformers库。

2.提取ESM-2 Embedding：编写代码，加载预训练的ESM-2模型，输入一条示例抗菌肽序列，提取其最后一个隐藏层的所有氨基酸位点特征或池化后的整体序列特征。ESM-2 Embedding 打分与分析。

3.Embedding打分与分析：演示如何计算不同抗菌肽序列Embedding之间的余弦相似度，以量化它们的“功能性相似度”；或使用PCA降维后可视化，观察活性肽与非活性肽在嵌入空间中的分布差异。

第四天：AMP-Diffusion模型实践与序列生成

核心目标：掌握扩散模型生成抗菌肽序列的全流程，并实现基于理化参数的可控设计。

抗菌肽扩散模型原理与应用

1.生成式模型基础对比：简要对比VAE、GAN和扩散模型在生成数据时的核心思想与优劣，突出扩散模型在生成质量和稳定性上的优势。

2.AMP-Diffusion架构详解：重点讲解“条件扩散过程”。解释模型如何在训练时学习从添加噪声的序列逐步去噪恢复为原始序列，并在生成时通过输入特定的条件向量（如目标电荷值、疏水性值）来引导去噪方向，从而生成符合要求的序列。

3.可控生成策略：详细说明如何将计算得到的净电荷、疏水性指数等具体标量参数，通过一个条件编码网络，融入模型的每一步生成过程中。

上机操作—从配置到生成

1.环境配置：根据提供的AMP-Diffusion项目README，安装特定版本的依赖库，配置模型路径。

2.加载模型与参数设置：学习加载预训练好的生成器和条件编码器，并理解关键参数如生成步数、噪声调度器的意义。

3.执行可控生成：编写循环，系统性地生成不同“电荷-疏水性”组合条件下的抗菌肽序列（例如，高电荷高疏水、高电荷低疏水等各100条）。

4.基础分析：对生成的数百条序列进行快速统计分析，绘制序列长度分布直方图，并验证其平均电荷和疏水性是否与设定条件相符，评估模型的可控性。

第五天：计算筛选、排序与设计验证

核心目标：建立多级计算评估流程，从海量生成序列中筛选出高活性、低毒性的候选者，并形成最终报告。

多维度计算评估体系

1.抗菌活性预测原理：介绍amp-scanner-v2等工具背后的深度学习模型（通常是CNN或Transformer），如何将序列Embedding映射为活性概率分数。

2.安全性评估方法：讲解ToxinPred和HemoFinder等工具的使用逻辑与置信度解读。

3.理化特性验证标准：建立多参数综合评价体系，明确活性分数、毒性概率、溶血概率、实际电荷/疏水性与设计目标的偏差等指标的权重，形成可量化的排序标准。

上机操作

1.活性预测：对第四天生成的所有序列，调用amp-scanner-v2模型进行批量活性评分，筛选出高于阈值的序列。

2.安全性筛选：对上一步的活性候选序列，依次使用ToxinPred和HemoFinder进行毒性与溶血性预测，剔除高风险的序列。

3.多级筛选与排序：编写脚本，综合活性评分、毒性/溶血概率、与目标理化性质的契合度，计算一个综合优先级得分，并对所有通过初步筛选的序列进行排序。最终报告生成：列出Top 20-50的候选序列，并包含其序列字符串、长度、预测活性分数、预测毒性概率、关键理化性质等完整信息，为后续的化学合成与湿实验验证提供明确指导

上下滑动查看更多

AIDD药物设计进阶（录播）

第一天

一、

1.AIDD概述及药物综合数据库介绍

2.人工智能辅助药物设计AIDD概述

3.安装环境

(1)anaconda

(2)vscode

(3)pycharm

(4)虚拟环境

4.第三方库基本使用方法

(1)numpy

(2)pandas

(3)matplotlib

(4)requests

5.多种药物综合数据库的获取方式

(1)KEGG（requests爬虫）

(2)Chebi（libChEBIpy）

(3)PubChem（pubchempy / requests）

(4)ChEMBL（chembl_webresource_client）

(5)BiGG（curl）

(6)PDB（pypdb）

第二天

二、 ML-based AIDD

1.机器学习

(1)机器学习种类：

①监督学习

②无监督学习

③强化学习

(2)典型机器学习方法

①决策树

②支持向量机

③朴素贝叶斯

④神经网络

⑤卷积神经网络

(3)模型的评估与验证

(4)分类评估：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算

(5)回归评估：平均绝对误差、均方差、R2分数、可释方差分数

(6)交叉验证

2.sklearn工具包基本使用

3.rdkit工具包的基本使用

4.化合物编码方式和化合物相似性理论知识

5.项目实战1：基于ADME和Ro5的分子筛选

6.项目实战2：基于化合物相似性的配体筛选

7.项目实战3：基于化合物相似性的分子聚类

8.项目实战4: 基于机器学习的生物活性预测

9.项目实战5：基于机器学习的分子毒性预测

第三天

三、 GNN-based AIDD

1.图神经网络

(1)框架介绍: PyG，DGL，TorchDrug

(2)图神经网络消息传递机制

(3)图神经网络数据集设计

(4)图神经网络节点预测、图预测任务和边预测任务实战

2.论文精讲：DeepTox: Toxicity Prediction using Deep Learning

3.项目实战1：基于图神经网络的分子毒性预测

(1)SMILES分子数据集构建PyG图数据集

(2)基于GNN进行分子毒性预测

4.项目实战2：基于图神经网络的蛋白质-配体相互作用预测

(1)蛋白质分子图形化，构建PyG图数据集

(2)基于GIN进行网络搭建及相互作用预测

第四天

四、 NLP-based AIDD

1.自然语言处理

(1)Encoder-Decoder模型

(2)循环神经网络 RNN

(3)Seq2seq

(4)Attention

(5)Transformer

2.项目实战1：基于自然语言的分子毒性预测

(1)SMILES分子数据集词向量表示方法

(2)基于NLP模型进行分子毒性预测

3.项目实战2：基于Transformer的有机化学反应产量预测（Prediction of chemical reaction yields using deep learning）

4.论文精读及代码讲解：《Mapping the space of chemical reactions using attention-based neural networks》

第五天

五、分子生成与药物设计

1.分子生成模型

(1)循环神经网络RNN

(2)变分自动编码器VAE

(3)生成对抗网络GAN

(4)强化学习RL

2.项目实战1: 基于图数据的小分子化合物生成模型《A Graph to Graphs Framework for Retrosynthesis Prediction》

3.项目实战2: 基于NLP的抗体生成模型《Generative language modeling for antibody design》

进阶课程

第一天

一、环境搭建与深度学习基本知识讲解

1.AIDD概述：从CADD到AIDD

2.软件安装与环境搭建

(1)anaconda

(2)vscode

(3)环境变量的配置

(4)切换pip和conda镜像源

(5)虚拟环境的创建

3.RDKIT工具包的使用

(1)基于RDKit的分子读写

(2)基于RDKit的分子绘制

(3)基于RDKit的分子指纹与分子描述符

(4)基于RDKit的化合物相似性与子结构

4.药物综合数据库的获取方法

(1)基于requests的基本爬虫操作

(2)小分子数据库PubChem数据获取（pubchempy / requests）

(3)蛋白质数据库PDB、UniProt数据获取

5.深度学习辅助药物设计

(1)神经网络基本概念与sklearn工具包介绍

(2)图神经网络与消息传递机制基本知识

(3)Transformer模型基本知识：分词、位置编码、注意力机制、编码器、解码器、预训练-微调框架、huggingface 生态介绍

(4)模型的评估与验证：准确率、精确率、召回率、F1分数、ROC曲线、AUC计算，平均绝对误差、均方差、R2分数、可释方差分数，交叉验证等

第二天

二、分子与生化反应的表示学习与性质预测助力药物发现

培训内容2：TOP期刊｜基于深度学习的生化反应产量预测《Prediction of chemical reaction yields using deep learning》

1.数据。研究使用了三类数据：

1.1.Buchwald-Hartwig HTE数据集：包含3955个Pd催化C-N偶联反应，涵盖15种卤化物、4种配体、3种碱和23种添加剂组合，产率通过统一实验测量，数据质量高。

1.2.Suzuki-Miyaura HTE数据集：包含5760个反应，涉及15对亲电/亲核试剂、12种配体、8种碱和4种溶剂的组合，产率分布均匀。

1.3.USPTO专利数据集：从公开专利中提取，包含不同规模（克级与亚克级）的反应产率，数据噪声大且分布不一致，需通过邻近反应产率平滑处理以提升模型表现。

2.模型。核心模型基于预训练的rxnfp（反应指纹）BERT架构，新增回归层构成Yield-BERT。输入为标准化反应SMILES，通过自注意力机制捕捉反应中心及关键试剂的上下文信息。模型无需手工特征（如DFT计算描述符），直接端到端预测产率。实验表明，其性能优于传统方法（如随机森林和分子指纹拼接），尤其在HTE数据上接近化学描述符的预测水平，且参数鲁棒性高（超参数调整影响小）。

3.训练。训练分为两步：

3.1.预训练：BERT通过掩码语言任务学习SMILES的通用表示。

3.2.微调：采用简单Transformers库和PyTorch框架，以MSE损失优化回归层，学习率（2×10⁻⁵）和dropout率（0.1–0.8）为主要调参对象。HTE数据采用随机/时间划分验证，USPTO数据通过邻近反应产率平滑缓解噪声影响。小样本实验（5%训练数据）显示模型能快速筛选高产反应，指导合成优化。

培训内容3:

TOP期刊｜基于T5Chem模型的生化反应表示学习与性质预测: 《Unified Deep Learning Model for Multitask Reaction Predictions with Explanation》

1.数据来源和处理。通过自监督预训练与PubChem分子数据集进行训练，以实现对四种不同类型的化学反应预测任务的优异性能。模型处理包括反应类型分类、正向反应预测、单步逆合成和反应产率预测。

2.模型架构和原理。T5Chem模型是基于自然语言处理中的“Text-to-Text Transfer Transformer”(T5)框架开发的统一深度学习模型，该模型通过适应T5框架来处理多种化学反应预测任务。T5Chem模型包含编码器-解码器结构，并根据任务类型引入了任务特定的提示和不同的输出层，如分子生成头、分类头和回归头，以处理序列到序列的任务、反应类型分类和产品产率预测。

3.训练过程和细节。

3.1.T5Chem模型首先在PubChem的97 million分子上进行自监督预训练，使用BERT类似的“masked language modeling”目标。

3.2.在预训练阶段，源序列中的tokens被随机掩蔽，模型的目标是预测被掩蔽的正确的tokens。

3.3.预训练完成后，模型在下游的监督任务中进行微调，使用不同的任务特定提示和输出层。

3.4.模型在测试阶段通过生成分子token by token的方式进行预测，直到生成“句子结束标记”或达到最大预测长度。

第三天

三、蛋白质的表示学习与性质预测助力药物发现

培训内容1:

Nature Communication｜体外酶动力学参数深度学习的综合框架《CatPred: a comprehensive framework for deep learning in vitro enzyme kinetic parameters》

CatPred 提出了一种全面的深度学习框架，用于预测体外酶动力学参数（kcat、Km、Ki），以解决实验测定成本高、数据稀疏和泛化能力差的问题。该方法不仅提供了准确的预测，还引入了对预测不确定性的量化，支持对训练集外（out-of-distribution）酶序列的稳健预测。此外，作者还构建了新的标准化数据集（CatPred-DB），并对多种酶表示方法进行了系统比较。

1.数据：CatPred 使用的数据集来自 BRENDA 和 SABIO-RK 数据库，作者构建了 CatPred-DB，包括：23197 条 kcat，41174 条 Km和11929 条 Ki 数据，每条记录都包含酶的氨基酸序列、AlphaFold 或 ESMFold 预测的结构、底物的 SMILES 表达式。数据经过清洗和标准化处理，去除缺失值和重复值，并对参数取对数转换以符合正态分布。

2.模型：CatPred 采用模块化设计，酶和底物分别通过不同的神经网络模块进行表征学习，并采用概率回归输出（高斯分布形式的均值和方差），允许进行不确定性估计（aleatoric + epistemic）。

3.训练

3.1.所有模型采用负对数似然损失函数（NLL）训练，以同时预测参数均值和不确定性。

3.2.使用训练-验证-测试三分法（80%-10%-10%），并设立“训练集外”的测试子集用于泛化能力评估。

3.3.为了评估不确定性，CatPred 使用 10个模型的集成，通过不同初始参数训练，以此量化 epistemic uncertainty。

3.4.模型训练时考虑了不同相似性（序列identity<99%、80%、60%、40%）的测试集，体现其鲁棒性。

培训内容2:

Science｜基于对比学习的蛋白质分类属性预测《Enzyme function prediction using contrastive learning》

1.数据来源和处理： CLEAN模型的训练基于UniProt数据库中的高质量数据，该数据库收录了约1.9亿个蛋白质序列。CLEAN模型以氨基酸序列作为输入，输出按可能性排序的酶功能列表（以EC编号为例）。为了验证CLEAN的准确性和鲁棒性，作者进行了广泛的in silico实验，并将CLEAN应用于内部收集的未表征的卤酶数据库（共36个）进行EC编号注释，随后通过案例研究进行体外实验验证。

2.模型架构和原理： CLEAN模型采用了对比学习框架，目标是学习一个酶的嵌入空间，其中欧几里得距离反映了功能相似性。嵌入是指蛋白质序列的数值表示，它由机器可读，同时保留了酶携带的重要特征和信息。在CLEAN的任务中，具有相同EC编号的氨基酸序列具有较小的欧几里得距离，而具有不同EC编号的序列则具有较大的距离。

3.训练过程和细节：

3.1.在训练过程中，CLEAN模型使用对比损失函数进行监督训练，通过优先选择与锚点（anchor）嵌入具有小欧几里得距离的负序列，以提高训练效率。

3.2.模型使用语言模型ESM1b获得的蛋白质表示作为前馈神经网络的输入，输出层产生细化的、功能感知的输入蛋白质嵌入。

3.3.预测时，通过计算查询序列与所有EC编号聚类中心之间的成对距离来预测输入蛋白质的EC编号。

3.4.CLEAN还开发了两种方法来从输出排名中预测自信的EC编号：一种是贪婪方法，另一种是基于P值的方法。

第四天

四、基于深度学习的分子生成助力药物发现

培训内容1：

Nature Communication｜基于端到端的图生成框架的分子生成：《Retrosynthesis prediction using an end-to-end graph generative architecture for molecular graph editing》

1.数据来源和处理：Graph2Edits模型使用了公开可用的基准数据集USPTO-50k，包含50016个反应，这些反应被正确地原子映射并分类为10种不同的反应类型。数据集被分为40k、5k、5k的反应用于训练、验证和测试集。

2.模型架构和原理：Graph2Edits模型是一个端到端的图生成架构，基于图神经网络（GNN）预测产品图的编辑序列，并根据预测的编辑序列顺序生成中间体和最终反应物。该模型将半模板方法的两阶段过程（识别反应中心和完成合成子）合并为一锅学习，提高了在复杂反应中的适用性，并使预测结果更易于解释。模型的核心是图编码器和自回归模型，用于生成编辑序列，并应用这些编辑来推断中间体和反应物。

3.训练过程和细节：

3.1.Graph2Edits模型使用有向消息传递神经网络（D-MPNN）作为图编码器，以获取原子表示和全局图特征，并预测原子/键编辑和终止符号。

3.2.模型训练使用教师强制策略，即使用真实的编辑序列作为模型输入。在每个编辑步骤中，模型会计算所有可能的编辑的概率，并选择最高分的k个编辑，将这些编辑应用于输入图以获得k个中间体。

3.3.在生成过程中，如果达到最大步骤数或图表示指示终止，则生成分支将停止。

3.4.最终，根据可能性对前k个编辑序列和图进行排名，收集为最终预测结果。

培训内容2

Nature Computational Science｜基于等变扩散模型的分子生成网络《Structure-based drug design with equivariant diffusion models》

1.简单介绍。这篇文献提出了一种基于结构的药物设计方法（SBDD），利用SE(3)-等变扩散模型（DiffSBDD）生成与蛋白质结合口条件匹配的新颖小分子配体。该方法通过将SBDD问题建模为三维条件生成任务，能够一次性生成所有原子位置，克服了传统自回归方法因顺序生成而丢失全局上下文的局限性。DiffSBDD不仅支持从头分子设计，还能通过属性优化、负向设计和分子局部修饰（inpainting）等多种任务灵活应用。

2.数据总结。该研究使用了CrossDocked和Binding MOAD两个数据集进行训练和评估。

2.1.CrossDocked数据集包含40,344个训练蛋白-配体对和130个测试对，验证集规模为246个，确保不同集合中的蛋白质来自不同的酶分类主类以避免过拟合。

2.2.Binding MOAD数据集经过筛选后用于测试，分析限于所有方法均能生成样本的78个CrossDocked和119个Binding MOAD目标。此外，数据集处理涉及移除损坏条目，并通过Zenodo公开提供处理后的数据和采样分子，确保研究可重复性。

3.模型总结。DiffSBDD是一个SE(3)-等变扩散模型，以蛋白质结合口为条件生成三维分子结构，采用3D图表示（原子坐标和类型），避免了传统方法中从密度图回推分子结构的复杂后处理。模型设计尊重三维空间的旋转和平

第五天

五、结合分子动力学的蛋白质配体复合物相互作用动态预测

培训内容1:

Nature Communication｜交互作用感知的蛋白质-配体对接和亲和力预测模型《Interformer: an interaction-aware model for protein-ligand docking and affinity prediction》

1.简要介绍：本研究提出了一种名为Interformer的基于Graph-Transformer架构的统一模型，用于蛋白-配体对接和亲和力预测。针对现有深度学习模型忽略蛋白与配体原子间非共价相互作用建模的不足，Interformer引入了交互感知混合密度网络（MDN）来明确捕捉氢键和疏水相互作用，并结合负采样策略和伪Huber损失函数，通过对比学习优化相互作用分布，提升对接姿势的准确性和亲和力预测的鲁棒性。

2.数据集：研究使用了PDBBind时间分割测试集（333个样本）评估对接准确性，Posebusters基准测试验证物理合理性，以及内部真实世界数据集测试泛化能力。训练数据来源于PDBBind晶体结构数据库。

3.模型：Interformer基于Graph-Transformer架构，包括：(1) 图表示模块，将原子作为节点、邻近关系作为边；(2) 掩码自注意力（MSA）机制，通过Intra-Blocks和Inter-Blocks分别捕捉配体/蛋白内部及两者间的相互作用；(3) 交互感知MDN，融合四种高斯分布模拟常规力、疏水作用和氢键；(4) 边缘输出层整合节点和边特征预测能量；(5) 姿势评分和亲和力模块基于虚拟节点预测正确姿势和实验亲和力值。

4.训练细节：训练分两阶段：首先基于晶体结构训练能量模型生成负样本，随后联合正负样本训练姿势评分和亲和力模型。采用负对数似然损失优化MDN，二元交叉熵损失优化姿势评分，伪Huber损失（σ=4）优化亲和力预测（单位IC50、Kd、KI，经负对数归一化）。蒙特卡洛采样生成候选姿势，

研究内容2:

Nature Communication｜分子动力学驱动的蛋白质-配体复合物结构动态预测《DynamicBind: predicting ligand-specific protein-ligand complex structure with a deep equivariant generative model》

1.简单介绍：本研究提出了一种名为DynamicBind的深度学习方法，用于预测配体特异性的蛋白-配体复合物结构。传统分子对接方法通常将蛋白视为刚性或仅部分柔性，难以处理蛋白的大尺度构象变化，而分子动力学模拟虽然能捕捉动态构象，但计算成本高昂。DynamicBind通过等变几何扩散网络构建平滑的能量景观，高效模拟蛋白从无配体（apo）状态到配体结合（holo）状态的构象转变，无需依赖holo结构或大量采样。

2.数据集：研究基于PDBbind2020数据库（19,443个蛋白-配体复合物晶体结构），按时间划分：2019年前的数据用于训练和验证，2019年的数据用于测试。额外构建了Major Drug Targets (MDT)测试集（599对），聚焦激酶、GPCR等主要药物靶点，要求AlphaFold预测结构与晶体结构的pocket RMSD>2Å，确保测试难度。训练中通过AlphaFold预测结构与晶体结构插值生成蛋白部分的样本。

3.模型：DynamicBind是一个基于图神经网络的等变生成模型，使用粗粒化表示（蛋白以Cα节点和侧链二面角表示，配体以重原子节点表示），输出包括蛋白和配体的平移、旋转、扭转角更新，以及结合亲和力和cLDDT置信度评分。模型通过学习从apo到holo的“morph-like”变换，优化能量景观，包含63.67百万参数。

4.训练细节：训练在8块Nvidia A100 80GB GPU上进行5天，输入为添加morph变换的蛋白decoy构象和加高斯噪声的配体构象，目标是去噪操作。损失函数包括八项（配体和蛋白的平移、旋转、扭转等），通过Kabsch算法对齐apo和holo结构，结合扩散噪声调整构象过渡。推理时迭代20次更新初始结构。

上下滑动查看更多

讲师介绍

AI蛋白质设计（最新前沿+进阶）

主讲老师在学术界和工业界都有丰富算法开发和应用经验，博士毕业于国内顶尖课题组，从事蛋白质结构预测和蛋白质设计的研究工作，相关工作成果已在Cell Systems、Angew. Chem. Int. Ed.、JCIM等国际知名期刊发表论文。目前在知名药企担任高级研究员，主导AI驱动的大分子药物设计平台开发与团队管理。

AI多肽设计

主讲老师在学术界和工业界都有丰富算法开发和应用经验，毕业于南开大学院士课题组，从事AI多肽设计、抗菌肽设计以及蛋白质设计的研究工作，相关工作成果已在New England、Plos one等国际知名期刊发表

AI抗体设计

AI+基因编辑

主讲老师在学术界具有多年的研究经历和应用经验，来自于国内顶尖课题组，从事基因组编辑技术与人工智能交叉融合的研究工作，相关工作成果已在Nature Biotechnology、Nature Plants、Trends in Biotechnology等国际知名期刊发表

AI+构建虚拟细胞

主讲老师来自浙江大学，主要研发方向为组学算法开发与虚拟细胞建模，以第一作者（含共同）发表高水平期刊会议论文数篇，包括Nature Communications，ISBI等，承担各层次研发课题3项，领导共创开源社区搭建，github star数百，具有丰富的科技成果转化落地经验，讲课一致受到学员高度评价。

授课时间

01.AI多肽设计

2026.7.4-2026.7.5(09:00-11:30--13:30-17:00)

2026.7.7-2026.7.8(19:00-22:00)

2026.7.11-2026.7.12(09:00-11:30--13:30-17:00)

02.AI蛋白质设计

2026.6.6-2026.6.7(09:00-11:30--13:30-17:00)

2026.6.10-2026.6.11(19:00-22:00)

2026.6.13-2026.6.14(09:00-11:30--13:30-17:00)

2026.6.16-2026.6.17(19:00-22:00）

03.AI抗菌肽设计

2026.7.18-2026.7.19(09:00-11:30--13:30-17:00)

2026.7.21-2026.7.22(19:00-22:00)

2026.7.25-2026.7.26(09:00-11:30--13:30-17:00)

04.AI抗体设计

2026.6.23-2026.6.26(19:00-22:00)

2026.6.27-2026.6.28(09:00-11:30--13:30-17:00)

2026.6.29-2026.6.30(19:00-22:00)

05.AI构建虚拟细胞

2026.6.13-2026.6.14(09:00-11:30--13:30-17:00)

2026.6.25-2026.6.26(19:00-22:00)

2026.6.27-2026.6.28(09:00-11:30--13:30-17:00）

06.AI基因编辑

2026.6.13-2026.6.14(09:00-11:30--13:30-17:00)

2026.6.25-2026.6.26(19:00-22:00)

2026.6.27-2026.6.28(09:00-11:30--13:30-17:00）

腾讯会议直播上课课后提供直播回放

09.AIDD药物发现与设计+进阶复现视频录播

提供全部录播，代码进群答疑

培训费用

课程报名费用：

AI蛋白质设计（最新前沿＋进阶）、AI＋基因编辑、AI抗体设计

AI多肽设计、AI抗菌肽设计、AI构建虚拟细胞

公费价：每人每班￥6880元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥6580元（含报名费、培训费、资料费、提供课后全程回放资料）

AIDD药物发现与设计系统录播与AIDD药物发现与设计进阶顶刊复现录播：

公费价：每人每班￥4680元（含报名费、培训费、资料费、提供课后全程回放资料）

自费价：每人每班￥4380元（含报名费、培训费、资料费、提供课后全程回放资料）

重磅优惠:

注：（参加AI蛋白质设计培训可免费参加AI蛋白质设计（前沿、进阶）培训）

优惠1：报二送一（同时报名两个班赠送一个学习班，赠送班任选）

两班同报：10880元

三班同报：14880元

四班同报：18880元

特惠一：24880元（可免费学习一整年本单位举办的任意课程）

特惠二：28880元（可免费学习两整年本单位举办的任意课程）

特惠三：48880元（终身会员可终身参加本单位举办的任意课程）

优惠2：提前报名缴费可享受300元优惠（仅限前15名）

优惠3：报名直播课程可赠送往期课程回放

（报名一个直播课可以赠送两个回放）

（报名三个直播课赠送下面全部课程回放）

（可点击跳转详情链接）：

回放一：本课程为视频课！机器学习生物医学培训！

回放二：本课程为视频课！单细胞空间转录组培训！

回放三：本课程为视频课！比较基因组学培训！

回放四：本课程为视频课！机器学习蛋白质组学培训

回放五: 本课程为视频课！CRISPR-Cas9基因编辑培训！

回放六：本课程为视频课！蛋白质晶体结构解析培训！

回放七：本课程为视频课！深度学习基因组学培训！

回放八：本课程为视频课！机器学习代谢组学培训！

回放九：本课程为视频课！机器学习微生物多组学联合分析！

报名费用可开具正规报销发票及提供相关缴费证明、邀请函，可提前开具报销发票、文件用于报销。报名缴费后即可获得全套预习资料供大家课前准备

证书：参加培训并通过考试的学员，可以申请获得工业和信息化部工业文化发展中心颁发的“工业强国建设素质素养提升尚工行动”岗位能力适应评测证书。该证书可在中心官网查询，可作为能力评价，考核和任职的重要依据。评测证书查询网址：www.miit-icdc.org（自愿申请，须另行缴纳考试费500元/人）

培训特色及福利

1、课程特色--全面的课程技术应用、原理流程、实例联系全贯穿

2、学习模式--理论知识与上机操作相结合，让零基础学员快速熟练掌握 3、课程服务答疑--主讲老师将为您实际工作中遇到的问题提供专业解答

授课方式：通过腾讯会议线上直播，理论+实操的授课模式，老师手把手带着操作，从零基础开始讲解，电子PPT和教程开课前一周提前发送给学员，所有培训使用软件都会发送给学员，有什么疑问采取开麦共享屏幕和微信群解疑，学员和老师交流、学员与学员交流，培训完毕后老师长期解疑，培训群不解散，往期培训学员对于培训质量和授课方式一致评价极高！