
各有关单位:
近年来,人工智能已彻底颠覆了蛋白质设计领域。以AlphaFold、ESM、RFdiffusion为代表的一系列AI工具,使得从零开始创造具有全新结构和功能的蛋白质成为可能,为生物医药、酶工程等领域带来了前所未有的机遇。 然而,强大的工具也带来了新的挑战:复杂的软件环境配置、多样的模型调用方式以及从“想法”到“设计”的完整工作流整合,成为了许多研究者,尤其是初学者的现实门槛。
本课程旨在系统性地解决这些问题。我们将从最基础的Linux与Conda环境管理讲起,确保每位学员搭建起稳定、可复现的计算平台。课程核心将深度实践三大前沿工具:利用ESM模型进行序列分析与特征提取;掌握ProteinMPNN为给定骨架设计最优序列;并通过RFdiffusion实现从无到有的蛋白质骨架生成。最终,我们将以一个完整的“设计靶向EGFR的全新结合蛋白”综合项目,串联所有技术环节,带领学员亲历从靶标分析、骨架生成、序列设计到AI结构验证的完整闭环,快速获得独立开展AI蛋白质设计的能力。因此,中国化工企业管理协会医药化工专业委员会决定于2026年 6月26-28日在杭州市举办“2026AI蛋白质设计前沿技术实战培训班”。届时将邀请行业内实践专家针对相关内容进行讲解与实操教学。参会名额有限,望各有关单位积极转发或组织相关人员尽快报名参加。现将有关事项通知如下:

会议安排
时间:2026年6月26-28日(26日全天报到)
地点:杭州市

培训形式
l基础奠基,工具实践,实例分析,互动答疑
l完成全部培训课程者由协会颁发培训证书

组织机构
主办单位:中国化工企业管理协会医药化工专业委员会
承办单位:中科凯晟(北京)化工技术研究院

培训大纲(参考附件)
附件1:课程大纲
第一天:计算环境搭建与蛋白质序列设计
(6月27日,上午09:00-12:00;下午13:30-16:30)
上午: 模块一 & 模块二
模块一:Linux基础— Linux, Conda, VScode& Docker&Claude Code,kimi code
目标:为后续所有软件安装和运行扫清障碍,建立规范、可复现的科研计算环境管理能力。
Linux基础操作精讲:
l文件系统与导航:ls, cd, pwd, mkdir 的高效使用技巧。
l文件管理:cp, mv, rm, vi, cat, head, tail 的实战应用。
l权限管理:理解并使用chmod 解决脚本执行权限问题。
l实操:在服务器上创建课程项目目录,并进行基本的文件组织。
Conda环境管理核心:
l核心理念:通过环境隔离解决不同项目间的依赖冲突问题。
l环境生命周期:创建(create)、激活(activate)、退出(deactivate)、删除(remove)
l软件包管理:安装(install/pip install)、查看(list)、导出配置(env export)
l实操:为后续的ESM、ProteinMPNN和RFdiffusion创建独立的Conda环境。
Docker容器化入门:
l概念对比:Docker与虚拟机的异同,镜像(Image)与容器(Container)的核心关系。
l核心命令:docker pull (拉取官方镜像), docker run (运行容器)。
l应用场景:讲解如何利用Docker一键部署复杂的生物信息学工具。
VScode远程开发实战:
lSSH远程连接:配置Remote-SSH插件,一键连接实验室服务器,本地浏览远程文件。
l科研扩展生态:安装Python、Jupyter、Docker插件,构建蛋白质设计的编程环境。
l实操:通过VScode连接服务器,在课程目录中创建、编辑并直接运行蛋白质生成脚本。
Claude Code & Kimi Code AI辅助编程:
l核心理念:AI嵌入终端与IDE,实现代码生成、重构、Debug闭环,加速生物信息学开发。
l工具定位:自主编程Agent,自然语言直驱文件系统与脚本执行,独立完成"写代码—运行—报错修复—结果分析"完整链路。
l实操:以自然语言驱动蛋白质设计全流程——自动生成RFdiffusion推理脚本、批量处理PDB文件、解析ProteinMPNN序列打分输出。
模块二:ESM模型探索 — 从安装到基础应用
目标:掌握Meta AI的ESM系列工具,为蛋白质序列分析和结构预测打下基础。
ESM (Evolutionary Scale Modeling) 简介:
l蛋白质语言模型:讲解ESM如何将自然语言处理的思想应用于蛋白质序列。
l主要应用:序列嵌入、突变效应预测、结构预测(ESMFold)。
软件安装与环境配置:
l使用pip 在之前创建的Conda环境中安装 fair-esm 库。
l依赖检查与GPU环境确认 ( torch, cuda)。
基础操作演示与实战:
l途。
l序列分类模型训练:基于ESM提取的序列嵌入特征,构建简单的分类器,完成蛋白质功能分类或亚细胞定位预测任务。
l单序列结构预测(ESMFold):使用ESMFold命令行工具或API,对一条蛋白质序列进行快速结构预测。
l结果分析:解读输出的PDB文件,重点关注pLDDT分数,并使用PyMOL等软件进行三维结构可视化。
l实操练习:学员独立完成一个未知蛋白的结构预测,并评估预测结果的可靠性。
下午: 模块三
模块三:ProteinMPNN深度实践 — 反向折叠与序列设计 (3小时)
目标:精通使用ProteinMPNN,根据给定的蛋白质骨架设计出全新的、高稳定性的氨基酸序列。
软件安装与环境配置:
l从GitHub克隆 ProteinMPNN 官方仓库 ( git clone)。
l使用Conda创建专用环境并安装所有依赖项。
l下载预训练好的模型权重文件,并放置到指定目录。
序列设计核心流程:
l基础工作流:输入PDB结构文件,运行设计脚本生成候选序列。
l重要参数解析:输入输出路径、生成序列数量、采样温度等。
l结果文件解读:理解输出FASTA中的序列评分及其意义。
进阶设计技巧:
l位点控制策略:固定关键残基、排除特定位置、氨基酸偏好等。
l复杂体系设计:多链蛋白、同源多聚体的序列优化。
l参数调优实践:通过温度参数平衡序列多样性与结构匹配度。
(6月28日,上午09:-12:00;下午13:30-16:30)
上午: 模块四
模块四:RFdiffusion核心技术 — 从无到有生成蛋白质骨架 (3小时)
目标:掌握蛋白质结构生成工具RFdiffusion,实现从头设计全新拓扑结构的能力。
软件安装与环境配置:
l详细安装流程:分步指导通过git clone 获取源码,使用Conda/Mamba创建环境。
l常见问题排查:总结安装过程中可能遇到的编译错误、依赖冲突等问题及解决方案。
结构生成操作流程:
l核心脚本run_inference.py :演示完整的命令行调用格式。
lContig字符串详解:详细讲解如何通过 contig 字符串定义生成长度、引入已知motif、指定二级结构等。例如: 'A1-100' (生成100个残基), '10-20/A1-10/10-20' (在A链1-10号残基两侧各生成10-20个残基)。
常用参数设置和输出结果解析:
linference.output_prefix: 输出文件命名
ldenoiser.noise_scale_ca: 主链噪声水平控制
ldenoiser.noise_scale_frame: 局部构象噪声控制
lscaffolder.symmetry: 对称性参数(C2, D2, I等)。
l输出结果深度解析:使用PyMOL加载.traj.pdb轨迹文件,观察结构生成过程,并学习如何筛选最优候选结构。
下午: 模块五 & 模块六
模块五:RFdiffusion引导的Binder骨架生成
项目背景:设计一个能够特异性结合EGFR(表皮生长因子受体)的全新蛋白binder,用于潜在的癌症治疗应用。EGFR在多种癌症中过表达,是重要的药物靶点。
EGFR靶标分析:
l解析EGFR蛋白结构特征(621 AA,胞外域关键结合位点)。
l确定设计目标:针对EGFR胞外域设计小分子binder。
l识别关键结合界面和潜在的相互作用热点区域。
RFdiffusion Binder设计实操:
l输入EGFR结构PDB文件,指定目标结合区域。
l设置binder长度范围、扩散步数等关键参数。
l运行脚本生成20-50个候选binder骨架。
结果筛选与评估:
l筛选策略实践:从生成结果中筛选出3-5个最优候选骨架,并进行可视化分析,检查结合界面的合理性。
模块六:序列生成
ProteinMPNN序列设计:
l针对筛选骨架进行序列优化:输入RFdiffusion生成的top3候选骨架,固定界面关键残基,优化其余位置。
l参数调整与序列生成:设置合适的采样温度,每个骨架生成10-20条序列。
l序列筛选与优化:分析ProteinMPNN评分和氨基酸组成,检查界面残基的化学性质,选择每个骨架的top3序列进入验证阶段。
AlphaFold3结构验证:
l序列折叠预测:将ProteinMPNN设计的序列提交AlphaFold3预测,评估pLDDT分数。
l结构比对与验证:计算预测结构与RFdiffusion骨架的RMSD(目标 < 2Å),在PyMOL中叠加比对,检查界面保持情况。
课程总结与讨论
l回顾完整设计流程:靶标分析→ 骨架生成 → 序列设计 → 结构验证。
l讨论挑战与改进方向,介绍后续优化策略。
课程总结与Q&A:
l回顾两天课程的核心知识点与工作流。
l探讨AI蛋白质设计的当前局限与未来发展方向。
l提供进一步学习的资源和路径建议。

培训对象
1.蛋白质工程领域科研单位专家及学者;
2.农学、医学、药学及食品学院校及企业蛋白质功能开发负责人;
3.生物工程领域从业工作者。

会议费用
会务费:3500元/人(含会议费、资料费等);同一企业报名2人以上3000元/人;住宿统一安排,费用自理。
展位:含2个免费代表名额及背景板,一张桌子两把椅子
企业协办、展位宣传、大会发言、会刊广告彩页、资料发放请联系会务组咨询

问题征集(截止到6月20日)
请在回执表问题征集栏填写您所关注及遇到的问题,以便讲师在备课时更具备针对性。

联系方式
组委会秘书处:
联系人:赵蕊电话:13001080157(同微信)
电子邮箱:zghg2012@126.com
扫描二维码可直接报名*了解更多内容加微信

夜雨聆风