生信AI大模型五日实战训练营
>>>基本信息
会议安排:6月1日开始5天每晚19:30–22:00
授课形式:线上直播+课后回放+配套Notebook+全程答疑
适合人群:生信、计算生物、医学、药学、AI for Science方向的本硕博学生/青年科研工作者/转行从业者
>>>本次特色
1.全栈式覆盖,一次学透:从DNA/RNA序列大模型,到蛋白质语言模型、单细胞基础模型,再到药物–靶点预测与多模态多组学融合,5天打通生信领域主流大模型核心技能,告别“学一个模型交一次学费”。
2.零基础友好:测序数据、Linux/服务器、CUDA/PyTorch、Conda/Docker全部从零讲起;每个实战模块均配套可一键运行的Jupyter Notebook与公开数据集。
3.顶刊论文级输出:每个模块对接1–2篇Nature/Science/Cell/Nature Methods级别论文,不仅教怎么用,更教怎么把跑出来的结果整理成图表、写进文章和课题报告,结业即可作为简历项目或科研素材。
>>>会议嘉宾
长期从事生信等多组学方面的项目研究,发表Nature、Science等杂志多篇论文。
>>>会议详细
第一天晚上(19:30–22:00)DAY1背景介绍与框架精讲
主要内容:生信大模型生态全景图与主流框架精讲
分内容1:生信大模型是什么,凭什么火
•从传统生信流水线+统计学到预训练+微调+Prompt的范式跃迁
•生信大模型vs通用LLM:数据、token、目标函数、评测标准的本质差异
•近三年代表性突破速览:DNABERT-2、Nucleotide Transformer、ESM-2、scGPT、scFoundation、AlphaFold-3、TxGNN等
分内容2:主流家族盘点:按输入数据分类速记
•DNA/RNA序列模型:核苷酸级token,长上下文建模(Hyena/Mamba)
•蛋白质语言模型:氨基酸级token,结构–序列联合预训练
•单细胞/空间转录组基础模型:基因token+表达量embedding
•多模态/多组学融合模型:联合表征+跨模态对齐+扰动建模
分内容3:核心架构演进:从BERT到Mamba的一条主线
•Encoder-only(BERT系):擅长表征与判别任务
•Encoder-Decoder(T5系):擅长生成与翻译类任务(如蛋白设计)
•Decoder-only(GPT系):擅长长序列生成与zero-shot
•状态空间模型(Hyena/Mamba):长基因组上下文的新主力
分内容4:选型决策树:拿到一个生信问题先问三句话
•输入是什么粒度的序列/矩阵/图?
•是表征任务、判别任务,还是生成任务?
•有多少标注数据?要不要zero-shot/few-shot?
•课堂练习:5个真实课题场景的模型选型决策实操
第二天晚上(19:30–22:00)DAY2实战准备1数据与服务器
主要内容:测序数据基础+输入构造+服务器与计算环境搭建
分内容1:测序数据基础知识:从fastq到模型可吃的输入
•fastq/bam/vcf/bed文件结构速通,比对与peak calling关键概念
•bulk-seq稠密表达矩阵的构造与归一化
•scRNA-seq稀疏矩阵:barcode、UMI、cell×gene矩阵生成
•空间转录组/CITE-seq/ATAC-seq的额外模态如何对齐
分内容2:把生物数据变成模型能懂的token
•DNA/RNA序列的k-mer/BPE/单核苷酸tokenize三种主流方案
•蛋白质序列的氨基酸token+结构token(如ESM-IF、SaProt)
•单细胞表达数据的gene token+表达分箱embedding
•自然语言(基因功能描述、文献摘要)与组学数据的联合embedding
分内容3:测序数据质控:脏数据进,脏结果出
•QC三连:测序质量、比对率、批次效应可视化
•scRNA-seq专项:双细胞过滤、线粒体比例、回归与初步聚类
•Bulk RNA-seq专项:低表达过滤、归一化方法对比
•实战:用Scanpy+Seurat做PBMC公共数据集的完整QC
分内容4:服务器入门与全套计算环境
•硬件:消费级4090/服务器A100/H100显存与算力换算速查
•驱动栈:NVIDIA Driver+CUDA+cuDNN+PyTorch版本对齐避坑
•包管理:Conda/Mamba/uv三件套,Docker镜像构建与复用
•开发体验:Jupyter Lab+VS Code Remote-SSH一站式配置
第三天晚上(19:30–22:00)DAY3实战准备2大模型核心机制
主要内容:Transformer一节课讲透+预训练/微调/Embedding全流程剖析
分内容1:Transformer五分钟入门,五十分钟讲透
•注意力机制=加权平均,从公式到几何直觉
•位置编码三代演进:绝对、相对、RoPE/ALiBi
•Layer Norm/Pre-Norm/Post-Norm的稳定性差别
•代码层面:拆解一个100行的minimal Transformer实现
分内容2:预训练vs微调vsEmbedding:到底用哪个
•预训练目标函数:MLM、CLM、对比学习、扰动重建在生信中的对应
•全参数微调/LoRA/Adapter/Prompt Tuning的算力与效果权衡
•纯Embedding提取+下游小模型:性价比最高的懒人方案
•Zero-shot/Few-shot:什么场景下根本不需要微调
分内容3:训练工程化:让模型真的能跑起来
•训练数据加载:HuggingFace Datasets+自定义streaming dataset
•权重载入与冻结:从checkpoint到只训练最后两层
•超参数与过拟合:学习率warmup、early stopping、验证集设计
•混合精度/梯度累积/DeepSpeed与FSDP简介
分内容4:生信大模型完整流水线长什么样
•上游任务:预训练→继续预训练→微调
•下游任务:分类、回归、生成、检索、可解释性分析
•VAE / 对比学习在表征压缩中的角色
•可视化与可解释:UMAP、注意力图谱、关键token归因
第四天晚上(19:30–22:00)DAY4实战1DNA与蛋白质大模型
主要内容:手把手跑通序列大模型—从DNA到蛋白质的完整代码实战
分内容1:DNA/RNA语言模型实战
•DNABERT-2与Nucleotide Transformer:模型权重加载、tokenize实操
•HyenaDNA/Evo:百万碱基级长上下文建模demo
•微调任务:启动子识别、剪接位点预测、变异致病性打分
•Embedding下游:用LightGBM/简单MLP取代复杂特征工程
分内容2:蛋白质语言模型实战
•ESM-2全家桶:8M/35M/150M/650M参数版本如何选
•Embedding提取→二级结构、亚细胞定位、功能注释下游任务
•结构感知模型:ESM-IF、SaProt、AlphaFold嵌入的混合使用
•可解释性:注意力权重定位关键残基与功能域
分内容3:Zero-shot 实战:不微调也能解决问题
•用ESM直接做变异打分(zero-shot variant effect prediction)
•用DNA大模型likelihood评估调控元件强度
•模板:把打分思路迁移到自己的研究问题
分内容4:课堂作业 + 论文复现
•复现案例:一篇Nature Methods级别的ESM微调工作
•课后任务:自选公开数据集,提交Notebook+1页结果报告
•答疑时段:环境问题/显存爆炸/收敛失败常见10大坑现场拆解
第五天晚上(19:30–22:00)DAY5实战2单细胞与药物大模型
主要内容:单细胞基础模型+扰动预测+药物–靶点+多模态融合的全实战收官
分内容1:单细胞基础模型实战
•scGPT/scFoundation/Geneformer:模型差异与适用场景对比
•微调实战:细胞类型自动注释、批次整合、跨数据集泛化
•Embedding下游:稀有细胞类型发现、轨迹推断辅助
分内容2:扰动预测:从相关性走向因果
•pertpy/scPerturb/STATE:扰动数据集与标准化基准
•扰动预测建模:基因敲除、药物处理、CRISPRi表型预测
•实战:在Replogle/Norman数据集上微调+评测
分内容3:药物–靶点与多模态多组学融合
•药物–靶点交互预测:分子图神经网络+蛋白语言模型联合建模
•多模态融合:转录组+空间信息+CITE-seq蛋白测量的对齐策略
•转录因子活性推断、调控网络重建的大模型新解法
分内容4:结业项目 + 后续学习路径
•结业项目:每位学员完成一个端到端小项目
•项目交付物:可运行Notebook+结果图表+一页PDF报告
•后续路径:如何持续追踪生信大模型前沿
会议时间:
6月1日开始
授课方式:
腾讯会议线上直播
主办单位:
玮瑜科研平台
承办单位:
上海玮瑜生物科技有限公司
上海玮瑜信息科技有限公司
会议费用:

|
序号 |
近期会议名称 |
|
1 |
★单细胞多组学分析空间转录组和单细胞机器 |
|
2 |
★文献计量论文写作发表 |
|
3 |
★多学科,多数据库,多种技术交叉联合孟德尔随机化高分sci训练营 |
|
4 |
★利用R语言挖掘TCGA GEO等公共数据库发文章 |
|
5 |
★多模态脑影像数据的处理与分析零基础实操 |
|
6 |
★大师兄手把手一对一辅导论文写作 |
|
7 |
★一对一医学毕业论文辅导写作 |
|
8 |
★全多组学 | 代谢组学+肠道菌群+转录组+蛋白质组生信分析 |
|
9 |
★机器学习在临床数据挖掘中的应用 |
|
10 |
★国自然基金写作 |
|
11 |
★SCI论文插图机制模式图专题 |
|
12 |
★线粒体和细胞死亡课题思路介绍及热点方向分析 |
|
13 |
★Chat-GPT结合万用模版英文论文写作法 |
|
14 |
★全程辅导影像组学应用与SCI论文写作 |
|
15 |
★全程辅导学Meta分析和网状Meta分析 |
|
16 |
★SPSS+R语言临床预测模型实战 |
|
17 |
★RNA甲基化修饰(m6A)研究思路及国自然课题设计 |
|
18 |
★肿瘤微环境和免疫治疗课题思路介绍及热点方向 |
|
19 |
★随访资料生存分析处理方法 |
|
20 |
★中药复方结合分子对接技术发高分文章 |
|
21 |
★统计分析和图表处理 |
|
22 |
★MIMIC数据库 |
|
23 |
★CRISPR/Cas9基因编辑技术专题 |
|
24 |
★利用现有的R语言代码和数据教您快速发表SCI文章 |
诚邀嘉宾合作
不用担心您的资历,我们做事只看能力
也别担心您的能力,好不好市场说了算
兼职工作 招生函里不公布老师个人信息
您的朋友如感兴趣麻烦您给我介绍 谢谢
您可以在科研领域选择您的专长与我合作
如有意,请与我联系,谢谢
联系人:谢老师
联系电话:13611825136
(微信17317557680)
合作方式:线下或线上课程皆可
夜雨聆风