乐于分享
好东西不私藏

生信AI大模型五日实战训练营

生信AI大模型五日实战训练营

>>>基本信息

会议安排:6月1日开始5天每19:30–22:00

授课形式:线上直播+课后回放+配套Notebook+全程答疑

适合人群:生信、计算生物、医学、药学、AI for Science方向的本硕博学生/青年科研工作者/转行从业者

>>>本次

1.全栈式覆盖,一次学透DNA/RNA序列大模型,到蛋白质语言模型、单细胞基础模型,再到药物靶点预测与多模态多组学融合,5天打通生信领域主流大模型核心技能,告别学一个模型交一次学费

2.零基础友好测序数据、Linux/服务器、CUDA/PyTorchConda/Docker全部从零讲起;每个实战模块均配套可一键运行的Jupyter Notebook与公开数据集。

3.顶刊论文级输出每个模块对接12Nature/Science/Cell/Nature Methods级别论文,不仅教怎么用,更教怎么把跑出来的结果整理成图表、写进文章和课题报告,结业即可作为简历项目或科研素材。

>>>会议嘉宾

长期从事生信等多组学方面的项目研究,发表Nature、Science等杂志多篇论文。

>>>会议

第一天晚上(19:3022:00)DAY1背景介绍与框精讲

主要内容:生信大模型生态全景图与主流框架精讲

分内容1:生信大模型是什么,凭什么火

从传统生信流水线+统计学到预训练+微调+Prompt的范式跃迁

生信大模型vs通用LLM数据、token、目标函数、评测标准的本质差异

近三年代表性突破速览DNABERT-2Nucleotide TransformerESM-2scGPTscFoundationAlphaFold-3TxGNN

分内容2:主流家族盘点:按输入数据分类速记

DNA/RNA序列模型:核苷酸级token,长上下文建模(Hyena/Mamba

蛋白质语言模型:氨基酸级token,结构序列联合预训练

单细胞/空间转录组基础模型:基因token+表达量embedding

多模态/多组学融合模型:联合表征+跨模态对齐+扰动建模

分内容3:核心架构演进:从BERTMamba的一条主线

Encoder-onlyBERT系)擅长表征与判别任务

Encoder-DecoderT5系)擅长生成与翻译类任务(如蛋白设计)

Decoder-onlyGPT系)擅长长序列生成与zero-shot

状态空间模型(Hyena/Mamba长基因组上下文的新主力

分内容4:选型决策树:拿到一个生信问题先问三句话

输入是什么粒度的序列/矩阵/图?

是表征任务、判别任务,还是生成任务?

有多少标注数据?要不要zero-shot/few-shot

课堂练习:5个真实课题场景的模型选型决策实操

第二天晚上(19:3022:00)DAY2实战准备1数据与服务器

主要内容:测序数据基础+输入构造+服务器与计算环境搭建

分内容1:测序数据基础知识:从fastq到模型可吃的输入

fastq/bam/vcf/bed文件结构速通,比对与peak calling关键概念

bulk-seq稠密表达矩阵的构造与归一化

scRNA-seq稀疏矩阵:barcodeUMIcell×gene矩阵生成

空间转录组/CITE-seq/ATAC-seq的额外模态如何对齐

分内容2:把生物数据变成模型能懂的token

DNA/RNA序列的k-mer/BPE/单核苷酸tokenize三种主流方案

蛋白质序列的氨基酸token+结构token(如ESM-IFSaProt

单细胞表达数据的gene token+表达分箱embedding

自然语言(基因功能描述、文献摘要)与组学数据的联合embedding

分内容3:测序数据质控:脏数据进,脏结果出

QC三连:测序质量、比对率、批次效应可视化

scRNA-seq专项:双细胞过滤、线粒体比例、回归与初步聚类

Bulk RNA-seq专项:低表达过滤、归一化方法对比

实战:用Scanpy+SeuratPBMC公共数据集的完整QC

分内容4:服务器入门与全套计算环境

硬件:消费级4090/服务器A100/H100显存与算力换算速查

驱动栈:NVIDIA Driver+CUDA+cuDNN+PyTorch版本对齐避坑

包管理:Conda/Mamba/uv三件套,Docker镜像构建与复用

开发体验:Jupyter Lab+VS Code Remote-SSH一站式配置

第三天晚上(19:3022:00)DAY3实战准备2大模型核心机制

主要内容:Transformer一节课讲透+预训练/微调/Embedding全流程剖析

分内容1Transformer五分钟入门,五十分钟讲透

注意力机制=加权平均,从公式到几何直觉

位置编码三代演进:绝对、相对、RoPE/ALiBi

Layer Norm/Pre-Norm/Post-Norm的稳定性差别

代码层面:拆解一个100行的minimal Transformer实现

分内容2:预训练vs微调vsEmbedding:到底用哪个

预训练目标函数:MLMCLM、对比学习、扰动重建在生信中的对应

全参数微调/LoRA/Adapter/Prompt Tuning的算力与效果权衡

Embedding提取+下游小模型:性价比最高的懒人方案

Zero-shot/Few-shot:什么场景下根本不需要微调

分内容3:训练工程化:让模型真的能跑起来

训练数据加载:HuggingFace Datasets+自定义streaming dataset

权重载入与冻结:从checkpoint到只训练最后两层

超参数与过拟合:学习率warmupearly stopping、验证集设计

混合精度/梯度累积/DeepSpeedFSDP简介

分内容4:生信大模型完整流水线长什么样

上游任务:预训练继续预训练微调

下游任务:分类、回归、生成、检索、可解释性分析

VAE / 对比学习在表征压缩中的角色

可视化与可解释:UMAP、注意力图谱、关键token归因

第四天晚上(19:3022:00)DAY4实战1DNA与蛋白质大模型

主要内容:手把手跑通序列大模型DNA到蛋白质的完整代码实战

分内容1DNA/RNA语言模型实战

DNABERT-2Nucleotide Transformer:模型权重加载、tokenize实操

HyenaDNA/Evo:百万碱基级长上下文建模demo

微调任务:启动子识别、剪接位点预测、变异致病性打分

Embedding下游:用LightGBM/简单MLP取代复杂特征工程

分内容2:蛋白质语言模型实战

ESM-2全家桶:8M/35M/150M/650M参数版本如何选

Embedding提取二级结构、亚细胞定位、功能注释下游任务

结构感知模型:ESM-IFSaProtAlphaFold嵌入的混合使用

可解释性:注意力权重定位关键残基与功能域

分内容3Zero-shot 实战:不微调也能解决问题

ESM直接做变异打分(zero-shot variant effect prediction

DNA大模型likelihood评估调控元件强度

模板:把打分思路迁移到自己的研究问题

分内容4:课堂作业 论文复现

复现案例:一篇Nature Methods级别的ESM微调工作

课后任务:自选公开数据集,提交Notebook+1页结果报告

答疑时段:环境问题/显存爆炸/收敛失败常见10大坑现场拆解

第五天晚上(19:3022:00)DAY5实战2单细胞与药物大模型

主要内容:单细胞基础模型+扰动预测+药物靶点+多模态融合的全实战收官

分内容1:单细胞基础模型实战

scGPT/scFoundation/Geneformer:模型差异与适用场景对比

微调实战:细胞类型自动注释、批次整合、跨数据集泛化

Embedding下游:稀有细胞类型发现、轨迹推断辅助

分内容2:扰动预测:从相关性走向因果

pertpy/scPerturb/STATE:扰动数据集与标准化基准

扰动预测建模:基因敲除、药物处理、CRISPRi表型预测

实战:在Replogle/Norman数据集上微调+评测

分内容3:药物靶点与多模态多组学融合

药物靶点交互预测:分子图神经网络+蛋白语言模型联合建模

多模态融合:转录组+空间信息+CITE-seq蛋白测量的对齐策略

转录因子活性推断、调控网络重建的大模型新解法

分内容4:结业项目 后续学习路径

结业项目:每位学员完成一个端到端小项目

项目交付物:可运行Notebook+结果图表+一页PDF报告

后续路径:如何持续追踪生信大模型前沿

会议相关问题

会议时间

6月1日开始

授课方式

腾讯会议线上直播

主办单位

玮瑜科研平台

承办单位

上海玮瑜生物科技有限公司

上海玮瑜信息科技有限公司

会议费用

3500元/人
联系方式:
谢先生 13611825136
报名方式
报名方法一:电话报名 您可以直接联系13611825136谢先生
报名方法二:微信报名
其他会议安排联系招生老师

序号

近期会议名称

1

单细胞多组学分析空间转录组和单细胞机器

2

★文献计量论文写作发表

3

多学科,多数据库,多种技术交叉联合孟德尔随机化高分sci训练营

4

★利用R语言挖掘TCGA GEO等公共数据库发文章

5

★多模态脑影像数据的处理与分析零基础实操

6

★大师兄手把手一对一辅导论文写作

7

★一对一医学毕业论文辅导写作

8

★全多组学 代谢组学+肠道菌群+转录组+蛋白质组生信分析

9

机器学习在临床数据挖掘中的应用

10

★国自然基金写作

11

SCI论文插图机制模式图专题

12

线粒体和细胞死亡课题思路介绍及热点方向分析

13

Chat-GPT结合万用模版英文论文写作法

14

★全程辅导影像组学应用与SCI论文写作

15

★全程辅导学Meta分析和网状Meta分析

16

SPSS+R语言临床预测模型实战

17

RNA甲基化修饰(m6A)研究思路及国自然课题设计

18

★肿瘤微环境和免疫治疗课题思路介绍及热点方向

19

随访资料生存分析处理方法

20

中药复方结合分子对接技术发高分文章

21

统计分析和图表处理

22

MIMIC数据库

23

CRISPR/Cas9基因编辑技术专题

24

利用现有的R语言代码和数据教您快速发表SCI文章

            诚邀嘉宾合作       

不用担心您的资历,我们做事只看能力

       也别担心您的能力,好不好市场说了算

      兼职工作 招生函里不公布老师个人信息

       您的朋友如感兴趣麻烦您给我介绍  谢谢

 您可以在科研领域选择您的专长与我合作

    如有意,请与我联系,谢谢

    联系人:谢老师

联系电话:13611825136

         (微信17317557680)

合作方式:线下或线上课程皆可

说明:文档人工编辑, 如有错别字请批评指正,谢谢。