AI加持,全新改版!生信入门&数据挖掘线上直播课5月班

适宜人群
生信入门班:生物、医学、农学等方向需要学习生物信息学数据分析的人,本科、硕博、生信相关公司职员、医生等。
数据挖掘班:医学、网络药理学等方向需要利用生物信息学工具挖掘公共数据以及做下游分析的人,往期学员以医学生、医生为主。
选择困难症指南:
如果你还是选择困难,两个都要,联合报名优惠价4199元,默认本月参与生信入门班,下月参与数据挖掘班,有特殊要求(如先上数据挖掘,两个班同月参加),我们会灵活安排。
授课时间和方式
每月初滚动开班,最新课程开始时间是5月11日。两班第一周内容相同。

培训内容
生信入门班:
学习以转录组数据为代表的组学数据分析,包括上游分析(从下机数据到表达矩阵)和下游分析(差异分析、富集分析,验证的目标基因筛选,免疫组库,可变剪切分析等),转录组高分文献案例讲解与复现,文献发表级图片即出即用,无专业偏向性,顺带学习基因表达芯片。
R语言是为下游分析打基础,Linux是为上游分析打基础。
数据挖掘班:学习基因表达芯片、转录组、突变数据、单细胞转录组数据的下游分析和做图,专业偏向医学(部分涉及肿瘤,但医学非肿瘤专业也适配),包含机器学习算法构建分类模型与生存模型,多篇文献讲解和文章复现。全程使用R语言,不学习Linux(因为不学上游分析)。
biotrainee
生信入门班每日课表
第1课
R语言:入门认知
1. 入门认知和总体介绍
2. R和Rstudio的介绍、设置和使用
3. 项目管理
4. 函数和R包的使用
5. AI加持:介绍GitHub Copilot AI编程助手,体验“智能编程伙伴”。讲解如何用AI解决报错。
第2课
R语言:数据类型与结构
1. 数据类型介绍、生成和运算
2. 数据结构介绍、生成和运算
3. tidyverse三大包(dplyr, tidyr, stringr)的应用
4. AI加持:选择合适的AI工具+提示词模板
第3课
R语言:数据读写与批处理
1. 数据读取方法
2. 数据导出方法
3. 条件与循环语句及其应用
4. 批处理函数(apply系列)
5. AI加持:优化粗糙代码,交互修改和解决报错。
第4课
R语言:绘制发表级图表
1. ggplot2 系统学习
2. 拼图和保存
3. 文章图表复现案例
4. AI加持:优化ggplot2绘图代码,按要求复现顶刊美图。
第5课
R语言:AI加持的实战应用
1. 读取实战的基因表达数据,包含三个分组(Primary, Metastatic, Normal)。(数据读取)
2. 删除多余列,修改列名,设置行名,检查缺失值。(数据清洗)
3. 转换为矩阵格式,适配热图的输入要求。(数据结构处理)
4. 筛选方差最大的3500个基因,适配WGCNA的输入要求。(apply系列批处理函数应用)
5. 从三组中挑选两组(Normal和Primary),筛选其中的内质网应激相关的基因。(条件语句应用)
6. 转为长格式,适配ggplot2的输入要求。(数据结构处理)
7. 选择合适的图表,展示感兴趣的基因表达分布和相关性,所有图表美化。(数据可视化)
8. 批量安装R包,适配后续课程所需。
第6课
Linux:入门认知
1.登录Linux服务器2.Linux操作系统认知3.基本文件和目录操作AI加持:解决登陆服务器过程的各种报错
第7课
Linux:简单文本处理
1.文本查看2.文本简单处理3.vim编辑器AI加持:复杂文本排序和统计
第8课
Linux:进阶文本处理
1.文本处理三驾马车(awk,sed,grep)2.正则表达式AI加持:描述需求,AI生成awk/sed脚本
第9课
Linux:软件安装
1.conda 安装和环境管理2.环境变量3.原始的软件安装方法AI加持:遇到”command not found”,让AI分析PATH配置问题并给出修复命令
第10课
Linux:shell脚本编程
1.批处理2.条件语句3.系统变量(环境变量、位置参数变量、状态变量、自定义变量)5.通配符及参数扩展6.脚本编程7.任务提交和查看AI加持:变量作用域可视化:用流程图解释$?、$1的作用范围
第11课
转录组:背景知识
1.转录组技术介绍:bulk RNA-seq/scRNA-seq/Spatial RNA-seq
2.转录组测序原理讲解(带视频)
3.转录组高分文献案例
4.服务器上文件目录管理
5.测序数据fastq下载与介绍
6.AI加持:解读linux代码并优化练习答案
第12课
转录组:数据质控与过滤
1.测序数据fastq质量评估
2.测序数据fastq过滤
3.参考基因组介绍与下载(基因组数据库、fasta、gtf、gff3)
4.AI加持:质控报告评估与解读
第13课
转录组:数据比对与定量
1.cleandata数据比对
2.比对关键结果解读
3.基因表达定量
5.加餐:单端数据上游定量
6.AI加持:比对关键评估与解读
第14课
转录组:差异表达和功能分析
1.数据标准化和低表达基因过滤
2.三张图检查异常样本
3.三大差异分析(edgeR、limma、DESeq2):包括3分组以上(kmeans、mfuzz)
4.常见高分文献差异结果可视化
5.常见高分文献候选基因筛选
6.常见功能数据库介绍和科研热点基因集介绍
7.基因的功能推断:ORA, GSEA, GSVA
8.常见高分文献富集分析结果可视化
9.AI加持:异常样本检测与解读
第15课
转录组:可变剪切与免疫组库分析
1.可变剪切分析
2.免疫组库分析
3.高分文献免疫组库结果可视化
第16课
单细胞:上游标准流程
1. 上游数据下载及结构介绍
2. cellranger流程概览
3. 上游数据质控流程
4. 表达矩阵获取
5. 数据读取质控、降维、整合、聚类、分群
6. AI加持:上游数据处理代码解读
第17课
单细胞:亚群注释及可视化
1.人工注释和自动注释
2.细胞类型间差异分析
3.任意分组的差异分析
4.marker基因可视化及美化
5.AI加持:辅助细胞类型注释及美化代码调整
第18课
单细胞:文章复现(一)
1. AI加持:拆解文章逻辑,详细解释图表
2. 多样品上游数据处理注意事项——改名及批量质控
3. 数据读取整合与批次校正、细胞分群命名
4. 细胞构成比例差异分析:统计并可视化对照组与病例组间各细胞比例的变化
5. 目标亚群的再聚类(Re-clustering)
第19课
单细胞:文章复现(二)
1. 细胞通讯分析(CellChat/CellPhoneDB)
2. 拟时序分析(Trajectory Analysis)
3. 功能富集分析(GO/KEGG/GSEA)
4. 转录因子分析(SCENIC):推断驱动成纤维细胞活化的关键转录因子。
5. AI加持:解读高级分析结果,提取关键通路
第20课
单细胞:文章复现(三)
1. 基因模块评分(AddModuleScore)
2. 不同文章单细胞图表复现与拓展
3. 更换全新数据集演示全流程代码的应用与迁移
4. 寻找热点基因集与前沿分析方向的技巧
5. AI加持:如何利用 AI 将差异基因列表转化为实验设计方案
biotrainee
数据挖掘班每日课表
第1课
R语言:入门认知
1. 入门认知和总体介绍
2. R和Rstudio的介绍、设置和使用
3. 项目管理
4. 函数和R包的使用
5. AI加持:介绍GitHub Copilot AI编程助手,体验“智能编程伙伴”。讲解如何用AI解决报错。
第2课
R语言:数据类型与结构
1. 数据类型介绍、生成和运算
2. 数据结构介绍、生成和运算
3. tidyverse三大包(dplyr, tidyr, stringr)的应用
4. AI加持:选择合适的AI工具+提示词模板
第3课
R语言:数据读写与批处理
1. 数据读取方法
2. 数据导出方法
3. 条件与循环语句及其应用
4. 批处理函数(apply系列)
5. AI加持:优化粗糙代码,交互修改和解决报错。
第4课
R语言:绘制发表级图表
1. ggplot2 系统学习
2. 拼图和保存
3. 文章图表复现案例
4. AI加持:优化ggplot2绘图代码,按要求复现顶刊美图。
第5课
R语言:AI加持的实战应用
1. 读取实战的基因表达数据,包含三个分组(Primary, Metastatic, Normal)。(数据读取)
2. 删除多余列,修改列名,设置行名,检查缺失值。(数据清洗)
3. 转换为矩阵格式,适配热图的输入要求。(数据结构处理)
4. 筛选方差最大的3500个基因,适配WGCNA的输入要求。(apply系列批处理函数应用)
5. 从三组中挑选两组(Normal和Primary),筛选其中的内质网应激相关的基因。(条件语句应用)
6. 转为长格式,适配ggplot2的输入要求。(数据结构处理)
7. 选择合适的图表,展示感兴趣的基因表达分布和相关性,所有图表美化。(数据可视化)
8. 批量安装R包,适配后续课程所需。
第6课
转录组:标准流程与案例
1. 数据读取与整理
2. 差异分析及其可视化
3. 富集分析与GSEA
4. AI加持:换数据整理代码,并验证代码正确性。
第7课
转录组:高阶分析
1.多分组数据的差异分析
2.多个转录组数据集联合分析
3.加权共表达网络分析
4.AI加持:分析WGCNA特定模块可能代表的具体细胞功能或生物学过程。
第8课
转录组:机器学习分类模型
1.利用lasso回归筛选基因
2.随机森林、支持向量机
3.多种机器学习算法的组合与评估
4.AI加持:解释机器学习模型评估指标,用通俗比喻解释专业术语。
第9课
转录组:机器学习预后模型
1.KMplot绘制和批量Log-rank检验
2.lasso回归与cox比例风险模型
3.多种机器学习算法的组合
4.多种算法计算免疫浸润并可视化
5.AI加持:辅助解读Cox回归结果与森林图
第10课
单细胞:标准流程
1.多样本数据批量读取
2.质控、降维、整合、聚类、分群
3.双细胞去除与细胞周期计算
4.人工注释和自动注释
5.AI加持:辅助数据读取和细胞类型注释
第11课
单细胞:差异挖掘、基因集评分
1.细胞类型间差异分析
2.任意分组的差异分析
3.亚群分群并填回全局对象
4.多种算法实现基因集打分
5.AI加持:代码解读与定制可视化
第12课
单细胞:拟时序和细胞通讯分析
1.Monocle 拟时序分析及可视化
2.Cellchat 细胞通讯分析及可视化
3.复杂结果的可视化与生物学解释
4.AI加持:解读细胞通讯网络,抓取关键信息。
第13课
文章复现(一)
1.AI辅助文章查找与高效阅读
2.AI辅助高质量数据集查找与筛选
3.分析思路拆解与复现逻辑梳理
4.数据收集和预处理
5.AI加持:拆解文章逻辑,生成思维导图,详细解释图表,列出数据清单。
第14课
文章复现(二)
1.单细胞图表复现与拓展
2.转录组图表复现与拓展
3.AI加持:生成图注和结果描述初稿。
第15课
文章复现(三)
1.更换全新数据集演示全流程代码的应用与迁移
2.寻找热点基因集与前沿分析方向的技巧
3.结课串讲和复习
4.AI加持:模拟审稿人视角,针对项目代码提出3个刁钻的技术或统计学问题,并生成相应的回复模板。
售后答疑和福利
老朋友们可能会发现,我们的课表大更新了。原有的GEO数据挖掘部分4天的直播课,从新课程中拿掉了,匀了更多时间给转录组、单细胞和文章复现。我们将这部分内容设为选修,提供原有的GEO数据挖掘录播及配套资料供大家按需学习,去掉该部分的课程体系依然保持完整。
课程微信群长期答疑,课后每月1次讲师直播答疑。
-
生信马拉松答疑专辑,获取你的生信专属答疑 -
马拉松授课互动答疑,里面包含了我们整理的每一期超详细的答疑 -
GEO数据实战训练直播(学员免收门票),课后有大量案例实战训练
还有惊喜福利,讲师们的私藏好物:
搜索技巧、学习方法、效率工具;
文献查找、翻译、下载、管理工具;
PPT技巧、云同步工具、资料推荐、AI工具。
我们分享了海量的学习资料,学员尊享福利资料大礼包:
Linux系统入门视频及配套练习免费领取
R语言系统入门视频及配套习题免费领取
RNA-seq数据分析视频及配套习题免费领取
GEO和TCGA数据挖掘视频及配套习题免费领取
根据我们与几千名粉丝的沟通,我们发现大家其实并不缺资料,缺的是迈出第一步的勇气。大家需要的是互动,是耐心帮你扫除初始“拦路虎”的服务。所以我们才开设了入门培训班,亲自帮你解决电脑屏幕前的报错,让你的入门之路不再忐忑。
报名方式
(添加好友务必备注 高校或者工作单位+姓名+马拉松,方便后续认识)

加微信咨询,付款完成后,即可加入微信群和钉钉群,开始做准备工作,参与直播。
学员反馈
大一小白自费上生信课?从0到1,我在生信技能树的3个月成长记录
数据挖掘第一期学习反馈数据挖掘课程能带给你什么收获站在巨人的肩膀上看风景欢迎加入生信技能树小圈子“生信入门过半“感想为什么选择生信技能树生信入门全球听(一个月马拉松式授课)花了那么多时间兜兜转转,我终于找对了门我一路风尘仆仆赶来,还好没和你擦肩
其实还有很多,就不一一列出了,点进去可以看到生信故事会专辑哦
学员/粉丝发表的文章(仅展示致谢了我们的)
这是一个长达200多行的表格,实在不宜放在正文里凑字数,在生信技能树公号后台回复”致谢文章“,即可查看。亮个截图!

致谢技能树文章:scRNA-seq模型揭示了人类血管疾病中动脉内皮细胞的异质性
致谢技能树文章:机器学习揭示Ets2作为膜性肾病治疗的新靶点及其在免疫浸润中的作用
致谢技能树文章:单细胞公共数据库挖掘+实验验证的经典类分析文章
致谢技能树文章:看看农学领域如何科学养猪,三代+二代全转录组测序的应用
致谢技能树文章:急性髓系白血病的预后标志物构建(公共数据库数据+自己的数据)
致谢技能树文章:何如筛选关键基因(筛选到了单个基因)并做一系列分析?数据挖掘思路分享
致谢技能树文章:如何用单细胞数据做一个细胞亚群特异性的预后相关signature?
致谢技能树文章:单细胞泛癌如何筛选亚群特异性标志物marker基因用于实验验证?
致谢技能树文章:结合公共数据库筛选并扩展胚胎干细胞多能性相关基因集
我们会继续更新致谢文章解读合辑,敬请期待~
关于我们
拥有数十万粉丝的生信自媒体矩阵

三百万播放量的B站视频

七年经验的教学团队
生信技能树教学团队依托生信菜鸟团博客、论坛和公号的海量教程,历经多年打磨,开发出适合初学者、内容有趣、循序渐进的课程,帮助大家轻松入门生信,提升数据分析和可视化能力。目前团队已成功举办的课程有:

主要成员有:
创始人健明老师

澳门大学健康学院博士,在生信菜鸟团博客坚持多年分享生物信息学相关领域技术知识,累积访问量过千万。创办广为人知的生信技能树论坛和同名公号,是目前全球最大的华语生物信息学专业论坛及公号,超万篇笔记分享,生信技能树自媒体矩阵拥有数十万专业领域粉丝,影响了无数生物信息学学习者。已经培养了1万+名生信工程师,完成全套生物信息学入门及进阶视频教程,在B站搜索生信技能树即可找到。
小洁老师
生信技能树核心成员,6年资深全职讲师。R包 tinyarray 作者,《解码生命》编者之一,共一发表1区8分SCI文章。生信星球公众号创始人之一,拥有7w+全网粉丝,累计开设190+期新手小组及150+场线上线下培训,带教10,000+名学员完成生信启蒙与进阶,是真正懂小白、能教会的实战派导师。在本课程中负责两个班第1周的R语言基础和数据挖掘班的单细胞及文章复现部分。
小郭老师
2019 起任线上/线下助教,擅长排查和解决各类疑难杂症;熟练 Linux 、服务器管理与单细胞分析;2022年主讲肿瘤外显子课程,在本次课程中负责生信入门班第2周的Linux部分。
新叶老师
生物信息学专业科班出身,拥有6年+生信分析与研发经验,累计项目3k+,合作发表文章1篇,专利1项,软著4项。擅长转录组(mRNA,lncRNA,circRNA,sRNA),单细胞和空间转录组,DNA重测序,蛋白组学,表观等数据分析。自 2020 年起在生信技能树授课与答疑,兼职授课 4 年+;2024 年 11 月全职加入团队,任生信技能树 CEO,负责公众号内容创作与生信入门答疑。在本次课程中负责生信入门班第3周的转录组上下游分析部分。
小谢老师
擅长转录组、基因组及重测序数据分析,工作后主攻单细胞方向。在“单细胞天地”公众号分享文献笔记、图表解析与复现技巧,在“生信技能树视频号”输出单细胞文献与数据集分析流程。具备多次线上线下助教经验,累计授课 20+ 次,在本次课程中负责生信入门班第4周单细胞数据分析部分。
琥珀老师
北京大学医学博士在读,癌症生物信息学方向,擅长基于R语言的数据挖掘机器学习和可视化,生信技能树优秀学员、新晋讲师,在本次课程中负责数据挖掘班第2周的转录组部分。
助教队伍主要成员
我们做过很多事
2019年7月,我们在珠海承办了生物信息人才发展论坛。
2019年,我们在全国各地举办多场生信五/六周年分享活动

清华大学

广西大学

对不起,忘了这是哪里
后来,我们在全国各地举办生信入门和数据挖掘线下班

小洁老师在清华大学讲课

小洁老师在广州讲课

小谢老师在南京讲课(2024)

小洁老师在长沙讲课(2024)

小洁老师在广州讲课(2025)
其实还有很多照片,上下滑动可查看,期待以后的相遇。
未来的你,在我们友好的教学团队带领下入门后,生信技能树海量资料会成为你真正的宝藏!
夜雨聆风