OpenClaw Medical Skills 生信技能详解|差异表达与转录组学

点击上面“蓝字”关注我们

历史消息

开源医疗AI的“武器库”OpenClaw Medical Skills：869个技能，拿走不谢

差异表达与转录组学skills集群包含 10 个核心技能（外加 1 个相关的 tooluniverse 技能），旨在赋能 AI Agent 执行完整的转录组分析生命周期。从原始计数矩阵到统计检验、剪接定量以及核糖体图谱分析，这些技能将你的 Agent 转化为一名合格的 RNA-seq 分析师，能够产出达到发表级别的差异表达结果。

技术全景

转录组学技能按照四个功能层级进行组织，这映射了真实的 RNA-seq 分析工作流。每个层级都建立在前一层级的输出之上，构建出一个 Agent 可以端到端编排的连贯分析管道。

这种分层架构确保了 Agent 能够在每个阶段调用适当的技能，而不会混淆关注点。例如，时间序列实验会流经 Tier 3（bio-differential-expression-timeseries-de）进入 Tier 1 的引擎，而核糖体图谱研究则遵循 Tier 4 的路径，从预处理一直到 ORF 检测。

差异表达

基础层由两个 R/Bioconductor 技能和一个 Python 技能组成，每个技能都实现了一个成熟的统计框架，用于从基于计数的 RNA-seq 数据中鉴定差异表达基因。

2.1 DESeq2 — 负二项广义线性模型

bio-de-deseq2-basics 技能在 R 中实现了完整的 DESeq2 工作流，涵盖了自 2014 年发表以来已成为 RNA-seq 差异表达事实标准的三阶段管道。该技能指导 Agent 从计数矩阵创建 DESeqDataSet 对象，估算用于文库标准化的 size factor，利用经验贝叶斯收缩拟合离散度估计，并运行 Wald 检验进行假设评估。它还涵盖了通过 apeglm 和 ashr 方法进行 log fold change 收缩，这对于基因低计数情况下的效应量排序至关重要。

2.2 edgeR — 似然框架

bio-de-edger-basics 技能提供了 edgeR 的替代方案，它使用准似然 F 检验（QLF）框架而非 Wald 检验。这种方法对于样本量小或设计复杂（此时公共离散度假设可能不成立）的实验尤为有利。该技能涵盖了 DGEList 的创建、TMM 标准化、鲁棒的经验贝叶斯离散度估计，以及 glmQLFit/glmQLFTest 检验管道。对于每个条件少于 3 个重复的实验，edgeR 的准似然框架通常会产生更保守且更可靠的结果。

2.3 PyDESeq2 — Python 原生实现

tooluniverse-rnaseq-deseq2 技能使用 PyDESeq2 在 Python 中原生重新实现了 DESeq2 工作流，使其成为在以 Python 为首选环境中运行的 Agent，或当需要与 Python 可视化库（seaborn、plotly）进行下游集成时的首选方案。该技能具备生产可用性，可处理多因子设计、多重对比、批次效应检测，并与 gseapy 自动集成以进行下游基因集富集 —— 直接将差异表达桥接到通路分析中，而无需依赖 R。

2.4 如何选择

维度

DESeq2 (R)

edgeR (R)

DESeq2 (Python)

统计检验

Wald 检验

准似然 F 检验

Wald 检验

标准化方法

比值中位数法

TMM

比值中位数法

LFC 收缩

apeglm, ashr (内置)

非内置

apeglm (内置)

小样本 (<3个重复)

足够

推荐 (更保守)

足够

复杂设计

基于公式 ~ batch + condition

~ batch + condition

基于公式

下游集成

Bioconductor 生态系统

Python 生态系统 (gseapy, scanpy)

技能标识

bio-de-deseq2-basics

bio-de-edger-basics

tooluniverse-rnaseq-deseq2

结果提取与可视化

一旦 DE 引擎产出了原始结果，两个专门的技能将负责处理过滤、注释和可视化发现的 critical 后分析步骤。

3.1 结果处理

bio-de-results 技能提供了一个统一接口，用于从 DESeq2 和 edgeR 对象中提取结果，应用多重检验校正（Benjamini-Hochberg FDR），按显著性阈值（校正后 p 值和 log2 fold change）进行过滤，并用基因注释（基因符号、Entrez ID、生物型分类和染色体坐标）丰富结果表。该技能对于将原始统计输出转换为可用于通路富集或发表的结构化基因列表至关重要。

3.2 发表级可视化

bio-de-visualization 技能涵盖了差异表达的规范可视化套件：MA 图（平均表达量 vs. log fold change）、火山图（统计显著性 vs. 效应量）、离散度估计图、样本距离热图、各条件下的计数箱线图，以及用于评估模型校准的 p 值直方图。这些可视化既可作为质量诊断工具，也可作为论文和演示文稿的沟通素材。

实验设计扩展

现实世界中的 RNA-seq 实验很少符合简单的两组比较。两个技能解决了最常见的复杂性：批次效应和时间动态。

4.1 批次效应校正

bio-differential-expression-batch-correction 技能实现了处理可能混淆差异表达结果的批次效应的多种策略。它涵盖了 ComBat 和 ComBat-Seq（针对原始计数）、limma 的 removeBatchEffect（针对 log 转换后的数据），以及 SVA（替代变量分析），用于在缺乏明确批次标签时发现未知批次变量。该技能对于合并来自不同测序中心的多个队列或数据集的荟萃分析至关重要。

4.2 时间序列差异表达

bio-differential-expression-timeseries-de 技能解决纵向 RNA-seq 实验，即跨多个时间点测量表达变化的问题。它支持三种互补的方法：带自然三次样条函数的 limma-voom（用于对平滑的时间趋势进行建模）、maSigPro（用于识别显著的时间特征并将具有相似模式的基因进行聚类），以及 ImpulseDE2（用于检测瞬态脉冲式的表达变化，如刺激-响应实验中所见）。这些方法超越了成对比较，能够捕捉基因调控随时间变化的完整动态。

转录后分析

超越基因水平的差异表达，四个技能探索了剪接变异和翻译调控 —— 这些转录后层面决定了产生哪种蛋白质异构体以及产生速率。

5.1 差异可变剪接

bio-differential-splicing 技能使用两种互补工具检测条件间可变剪接模式的变化。rMATS-turbo 基于比对后的 BAM 文件运行，并检测五种事件类型：外显子跳跃（SE）、可变 5' 剪接位点（A5SS）、可变 3' 剪接位点（A3SS）、互斥外显子（MXE）和内含子保留（RI）。SUPPA2 diffSplice 基于转录本水平的定量（TPM 值）运行，在大型队列中速度更快。该技能报告具有 FDR 校正显著性和 ΔPSI（剪接百分比）效应量的事件。

5.2 异构体转换分析

bio-isoform-switching 技能使用 IsoformSwitchAnalyzeR 不仅仅检测剪接变化，还评估其功能后果。当细胞从一种异构体转换为另一种异构体时，产生的蛋白质可能会获得或失去功能结构域，变得对无义介导的降解（NMD）敏感或抵抗，改变其开放阅读框，或改变其编码潜能。该技能预测这些蛋白质水平的后果，使研究人员能够理解不仅是剪接发生了变化，而且该变化具有什么生物学影响。

5.3 核糖体图谱管道

两个技能构成了一个完整的 Ribo-seq 分析子管道，用于研究翻译调控。bio-ribo-seq-riboseq-preprocessing 技能处理核糖体图谱数据独特的预处理要求：接头去除、大小选择（通常为 28-30 nt 足迹）、rRNA/tRNA 消耗，以及使用 bowtie2 比对到参考基因组。下游的 bio-ribo-seq-orf-detection 技能随后使用 RiboCode 和 ORFquant 识别活跃翻译的开放阅读框，包括上游 ORF（uORF）和当前基因注释中不存在的新型 ORF —— 揭示标准 RNA-seq 无法看到的翻译事件。

完整技能参考

技能

工具

语言

主要用例

bio-de-deseq2-basics

DESeq2

标准两组或多因子 DE 分析

bio-de-edger-basics

edgeR

小样本或偏好 QLF 的 DE 分析

tooluniverse-rnaseq-deseq2

PyDESeq2

Python

Python 原生 DE 及 gseapy 集成

bio-de-results

DESeq2/edgeR

结果提取、过滤、注释

bio-de-visualization

DESeq2/edgeR

MA 图、火山图、热图

bio-differential-expression-batch-correction

sva/ComBat

针对多队列研究的批次效应去除

bio-differential-expression-timeseries-de

limma/maSigPro

时间序列和纵向 DE 分析

bio-differential-splicing

rMATS-turbo

混合 (R+CLI)

差异剪接事件检测

bio-isoform-switching

IsoformSwitchAnalyzeR

具有功能后果的异构体转换分析

bio-ribo-seq-riboseq-preprocessing

bowtie2

CLI

Ribo-seq 读长预处理与比对

bio-ribo-seq-orf-detection

RiboCode

混合 (R+CLI)

基于 Ribo-seq 的翻译 ORF 发现

安装与集成

git clone https://github.com/MedClaw-Org/OpenClaw-Medical-Skills.git# 安装完整的 DE 与转录组学套件TRANSCRIPTOMICS_SKILLS=(  "bio-de-deseq2-basics"  "bio-de-edger-basics"  "bio-de-results"  "bio-de-visualization"  "bio-differential-expression-batch-correction"  "bio-differential-expression-timeseries-de"  "bio-differential-splicing"  "bio-isoform-switching"  "bio-ribo-seq-riboseq-preprocessing"  "bio-ribo-seq-orf-detection"  "tooluniverse-rnaseq-deseq2")for skill in "${TRANSCRIPTOMICS_SKILLS[@]}"; do  cp -r OpenClaw-Medical-Skills/skills/$skill ~/.openclaw/skills/done

📌 往期回顾

第1期：开源医疗AI的“武器库”OpenClaw Medical Skills：869个技能，拿走不谢

第2期：OpenClaw Medical Skills 生信技能详解｜质控与读长处理

第3期：OpenClaw Medical Skills 生信技能详解｜变异检测与注释

第4期：《OpenClaw Medical Skills 生信技能详解｜差异表达与转录组学》

📢 下期预告：《OpenClaw Medical Skills 生信技能详解｜单细胞与空间组学》，敬请期待