OpenClaw Medical Skills 生信技能详解|质控与读长处理

点击上面“蓝字”关注我们

在上一篇内容中，我们系统梳理了OpenClaw Medical Skills的整体架构与全领域技能清单开源医疗AI的“武器库”OpenClaw Medical Skills：869个技能，拿走不谢，这个全球最大的开源医疗AI技能库，以869+个标准化技能为底座，打通了从临床实践、药物研发到生物信息分析的全链路能力，让通用AI智能体得以快速转化为生物医药领域的专业助手。

而在生物医药科研的核心链条里，生物信息学作为连接组学数据与科学发现的关键枢纽，正面临着数据体量爆炸、分析流程复杂、工具碎片化、重复劳动繁重等多重痛点——从测序数据的质控、比对、定量，到差异分析、富集注释、可视化，再到多组学整合与临床关联，每一步都耗费科研人员大量时间与精力。

OpenClaw Medical Skills正是瞄准这一痛点，将生物信息学的专业知识、标准化流程与工具能力，封装为可直接调用、可自动化执行的独立技能模块，彻底解决通用大模型在生信领域“只会说、不会做”“流程不闭环、结果不可靠”的核心问题。它不仅能连接GEO、TCGA、ENCODE等权威数据库，自动完成数据下载与预处理，还能无缝调用DESeq2、limma、Seurat等主流分析工具，实现从原始测序数据到科研图表的全流程自动化，更能将复杂的生信逻辑转化为自然语言指令，大幅降低生信分析的技术门槛。

由于篇幅有限（也考虑读者阅读情绪），本文作为续篇一，将聚焦生物信息分析的基础环节——《质控与读长处理》，详解其功能与应用价值，为后续生信分析筑牢基础。软件表格整理放于文末。

质控与读长处理

任何基因组学流程的首要关键关卡，是确保原始测序读长（reads）在进入下游分析前符合质量标准。此技能套件提供了测序质量控制与读长处理的端到端覆盖——从初始的 FASTQ 质量评估和接头修剪，到污染筛查、UMI 去重、比对，以及专门的 RNA-seq 质控。该合集同时支持短读长（Illumina）和长读长（Oxford Nanopore、PacBio）平台，为生产级流程提供 CLI 驱动的工具，并为程序化质量检查提供 Python（Biopython）实用程序。这 20 多项技能共同构成了基础层，变异检测、差异表达以及所有下游生物信息学分析均依赖于该基础层。

短读长处理流程

1.1 FASTQ 质量评估

bio-fastq-quality 使用 Biopython 的 Bio.SeqIO 提供对 Phred 质量值的程序化访问。它无需运行外部 CLI 工具，即可实现 Python 原生的质量值分析——计算单条读长平均值、按平均质量过滤、使用滑动窗口修剪低质量的 3' 端，并生成逐位置的质量分布图。当你需要将质控逻辑集成到自定义的 Python 流程中，而不是依赖 FastQC 的静态报告时，这项技能尤为实用。它还能处理 FASTQ 格式变体转换（Sanger/Illumina 1.3+/Solexa）以及质量编码的自动检测。

bio-read-qc-quality-reports 提供了标准化的报告层，使用 FastQC 进行单样本检查，并使用 MultiQC 进行队列级别的聚合。FastQC 生成包含逐碱基质量、接头含量、GC 分布、过度代表序列和重复水平等模块的 HTML 报告。MultiQC 将所有样本的这些结果聚合到一个交互式报告中。该技能涵盖从 FastQC 的 ZIP 输出中程序化提取数据、配置自定义接头序列和警告阈值，以及建立用于记录预处理改进效果的前后对比工作流。

1.2 接头修建

bio-read-qc-adapter-trimming 解决使用 Cutadapt（精准、灵活的模式匹配）和 Trimmomatic（针对双端通量优化，附带 Illumina 接头文件）去除测序接头污染的问题。Cutadapt 可处理单端、双端和链接接头场景，并对错误容忍度、最小重叠要求和操作模式（修剪、掩码、丢弃）进行细粒度控制。Trimmomatic 内置了 Illumina TruSeq、Nextera 和小 RNA 接头序列。该技能包含一份按平台划分的常见接头序列参考表，并提供了通过修剪后 FastQC 报告验证修剪效果的指导。

平台/试剂盒

接头方向

序列

Illumina TruSeq

Read 1 3'

AGATCGGAAGAGCACACGTCTGAACTCCAGTCA

Illumina TruSeq

Read 2 3'

AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT

Nextera

转座子

CTGTCTCTTATACACATCT

Small RNA

3' 接头

TGGAATTCTCGGGTGCCAAGG

1.3 质量过滤

bio-read-qc-quality-filtering 实现了接头去除后的核心读长过滤逻辑。它涵盖了三种互补的方法：Trimmomatic 滑动窗口修剪（SLIDINGWINDOW:4:20 会移除在 4 个碱基上平均质量低于 20 的窗口）、带有逐读长和逐碱基阈值的 fastp 质量过滤，以及基于质量的 Cutadapt 修剪。该技能提供了开箱即用的 Trimmomatic“配方”——针对标准 RNA-seq、WGS 和扩增子测序等常见场景预配置的操作链。它还涉及了 NovaSeq/NextSeq 的 poly-G 修剪，这对于将无碱基调用（N）编码为 G 的平台来说是必不可少的。

1.4 一体化：fastp 工作流

bio-read-qc-fastp-workflow 是大多数 Illumina 预处理任务的推荐起点。fastp 将接头修剪、质量过滤、质量修剪、poly-X 修剪、N 碱基处理、去重、碱基校正（双端）、读长合并和 UMI 处理整合到一个单遍处理的工具中，并内置了 HTML 和 JSON 报告。该技能提供了三个完整的工作流模板：

流程

关键参数

用例

标准 Illumina

默认质量阈值，自动接头检测

通用 WGS/WES/RNA-seq

NovaSeq/NextSeq

--trim_poly_g，调整后的质量下限

具有 poly-G 伪影的测序仪

RNA-seq

--detect_adapter_for_pe, --trim_front1, --trim_front3

链特异性文库构建

fastp 与独立工具对比：在大多数用例中，bio-read-qc-fastp-workflow 用单条命令替代了 bio-read-qc-adapter-trimming → bio-read-qc-quality-filtering → bio-read-qc-quality-reports 这三步链条。仅当你需要 Cutadapt 的高级模式匹配（例如，带有特定锚点的链接接头）或 Trimmomatic 的传统 Illumina 接头处理时，才应使用独立工具。

1.5 污染筛查

bio-read-qc-contamination-screening 使用 FastQ Screen（基于比对）或 Kraken（基于 k-mer）检测跨物种污染。FastQ Screen 将读长与多个参考数据库并行比对，并报告映射到每个数据库的比例，非常适合检测微生物样本中的人类污染，反之亦然。该技能涵盖使用预构建数据库进行配置文件设置、自定义 Bowtie2 索引创建、过滤代码解读（映射质量阈值），以及与 MultiQC 集成以生成队列级别的污染报告。预期的污染特征因样本类型而异，该技能提供了有关区分真实污染与预期的多重映射的解读指南。

1.6 UMI处理

bio-read-qc-umi-processing 处理完整的 UMI（唯一分子标识符）工作流，用于在纠错测序方案中进行准确的分子定量。使用 UMI-tools，它涵盖了从三种常见架构中提取 UMI：嵌在读长序列中的 UMI（使用 umi_tools extract --bc-pattern）、位于单独索引读长中的 UMI，以及具有可变长度条形码的复杂模式。去重步骤支持多种算法——定向（directional）、唯一（unique）和基于聚类（cluster-based）的算法，并附带基于实验设计的方法选择指南。该技能提供了 RNA-seq 的基因级去重和 CellRanger 后单细胞工作流作为完整示例。此外，它还记录了去重率的解读：低于 30% 的比率表明文库复杂度低，而高于 80% 的比率可能暗示过度扩增。

1.7 双端 FASTQ 处理

bio-paired-end-fastq 提供了基于 Biopython 的实用程序，用于处理双端读长文件这一常见但极易出错的繁琐任务。它涵盖了带验证的配对迭代（确保 R1/R2 读长通过头部匹配）、联合过滤（当任一读长未达到质量/长度阈值时丢弃两端读长）、内存高效的 gzip 压缩配对处理、交替排列与拆分交替排列，以及通过命名约定自动检测配对文件。该技能弥合了原生处理配对文件的 CLI 工具（fastp、Trimmomatic PE 模式）与需要程序化配对管理的自定义 Python 流程之间的鸿沟。

长读长处理流程

由于长读长测序（Oxford Nanopore 和 PacBio）在错误特征、文件格式和质量特性上存在根本差异，因此需要一条截然不同的处理路径。

1.8 碱基识别

bio-basecalling 涵盖了将原始电信号（POD5/FAST5）转化为核苷酸序列的过程。Dorado 是当前 Oxford Nanopore 数据推荐的碱基识别工具，取代了已弃用的 Guppy。该技能文档记录了跨 R10.4.1 和 R9.4.1 化学试剂的模型选择、GPU 配置、用于实现最高准确率的 duplex calling、修饰碱基检测（5mC、5hmC），以及在碱基识别过程中的 demultiplexing。数据管理部分包含了 POD5 文件处理实用程序（从 FAST5 转换、合并、检查、子集提取）。一个完整的流程示例串联了碱基识别 → 质量过滤 → 比对 → 抛光。

化学试剂

模型级别

用例

R10.4.1

sup (super-accuracy)

变异检测，临床应用

R10.4.1

hac (high-accuracy)

通用组装

R9.4.1

sup

历史数据重新处理

R9.4.1

fast

快速周转，筛查

1.9 长读长质量控制

bio-longread-qc 提供了专门针对长读长数据的质控层，在此类数据中，读长长度分布和 N50 是首要的质量指标，而非逐碱基的 Phred 质量值。NanoPlot 可生成读长长度与质量的散点图、N50 直方图和累积产量曲线。chopper 提供按读长和平均质量进行快速过滤的功能（例如，chopper -q 10 -l 1000 保留 Q≥10 且长度 ≥1kb 的读长）。NanoFilt 提供了另一种过滤路径，而 Porechop 用于处理 ONT 接头修剪。该技能还记录了如何使用 pycoQC 从测序汇总文件进行碱基识别级别的质量评估。

1.10 长读长比对

bio-longread-alignment 涵盖了针对三种主要长读长比对场景的 minimap2 配置：Oxford Nanopore 读长（-x map-ont）、PacBio HiFi 读长（-x map-hifi）以及 PacBio CLR 读长（-x map-pb）。其他预设包括用于长读长 RNA-seq 的剪接感知比对（-x splice 或用于短读长的 -x splice -uf -k14）以及组装序列到参考序列的映射（-x asm5/asm10/asm20）。该技能涵盖输出格式选择（BAM 与 PAF）、次要/补充比对的保留、多文件批处理、比对统计信息生成，以及用于下游分析的 PAF 到 BED 的转换。

预设

读长类型

典型准确率

map-ont

Oxford Nanopore

~95-99%

map-hifi

PacBio HiFi

~99.9%

map-pb

PacBio CLR

~85-90%

splice

长读长 cDNA

asm20

组装序列（≤20% 差异）

1.11 一致性抛光

bio-longread-medaka 应用 Oxford Nanopore 的 Medaka 工具，利用训练好的神经网络进行一致性序列抛光和变异检测。模型的选择取决于所使用的碱基识别工具（Dorado 或 Guppy）及化学试剂版本，该技能提供了一份用于正确模型配对的查找表。它支持全基因组抛光、仅特定区域抛光、多轮迭代抛光，以及直接从现有 BAM 文件进行变异检测而无需重新比对。GPU 加速可显著提升大型基因组的处理速度。

序列输入输出与实用技能

多项实用技能通过处理文件格式操作、批处理和统计汇总，为质控和处理流程提供了底层支撑。

技能

工具类型

主要功能

bio-alignment-io

Python (Biopython)

通过 pysam 读写 SAM/BAM/CRAM；解析和创建比对对象

bio-read-sequences

Python (Biopython)

使用 SeqIO.parse() 迭代 FASTA/FASTQ 记录

bio-write-sequences

Python (Biopython)

将保留元数据的序列写入 FASTA/FASTQ

bio-filter-sequences

Python (Biopython)

按长度、质量值、模式匹配或分类法进行过滤

bio-sequence-statistics

Python (Biopython)

GC 含量、长度分布、序列复杂度

bio-format-conversion

CLI (samtools 等)

FASTQ↔FASTA, BAM↔CRAM, BED↔GTF 转换

bio-compressed-files

CLI (htslib)

bgzip, tabix, zstd 基因组文件压缩

bio-batch-processing

Python/CLI

跨样本和队列的并行处理

bio-alignment-msa-parsing

Python (Biopython)

解析多重序列比对（ClustalW、Stockholm、FASTA）

bio-alignment-pairwise

Python (Biopython)

Smith-Waterman 和 Needleman-Wunsch 比对

bio-alignment-msa-statistics

Python (Biopython)

来自 MSA 的保守性评分、缺口含量、熵值

这些技能充当了专门处理阶段之间的连接纽带。例如，bio-batch-processing 能够跨数百个样本以队列规模执行任何质控工作流，而 bio-compressed-files 则通过 bgzip/tabix 索引确保大型比对文件的高效存储和随机访问查询。

专门 RNA-seq 质控

bio-rnaseq-qc 解决了 RNA 测序中超越通用 FASTQ 级别指标的特定质量问题。它涵盖了六项关键的 RNA-seq 特有评估：

rRNA 污染检测，使用 SortMeRNA 或针对 rRNA 数据库进行 BLAST——预期水平从 <5%（poly-A 筛选）到 >50%（总 RNA/去核糖体 RNA）不等
链特异性验证，使用 RSeQC infer_experiment 或 Salmon 的链特异性检测——对于正确的下游定量至关重要
基因本体覆盖度分析，使用 RSeQC geneBody_coverage——识别指示降解或建库方案问题的 3' 或 5' 偏倚
读长分布，跨基因组特征（外显子、内含子、基因间区），使用 RSeQC read_distribution
转录本完整性评分，用于单转录本质量评估
插入片段大小估计，针对双端文库使用 Picard CollectInsertSizeMetrics

该技能提供了一套完整的端到端 RNA-seq 质控流程，以及一个基于 Python 的质控汇总生成器，带有用于自动化评估的通过/失败阈值。与 MultiQC 的集成可生成一份将 RNA-seq 特定指标与标准 FastQC 输出相结合的统一报告。

bio-splicing-qc 将 RNA-seq 质量评估延伸至剪接领域，评估剪接位点读长覆盖度并识别新型剪接位点。它与 bio-splicing-quantification（PSI/包含水平计算）和 bio-sashimi-plots（剪接位点可视化）一起，形成了一个以剪接为重点的质控子流程，将通用读长质控与下一目录部分涵盖的差异表达和转录组学技能连接起来。

工具选择指南

选择合适的技能组合取决于你的测序平台、通量需求和下游分析需求。

场景

推荐的主要技能

辅助技能

标准 Illumina WGS/WES

bio-read-qc-fastp-workflow → bio-read-qc-quality-reports

bio-read-qc-contamination-screening, bio-paired-end-fastq

Illumina RNA-seq

bio-read-qc-fastp-workflow → bio-rnaseq-qc

bio-splicing-qc, bio-read-qc-quality-reports

基于 UMI 的方案

bio-read-qc-umi-processing → bio-read-qc-fastp-workflow

bio-read-qc-quality-reports

Oxford Nanopore

bio-basecalling → bio-longread-qc → bio-longread-alignment → bio-longread-medaka

bio-compressed-files, bio-format-conversion

PacBio HiFi

bio-longread-qc → bio-longread-alignment (map-hifi)

bio-longread-structural-variants

自定义 Python 流程

bio-fastq-quality + bio-read-sequences + bio-paired-end-fastq

bio-write-sequences, bio-filter-sequences

队列规模处理

bio-batch-processing + 任意主要技能

bio-compressed-files, bio-read-qc-quality-reports

安装与集成

上一篇粉丝有留言问如何用，如果大家需要用到这篇文章的功能，可以集成给你的小龙虾或者claue code。当然如果是内网环境的小龙虾，工具需要预先安装才能调用哦。

每项技能的 SKILL.md 前置元数据指定了 tool_type（cli 或 python）和 primary_tool，指示该技能提供的是命令行模式还是 Python API 用法。CLI 技能要求在 Agent 环境中安装相应的工具；Python 技能需要 Biopython 及任何指定的依赖包。版本兼容性记录在每个技能文件的顶部，在使用前应进行验证。

git clone https://github.com/MedClaw-Org/OpenClaw-Medical-Skills.git# 安装质控与读长处理技能QC_SKILLS=(  "bio-fastq-quality"  "bio-read-qc-adapter-trimming"  "bio-read-qc-quality-filtering"  "bio-read-qc-fastp-workflow"  "bio-read-qc-quality-reports"  "bio-read-qc-contamination-screening"  "bio-read-qc-umi-processing"  "bio-paired-end-fastq"  "bio-rnaseq-qc"  "bio-longread-qc"  "bio-longread-alignment"  "bio-basecalling"  "bio-longread-medaka"  "bio-alignment-io"  "bio-format-conversion"  "bio-batch-processing")for skill in "${QC_SKILLS[@]}"; do  cp -r OpenClaw-Medical-Skills/skills/$skill ~/.openclaw/skills/done

📌 往期回顾

第1期：开源医疗AI的“武器库”OpenClaw Medical Skills：869个技能，拿走不谢

第2期：OpenClaw Medical Skills 生信技能详解｜质控与读长处理

📢 下期预告：《OpenClaw Medical Skills 生信技能详解｜变异监测与注释》，敬请期待

附1 短读长处理流程软件汇总表：

技能仓库名	软件	软件功能
bio-fastq-quality	Biopython (Bio.SeqIO)	FASTQ质量分数读取、过滤、修剪、统计分析
bio-read-qc-quality-reports	FastQC	生成单样本FASTQ质量报告（质量分布、GC含量、接头污染等）
bio-read-qc-quality-reports	MultiQC	汇总多个FastQC报告
bio-read-qc-adapter-trimming	Cutadapt	精确灵活的接头去除，支持单端/双端
bio-read-qc-adapter-trimming	Trimmomatic	接头去除+质量过滤，优化双端数据
bio-read-qc-adapter-trimming	fastp	自动检测接头
bio-read-qc-quality-filtering	Trimmomatic	滑动窗口质量修剪、长度过滤
bio-read-qc-quality-filtering	fastp	质量过滤、长度过滤、poly-G修剪
bio-read-qc-quality-filtering	Cutadapt	质量修剪
bio-read-qc-fastp-workflow	fastp	一站式预处理：接头自动检测、质量过滤、去重、碱基校正、UMI提取、HTML报告
bio-read-qc-contamination-screening	FastQ Screen	多基因组污染筛查
bio-read-qc-contamination-screening	Bowtie2	比对引擎（FastQ Screen默认）
bio-read-qc-contamination-screening	BWA	备用比对引擎
bio-read-qc-contamination-screening	BBTools (BBDuk)	去除污染序列
bio-read-qc-contamination-screening	MultiQC	汇总筛查报告
bio-read-qc-contamination-screening	数据库: Human/Mouse/E.coli/PhiX/Adapters/rRNA/Vectors/Mycoplasma基因组	污染筛查参考基因组
bio-read-qc-umi-processing	umi_tools	UMI提取、去重、计数
bio-read-qc-umi-processing	samtools	BAM排序索引（去重前置）
bio-read-qc-umi-processing	STAR	RNA-seq比对（UMI流程中）
bio-read-qc-umi-processing	fastp	简单UMI提取
bio-read-qc-umi-processing	fgbio	UMI分组和共识序列（备选）
bio-paired-end-fastq	Biopython (Bio.SeqIO)	双端FASTQ同步迭代、配对过滤、交织/解交织

附2长读长处理流程软件汇总表：

技能仓库名	软件	软件功能
bio-basecalling	Dorado	ONT官方Basecaller，将FAST5/POD5原始信号转换为核苷酸序列（Guppy替代品，推荐使用）
bio-basecalling	Guppy (已弃用)	ONT旧版Basecaller（已停止更新，仅用于遗留流程）
bio-basecalling	pod5	POD5文件格式处理：FAST5转换、合并、检查、子集提取
bio-basecalling	chopper	长读长质量过滤（Basecalling后过滤）
bio-basecalling	NanoFilt	长读长质量过滤（chopper替代）
bio-basecalling	NanoPlot	Basecalling质量控制可视化
bio-basecalling	pycoQC	从sequencing_summary生成QC报告
bio-basecalling	seqkit	FASTQ基础统计
bio-basecalling	samtools	BAM转FASTQ
bio-basecalling	nvidia-smi	GPU状态监控
bio-longread-qc	NanoPlot	长读长QC可视化：读长分布、质量分布、N50、产量统计
bio-longread-qc	NanoStat	长读长统计信息（无图表）
bio-longread-qc	chopper	长读长过滤：按质量、长度、头尾修剪
bio-longread-qc	NanoFilt	长读长过滤（chopper替代）
bio-longread-qc	Porechop	ONT接头修剪和barcode拆分
bio-longread-qc	seqkit	FASTQ统计、N50计算
bio-longread-qc	pycoQC	从basecalling summary生成QC报告
bio-longread-qc	Biopython (Bio.SeqIO)	Python解析FASTQ质量分
bio-longread-qc	numpy	质量分数统计计算
bio-longread-alignment	minimap2	长读长比对工具，支持ONT/PacBio/组装序列
bio-longread-alignment	samtools	BAM排序、索引、过滤、统计
bio-longread-alignment	awk	PAF转BED格式
bio-longread-medaka	medaka_consensus	ONT组装一致性抛光（神经网络模型）
bio-longread-medaka	medaka_variant	ONT单倍体变异检测
bio-longread-medaka	medaka inference	神经网络推理步骤
bio-longread-medaka	medaka sequence	从概率输出创建一致性序列
bio-longread-medaka	medaka vcf	从概率输出调用变异
bio-longread-medaka	medaka tools list_models	列出可用的神经网络模型
bio-longread-medaka	minimap2	将reads比对到draft序列（medaka前置）
bio-longread-medaka	samtools	BAM排序、索引（medaka前置）
bio-longread-medaka	bcftools	VCF过滤
bio-longread-medaka	Clair3	二倍体变异检测（medaka v2.0不再支持二倍体，推荐替代）

附3 专门 RNA-seq 质控软件汇总表：

技能仓库名	软件	软件功能
bio-rnaseq-qc	RSeQC (infer_experiment.py)	RNA-seq链特异性验证，判断文库是正向/反向/非链特异性
bio-rnaseq-qc	RSeQC (read_distribution.py)	Read分布分析：外显子/内含子/基因间区比例
bio-rnaseq-qc	RSeQC (geneBody_coverage.py)	基因体覆盖度分析，检测3'/5'偏差（RNA降解指标）
bio-rnaseq-qc	RSeQC (tin.py)	转录本完整性数值(TIN)计算，RNA降解评估
bio-rnaseq-qc	SortMeRNA	rRNA污染检测和过滤，支持多种rRNA数据库
bio-rnaseq-qc	NCBI BLAST+ (blastn)	rRNA序列比对检测污染（备选方案）
bio-rnaseq-qc	seqkit	序列采样和格式转换（rRNA检测前置）
bio-rnaseq-qc	Salmon	链特异性自动检测（-l A参数）
bio-rnaseq-qc	Picard (MarkDuplicates)	重复序列标记和统计
bio-rnaseq-qc	Picard (CollectInsertSizeMetrics)	插入片段大小统计和分布图
bio-rnaseq-qc	Picard (CollectRnaSeqMetrics)	综合RNA-seq指标：编码区/UTR/内含子/基因间区/rRNA比例、3'偏差
bio-rnaseq-qc	samtools	BAM采样（饱和分析）、统计
bio-rnaseq-qc	featureCounts	基因计数（饱和分析用）
bio-rnaseq-qc	MultiQC	汇总FastQC/STAR/featureCounts等QC报告
bio-rnaseq-qc	pysam	Python解析BAM文件，自定义QC统计
bio-rnaseq-qc	numpy	统计计算（中位数、均值等）
bio-rnaseq-qc	awk/bc/grep	Shell统计计算（rRNA比例、TIN均值等）