软件知识分享 | fastp:NGS 数据预处理软件一、fastp的开发背景
开发者:陈实富(Shifu Chen),OpenGene 开源项目的发起人,海普洛斯(Haplox)的联合创始人兼首席技术官(CTO)。发表:2018 年 Bioinformatics(Oxford),是生信领域近几年引用量最高的单工具论文之一。定位:整合质控(QC)+ 过滤(filtering)+ 校正(correction)的 NGS 预处理全能工具为什么会有这个工具:在传统管线中,大家习惯用 FastQC 来看数据,用 Cutadapt 或 Trimmomatic 来洗数据。每个工具单独输入输出,IO 开销大。FASTP 将所有步骤合并为 一次遍历 + 一个输出,大幅减少磁盘读写。适用RNA-seq、WGS、WES、ChIP-seq、靶向测序等常见 NGS 应用二、核心功能
1. 质量评估
自动统计各碱基位置质量分布、GC 含量、Q20/Q30、碱基分布、N 含量、接头污染比例,输出 HTML 报告 + JSON 摘要,与 FastQC 的区别:FASTP 在读取过程中统计,不需要额外 IO;报告风格简洁但信息量足够。2. Adapter 处理
自动检测 adapter 序列(PE 模式下基于 read1/read2 的 overlap)
支持已知 adapter 库 (自动匹配)
也支持手动指定:-a /--adapter_sequence 和 --adapter_sequence_r2
参数:--detect_adapter_for_pe(PE 数据推荐开启)3. Overlap 碱基校正(PE 特有)
R1 和 R2 存在重叠区域的 reads,利用重叠区域 校正不一致的碱基默认开启,可由 --overlap_len_require 控制最小 overlap 长度4. 过滤与修剪参数
#########下方为参数解释#######滑动窗口质量修剪:-q 参数(窗口平均质量阈值)丢弃短 reads:-l / --length_requiredN 碱基比例过滤:--n_base_limitPolyG 尾修剪:--trim_poly_g低复杂度过滤:--low_complexity_filter
三、使用示例
# PE 数据fastp -i sample_R1.fastq.gz -I sample_R2.fastq.gz \-o clean_R1.fastq.gz -O clean_R2.fastq.gz \-h sample_fastp.html -j sample_fastp.json \-q 15 -u 40 -l 36 -n 5 \--detect_adapter_for_pe \-w 4
#########下方为参数解释#######-q 15 #4 碱基滑动窗口平均质量不低于 Q15-u 40 #允许的低质量碱基占比上限,一条 reads 中,最多允许有多少比例的碱基是低质量的。数值范围:0 ~ 100,默认值:40 → 即 允许最多 40% 的碱基为低质量碱基。-l 36#丢弃长度短于 36 bp 的 reads(RNA-seq 常用)--detect_adapter_for_pe#自动检测 adapter-w 4#4 线程
四、输出结果
Total reads、Q20/Q30 比例、GC contentjq '.summary.before_filtering' sample_fastp.json
生成的 JSON 文件可以被 MultiQC 工具汇总,方便一次性查看几十个样本的质控结果。https://github.com/OpenGene/fastpShifu Chen. 2025. fastp 1.0: An ultra-fast all-round tool for FASTQ data quality control and preprocessing. iMeta 2025,https://onlinelibrary.wiley.com/doi/10.1002/imt2.70078Shifu Chen. 2023. Ultrafast one-pass FASTQ data preprocessing, quality control, and deduplication using fastp. iMeta 2023, https://onlinelibrary.wiley.com/doi/10.1002/imt2.107Shifu Chen, Yanqing Zhou, Yaru Chen, Jia Gu; fastp: an ultra-fast all-in-one FASTQ preprocessor, Bioinformatics, Volume 34, Issue 17, 1 September 2018, Pages i884–i890, https://doi.org/10.1093/bioinformatics/bty560 本文部分内容由AI辅助整理编辑,仅供参考。如存在疏漏、错误或侵权内容,欢迎联系我们及时更正处理。