如何选择GWAS分析软件

面对不同的样品状况，特别是大规模样品库，首先要考虑哪一款GWAS软件适合自己的数据。本文比较了BOLT-LMM、SAIGE、REGENIE、PLINK 2.0、GCTA-fastGWA这5款软件的优势，缺点和适用场景。

下面是推荐的决策树，详细的比较信息可以继续阅读。

一、总体比较概览

软件	第一作者/团队	发表时间	核心算法	最大测试样本量	适用性状类型	内存需求	核心定位
BOLT-LMM	Loh et al. (Broad Institute)	2015, Nature Genetics	非无穷小LMM + PCG迭代	~500,000 (UKB)	定量/平衡二元	~50 GB	统计效力最高的LMM
SAIGE	Zhou et al. (University of Michigan)	2018, Nature Genetics	PQL + SPA校正	~500,000 (UKB)	不平衡二元/罕见变异	<15 GB	不平衡二元性状专家
REGENIE	Mbatchou et al. (Regeneron)	2021, Nature Genetics	全基因组岭回归 + LOCO	~500,000 (UKB)	定量/二元/海量性状	~13 GB	超大规模速度之王
PLINK 2.0	Chang et al. (Harvard/Stanford)	2015-持续更新	多元回归 + 多样方法	无上限	全类型	可变	通用GWAS平台
GCTA-fastGWA	Jiang et al. (Westlake University)	2019/2021, Nature Genetics	稀疏GRM + REML	~500,000 (UKB)	定量/二元	~2 GB	内存极致优化

二、BOLT-LMM

2.1 核心信息

项目	内容
参考文献	Loh PR, Tucker G, Bulik-Sullivan BK, et al. Efficient Bayesian mixed-model analysis increases association power in large cohorts. Nature Genetics. 2015;47:284-290.
算法基础	线性混合模型（LMM），假设SNP效应服从正态分布，但允许非无穷小（non-infinitesimal）遗传架构
核心算法	预条件共轭梯度法（PCG）求解线性系统；2-bit压缩存储原始基因型；利用Level 3 BLAS和SSE指令加速
实现语言	C++
最新版本	BOLT-LMM v2.4

2.2 核心优势

优势	具体说明
统计效力最高	非无穷小模型（Bayesian spike-slab prior）对真实遗传架构的拟合优于无穷小假设，在模拟和实际数据中均显示最强关联信号
P值校准优秀	对定量性状和相对平衡的二元性状（case:control ≈ 1:1至1:10），I类错误控制严格，P值无膨胀
无需预计算GRM	直接操作原始基因型文件（2-bit压缩），无需存储N×N的稠密遗传关系矩阵（GRM）
共轭梯度加速	PCG迭代求解替代直接矩阵求逆，Step 1计算复杂度从O(N³)降至O(N¹·⁵M)
多线程优化	支持多线程并行，充分利用现代CPU的SIMD指令集

2.3 主要缺点

缺点	具体说明
仅限定量/平衡二元性状	原生设计针对定量性状。对不平衡二元性状（case:control < 1:10），传统Score检验P值严重膨胀
计算速度极慢	在UK Biobank规模（N~400,000，50个表型）下，Step 1（null model fitting）需要~1,150 CPU小时，Step 2需要~7,250 CPU小时，总计~8,400 CPU小时（约350天单核）
内存需求大	Step 1需要约50 GB RAM，主要由于需在内存中保存部分基因型矩阵和迭代中间结果
不支持罕见变异	传统BOLT-LMM未集成SPA或Firth校正，对MAF<0.5%的罕见变异检验效力不足
成本高昂	在UKB RAP平台上分析50个定量性状的成本约£7,500（约7万元人民币），是REGENIE的310倍
不纳入PCs时I类错误膨胀	若不将主成分（PCs）作为固定效应纳入模型，可能出现population structure导致的假阳性

2.4 适用场景

•首选场景：

–数量性状（身高、BMI、血脂等连续表型）的GWAS

–相对平衡的二元性状（如冠心病，case:control ≈ 1:10）

–样本量中等（N < 100,000）且追求最大统计效力的研究

–遗传力较高（h² > 0.2）且遗传架构可能非无穷小的性状

•不推荐场景：

–极度不平衡的二元性状（如罕见病，case:control < 1:50）

–内存受限的计算环境（< 32 GB RAM）

–需要同时分析数百个性状的大规模项目

三、SAIGE

3.1 核心信息

项目	内容
参考文献	Zhou W, Nielsen JB, Fritsche LG, et al. Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies. Nature Genetics. 2018;50:1335-1341.
算法基础	广义线性混合模型（GLMM）+ 惩罚拟似然（PQL）+ SPA（Saddle Point Approximation）校正
核心算法	PQL估计随机效应方差；Score检验 + SPA校正处理不平衡和罕见变异；稀疏GRM
实现语言	C++ / R接口
最新版本	SAIGE-GENE / SAIGE+（支持区域检验）

3.2 核心优势

优势	具体说明
不平衡二元性状专家	专为case-control不平衡设计（如甲状腺癌 case:control = 1:660），SPA校正使P值在极端不平衡下仍严格校准
罕见变异友好	唯一能在UKB规模（N~400,000）中可靠检测MAF < 0.5%罕见变异的方法。原始论文发现1,609个MAF<0.5%的显著变异
I类错误控制严格	在模拟中，即使case:control = 1:1,000和MAF = 0.01%，P值分布仍保持均匀
样本相关性处理	通过稀疏GRM有效处理家系数据和隐性亲属关系
OR估计	提供可靠的效应量（odds ratio）估计，优于纯Score检验方法
广泛使用	全球大型生物库（UKB、TOPMed、MVP）的首选二元性状分析工具

3.3 主要缺点

缺点	具体说明
计算极慢	Step 1（null model fitting）在N~400,000时需要~9 CPU小时；Step 2需要~12,015 CPU小时（50个二元性状），总计~12,024 CPU小时（约500天单核），是REGENIE的14倍
收敛不稳定	PQL算法的收敛时间因表型遗传力、样本相关性和case-control比例而异；某些表型可能无法收敛
极度不平衡时略保守	当case比例<1%时，P值分布可能略微保守（假阴性率增加）
遗传力估计有偏	PQL估计的方差组分τ²有偏，不能用于heritability估计
假设无穷小架构	假设SNP效应服从正态分布，对非无穷小遗传架构（如少数大效应位点）可能损失统计效力
OR计算不高效	准确OR估计需要拟合备择模型，计算成本高；当前版本使用null model参数近似估计OR
成本极高	UKB RAP平台上50个二元性状分析成本约£2,835（约2.6万元人民币），是fastGWA-GLMM的29倍
定量性状支持弱	SAIGE主要设计用于二元性状，定量性状分析非其专长

3.4 适用场景

•首选场景：

–不平衡二元性状（罕见病、癌症亚型、甲状腺疾病等case比例<5%）

–罕见变异（MAF < 1%）的GWAS

–家系数据或存在隐性亲属关系的队列

–对P值校准要求极高的研究（如药物靶点验证）

•不推荐场景：

–同时分析大量（>50个）二元性状（计算成本不可承受）

–需要精确的SNP-based heritability估计

–遗传架构明显非无穷小（如主效基因）

四、REGENIE

4.1 核心信息

项目	内容
参考文献	Mbatchou J, Barnard L, Backman J, et al. Computationally efficient whole-genome regression for quantitative and binary traits. Nature Genetics. 2021;53:1097-1103.
算法基础	全基因组岭回归（Ridge Regression）+ Leave-One-Chromosome-Out (LOCO)残差
核心算法	Step 1: 分块岭回归估计多基因效应（SNP按LD block分块）；Step 2: 用LOCO残差进行边际SNP检验
实现语言	C++
最新版本	REGENIE v4.x（支持定量/二元/生存/Ordinal性状，以及quantile regression Regenie.QRS）

4.2 核心优势

优势	具体说明
速度之王	Step 1比BOLT-LMM快150倍，比SAIGE快300倍。UKB 50个定量性状总计仅需~50 CPU小时（约2天），成本仅£24
海量性状并行	天然支持多表型同时分析（Multi-trait），100个表型可一次性完成Step 1
内存友好	最大内存使用~13 GB（vs BOLT-LMM 50 GB），通过分块读取基因型数据实现
Firth/SPA双重校正	对不平衡二元性状提供Firth惩罚似然和SPA两种校正，P值校准与SAIGE相当
LOCO策略	Leave-One-Chromosome-Out避免近端污染（proximal contamination），提高检验准确性
支持超大规模	已验证可在UKB全队列（N_500,000，1,160万SNP）上稳定运行
多祖先支持	2023年后版本支持多祖先生物库的联合分析

4.3 主要缺点

缺点	具体说明
仅支持无穷小模型	岭回归本质上是LMM的无穷小近似（ridge penalty ≈ 1/τ²），对非无穷小遗传架构的统计效力低于BOLT-LMM（模拟中差距5-10%）
小样本相关数据表现差	在小型家系数据（N < 10,000）中，由于稀疏GRM近似的局限性，P值可能不够准确
磁盘空间需求大	Step 1需要约355 GB磁盘空间存储中间文件（LOCO预测值），对存储系统压力大
定量性状效力略低	在已知峰值的关联分析中，REGENIE的信号强度略弱于BOLT-LMM（差约5-10%）
不支持非标准模型	不支持基因×环境交互、非线性效应等复杂模型
稀疏GRM效力限制	与fastGWA类似，稀疏GRM近似在多祖先数据中可能损失部分统计效力

4.4 适用场景

•首选场景：

–UK Biobank/TOPMed级别超大规模生物库（N > 200,000）

–需要同时分析数百个性状的项目（如UKB 1,500+表型全扫描）

–内存受限但存储充裕的计算环境

–不平衡二元性状的大规模筛查（如所有ICD编码疾病）

•不推荐场景：

–小型家系数据（N < 10,000，高度相关个体）

–追求单个性状最大统计效力的精细映射研究

–存储空间极度受限的环境

五、PLINK 2.0

5.1 核心信息

项目	内容
参考文献	Chang CC, Chow CC, Tellier LC, et al. Second-generation PLINK: rising to the challenge of larger and richer datasets. GigaScience. 2015;4:7.
算法基础	多元线性/逻辑回归、Firth惩罚似然、SKAT-O等多样方法集合
核心定位	通用GWAS数据处理和分析平台，非专门的LMM工具
实现语言	C
最新版本	PLINK 2.00 alpha（持续更新）

5.2 核心优势

优势	具体说明
最全面的QC功能	数据质控、过滤、格式转换、LD计算、PCA、亲缘关系推断等功能一应俱全，是GWAS pipeline的标准起点
文件格式兼容性	支持VCF/BCF/BGEN/PGEN/BED+二进制格式，与所有主流LMM工具（BOLT-LMM/SAIGE/REGENIE）无缝衔接
多种关联分析方法	线性回归、逻辑回归、Firth回归、EMMAX近似、SKAT/SKAT-O区域检验、set-based检验等
成熟的生态系统	用户群体最大，文档最完善，社区支持最强，教程和最佳实践资源极其丰富
PGEN格式	专有的高性能基因型存储格式（2-bit + variant-differential encoding），读写速度远超传统BED格式
命令行友好	简洁直观的命令行接口，易于整合到自动化pipeline

5.3 主要缺点

缺点	具体说明
无内置LMM/GRM	PLINK 2.0本身不是LMM工具，对population structure和样本相关性的校正能力有限；必须配合BOLT-LMM/SAIGE/REGENIE等外部工具
大规模数据效率不足	在N > 100,000时，标准回归分析的速度和内存效率不如专用LMM工具
二元性状默认无SPA	逻辑回归对不平衡性状和罕见变异的P值膨胀问题未自动校正
无LOCO策略	不提供leave-one-chromosome-out功能，近端污染可能导致效应估计偏倚
不支持Bayesian模型	无非无穷小或Bayesian稀疏先验模型

5.4 适用场景

•首选场景：

–GWAS数据质控和预处理（QC、过滤、格式转换、PCA计算）

–小型到中型队列（N < 50,000）的标准回归分析

–与BOLT-LMM/REGENIE/SAIGE配合的完整pipeline（PLINK做QC → LMM工具做关联）

–候选基因分析、基因–环境交互、非线性模型探索

–教育和培训（最直观的GWAS入门工具）

•不推荐场景：

–作为大型生物库（N > 200,000）的主要关联分析工具

–高度不平衡的二元性状分析

–需要LOCO校正的全基因组精细映射

六、GCTA-fastGWA

6.1 核心信息

项目	内容
参考文献	Jiang L, Zheng Z, Qi T, et al. A resource-efficient tool for mixed model association analysis of large-scale data. Nature Genetics. 2019;51:1749-1755. (定量) Jiang L, Zheng Z, Tang W, et al. Methods for constructing polygenic risk scores based on LASSO and best linear unbiased prediction. 2021 (二元, fastGWA-GLMM)
算法基础	稀疏GRM近似+ REML/PQL方差组分估计
核心算法	利用GRM的稀疏性（仅保留近亲关系对），将N×N稠密矩阵转为稀疏矩阵，大幅降低计算和内存需求
实现语言	C++ / R (GCTA框架)
最新版本	fastGWA / fastGWA-GLMM (GCTA v1.94+)

6.2 核心优势

优势	具体说明
内存极致优化	最大内存仅~2 GB（vs BOLT-LMM 50 GB，REGENIE 13 GB），是五款工具中内存需求最低的
计算效率高	Step 2（全基因组扫描）速度快，UKB 50个定量性状约128 CPU小时（vs BOLT-LMM 7,250小时）
稀疏GRM一次性构建	GRM只需计算一次，后续可重复用于多个表型
成本较低	UKB RAP平台50个定量性状成本£37，50个二元性状£98，是BOLT-LMM的1/200
基于成熟框架	建立在GCTA/GREML的严格统计理论基础上，heritability估计可靠
定量/二元双支持	fastGWA（定量）和fastGWA-GLMM（二元）覆盖两种主要表型

6.3 主要缺点

缺点	具体说明
统计效力最低	稀疏GRM近似损失了LMM的polygenic校正能力。在模拟中，fastGWA的empirical power显著低于BOLT-LMM和REGENIE（尤其当variant与PCs相关时，power趋近于零）
Population structure控制不足	稀疏GRM主要捕获近亲关系，对远缘population structure的校正能力弱于完整LMM。在多祖先数据中，未校正population structure可导致大量假阳性
Family data过于保守	在家系数据中，fastGWA-GLMM的P值分布过于保守（大量真信号被遗漏）
GRM构建成本高	虽然每次分析内存低，但构建稀疏GRM的一次性成本不可忽视：UKB 368,000人需要763 CPU小时
二元性状需降阈	由于包含罕见变异增加多重检验负担，fastGWA-GLMM建议使用P < 5×10⁻⁹（而非标准5×10⁻⁸）作为显著性阈值
方差组分不可解释	fastGWA-GLMM估计的σ²θ不能解释为遗传方差或heritability（PQL和Laplace近似导致）
GCTA-LOCO不可行	传统的GCTA-LOCA分析在UKB规模完全不可行（估计需要>500 GB内存和>10,000 CPU小时）

6.4 适用场景

•首选场景：

–内存极度受限的计算环境（如共享集群的 limited memory节点）

–已知GRM已预计算的情况下，快速扫描大量表型

–同质性人群（单祖先）的初步GWAS筛查，population structure已通过PCs充分校正

–遗传力较低（h² < 0.1）的性状，polygenic效应较弱

•不推荐场景：

–多祖先联合分析（population structure复杂）

–家系数据或高度相关的样本

–追求最大统计效力的精细映射研究

–需要同时校正population structure和polygenic effect的研究

七、五款软件横向深度对比

7.1 计算性能对比（UK Biobank规模，N ≈ 400,000）

软件	Step 1时间	Step 2时间	总时间(50表型)	最大内存	RAP成本(£)
BOLT-LMM	~1,150 h	~7,250 h	~8,400 h	~50 GB	~7,500
SAIGE	~9 h	~12,015 h	~12,024 h	<15 GB	~2,835
REGENIE	~4.7 h	~45.3 h	~50 h	~13 GB	~24
fastGWA	763 h(GRM)	~128 h	~891 h	~2 GB	~37
fastGWA-GLMM	763 h(GRM)	~254 h	~1,017 h	~2 GB	~98
PLINK 2.0	N/A	N/A	不适用	可变	不适用

数据来源：Quickdraws 2024论文中的UKB RAP实际运行数据（Nature Genetics, 2024）

7.2 统计效力对比（模拟研究）

软件	定量性状power	二元性状power	罕见变异(MAF<0.5%)	多祖先数据
BOLT-LMM	★★★★★ (最高)	★★★☆☆ (平衡时)	★★☆☆☆	★★★☆☆
SAIGE	★★☆☆☆	★★★★★ (不平衡)	★★★★★	★★★★☆
REGENIE	★★★★☆ (仅次于BOLT)	★★★★☆	★★★☆☆	★★★★☆
fastGWA	★★☆☆☆	★★☆☆☆	★★☆☆☆	★☆☆☆☆
PLINK 2.0	★★☆☆☆ (标准回归)	★★☆☆☆	★☆☆☆☆	★★☆☆☆

7.3 核心功能矩阵

功能	BOLT-LMM	SAIGE	REGENIE	PLINK 2.0	fastGWA
定量性状	✓✓✓	✓	✓✓✓	✓✓	✓
平衡二元性状	✓✓	✓✓✓	✓✓✓	✓	✓✓
不平衡二元性状	✗	✓✓✓	✓✓✓	✓ (Firth)	✓✓
罕见变异(MAF<0.5%)	✗	✓✓✓	✓✓	✓	✗
LOCO校正	✓	✓	✓✓✓	✗	✗
SPA校正	✗	✓✓✓	✓✓	✗	✓
Firth校正	✗	✗	✓✓✓	✓✓	✗
Heritability估计	✗	✗ (有偏)	✗	✗	✓✓ (GCTA)
多性状并行	✗	✗	✓✓✓	✗	✗
基因×环境	✗	✗	✗	✓✓	✗
区域检验(SKAT)	✗	✓ (SAIGE-GENE)	✗	✓✓✓	✗
数据QC/格式转换	✗	✗	✗	✓✓✓	✗

八、新兴工具展望

工具	年份	核心创新	状态
FastSparseGRM	2024	BDSA-GRM + 分区population structure控制	预印
LDAK-KVIK	2024	变分推断加速，定量和二元双支持	预印
Quickdraws	2024	GPU加速贝叶斯回归，>30×速度提升	Nature Genetics
SAIGE-GENE	2023	SAIGE扩展至基因/区域水平罕见变异burden检验	已发布
Regenie.QRS	2025	分位数回归GWAS，检测异质性遗传效应	预印

九、参考文献

1.BOLT-LMM: Loh PR, et al. Efficient Bayesian mixed-model analysis increases association power in large cohorts. Nature Genetics. 2015;47:284-290.

2.BOLT-LMM v2.3: Loh PR, et al. Mixed-model association for biobank-scale datasets. Nature Genetics. 2018;50:906-908.

3.SAIGE: Zhou W, et al. Efficiently controlling for case-control imbalance and sample relatedness in large-scale genetic association studies. Nature Genetics. 2018;50:1335-1341.

4.REGENIE: Mbatchou J, et al. Computationally efficient whole-genome regression for quantitative and binary traits. Nature Genetics. 2021;53:1097-1103.

5.fastGWA: Jiang L, et al. A resource-efficient tool for mixed model association analysis of large-scale data. Nature Genetics. 2019;51:1749-1755.

6.fastGWA-GLMM: Jiang L, et al. fastGWA-GLMM: a generalized linear mixed model association tool for biobank-scale data. 2021.

7.PLINK 2.0: Chang CC, et al. Second-generation PLINK: rising to the challenge of larger and richer datasets. GigaScience. 2015;4:7.

8.Gurinovich A, et al. Evaluation of GENESIS, SAIGE, REGENIE and fastGWA-GLMM for genome-wide association studies of binary traits in correlated data. Frontiers in Genetics. 2022;13:897210.(方法学比较)

9.Powell JF, et al. A scalable variational inference approach for increased mixed-model association power. Nature Genetics. 2024. (Quickdraws)

10.FastSparseGRM: Lin, et al. Scalable analysis of large multi-ancestry biobanks byleveraging sparse ancestry-adjusted sample-relatedness. Res Sq. 2024.