PalmaClust工具 | 单细胞找角度那么难,怎么才能找到超稀有细胞亚群,发现切入点-夜雨聆风

PalmaClust工具 | 单细胞找角度那么难,怎么才能找到超稀有细胞亚群,发现切入点

⭐ 设为星标 · 第一时间获取生信前沿

💡 日常好的生信代码已放入免💰共享服务器中（人人皆可用）：https://vip.r-py.com/

📦 数据和代码获取

🔧 代码资源：

• https://github.com/wan-mlab/PalmaClust

🔥 核心突破

超稀有细胞亚群是当前单细胞研究中最具临床价值但也最难检测的生物对象：白血病中的耐药干细胞、肿瘤中驱动转移的循环肿瘤细胞、发育过程中的瞬时前体细胞，这些细胞占比往往不足1%，却决定了疾病进展和治疗响应，准确分离这些亚群是解析疾病机制、开发靶向治疗的核心前提。这项研究的核心突破在于，首次将经济学中的Palma比率引入单细胞转录组聚类分析，针对性解决了传统指标对极端稀疏分布不敏感的缺陷，实现了超灵敏的超稀有细胞检测。

传统方法如GiniClust使用的基尼指数，对分布中段的变化更敏感，难以捕捉仅在极少数细胞中表达的标记基因信号，导致稀有亚群要么被合并到大簇中，要么被当成噪声过滤掉。PalmaClust通过多视角图融合框架，整合了Palma比率、基尼指数和Fano因子三种互补特征统计量，既保留了全局细胞分群的稳定性，又强化了超稀有细胞的局部邻域信号，同时增加了局部重聚类 refinement 步骤，进一步挖掘初始分群中隐藏的稀有亚群。

这项研究在多个模拟数据集和真实的肿瘤、血液单细胞数据集上完成了基准测试，结果显示PalmaClust的性能稳定超过GiniClust3、RaceID3、Seurat、scCAD等现有主流方法，超稀有类别的F1分数绝对提升至少20%，同时保持了和通用聚类方法相当的全局分群稳定性，证明了Palma比率对超稀有标记基因的捕捉能力是现有方法无法替代的。该工具已完全开源，符合生信研究者的使用需求，不需要复杂的环境配置，普通本地电脑即可运行，为广大开展单细胞稀有细胞研究的课题组提供了可靠的新选择。

文章摘要：PalmaClust是基于Palma比率的图融合框架，可在scRNA-seq数据中稳健检测超稀有细胞类型，性能优于现有主流工具

📚 研究背景

单细胞RNA测序技术的普及让研究者可以解析组织内的细胞异质性，但超稀有细胞（占比<1%）的检测一直是领域内的核心痛点：这些细胞往往驱动肿瘤耐药复发、转移、发育等关键生物学过程，却因为信号太弱，很容易被传统聚类流程遗漏。

传统通用聚类流程（比如Seurat）针对全局流形结构优化，会优先区分大细胞类群，很容易将超稀有亚群合并到临近的大簇中；现有专门针对稀有细胞设计的方法，比如GiniClust、RaceID，大多依赖基尼指数或离群概率模型，而基尼指数本身对分布中段敏感、对重尾的极端稀疏分布不敏感，导致稀有标记基因的信号被管家基因的中等表达稀释，要么灵敏度不足漏检，要么为了灵敏度牺牲特异性产生大量假阳性。不少研究还需要人工手动整理标记基因，依赖已知的标记信息，无法发现全新的稀有亚群。因此领域亟需一款统计上可靠、可扩展、灵敏度和特异性平衡的超稀有细胞检测方法。

🔬 技术创新

引入Palma比率作为特征筛选指标：Palma比率原本是经济学中衡量收入不平等的指标，通过排除中间稳定分布区间，专门聚焦分布两端的极端差异，对仅在极少数细胞中表达的稀有标记基因的重尾分布有天生的灵敏度，还可以根据研究需求调整分子区间比例，适配不同稀有度的细胞亚群检测。

采用多视角KNN图融合框架：分别基于Palma比率、Gini指数、Fano因子筛选的特征构建三个独立的细胞KNN图，再通过加权融合得到共识图，既保留了全局细胞分群的结构稳定性，又强化了超稀有细胞的局部邻域信号，避免单一指标的偏好性偏差。

增加局部聚类重精炼步骤：在全局初始分群的基础上，对每个母类群重新用Palma比率排序特征进行局部聚类，进一步挖掘被全局分群掩盖的细微稀有亚群信号，提升检测灵敏度。

📊 实验结果

Figure 1展示了PalmaClust的完整分析流程，分为三个核心步骤：第一步是特征打分与筛选，输入原始单细胞计数矩阵后先完成基础质量控制，过滤掉低覆盖细胞和几乎不表达的基因，随后分别用Palma比率、Gini指数、Fano因子对所有基因打分，用LOWESS去趋势消除表达均值对打分的偏差，最终分别得到三种指标排序下的top特征集；第二步是多视角图构建与融合，针对每一组特征集分别构建细胞间的KNN图，得到三个不同视角的邻接矩阵，再通过加权融合得到一个整合了三种信息的共识混合图，在保留全局结构的同时强化稀有细胞的邻接信号；第三步是聚类与局部精炼，先在共识混合图上用Leiden算法得到初始大类分群，再对每个初始类群内部重新进行特征排序和聚类，挖掘隐藏的超稀有亚群，最终输出细胞分群结果。整个流程逻辑清晰，每个步骤都保留了可调参数，适配不同规模的数据集。

Figure 1：PalmaClust完整分析流程概览

图注：PalmaClust从输入计数矩阵到输出分群结果的三步核心流程，整合多视角特征信息，提升超稀有细胞检测灵敏度

Figure 2展示了PalmaClust在模拟单细胞数据集上的基准测试结果，研究构建了多个不同稀有度的模拟数据集，稀有细胞占比从0.5%到5%不等，对比了PalmaClust和GiniClust3、RaceID3、Seurat、scCAD四款主流工具的性能。结果显示，在所有测试场景下，PalmaClust的F1分数都显著高于其他对比方法，当稀有细胞占比低至0.5%的超稀有场景下，其他方法的F1分数都低于0.6，而PalmaClust的F1分数依然保持在0.85以上，绝对提升超过30%。同时PalmaClust的调整兰德指数（ARI）也高于其他方法，说明在检测到超稀有细胞的同时，没有干扰大细胞类群的分群准确性，全局分群稳定性保持良好。进一步的参数敏感性分析显示，PalmaClust对不同的K近邻参数、权重参数都有较好的鲁棒性，默认参数就能适配大多数场景，不需要用户大量调参。

Figure 2：PalmaClust在模拟数据集上和其他主流工具的性能对比

图注：模拟数据集上的性能对比证实PalmaClust在超稀有细胞检测的准确性和全局分群稳定性上都优于现有主流方法

Figure 3展示了PalmaClust在真实的人类胰腺单细胞数据集上的检测结果，该数据集包含来自胰腺癌样本的胰腺细胞，其中罕见的胰腺导管腺癌（PDAC）恶性细胞占比仅为0.8%，属于典型的超稀有场景。结果显示，Seurat和GiniClust3都没有成功分离出这部分超稀有恶性细胞，Seurat将其合并到了正常导管细胞簇中，GiniClust3只检测到了不到三分之一的真阳性细胞，而PalmaClust准确分离出了占比0.78%的恶性细胞亚群，和参考注释的重合度达到92%。进一步对PalmaClust得到的稀有亚群做差异表达分析，得到的标记基因显著富集于肿瘤侵袭、上皮间质转化等肿瘤相关通路，和已知的PDAC恶性细胞特征完全一致，证明了检测结果的生物学有效性。

Figure 3：PalmaClust在人类胰腺癌单细胞数据集上的检测结果验证

图注：在真实胰腺癌数据集上，PalmaClust准确分离出占比仅0.8%的超稀有恶性细胞亚群，结果具有明确生物学意义

Figure 4展示了PalmaClust在急性髓系白血病（AML）数据集上的测试结果，该数据集中白血病干细胞（LSC）占比仅为0.6%，是白血病耐药复发的根源，准确分离LSC对研究耐药机制至关重要。结果显示，PalmaClust成功检测到了这个超稀有LSC亚群，而其他对比方法要么完全漏检，要么检测结果假阳性极高。PalmaClust得到的LSC亚群高表达已知的LSC标记基因如CD123、CD96，且转录组特征和已知的干性、耐药特征高度一致，证明了检测结果的可靠性。同时，PalmaClust还发现了一个之前未被注释的全新稀有亚群，占比仅0.4%，该亚群高表达免疫检查点基因，可能和免疫抑制微环境相关，为后续研究提供了新方向。

Figure 4、 5：PalmaClust在急性髓系白血病单细胞数据集上的检测结果

图注：PalmaClust在AML数据集中准确分离出占比仅0.6%的白血病干细胞，还发现了潜在的全新免疫抑制稀有亚群

Figure 6 、 7展示了消融实验的结果，用来验证Palma比率层在图融合中的必要性，研究者分别去掉Palma层、Gini层、Fano层，测试完整模型和去掉不同层后的性能变化。结果显示，去掉Palma比率层后，超稀有细胞检测的F1分数下降了15%-25%，在占比<1%的超稀有场景下下降幅度更大，而去掉Gini层或Fano层后性能下降幅度不到5%，证明Palma比率带来的尾敏感特征是PalmaClust性能提升的核心来源，其他指标无法替代Palma比率对超稀有标记基因的捕捉能力。同时，局部精炼步骤的消融实验也显示，去掉局部精炼后，F1分数下降约8%，证明局部重聚类步骤也能进一步提升检测灵敏度。

Figure 6 、 7：PalmaClust各模块的消融实验结果

图注：消融实验证实Palma比率模块是PalmaClust性能提升的核心，对超稀有细胞检测的贡献远大于其他模块

💡 应用前景和未来展望

PalmaClust的核心应用场景包括：肿瘤研究中分离耐药亚克隆、循环肿瘤细胞、癌症干细胞等超稀有致病亚群；发育研究中检测瞬时过渡的前体细胞亚群；免疫研究中分离抗原特异性的罕见淋巴细胞亚群；液体活检中检测极低频率的循环异常细胞。这些场景都对稀有细胞检测灵敏度有很高要求，PalmaClust填补了现有方法的性能缺口。

未来该方法可以进一步扩展到多组学单细胞数据分析，结合染色质开放等组学信息进一步提升稀有细胞检测的准确性，也可以适配空间转录组数据，检测空间层面的稀有细胞亚群。对生信研究者来说，PalmaClust将统计学指标跨领域应用的思路也很有启发，该工具已经开源可直接使用，降低了相关研究的技术门槛。

🔍 生信视角解读

从生信研究的角度来看，PalmaClust这项工作给我们带来了非常多的启发。首先，跨领域统计指标的引入往往能解决老问题，Palma比率原本是经济学中衡量收入不平等的指标，研究者抓住了它“对分布尾端敏感”的核心特点，恰好解决了单细胞领域超稀有标记基因检测的痛点，这比在原有方法框架上小修小补提升更大，这种创新思路非常值得我们学习。

其次，从方法设计来看，PalmaClust的多图融合框架其实是整合多尺度信息的经典思路，但这里用得非常巧妙：不同特征指标捕捉不同类型的生物学变异，Palma负责抓超稀有信号，Gini和Fano负责维持全局结构，融合之后既不会因为只关注稀有信号失去全局稳定性，也不会因为只保留全局结构漏掉稀有信号，这种设计平衡了灵敏度和特异性，比单纯只做稀有检测的方法适用性更广。

当然，这个方法也存在一定可以改进的空间：目前的加权融合用的是固定权重，默认Palma权重最高，能不能根据数据集的实际情况自动学习最优权重？这可能是后续可以优化的方向；另外，Palma比率的参数调整虽然开放，但普通用户可能不知道怎么根据自己数据的稀有度调整，后续可以增加自动参数选择模块。

对我们日常做生信分析来说，如果你现在正在做单细胞研究，关注稀有细胞亚群，那一定要试试PalmaClust，它的性能比传统GiniClust和Seurat好太多，而且代码开源，安装使用都很简单，不需要自己改代码就能跑，哪怕是样本量几万的数据集，普通笔记本也能运行。对做方法研究的同行来说，这项工作给我们提供了一个很好的范例：从实际分析的痛点出发，找对合适的统计工具，用简洁有效的框架解决问题，比堆复杂模型更有实际价值，这项工作的思路完全可以推广到其他组学的稀有特征检测问题中，比如宏基因组中的低丰度致病菌检测，也可以尝试用类似的思路改进方法。

—

你在单细胞分析中有没有遇到过找不到稀有细胞亚群的困境？你是怎么解决的？欢迎在评论区留言讨论！

👇 关注「公众号」，每日获取前沿生信研究解读

📚 文献引用：PalmaClust: A graph-fusion framework leveraging the Palma ratio for robust ultra-rare cell type detection in scRNA-seq data. , 2026.