

基因测序技术是精准医疗的核心基石,其中长读长测序因能读取完整连续的 DNA 与 RNA 片段,可捕捉更全面的遗传信息,成为癌症诊断、基因组研究的关键技术。但该技术数据复杂度高,长期存在两大核心痛点:一是肿瘤基因检测时,传统方法多依赖 “肿瘤 - 正常” 配对样本,而临床中常难以获取足量合格的正常组织样本,导致检测无法开展;二是 RNA 测序时,RNA 编辑、测序误差易与真实基因突变混淆,难以精准区分,直接影响检测结果可靠性。
▍港大 7 年攻坚,两款 AI 算法重磅问世
2025 年 10 月至 12 月,香港大学工程学院计算与数据科学学院罗锐邦教授团队,历时 7 年技术攻关,成功研发两款深度学习算法 ——ClairS-TO与Clair3-RNA,相关成果连续发表于国际顶级期刊《Nature Communications》。该团队深耕基因组测序分析领域,此前研发的 Clair3 算法已成为行业标杆,获牛津纳米孔技术公司官方推荐。

其中,ClairS-TO 是全球首个专为长读长数据设计的 “肿瘤 - 仅” 体细胞变异检测 AI 算法。其采用双神经网络集成架构,通过肯定网络识别真实突变、否定网络过滤技术噪声与胚系变异,搭配 9 项硬性过滤规则、4 类正常样本面板及统计分类模块,无需配对正常样本,即可精准识别肿瘤基因突变。在 colo829、hcc1395 等 6 种主流癌细胞系测试中,该算法检测准确率超 95%,较传统方法提升 30% 以上。
Clair3-RNA 则是全球首款长读长 RNA 测序专用深度学习小变异检测工具。团队采用多任务双向长短期记忆神经网络架构,结合覆盖度归一化、单倍型定相、RNA 编辑位点标记等创新技术,有效解决 RNA 数据覆盖度不均、错误率高等问题。经 PacBio、ONT 等多平台验证,其中度测序覆盖下,SNP 识别 F1 值高达 98.59%,可精准区分真实突变、RNA 编辑与技术误差。
▍技术突破显优势,临床科研双受益
两款 AI 算法的核心突破,在于彻底改变传统基因检测的样本依赖与精度局限,为临床诊断与科研研究提供全新解决方案。对临床癌症诊断而言,ClairS-TO 实现 “单样本检测” 重大突破。临床无需再采集患者正常组织作为对照,仅需少量肿瘤组织或液体活检样本,即可完成精准突变检测,大幅降低样本获取难度,缩短检测周期至 10 天内,同时检测成本降低 40%。尤其针对晚期肿瘤、儿童肿瘤等难以获取配对样本的患者,可实现快速精准诊断,为靶向治疗、免疫治疗提供可靠依据。

对基因组学研究而言,Clair3-RNA 填补长读长 RNA 测序分析空白。其可同步解析基因表达与突变信息,精准识别 RNA 编辑事件,帮助科研人员深入探究疾病发生的分子机制。在转录组变异研究中,该算法能捕获传统方法遗漏的 22% 以上全新治疗靶点,为癌症、罕见病等研究提供更全面的数据支撑。此外,两款算法兼容 PacBio、ONT 等主流长读长测序平台,适配性强,可直接应用于现有检测体系,无需额外硬件投入。
随着 AI 技术与基因测序的深度融合,基因检测正朝着 “样本更少、速度更快、精度更高、成本更低” 的方向发展。港大团队的成果,不仅彰显中国在生物信息学领域的科研实力,更为全球精准医疗发展注入新动力,未来将惠及更多癌症患者与疾病研究,推动医疗健康行业迈入全新发展阶段








夜雨聆风