点击蓝字,关注我们
上回我写了那篇Evidence Aggregator,AI读文献搜集诊断证据的事儿,后台收到不少私信。有人问得很直接,这东西是不是个例啊,AI在咱们基因检测这个圈子里,到底走到哪一步了?
我当时没敢打包票,因为手头没有系统的数据。直到最近翻到一篇2026年1月刚发表的综述,才觉得可以认真聊聊了。
这篇论文叫《A systematic review on the generative AI applications in human medical genetics》,今年1月发在Frontiers in Genetics上,四位作者来自俄罗斯圣彼得堡的Ott研究所。他们把PubMed、bioRxiv、medRxiv、arXiv上能搜到的相关论文扒了个遍,从五万多篇里筛出195篇认真分析,在122篇高度相关的论文中,作者把它们分成了四大类(部分文章有重叠),梳理出AI在人类医学遗传学里到底干了些啥。

说真的,我读完第一反应是,这事儿比我想的要热闹得多。
在展开之前,我得先科普几个词,不然后面有些地方容易卡。不是我要当老师,是这篇综述里AI的术语密度有点高,几个关键概念不认识,读起来会很累。
第一个是Transformer。别被这个词吓到,它就是2017年搞出来的一个AI架构,核心是个叫「注意力机制」的东西。你读一句话的时候,不是每个字都同等重要对吧,你会自动把注意力放在关键信息上。Transformer干的就是这事儿,它能在一大段数据里自动判断哪些部分重要、需要关联起来看。几乎所有现在叫得上名的AI模型,底层都是这个架构。
第二个是LLM,大语言模型,ChatGPT就是一种。参数量特别大的Transformer,读过的文本多到吓人,所以能干很多语言相关的活儿。
第三个得多讲一句,叫RAG,检索增强生成。思路很朴素,AI回答问题之前,先去一个靠谱的数据库里捞相关资料,再把资料喂给AI让它基于这些来答。好处是减少AI「一本正经胡说八道」(学术上叫幻觉)的概率,还能标出处。你在医院场景里用AI,这个几乎是刚需。
还有个词叫Foundation Model,基础模型,可以理解成「读万卷书」的通才,读完之后针对具体任务再微调。AlphaFold就是这类的代表,预测蛋白质结构准到拿了诺贝尔奖,AlphaMissense是AlphaFold的兄弟模型。
词儿讲完了,回到正题。
这篇综述把AI在遗传学里的活儿分成四大类,我挑跟基因检测最相关的说。

图:个人理解绘图
第一类叫知识导航,坦率的讲就是AI帮你从海量文献和数据库里找信息。基因和疾病的关系散落在成千上万篇论文里,很多还没被收录进OMIM或者ClinVar这种正经数据库。现在有专门的模型,比如ClinVar-BERT、AutoPM3AutoPM3 的AI工具,终于有大佬对PM3证据出手了,有望实现PM3自由?,能自动从文献里提取「这个变异跟这个病有关系」的证据。上回Evidence Aggregator干的就是这个方向,这篇综述告诉我,这不是孤例,已经有一批人在这么干了。
第二类是临床数据分析,这是论文里最厚的一块。AI读电子病历,把患者症状翻译成标准化的术语;还有看脸识别综合征的,DeepGestalt这个老牌工具你可能有印象,它的升级版GestaltMML同时看脸、看病历、看元数据,准确率又上了一个台阶。肿瘤那块更野,直接从病理切片预测基因突变状态,我个人对这块持保留态度,替代两个字太重了,补充倒是合理。
第三类是我最想多说的,基因数据分析。这块直接关系到我们每天做的变异解读。
综述里提到几个让我眼前一亮的工具。MAVERICK这个,在孟德尔遗传病里把致病变异排进前五的比例超过95%,这个数字相当能打。还有GeneT、AlphaMissense,后者在评估氨基酸替换致病性的应用很广。你可能也感觉到了,我们做变异分类的时候,证据层级里那个PP3,不得不参考这些AI工具给出的功能影响预测。
底层还有一批「读懂DNA语言」的基础模型,GENA-LM、Nucleotide Transformer之类的。它们把DNA序列当成一种语言来学,学会之后能预测剪接位点、表观遗传标记、增强子活性这些。我有时候觉得,我们以前盯着序列一个个位点看,跟AI能同时捕捉整段序列的上下文比起来,确实有点像用放大镜看星空。
第四类是跟医生和患者的交互。问答机器人、遗传咨询辅助、教育培训,甚至有研究用AI生成合成人脸来训练儿科医生识别综合征面容,保护真实患者隐私。有个叫Just-DNA-seq的平台,内置了一个叫GeneticsGenie的模型,专门帮没有遗传学背景的人看懂自己的基因检测报告。这个方向我挺看好的,报告解读门槛太高,一直是行业痛点。
最后,作者还梳理了一份“模型选型指南”。

图:根据原文Table1整理
聊到这儿你可能会问,听着挺热闹,那到底能不能落地?
这恰恰是综述最冷静的部分。作者们列了一堆现实问题。幻觉还是没解决干净,模型动不动就编造不存在的参考文献。偏见问题更扎心,超过80%的全基因组关联研究用的是欧洲血统样本,导致AI工具在非欧裔人群里准确率明显下降。还有基准泄露,模型训练的时候可能偷偷看过测试题,成绩注水。语言也是坎,绝大多数模型是英语中心的,中文遗传咨询场景用起来还得专门适配。
更关键的是,把基因组、影像、临床文本这些多模态数据揉成一个能上临床的管线,目前还是个没完全跑通的难题。模型在论文里表现再好,进了真实医院,数据质量、流程整合、监管合规,每一关都是硬骨头。
我读完的判断是,AI在基因检测这个领域,处于「辅助工具已经显出巨大潜力,但还远未到能用」的阶段。变异筛选、文献证据整理、报告草稿生成,这些环节AI确实能提效,已经有团队在用。但最终拍板的那一下,还得人来。
回到开头那个问题。AI在咱们这行走到哪一步了?
我的答案是,路已经修了不少,但还没通车。有意思的是,这条路不是一条直线,是很多条小径同时在被踩出来,有人做文献挖掘,有人做面容识别,有人做变异排序,有人做报告解读。每一小段单独看都不算惊天动地,但拼在一起,你大概能看出一个轮廓,基因检测这个行业正在被一点点地重写。
上回那篇有人留言说感觉看到了未来。我当时的回复是,别急着下结论,先看看更多人在做什么。现在看完这篇综述,我反而更确信那个判断了,未来确实在来,只不过来得很碎,碎到你不蹲下来仔细看,会以为什么都没发生。

END

以上仅供参考,欢迎批评指正
点击下方“阅读原文”查看本期文献原文
猜你感兴趣
医生诊断准确率33%,AI直接飙到59%!破解《新英格兰医学杂志》302例疑难杂症,看完Nature这篇论文,AI鉴别诊断太秀了
罕见病科研助力:这些nature提到的AI工具你都用上了吗?
92%的准确率!DeepSeek在医疗AI领域的突破,三大顶级AI模型竞技,Nature Medicine最新研究结果令人震惊…
如何快速摸清一个基因的底细(疾病、基因型表型相关性、突变热点、致病机制、临床预后),基因查询小助手:秘塔AI帮你快速汇总信息
GPT-5卷到ACMG评级了,能直接找到“标准答案”,VUS有救了吗
AutoPM3 的AI工具,终于有大佬对PM3证据出手了,有望实现PM3自由?
炸裂,终于有罕见病诊断智能体系统,DeepRare,一种具有可追溯推理功能的Agentic System
Science重磅:全外显子测序查不出病因?你可能忽略了这个关键区域,AI开始"卷"基因了,这次瞄准了启动子
外显不全有救了!Science揭示机器学习的31个AD基因外显率量化,提升变异解读的准确性,尤其是VUS变异
350万人数据揭秘!AI读懂病历,基因“意义不明”报告率下降49%,这个AI模型让VUS不再模糊
ACMG变异评级太复杂?我用Gemini 3.0 Pro测了下,结果出乎意料
点击下方公众号👇🏻 发现更多干货
求点赞

求分享

求喜欢

夜雨聆风