近日,美国俄勒冈大学研究团队发布了一项突破性成果,直接颠覆了生物进化研究的传统模式——他们利用ChatGPT同源技术,开发出全球首个面向群体遗传学的语言模型,这款AI工具能快速解析DNA序列的突变规律,轻松追溯基因对的共同祖先,相关论文已刊登在《美国国家科学院院刊》上。

不是“聊天AI”,是能“读基因”的专属工具

这款AI虽然借鉴了大语言模型的思路,采用了改进版GPT-2架构,但它可不是用来聊天的——它的“学习材料”不是自然语言,而是涵盖细菌、啮齿类、蚊媒及灵长类等多物种的进化模拟数据。
我们都知道,DNA由“A、T、C、G”四种碱基组成,而这款AI就像读懂了这四种碱基构成的“遗传语言”,能精准识别出DNA序列中类似“错别字”的突变模式。这些随世代累积的微小变异,正是我们追溯生物血缘关系的“分子路标”,也是解锁进化密码的关键。
速度提升数十倍,还能搞定“残缺数据”

在过去的群体遗传学研究中,科学家们依赖概率统计方法追溯基因祖先,虽然精度有保障,但效率却低得让人头疼。碾压传统方法!速度提升数十倍,还能搞定“残缺数据”
尤其是面对大规模基因组数据时,单解析一条染色体就可能耗时数日,遇到片段缺失、不完整的基因序列,更是束手无策。而这款新AI完美解决了这个痛点:它把最繁重的统计运算,都提前放在了训练阶段。等到实际应用时,仅需几分钟,就能完成传统方法要花数小时的任务,速度直接提升数十倍!更厉害的是,测试显示,它在基因“认祖”的核心能力上,已经能和现有最优统计方法媲美。
不止于研究!对公共卫生太有用了

这项技术可不是“实验室里的摆设”,它对公共卫生研究有着直接且重要的价值,其中最典型的应用,就是疟疾防控。
研究团队目前正将它应用到蚊虫研究中,通过分析蚊虫种群里抗药性基因的演化轨迹,弄清楚这些抗药性基因是何时出现、如何在蚊群中扩散的——而这,正是制定可持续疟疾防控策略的关键。
更巧的是,这款AI对不完整基因数据的兼容性极强,刚好解决了野外采样时,基因序列容易碎片化的难题,让野外研究的效率也大大提升。
未来可期:从“双谱系”到“全基因树”

目前,这款AI还在持续升级中。研究团队计划进一步拓展它的功能,从现在的双谱系分析,向更复杂的多谱系全基因树重建迈进。
虽然传统方法也能实现部分类似功能,但机器学习的路线,在处理海量基因组数据时,无疑会展现出更独特的优势。现在,团队正全力优化算法,希望能捕捉到更复杂的进化信号。
总编辑圈点

其实这项研究最惊艳的地方,就是科学家们“跨界”的思路——把用来“读文章”的大语言模型技术,改成了“读基因”的工具。
以前科学家研究基因变化,就像拿着放大镜,一个碱基一个碱基地数,又慢又费力, 遇到残缺的基因数据更是无从下手。但现在这款AI,几乎能“一眼看穿”DNA序列里的“错别字”,还能通过这些“错别字”,反推出生物的祖先是谁、什么时候开始“分家”。
往小了说,它能帮我们快速搞定蚊子抗药基因的扩散轨迹,及时调整防控策略;往大了说,它把原本要算好几天的进化难题,缩短到了几分钟,还能从更杂乱、更碎片化的生物样本里,挖出有用的进化线索。
这才是AI的真正价值——不止于聊天娱乐,更能走进实验室,为生命科学研究开辟全新路径。


采编|刘书微 山东省济南第十三中学
王胜强 济南市天桥区兴麓小学
技术|李文婷
审核|舒洁 宫敏
采编团队|天桥区信息科技教研
发布|刘思远
夜雨聆风