2026-04-10
📖 导读
病毒如何入侵人体?AI 现在能预测了!今天解读的 ViraHinter 是全球首个双模态深度学习框架,专门用于精准预测病毒与宿主之间的蛋白质相互作用。它在多个基准测试中超越 AlphaFold 3 和 RoseTTAFold2,成功识别出 33 个跨流感亚型的共享宿主因子,为广谱抗病毒药物发现提供了全新工具。
💡 核心亮点:双模态架构 | 超越 AlphaFold 3 | 33 个新靶点 | 广谱抗病毒
ViraHinter:病毒 - 宿主相互作用预测新突破
AI 预测病毒入侵!ViraHinter 双模态框架识别 33 个广谱抗病毒靶点
📑 目录
01 病毒如何入侵人体?
02 ViraHinter 是什么?
03 双模态架构详解
04 为什么能超越 AlphaFold 3?
05 33 个共享宿主因子发现
06 技术突破点深度解析
07 实验设计与评估
08 对病毒学研究的意义
09 广谱抗病毒药物发现
10 局限性与挑战
11 未来发展方向
12 总结与展望
🦠 01 病毒如何入侵人体?
要理解 ViraHinter 的突破性,我们首先需要了解病毒是如何入侵人体的。这个过程的核心是蛋白质 - 蛋白质相互作用(PPI)。
想象一下,病毒就像一个"入侵者",它需要找到宿主细胞表面的"门锁"才能进入。这些"门锁"就是宿主细胞表面的蛋白质。病毒的蛋白质(比如新冠病毒的刺突蛋白)会与宿主蛋白质结合,就像钥匙插入锁孔一样,打开细胞的大门。
一旦进入细胞,病毒就会"劫持"细胞的 machinery,利用细胞的资源来复制自己。这个过程涉及大量的病毒 - 宿主蛋白质相互作用,形成了一个复杂的相互作用网络。
关键问题:如果我们能提前知道病毒会"攻击"哪些宿主蛋白质,就能:
• 开发药物阻断这些相互作用
• 预测新病毒的潜在攻击目标
• 发现广谱抗病毒药物的靶点
但问题是,实验筛选这些相互作用非常耗时耗力。高通量实验如酵母双杂交(Y2H)、亲和纯化质谱(AP-MS)需要大量的人力和资源,而且难以捕捉瞬时的相互作用。
这就是 ViraHinter 出现的意义——用 AI 预测病毒 - 宿主相互作用,加速抗病毒药物发现!
🤖 02 ViraHinter 是什么?
ViraHinter 是 2026 年 4 月发布的最新研究成果,它是全球首个双模态深度学习框架,专门用于精准预测病毒与宿主之间的蛋白质相互作用。
"Vira"代表病毒(Virus),"Hinter"在德语中意为"后面"或"背后",暗示这个工具能够揭示病毒背后的作用机制。
核心创新:ViraHinter 创新性地耦合了两个分支——
• 结构生成分支:使用结构感知的配对表示,捕捉病毒蛋白与宿主蛋白之间的 3D 空间相互作用
• 序列表示分支:使用 ESM(Evolutionary Scale Modeling)衍生的嵌入,从进化序列中提取保守的功能模式
这两个分支的输出通过注意力机制融合,共同学习泛化的相互作用规则。简单来说,一个分支"看"蛋白质的 3D 结构,另一个分支"读"蛋白质的氨基酸序列,两者结合就能更准确地预测相互作用。
关键成就:
• 在致病性冠状病毒和甲型流感病毒上进行了基准测试
• 一致超越 RoseTTAFold2-PPI、AlphaFold 3 和 RoseTTAFold2-Lite
• 成功识别出 33 个跨流感亚型的共享宿主因子
• 在严重类别不平衡条件下仍保持稳定性能
⚙️ 03 双模态架构详解
让我们深入 ViraHinter 的技术架构,看看它是如何工作的。
📐 结构生成分支
这个分支的核心是结构感知的配对表示(structure-informed pair representations)。它的工作流程如下:
1. 输入病毒蛋白和宿主蛋白的 3D 结构(可以来自实验结构或 AlphaFold 预测)
2. 提取界面残基的几何特征(距离、角度、二面角等)
3. 计算物理化学特性(疏水性、电荷、氢键潜力等)
4. 使用图神经网络(GNN)学习结构模式
5. 输出结构感知的相互作用表示
这个分支的优势在于能够捕捉蛋白质相互作用的空间约束。两个蛋白质要相互作用,它们的界面必须在空间上匹配,就像拼图一样。结构分支就是学习这种"拼图匹配"的模式。
🧬 序列表示分支
这个分支使用ESM(Evolutionary Scale Modeling)衍生的嵌入。ESM 是一种基于 Transformer 的蛋白质语言模型,它从数百万蛋白质序列中学习进化模式。
序列分支的工作流程:
1. 输入病毒蛋白和宿主蛋白的氨基酸序列
2. 使用预训练的 ESM 模型提取嵌入表示
3. 捕捉远程依赖和共进化信号
4. 学习进化保守的功能模式
5. 输出序列感知的相互作用表示
这个分支的优势在于能够捕捉进化约束。如果两个蛋白质在进化过程中共同变化(共进化),它们很可能存在功能上的关联。序列分支就是学习这种"共同进化"的模式。
🔗 融合机制
两个分支的输出通过注意力机制融合。注意力机制允许模型动态地决定在特定情况下更依赖结构信息还是序列信息。
例如,对于结构已知的蛋白质对,模型可能更依赖结构分支;对于结构未知的蛋白质对,模型可能更依赖序列分支。这种自适应融合是 ViraHinter 性能优越的关键。
🏆 04 为什么能超越 AlphaFold 3?
AlphaFold 3 是 DeepMind 发布的最新蛋白质结构预测模型,它能够预测蛋白质复合物的结构。那么 ViraHinter 为什么能在病毒 - 宿主 PPI 预测上超越 AlphaFold 3 呢?
原因 1:专门化设计
AlphaFold 3 是一个通用模型,设计用于预测各种蛋白质复合物的结构。而 ViraHinter 是专门针对病毒 - 宿主相互作用设计的。专门化设计意味着:
• 训练数据更相关(病毒 - 宿主 PPI 数据集)
• 特征工程更针对性(病毒蛋白的特殊特性)
• 损失函数更优化(处理类别不平衡)
原因 2:双模态融合
AlphaFold 3 主要依赖结构信息,而 ViraHinter 同时利用结构和序列信息。在病毒 - 宿主 PPI 预测中,序列信息(特别是进化信息)非常重要,因为:
• 病毒蛋白进化快速,结构可能不稳定
• 序列保守性可以揭示功能约束
• 共进化信号可以预测相互作用
原因 3:处理类别不平衡
病毒 - 宿主 PPI 数据天然存在严重的类别不平衡——已知的相互作用(正样本)远远少于非相互作用(负样本)。ViraHinter 通过特殊的采样策略和损失函数设计,能够在极端不平衡条件下保持稳定性能。
AlphaFold 3 没有专门针对这种不平衡进行优化,因此在病毒 - 宿主 PPI 预测任务上表现不如 ViraHinter。
原因 4:跨病毒泛化
ViraHinter 设计时就考虑了跨病毒泛化能力。它学习的是泛化的相互作用规则,而非特定病毒的 memorization。这使得它能够在未见过的病毒上进行准确预测,这对于新发传染病的快速响应至关重要。
🎯 05 33 个共享宿主因子发现
ViraHinter 最引人注目的成果是识别出 33 个跨流感亚型的共享宿主因子。这是一个重大发现,让我们详细解读。
什么是共享宿主因子?
流感病毒有多种亚型(如 H1N1、H3N2、B 型等)。不同亚型的流感病毒会感染不同的细胞类型,引起不同的症状。但是,它们可能都依赖一些共同的宿主蛋白质来完成感染和复制。
这些共同的宿主蛋白质就是"共享宿主因子"。如果一种药物能够靶向这些共享因子,就可能同时对抗多种流感亚型——这就是广谱抗病毒药物的概念。
如何识别这 33 个因子?
研究团队使用 ViraHinter 对多个流感亚型进行了预测:
1. 对 H1N1 流感病毒进行预测,得到候选宿主因子列表 A
2. 对 H3N2 流感病毒进行预测,得到候选宿主因子列表 B
3. 对 B 型流感病毒进行预测,得到候选宿主因子列表 C
4. 取三个列表的交集,得到共享宿主因子
5. 进一步筛选和验证,最终确定 33 个高置信度的共享因子
这 33 个因子的意义
这 33 个共享宿主因子是广谱抗病毒药物的潜在靶点。与传统的针对病毒蛋白的药物不同,靶向宿主因子有以下优势:
• 不易产生耐药性:宿主蛋白质不会像病毒那样快速突变
• 广谱活性:一种药物可能对抗多种病毒
• 快速部署:已有药物可能可以直接重用(drug repurposing)
当然,靶向宿主因子也有风险——可能影响正常的生理功能。因此需要仔细评估脱靶效应和毒性。但这 33 个因子为后续研究提供了宝贵的候选列表。
💡 06 技术突破点深度解析
让我们深入分析 ViraHinter 的几个关键技术突破点。
突破 1:结构 - 序列融合的新范式
ViraHinter 的双模态融合策略为生物分子相互作用预测提供了新范式。传统的 PPI 预测方法要么只用序列信息(如基于共进化的方法),要么只用结构信息(如分子对接)。
ViraHinter 证明,同时利用两种信息可以取得更好的性能。这种融合策略可以推广到其他生物分子相互作用预测,如蛋白质 - 核酸相互作用、蛋白质 - 小分子相互作用等。
突破 2:处理极端类别不平衡
病毒 - 宿主 PPI 数据的正负样本比例可能达到 1:100 甚至更低。ViraHinter 通过以下策略处理这种不平衡:
• 负样本采样:智能选择有信息量的负样本,而非随机采样
• 加权损失函数:给正样本更高的权重
• 焦点损失(Focal Loss):让模型更关注难分类的样本
• 数据增强:通过扰动生成额外的正样本
这些策略的组合使 ViraHinter 在极端不平衡条件下仍能保持高精确度和召回率。
突破 3:跨病毒泛化能力
ViraHinter 在训练时使用了多个病毒家族的数据,但测试时会在未见过的病毒上评估。结果显示,模型能够在跨病毒家族的情况下保持良好性能。
这种泛化能力的关键在于模型学习的是泛化的相互作用规则,而非特定病毒的 memorization。例如,模型学习到"带正电荷的病毒蛋白界面倾向于与带负电荷的宿主蛋白界面结合"这样的物理化学规则,而不是记住"新冠病毒刺突蛋白结合 ACE2"这样的事实。
📊 07 实验设计与评估
让我们看看 ViraHinter 是如何被评估的。
数据集
研究团队整合了多个病毒 - 宿主 PPI 数据库,包括:
• VirHostNet: curated 病毒 - 宿主相互作用数据库
• HPIDB:宿主 - 病原体相互作用数据库
• 文献挖掘数据:从 PubMed 文献中提取的相互作用
最终数据集包含数万个病毒 - 宿主蛋白质对,涵盖数十个病毒家族。
基准对比
ViraHinter 与以下方法进行了对比:
• RoseTTAFold2-PPI:基于 RoseTTAFold2 的 PPI 预测方法
• AlphaFold 3:DeepMind 的最新蛋白质复合物结构预测模型
• RoseTTAFold2-Lite:轻量级版本的 RoseTTAFold2
• 传统方法:基于序列相似性、共进化等的方法
评估指标
使用以下指标评估性能:
• AUC-ROC:受试者工作特征曲线下面积
• AUC-PR:精确率 - 召回率曲线下面积(更适合不平衡数据)
• Top-K 准确率:前 K 个预测中有多少是正确的
• 精确率、召回率、F1 分数
关键结果
ViraHinter 在所有指标上都优于对比方法,特别是在 AUC-PR 指标上(更适合不平衡数据)。在跨病毒家族测试中,ViraHinter 的性能下降最小,显示出优秀的泛化能力。
🔬 08 对病毒学研究的意义
ViraHinter 对病毒学研究具有深远的影响。
1. 系统性绘制病毒 - 宿主相互作用组
高通量实验筛选劳动密集且难以捕捉瞬时相互作用。ViraHinter 提供计算预测工具,可以:
• 快速预测新病毒的潜在宿主因子
• 系统筛选所有已知人类感染病毒的宿主因子
• 构建全面的病毒 - 宿主相互作用网络
2. 揭示病毒致病共享机制
通过跨病毒亚型预测交集,ViraHinter 能够识别共享宿主因子。这有助于:
• 理解不同病毒的共同致病机制
• 发现病毒依赖的宿主通路
• 为广谱抗病毒策略提供理论基础
3. 加速抗病毒药物发现
识别的共享宿主因子是广谱抗病毒药物的潜在靶点。与针对病毒蛋白的药物相比,针对宿主因子的药物:
• 不易产生耐药性(宿主蛋白不会快速突变)
• 可能具有广谱活性(对抗多种病毒)
• 可以快速重用已有药物(drug repurposing)
💊 09 广谱抗病毒药物发现
让我们深入探讨 ViraHinter 在广谱抗病毒药物发现中的应用。
什么是广谱抗病毒药物?
广谱抗病毒药物是指能够对抗多种病毒的药物。与特异性抗病毒药物(如针对 HIV 的抗逆转录病毒药物)不同,广谱药物可以:
• 对抗同一病毒家族的不同亚型(如不同流感亚型)
• 对抗不同病毒家族的病毒(如同时对抗流感和冠状病毒)
• 应对新发传染病(无需重新开发药物)
ViraHinter 如何加速广谱药物发现?
ViraHinter 通过以下方式加速广谱抗病毒药物发现:
1. 识别共享宿主因子:预测多种病毒共同的宿主依赖因子
2. 优先级排序:根据预测置信度和生物学相关性排序候选靶点
3. 药物重用:搜索已有药物中是否有靶向这些宿主因子的药物
4. 实验验证:指导实验团队优先验证高置信度的预测
案例:流感广谱药物
ViraHinter 识别的 33 个跨流感亚型共享宿主因子中,有些可能已经是已知药物的靶点。通过药物重用策略,可以快速将这些药物测试为抗流感药物。
例如,如果某个共享宿主因子是已知激酶抑制剂的靶点,那么这个激酶抑制剂可能可以直接用于抗流感治疗,无需从头开发新药。
⚠️ 10 局限性与挑战
尽管 ViraHinter 取得了显著进展,但仍存在一些局限性和挑战。
1. 结构预测的准确性依赖
结构生成分支依赖准确的蛋白结构预测。对于结构未知的病毒蛋白,预测质量可能下降。虽然可以使用 AlphaFold 等工具预测结构,但预测结构的质量会影响 ViraHinter 的性能。
2. 计算资源需求
双模态架构比单一模态模型更复杂,大规模筛选需要较高的计算资源。这可能限制在资源有限实验室的应用。未来需要开发更高效的实现或提供云服务。
3. 实验验证需求
计算预测需要实验验证确认。预测的相互作用需要生化实验(如 Co-IP、Y2H)验证,功能相关性需要细胞实验和动物模型验证。这是一个耗时的过程。
4. 宿主因子靶向的安全性问题
针对宿主因子的药物可能影响正常生理功能。需要仔细评估脱靶效应和毒性。广谱抗病毒药物的开发仍需谨慎,平衡疗效和安全性。
5. 数据偏差问题
训练数据主要来自已知病毒,可能存在偏差。对于全新病毒家族的预测能力有待验证。需要持续更新训练数据以覆盖新发现的病毒。
🔮 11 未来发展方向
ViraHinter 的未来发展有多个方向。
短期(1-2 年)
• 整合更多病毒家族数据:扩展训练数据覆盖范围,包括 RNA 病毒、DNA 病毒、逆转录病毒等
• 与实验平台整合:与高通量筛选平台对接,建立预测 - 验证的闭环流程
• 用户友好工具开发:开发 Web 服务器或云平台,降低使用门槛
中期(3-5 年)
• 多病原体扩展:从病毒扩展到细菌、真菌、寄生虫,建立通用的病原体 - 宿主相互作用预测框架
• 药物 - 靶点预测整合:将宿主因子预测与药物筛选整合,直接从预测结果到候选药物
• 个性化医疗应用:考虑宿主遗传变异对相互作用的影响,预测个体对特定病毒的易感性
长期(5-10 年)
• 新发传染病快速响应系统:新病毒出现后快速预测其宿主因子,为疫情防控提供即时决策支持
• AI 驱动的抗病毒药物发现平台:整合预测、筛选、优化全流程,实现端到端的药物发现
• 病毒 - 宿主相互作用知识图谱:构建全面的病毒 - 宿主相互作用数据库,成为病毒学研究的核心资源
📝 12 总结与展望
ViraHinter 代表了病毒 - 宿主相互作用预测领域的重要进展。它的双模态架构、超越 AlphaFold 3 的性能、以及 33 个共享宿主因子的发现,都为抗病毒药物发现提供了新工具和新方向。
核心贡献:
• 首个双模态病毒 - 宿主 PPI 预测框架
• 在多个基准测试中超越现有 SOTA 方法
• 识别 33 个跨流感亚型的共享宿主因子
• 为广谱抗病毒药物发现提供新靶点
深远影响:
• 加速病毒 - 宿主相互作用组绘制
• 为新发传染病快速响应提供工具
• 推动 AI for Science 在病毒学领域的应用
展望未来,我们期待 ViraHinter 能够:
• 成为病毒学研究的标准工具
• 加速广谱抗病毒药物的发现
• 为应对下一次大流行做好准备
AI 与病毒学的结合正在开启新的篇章。ViraHinter 是这一篇章中的重要一页,但绝不是最后一页。让我们期待更多突破!
📄 论文信息
标题:ViraHinter: a dual-modal artificial intelligence framework for predicting virus-host interactions
arXiv:2604.02842
链接:https://arxiv.org/abs/2604.02842
作者:Weiqiang Bai et al.
领域:病毒学、生物信息学、AI for Science
AI4SCIENCE Frontiers
每天深度解读一篇 AI 前沿论文
🔬 🤖 🧬 ⚛️
关注公众号,获取更多 AI4Science 深度解读
夜雨聆风