乐于分享
好东西不私藏

arXiv | 上海AI lab新作:ViraHinter – 双模态 AI 框架重塑病毒-宿主相互作用预测图谱

arXiv | 上海AI lab新作:ViraHinter – 双模态 AI 框架重塑病毒-宿主相互作用预测图谱

导读

在与病毒的长期“猫鼠游戏”中,病毒通过极其精简的基因组编码少量的蛋白质,却能通过与宿主蛋白质之间复杂的相互作用(vhPPIs),精准地“劫持”宿主的细胞信号、免疫防御和代谢通路。理解这些相互作用是破解病毒感染机制、寻找广谱抗病毒靶点的关键。然而,传统的实验筛选方法(如 AP-MS 或邻近标记)成本高昂、耗时巨大,且难以捕捉瞬时交互,导致目前绝大多数病毒-宿主互作组仍是未知的“暗物质”。

近日,来自上海人工智能实验室、复旦大学、上海交通大学及悉尼大学等机构的研究团队在预印本平台 arXiv 上发表了题为 “ViraHinter: a dual-modal artificial intelligence framework for predicting virus-host interactions” 的研究成果。该研究提出了一种名为 ViraHinter 的双模态深度学习框架,通过整合“序列表示”与“结构生成”两种模态,实现了对病毒-宿主相互作用的高精度预测和大规模推断,为广谱抗病毒药物开发提供了全新的数字化蓝图。


1. 现状挑战:病毒进化与数据稀疏的博弈

预测病毒与宿主蛋白相互作用面临三大难题:

  1. 1. 实验覆盖率极低:目前的互作数据库主要集中在少数模式病毒上,新兴病原体的互作图谱严重缺失。
  2. 2. 序列同源性低:病毒蛋白演化极快,基于同源性的传统方法(如序列比对)在面对跨家族的病毒时往往失效。
  3. 3. 空间约束缺失:早期的 AI 模型多依赖于蛋白质序列,无法捕捉互作界面的精确几何结构和物理约束。

虽然像 AlphaFold-Multimer 这样的模型在蛋白质复合物结构预测上取得了成功,但对于全蛋白质组规模的筛选来说,其计算成本过于惊人。因此,科学界迫切需要一种既能保持物理精度,又能进行高效规模化筛选的计算框架。

2. ViraHinter 架构:序列与结构的“双重奏”

ViraHinter 的核心创新在于其双模态融合设计。它不只是简单地读取序列,而是同时模拟了蛋白质的几何形态。

  • • 结构生成分支(Structure-generation branch):利用 Pairformer 模块(48层)处理输入对,通过迭代扩散(Diffusion)模块生成全原子的病毒-宿主复合物结构。这一过程提取了精确的几何特征。
  • • 序列表示分支(Sequence-representation branch):利用先进的蛋白质语言模型(如 ESM)提取嵌入向量(Embeddings),捕捉序列间的潜在关系知识。
  • • 双模态融合:研究团队设计了一个巧妙的特征聚合层,将结构分支导出的配对特征与序列分支的语义特征结合。为了防止模型仅依赖于单体折叠信号,结构特征在聚合前经过了掩码处理,强迫模型专注于“链间兼容性”。

这种设计让 ViraHinter 能够“左右开弓”:在结构证据清晰时利用空间约束;在面对演化过快、结构不稳定的病毒蛋白时,则依赖序列语义进行推断。

Figure 2:展示 ViraHinter 的整体架构流程图


3. 构建高保真度的病毒-宿主互作图谱

为了训练这一强大模型,研究团队首先建立了一个高质量的“金标准”数据集。他们整合了 IntAct、BioGRID、VirHostNet 和 VirusMentha 四大主流数据库,并制定了严苛的证据过滤标准:

  • • 仅保留物理关联(Physical Association),剔除共定位或遗传相互作用。
  • • 根据不同数据库的特性(如 MI 分值、实验手段)将数据分为“高置信度”和“中置信度”。

最终,基准数据集涵盖了 700 种病毒蛋白和 4,202 种人类蛋白的 10,451 个 PPI 对。通过 UpSet 统计图发现,这些数据库之间重叠极小,体现了多源整合的必要性。

Figure 1:展示数据处理流程及各数据库之间的重叠情况(UpSet plot)


4. 性能对决:ViraHinter 遥遥领先

研究人员在极其严苛的条件下测试了 ViraHinter 的表现,特别是在 1:1,000 的极高正负样本比例下(模拟真实世界的全蛋白质组筛选场景)。

  • • 全面超越 SOTA:ViraHinter 的 AUPR 达到 0.44,显著优于 RoseTTAFold2-PPI (0.28)、AlphaFold 3 (0.23) 和 RoseTTAFold2-Lite (0.10)。
  • • 跨越“同源性陷阱”:在“病毒留出”(Virus-held-out)测试中,即使测试集的病毒与训练集序列相似度不足 20%,ViraHinter 依然保持了强大的预测能力,其表现比 AlphaFold 3 高出约 4.5 倍。
  • • 全界面覆盖:无论是大而稳定的相互作用界面,还是只有不到 10 个残基的弱交互界面,ViraHinter 均表现稳健。

5. 实战案例一:解析冠状病毒的“秘密联系”

针对 SARS-CoV-2、SARS-CoV-1 和 MERS-CoV 三种致命冠状病毒,ViraHinter 对 958 对候选 PPI 进行了验证。

  • • 精准排名:模型给出的得分与实验证据强度呈正相关。在高置信度区间(Top 1%),ViraHinter 对已知互作蛋白的富集度达到了随机预测的 4 倍。
  • • 发现泛冠状病毒靶点:ViraHinter 预测了 8 个关键宿主因子,如 RAB8ARAB5CPABPC1 等。这些因子被预测能与所有三种冠状病毒的多种非结构蛋白(如 NSP7)结合。
  • • 结构守恒性:尽管三种病毒的 NSP7 序列存在差异,ViraHinter 预测其与 RAB8A 的结合模式高度一致,均指向同一个功能口袋,暗示了这些互作轴在进化上的极端重要性。

Figure 3:展示冠状病毒的预测得分分布及泛冠状病毒互作网络图


6. 实战案例二:流感病毒的“演化瓶颈”

流感病毒(IAV)具有高度的变异性。研究团队对比了 H1N1、H3N2 以及一种禽源的 H9N2 毒株,甚至使用了实验室 2025 年最新测序的 H3N2 临床株。

  • • 33 个核心宿主因子:通过取交集,ViraHinter 锁定了 33 个所有流感亚型共同依赖的“核心因子”。这些因子聚集在囊泡运输、细胞骨架、染色质与 DNA 损伤、RNA 代谢及信号传导五大功能模块中。
  • • 捕捉瞬时动态:ViraHinter 成功识别了如 NS1、M1、NP 以及聚合酶亚基(PB1/PB2/PA)在这些毒株中的共有靶点。
  • • RAB11A 的关键作用:模型预测流感的 HA 蛋白与宿主的 RAB11A 存在高度保守的相互作用,这为病毒颗粒的转运提供了分子基础。结构分析显示,这种结合界面在不同亚型中几乎重合,具有开发广谱抗病毒药物的巨大潜力。

Figure 4:展示流感病毒 33 个共有因子的互作网络及 HA-RAB11A 的保守复合物结构


总结与展望

ViraHinter 的出现标志着病毒学研究进入了“预测先行”的新阶段。通过双模态 AI 技术,我们不仅能以前所未有的速度筛选潜在的病毒靶点,还能在原子分辨率下观察它们是如何相互攻击与防御的。

正如论文通讯作者 Weifeng Shi 和 Siqi Sun 所言,ViraHinter 为所有已知的人类感染病毒提供了系统性筛查宿主因子的能力,这不仅能加速新型疗法的发现,更为应对未来可能出现的“病毒 X”(Disease X)储备了关键的计算手段。


参考文献:Bai et al., “ViraHinter: a dual-modal artificial intelligence framework for predicting virus-host interactions.” arXiv (2026).