这篇文章于2025年2月10日发布,第一单位为西湖大学医学院附属杭州市第一人民医院、医学蛋白质组学全国重点实验室。研究团队围绕“虚拟细胞”构建这一目标,提出了一个基于扰动蛋白质组学的基础模型 ProteinTalks。他们在乳腺癌细胞中使用多种临床相关药物进行扰动,获得了超过3800万条蛋白变化数据,并让模型学习药物作用后蛋白网络如何随时间改变。
研究目的
数 据
- 细胞系数据
研究主要使用乳腺癌细胞系,包含16个常用三阴性乳腺癌细胞系和2个非三阴性乳腺癌细胞系,共18个细胞系。 - 药物数据
作者收集了63种临床常用或已获批的小分子药物,这些药物覆盖多种乳腺癌相关治疗类别,包括化疗药、靶向药、激素相关药物等。 - 额外抗癌化合物数据
除了63种主要药物外,研究还加入了98种额外抗癌小分子化合物,用于进一步测试模型对新药物的泛化能力。 - 药物组合数据
研究包含914组“药物组合—细胞系”配对数据,用于训练和评估模型预测药物协同作用的能力。 - 扰动蛋白质组数据
细胞接受药物处理后,在6小时、24小时和48小时三个时间点进行蛋白质组检测。最终获得16,311个扰动蛋白质组DIA-MS数据文件,产生超过3800万条高质量扰动蛋白测量数据。 - 蛋白检测数据
通过质谱分析,研究相对定量到5530个蛋白组,对应5143个唯一蛋白。 - 细胞毒性数据
研究还收集了23,482个细胞毒性实验数据点,用于补充蛋白质组数据,并帮助判断药物是否有效。 - 药物反应验证数据
作者使用CCK-8细胞活性实验验证部分模型预测出的药物组合协同效果,比如 bosutinib 与 tucatinib、bosutinib 与 abemaciclib 等组合。
模型构建
1. 大规模药物扰动蛋白质组检测
研究首先在18个乳腺癌细胞系中进行药物扰动实验。作者选择多种临床相关药物,在不同细胞系中处理6小时、24小时和48小时,然后利用DIA-MS质谱技术检测蛋白表达变化。这个方法的意义在于,它不是只看药物处理后的一个终点,而是连续观察细胞在不同时间点的蛋白网络变化。这样可以更好地捕捉药物作用机制、早期分子反应以及后期细胞死亡相关变化,为后续构建动态AI模型提供基础数据。
2. DIA-MS蛋白质组学分析
文章使用数据非依赖采集质谱技术进行蛋白质组检测。DIA-MS的优势是通量高、重复性较好,适合大规模样本检测。研究中作者通过质谱获得了大量药物处理后的蛋白表达数据,并用DIA-NN软件进行蛋白鉴定和定量。简单来说,这一步就是把细胞受到不同药物刺激后的蛋白变化系统地“测出来”,形成一个大规模蛋白质组数据库。
3. 数据质控和标准化处理
由于质谱数据规模很大,不同批次之间容易存在波动,因此作者进行了严格的质控和标准化处理。研究中删除了蛋白鉴定数量过低的样本,对缺失值进行填补,并通过生物学重复、技术重复和质控样本评估数据稳定性。这个步骤很关键,因为如果原始数据质量不可靠,后续训练出来的AI模型也容易出现偏差。经过质控后,作者保留了16,311个高质量扰动蛋白质组样本。
4. 差异蛋白分析
作者比较药物处理组和未处理对照组之间的蛋白表达差异,筛选出受到药物扰动后显著上调或下调的蛋白。差异分析可以帮助判断某个药物主要影响哪些蛋白,以及这些蛋白是否与药物靶点、耐药机制或细胞死亡过程相关。例如,文章发现某些耐药细胞中药物靶点蛋白会持续升高,提示这些蛋白可能参与药物抵抗。
5. PertScore扰动评分分析
文章提出了一个名为PertScore的指标,用来衡量某个蛋白在不同细胞系、不同药物和不同时间点中被反复扰动的程度。简单来说,如果一个蛋白在很多药物处理条件下都发生明显变化,那么它的PertScore就会更高。这个方法可以帮助作者从海量蛋白中找出最常被药物影响的关键蛋白,也能进一步分析哪些通路在早期响应药物、哪些通路在后期参与细胞死亡。
6. 通路富集分析
在筛选出差异蛋白和高扰动蛋白后,作者进一步做了通路富集分析,观察这些蛋白主要集中在哪些生物学过程里。结果显示,不同药物类型会影响不同通路,比如烷化剂主要扰动DNA损伤修复通路,微管抑制剂主要影响细胞骨架相关通路,CDK抑制剂主要影响细胞周期相关通路。这个方法帮助研究从“单个蛋白变化”上升到“通路和机制层面”的理解。
7. mFuzz时间动态聚类分析
由于文章关注的是药物处理后的动态变化,所以作者使用mFuzz分析蛋白在不同时间点的变化趋势。这个方法可以把表达模式相似的蛋白聚成一类,比如持续升高的一类、持续降低的一类,或者在敏感组和耐药组中变化方向相反的一类。通过这种分析,作者发现部分蛋白在耐药细胞中随药物处理逐渐升高,而在敏感细胞中下降,提示这些蛋白可能和药物耐受有关。
结果解读
Fig1|构建大规模扰动蛋白质组数据集
作者首先搭建了一个用于训练虚拟细胞模型的大规模扰动蛋白质组数据集。研究围绕乳腺癌细胞展开,选择18个乳腺癌细胞系,并使用63种临床相关小分子药物进行处理,在6小时、24小时和48小时三个时间点检测蛋白质组变化。最终获得16,311个DIA-MS蛋白质组数据文件,形成超过3800万条扰动蛋白测量数据。结果显示,不同细胞系之间的蛋白质组差异非常明显,而药物处理时间和药物扰动带来的整体差异相对较小,说明细胞本身的背景状态是影响蛋白网络的重要因素。这个数据集为后续训练ProteinTalks模型提供了核心基础。

Fig2|药物扰动能够揭示蛋白网络和耐药机制
作者进一步分析药物处理后蛋白网络的动态变化,发现不同类型药物会影响不同的生物学通路。例如,烷化剂主要影响DNA损伤修复,微管抑制剂影响细胞骨架,CDK抑制剂影响细胞周期。随着处理时间延长,早期更多体现药物作用机制相关通路,后期则逐渐转向细胞死亡相关过程。研究还比较了药物敏感组和耐药组的蛋白动态变化,发现部分蛋白在耐药细胞中持续升高,而在敏感细胞中下降,提示这些蛋白可能参与耐药形成。整体来看,扰动蛋白质组不仅能反映药物作用机制,也能帮助发现潜在耐药蛋白。

Fig3|ProteinTalks模型学习蛋白网络动态并预测药物疗效
作者基于大规模扰动蛋白质组数据构建了ProteinTalks基础模型。这个模型的核心思路是:先输入未处理状态下的蛋白质组、药物靶点和药物分子特征,再预测药物处理后不同时间点的蛋白网络变化,最后判断药物是否有效。相比传统机器学习方法,ProteinTalks在药物疗效预测中表现更好,说明动态蛋白网络信息确实能提升模型判断能力。文章还通过留一细胞系和留一药物验证模型泛化能力,结果显示模型对已覆盖作用机制的药物预测较稳定,但对训练集中没有类似机制的新药预测效果会下降。

Fig4|ProteinTalks能够预测潜在药物组合协同作用
作者将ProteinTalks进一步用于药物组合预测,判断两个药物联合使用是否会产生协同效果。结果显示,模型预测出的高协同组合中,靶向药与靶向药、靶向药与化疗药的组合占比较高,说明靶向治疗之间或靶向治疗与传统治疗之间可能存在较强互补性。作者还选择部分排名靠前的药物组合进行实验验证,发现bosutinib与tucatinib、bosutinib与abemaciclib等组合在特定乳腺癌细胞系中确实表现出协同杀伤效果。这个结果说明ProteinTalks不仅能预测单药疗效,也有潜力用于发现新的联合用药方案。

Fig5|模型解释性分析发现关键耐药蛋白
作者使用SHAP方法解释ProteinTalks的预测结果,进一步寻找哪些蛋白和通路对药物敏感性最关键。结果发现,不同药物类别对应的关键通路具有明显生物学合理性,比如DNA修复通路与烷化剂敏感性相关,PI3K-AKT-mTOR通路与PI3K/AKT抑制剂反应相关。模型不仅识别出CDK4、CDK6、ERBB2、SRC、mTOR等已知乳腺癌治疗相关蛋白,还发现AKR1C3、CMPK1等潜在新蛋白。后续siRNA敲低实验进一步证明,降低AKR1C3或CMPK1表达后,细胞对部分药物的敏感性增强,说明模型筛选出的关键蛋白具有实际功能意义。

Fig6|ProteinTalks可迁移到患者来源模型和临床预后分析
作者进一步验证ProteinTalks能否从细胞系推广到更接近临床的样本。通过微调策略,模型被应用到患者来源肿瘤细胞和患者来源异种移植模型的转录组数据中,用于预测药物反应。结果显示,经过扰动蛋白质组预训练的模型比直接用转录组数据从头训练的模型效果更好,说明蛋白网络动态信息可以增强患者样本中的药物反应预测。文章还将模型筛选出的关键蛋白用于乳腺癌患者预后分析,发现这些蛋白能够区分预后较好和较差的患者,提示ProteinTalks具有一定临床转化潜力。

总 结
Fig1|大规模蛋白扰动数据是模型的地基
讨论部分强调,这项研究最重要的基础是作者自己构建了一个大规模扰动蛋白质组数据集。过去蛋白质组数据规模普遍偏小,很难直接支撑AI基础模型训练,而这篇文章通过乳腺癌细胞系、多药物、多时间点扰动,获得了超过3800万条蛋白测量数据。也就是说,Fig1对应的是整篇文章的“数据底座”:先把细胞在药物刺激后的蛋白变化系统测出来,后面才能谈虚拟细胞和AI预测。
Fig2|药物扰动揭示蛋白网络的动态变化
作者在讨论中指出,细胞受到药物处理后,并不是单个蛋白孤立变化,而是整个蛋白网络随时间发生重排。Fig2对应的核心意义是证明扰动蛋白质组可以捕捉药物作用机制和耐药相关变化,比如早期更偏向药物靶向通路,后期更多反映细胞死亡和应激反应。这个结果说明,动态蛋白质组比静态表达数据更适合研究药物反应和耐药机制。
Fig3|ProteinTalks不只是分类器,而是在学习细胞动态
讨论部分认为,ProteinTalks的关键创新在于引入了时间动态建模。普通机器学习模型往往只是根据当前表达状态预测药物是否有效,而ProteinTalks会先学习药物处理后蛋白网络如何从0小时变化到6小时、24小时和48小时,再进一步预测药物疗效。Fig3对应的是文章的模型核心:AI不是简单看一张“静态照片”,而是在学习细胞受到药物刺激后的“连续变化过程”。
Fig4|AI可以辅助发现潜在联合用药方案
作者认为,ProteinTalks在药物组合预测上的表现说明,蛋白网络动态信息可以帮助筛选潜在协同药物组合。Fig4对应的是药物发现层面的应用价值:模型不仅能判断单个药物是否有效,还能预测两个药物联合后是否可能产生更强效果。更重要的是,部分高分组合经过实验验证确实表现出协同作用,这让模型从单纯计算预测进一步走向可实验验证的候选发现工具。
Fig5|模型解释性帮助发现耐药蛋白和关键通路
讨论中强调,ProteinTalks不仅能预测结果,还能通过解释性分析找出影响药物反应的关键蛋白和通路。Fig5对应的是机制发现价值:模型识别出DNA修复、PI3K-AKT-mTOR等与药物反应相关的经典通路,也发现AKR1C3、CMPK1等潜在关键蛋白,并通过基因干扰实验验证其功能。这个部分说明,AI模型不是一个完全黑箱,而可以反过来帮助研究者理解耐药机制。
Fig6|从细胞系走向患者样本仍是最大挑战和亮点
讨论部分最后强调,ProteinTalks经过微调后可以迁移到患者来源肿瘤模型和临床样本中,用于预测药物反应和患者预后。Fig6对应的是临床转化意义:虽然模型最初是在细胞系蛋白质组数据上训练的,但其中学到的蛋白网络动态知识可以帮助解释更复杂的患者样本。作者也承认,目前模型还存在蛋白覆盖深度不足、缺少翻译后修饰信息等限制,但这项工作已经为虚拟细胞和精准用药提供了一个重要框架。

论文链接: https://doi.org/10.1101/2025.02.07.637070
夜雨聆风