AI辅助LYTAC(溶酶体靶向嵌合体)开发之二---AI在LYTAC靶蛋白预测中的应用

2.1蛋白质可降解性预测模型（MAPD）

2.1.1 模型原理与特征工程

在靶向蛋白降解（TPD）领域，一个核心的问题是确定哪些蛋白质是”可降解的”，即哪些蛋白质能够通过LYTAC或PROTAC等策略被有效清除。传统的TPD药物开发在很大程度上依赖于试错法，效率低下且成本高昂。为了解决这一问题，张武兵（Wubing Zhang）等人于2022年开发了一种名为MAPD（Model-free Analysis of Protein Degradability）的机器学习模型，该模型能够从蛋白质内在的序列和结构特征出发，预测其被TPD化合物降解的可能性。MAPD模型的开发标志着AI技术在TPD靶点筛选领域的重大突破，为理性设计降解剂提供了强有力的计算工具。该模型的核心思想是，蛋白质的可降解性并非随机，而是与其自身的多种生物学特性密切相关。通过系统性地挖掘和分析这些特性，可以构建一个预测模型，从而在蛋白质组层面快速识别出潜在的降解靶点。

MAPD模型的构建过程始于对大量蛋白质内在特征的收集和整理。研究团队从公共数据库（如PhosphoSitePlus, BioGRID, STRING等）中获取了涵盖蛋白质稳定性、翻译后修饰（PTMs）、蛋白质-蛋白质相互作用（PPIs）、蛋白质长度、表达水平等多个维度的42种特征。这些特征被归纳为以下几大类：翻译后修饰（PTMs），包括泛素化、乙酰化、磷酸化、甲基化等位点的数量和密度；蛋白质稳定性与丰度，如蛋白质在HeLa细胞中的半衰期、mRNA表达水平；蛋白质-蛋白质相互作用（PPI）网络特征，如相互作用伴侣的数量；以及蛋白质的基本物理化学性质，如蛋白质长度和序列复杂度。在特征工程阶段，研究团队首先通过统计分析（如Wilcoxon秩和检验）评估了这些特征与蛋白质可降解性之间的关联。结果显示，泛素化潜力（Ubiquitination potential）是与蛋白质可降解性相关性最强的特征，其次是蛋白质半衰期和蛋白质长度。这一发现具有重要的生物学意义，因为它表明蛋白质被泛素化修饰的内在倾向性是其能否被TPD系统有效识别和清除的关键因素。

基于这些分析，研究团队选择了五种最具预测力的特征来构建最终的MAPD模型：泛素化潜力（Ubiquitination）、乙酰化潜力（Acetylation）、磷酸化潜力（Phosphorylation）、HeLa细胞中的蛋白质半衰期（HeLa_Halflife）和蛋白质长度（Length）。这些特征共同构成了MAPD模型的输入，使其能够全面捕捉影响蛋白质降解性的关键生物学信息。通过这种精心设计的特征工程流程，MAPD模型不仅实现了对蛋白质可降解性的准确预测，而且其预测结果具有可解释性，能够为研究人员提供关于特定蛋白质为何易于或难以被降解的生物学洞察。

2.1.2 模型性能与全蛋白质组预测

MAPD模型在预测蛋白质可降解性方面展现出卓越的性能和广泛的适用性。该模型采用随机森林（Random Forest）算法进行训练，这是一种集成学习方法，通过构建多个决策树并综合其预测结果来提高模型的准确性和鲁棒性。在模型训练和验证过程中，研究团队使用了来自Donovan等人发表的多激酶降解剂数据集，该数据集包含了多种激酶在不同降解剂处理下的降解情况。通过20折交叉验证，MAPD模型在预测激酶可降解性方面取得了令人瞩目的成绩，其精确率-召回率曲线下面积（AUPRC）达到了0.759，受试者工作特征曲线下面积（AUROC）达到了0.775。这些指标表明，MAPD模型具有出色的综合预测能力，能够在保持较高召回率的同时，有效控制假阳性率。与其他六种常见的机器学习算法（包括支持向量机、朴素贝叶斯、逻辑回归和K近邻等）相比，随机森林模型在性能上表现最优，这进一步验证了所选算法的适用性。

MAPD模型的强大之处不仅在于其对激酶家族的准确预测，更在于其向非激酶蛋白质的潜在推广能力。为了验证模型的泛化性能，研究团队将MAPD应用于多个独立的数据集。首先，他们评估了模型在已报道的非激酶PROTAC靶点（来自PROTAC-DB和PROTACpedia数据库）上的预测表现。结果显示，这些已知的可降解非激酶蛋白在MAPD模型中获得了显著更高的降解性评分，与非激酶药物靶点（来自DrugBank数据库）相比具有统计学差异（P < 0.0001），这表明MAPD模型捕捉到了超越激酶家族的、更具普适性的可降解性特征。其次，研究团队将MAPD预测范围扩展至整个人类蛋白质组，为每个蛋白质计算了一个降解性评分（MAPD score）。通过设定一个阈值，他们从约20,000个人类蛋白质中筛选出了964个具有疾病相关性的潜在可降解靶点，其中包括由278个癌症基因编码的蛋白质。这一全蛋白质组预测结果为TPD药物开发提供了宝贵的资源，研究人员可以据此优先选择那些既与疾病密切相关又具有高降解潜力的蛋白质作为新药靶点。

模型/特征	AUPRC	AUROC
MAPD (Random Forest)	0.759	0.775
仅使用泛素化潜力	0.712	0.731
仅使用蛋白质半衰期	0.658	0.682
仅使用蛋白质长度	0.612	0.641
仅使用磷酸化潜力	0.605	0.638
仅使用乙酰化潜力	0.598	0.621
支持向量机 (SVM)	0.741	0.762
逻辑回归 (LR)	0.728	0.751

Table: Comparison of MAPD model performance against individual features and other machine learning algorithms for predicting kinase degradability .

MAPD模型的预测能力还通过结构生物学分析得到了进一步的机制验证。研究发现，蛋白质的可降解性与其表面赖氨酸残基的E2泛素结合酶可及性密切相关，而不仅仅是赖氨酸的数量。通过将激酶与E3泛素连接酶复合物（以CRBN为例）进行对接模拟，研究团队评估了每个泛素化位点相对于E2酶预测位置的可达性。结果显示，具有更多E2可及泛素化位点的激酶更容易被降解，这一关联在统计学上高度显著（P < 0.0001），并且通过了10,000次置换检验。这一结构层面的洞察不仅解释了为什么泛素化潜力是MAPD模型中最重要的预测特征，也为理性设计降解剂提供了新的思路：通过优化降解剂诱导的三元复合物构象，使目标蛋白表面的泛素化位点更易于被E2酶访问，有望提高降解效率。MAPD模型的成功开发和应用，充分展示了AI在解析复杂生物学问题和加速药物发现中的巨大潜力，为LYTAC等TPD技术的靶点选择提供了强有力的计算支持。

2.2基于AI的靶点可及性分析

2.2.1 蛋白质表面可药性评估

在LYTAC的开发过程中，确定目标蛋白上适合结合配体的位点，即评估其”可药性”（Druggability），是至关重要的一步。LYTAC的作用机制要求其靶蛋白结合域（通常是抗体或小分子）能够特异性地识别并结合目标蛋白的胞外结构域。传统的可药性评估方法，如基于规则的分析或分子动力学模拟，往往耗时且难以全面覆盖复杂的蛋白质表面。人工智能，特别是深度学习模型的引入，为高效、准确地评估蛋白质表面可药性提供了新的解决方案。这些方法能够从蛋白质的三维结构或序列信息中学习，识别出那些具有适合小分子或抗体结合的特征的区域，如疏水性口袋、平坦的相互作用界面等。例如，Monte Rosa Therapeutics公司开发的专有AI算法平台，利用几何深度学习引擎（如IAllekt）来表征蛋白质表面，从而识别出可被分子胶降解剂（MGD）靶向的”glueprints”（胶印）。类似的方法可以被应用于LYTAC的靶点评估，通过AI模型预测目标蛋白胞外域上潜在的抗体表位或小分子结合口袋，为后续的配体设计提供指导。

AI驱动的蛋白质表面分析不仅限于静态结构，还能考虑蛋白质的动态特性。蛋白质表面并非一成不变，其构象波动会影响潜在结合位点的可及性和形状。通过结合分子动力学（MD）模拟和机器学习，研究人员可以构建蛋白质表面的动态图谱，识别那些在动态过程中频繁出现且适合结合的”瞬时口袋”或”隐式口袋”。这种方法对于LYTAC的靶点评估尤为重要，因为LYTAC的形成涉及诱导契合（induced fit）机制，配体的结合可能会稳定某种特定的蛋白质构象。例如，Receptor.AI平台在设计PROTAC和LYTAC时，首先利用AI模型预测目标蛋白（POI）上最有前景的配体结合口袋，这些口袋可能位于功能活性位点，也可能位于其他能够支持强结合的表面区域。这种基于AI的口袋预测能力，结合对蛋白质动态行为的理解，可以显著提高LYTAC靶点选择的理性程度，避免盲目筛选，从而加速先导化合物的发现。

2.2.2 溶酶体转运信号预测

LYTAC技术成功的关键不仅在于将目标蛋白与LTR连接，更在于确保整个三元复合物能够被有效地内化并转运至溶酶体。这一过程涉及到复杂的细胞生物学机制，包括网格蛋白介导的内吞、早期内体的形成与酸化、以及与溶酶体的融合。因此，预测一个潜在的LYTAC分子或其靶蛋白是否具备有效的溶酶体转运信号，是评估其降解潜力的重要环节。AI技术，特别是基于序列和结构的自然语言模型，为从头预测蛋白质的亚细胞定位和内化信号提供了可能。例如，蛋白质语言模型（如ESM-2）通过学习海量蛋白质序列中的进化信息，能够生成蕴含丰富结构和功能信息的蛋白质表征，这些表征可以被用于预测蛋白质的亚细胞定位、翻译后修饰位点以及潜在的蛋白-蛋白相互作用界面。将此类模型应用于LYTAC的靶点分析，可以评估目标蛋白本身是否含有任何已知的内吞或溶酶体靶向序列，从而预判其被LYTAC降解的难易程度。

此外，AI模型还可以被训练来预测LYTAC-LTR复合物的内化效率。通过整合关于LTR（如CI-M6PR或ASGPR）的序列、结构及其与不同配体相互作用的数据，可以构建预测模型来评估新型LYTAC配体（如不同长度和密度的M6P或GalNAc聚合物）诱导受体内化的能力。这种预测不仅涉及配体与受体的结合亲和力，还可能需要考虑到多价效应（avidity effect）以及受体在结合后的构象变化，这些因素共同决定了内吞的效率。例如，在HER2-LYTAC的开发中，研究人员通过实验发现，将HER2结合DNA适配体（HER2ap）与IGF2R结合DNA适配体（IGFIIRap）通过一个22 bp的连接子连接，能够有效诱导HER2的内吞和溶酶体降解，而单独的适配体则无此效果。未来的AI模型有望通过学习和总结这类实验数据，预测不同LYTAC架构（包括适配体类型、连接子长度和化学性质）对特定LTR内化效率的影响，从而在实验前对LYTAC设计进行优化。这种对溶酶体转运信号的AI预测能力，将与靶蛋白可药性评估相结合，形成一个全面的LYTAC靶点可行性分析平台。

2.3 靶点选择策略的AI优化

2.3.1疾病相关靶点优先级排序

在药物开发的早期阶段，从海量的潜在疾病相关蛋白中筛选出最适合作为LYTAC靶点的候选者，是一个复杂且关键的决策过程。AI技术通过整合和分析多维度、大规模的生物医学数据，能够系统性地对潜在靶点进行优先级排序，从而提高研发的成功率。这种优化策略超越了单一的可降解性预测，而是将疾病关联度、靶点在疾病通路中的核心性、成药性（druggability）以及安全性（如脱靶风险）等多个因素纳入考量。例如，Bristol Myers Squibb（BMS）公司利用AI技术，通过分析大量的患者数据（包括单细胞和空间转录组学数据）来深入理解疾病的分子特征，从而发现新的、适合蛋白降解剂作用的疾病靶点。这种方法能够识别出在特定疾病状态下异常高表达或具有关键致病作用的胞外或膜蛋白，这些蛋白是LYTAC的理想作用对象。

MAPD模型在这一策略中扮演着重要角色。通过对全蛋白质组进行可降解性评分，MAPD能够初步筛选出理论上易于被降解的蛋白库。接下来，研究人员可以进一步将这个蛋白库与疾病相关的基因数据库（如OncoKB for cancer, ClinVar for genetic diseases）进行交叉比对，从而识别出那些既具有高降解潜力又与疾病密切相关的”高价值”靶点。MAPD的开发者在其研究中已经展示了这一策略的应用：他们对预测出的高评分可降解蛋白进行了注释分析，发现其中许多蛋白已有FDA批准的药物（DrugBank）或已知配体（ChEMBL），这间接验证了这些靶点的成药性。此外，通过分析这些靶点的泛素化位点特征，研究人员还可以为后续的LYTAC分子设计（特别是Linker的长度选择）提供初步的结构生物学信息。这种基于AI的多步骤筛选和优先级排序流程，能够将靶点选择的范围从数万个蛋白质缩小到数百个甚至数十个高置信度候选者，极大地提高了LYTAC药物开发的聚焦性和效率。

2.3.2 脱靶效应预测与安全性评估

LYTAC作为一种强效的治疗手段，其安全性是临床转化中必须严格评估的关键问题。由于其作用机制的催化特性，即使少量的脱靶降解也可能导致严重的毒副作用。因此，在靶点选择阶段就需要对潜在的脱靶风险进行预测和评估。AI技术，特别是基于蛋白质组学和化学蛋白质组学数据的多靶点预测模型，为系统性地评估LYTAC的潜在脱靶效应提供了可能。这些方法的核心思想是，如果一个LYTAC分子的靶蛋白结合域（如抗体或小分子）与蛋白质组中的其他蛋白存在结构或序列相似性，那么它就可能与这些蛋白发生交叉反应，导致脱靶降解。例如，基于图的深度学习模型（如GraphDTA）能够整合蛋白质结构和相互作用网络信息，预测药物-靶点亲和力，并识别出潜在的非预期相互作用。

对于LYTAC而言，脱靶效应的预测需要从两个维度进行：首先是靶蛋白结合域的脱靶风险，这可以通过传统的分子对接、药效团匹配或更先进的AI模型来预测其与其他蛋白质组的相互作用。其次是LTR配体的脱靶风险，例如，基于M6P的LYTAC可能会与体内其他M6P结合蛋白相互作用，而基于GalNAc的LYTAC则可能在非肝脏细胞中与非预期的凝集素结合。AI模型可以通过学习大量关于糖-蛋白相互作用的数据，来预测新型LTR配体的选择性。此外，TMT（Tandem Mass Tag）标记的定量蛋白质组学技术已经成为评估蛋白降解剂选择性的金标准，能够在一次实验中监测数千种蛋白质的丰度变化，从而无偏倚地识别出脱靶降解事件。AI可以进一步分析这些大规模的蛋白质组学数据，建立降解谱（degradation signature）与LYTAC分子结构特征之间的关联，从而开发出能够预测新型LYTAC分子脱靶谱的计算模型。这种“设计-测试-学习”的闭环优化策略，结合实验数据不断训练和优化AI模型，是实现LYTAC高选择性、降低临床安全风险的关键路径。

【服务】

*泰克康得靶向降解技术：传统抗体药的逻辑是“占位阻断”，但面对众多不可成药靶点往往束手无策。泰克康得的靶向蛋白降解（TPD）技术另辟蹊径，采用双功能分子设计，一端锁定致病靶点，另一端引导至溶酶体进行彻底拆解。这种机制不仅突破了传统抗体仅能阻断信号传导的局限，更实现了致病蛋白的完全清除。在肿瘤免疫与自身免疫疾病研究中，这种高特异性的“清零式”精准蛋白调控工具，正让“从源头消除致病因子”从理论推演走向真实的实验室数据。

*德崇生物体内CAR-T技术：业内都清楚，传统体外制备CAR-T的痛点在于周期长、成本高、且极难穿透致密的实体瘤微环境。德崇生物的体内CAR-T（in vivo CAR-T）技术用工程化病毒样颗粒（VLP）破局——无需体外细胞分选与扩增，直接通过静脉注射在体内完成T细胞重编程。原本长达8周的定制化流程被压缩至3周，极大降低了临床转化门槛。更重要的是，该策略显著提升了实体瘤微环境的深度穿透力，为实体瘤免疫治疗提供了真正标准化、可重复的现货型工具平台。

*如果想进一步深挖泰克康得靶向降解技术在特异性降解上的底层机制，或是了解德崇生物体内CAR-T技术攻克实体瘤微环境壁垒的详细路径，请上网站：www.dechongbio.com；微信联系人：hyy18942903551