前言分享
近日,来自 EPFL、ETH Zürich、University of Oxford 等机构的 Evgenia Elizarova、Irina Morozova 等研究人员围绕“如何更高效地从片段化学空间中找到可用于药物设计的起始结构?”开发了新的计算流程,命名为 FragmentScope。
FragmentScope不再单纯依赖传统 docking去筛选大量片段,而是利用深度学习模型学习蛋白结合口袋表面的几何和化学特征,再根据这些“蛋白表面指纹”寻找能匹配的片段,进一步生成可合成的小分子。

图 1 研究的整体设计流程
研究团队从 PDB 中收集蛋白–配体复合物结构,构建蛋白表面区域与小分子片段之间的对应关系。经过筛选后,共选取 118,308 个蛋白–配体对用于模型训练和测试,其中训练集 97,129 个样本,验证集 6,954 个样本,测试集 10,831 个样本。
在模型构建上,研究者使用了 protein-ligand encoder(PLE)。其中,蛋白端通过 dMaSIF 表示为带有几何和化学特征的表面点云;配体端通过图神经网络 GNN 表示原子和化学键。模型采用对比学习进行训练,让真实接触的蛋白表面点和配体原子在潜在空间中更接近,让不接触的配对更远离。最终,蛋白表面点和配体原子被编码到同一个16 维潜在空间中。
在此研究内容上,研究团队构建了两个 FragmentScope 数据库。第一个数据库含 129,481 个分子量 150–500 Da 的片段–表面配对,主要用于寻找较大的起始片段;第二个数据库含 475,190 个分子量 60–300 Da 的片段–表面配对,主要用于片段组合和小分子生成。
01
星宸 研究内容
研究者首先评估 FragmentScope 是否能够准确地把片段放置到蛋白结合口袋中。
他们选取了 5 个具有药物发现价值的靶点进行基准测试,包括 KRAS、BRD4、TEAD2、ERK2 和 SARS-CoV-2 Mpro。研究内容先从公开结构中提取这些靶点或其同源蛋白的已知结合片段作为正确片段,再让 FragmentScope 对每个目标口袋预测前 200 个候选片段及三维位置,最后比较预测片段是否能够找回真实结合片段。
FragmentScope 的检索流程主要包括三步:首先根据蛋白表面指纹筛选相似口袋;随后使用 RANSAC 和 ICP 方法进行三维对齐;最后根据对齐后的表面描述符相似性对候选片段重新排序。
随后,研究团队进一步测试这些计算筛选片段是否真的能结合蛋白。作者针对 KRAS、SARS Mpro、PGK1 和 PIN1 四个靶点,从 FragmentScope 推荐结果中筛选并购买了 40 个候选片段,并使用 GCI(Grating-Coupled Interferometry) 在 2 mM 和 500 μM 两个浓度下检测。同时,研究者还用 NMR 观察蛋白残基化学位移变化,并用晶体结构解析验证部分预测构象。
02
星宸 研究结果
1. 基于蛋白表面指纹的计算片段筛选
作者首先建立了 FragmentScope 的核心计算框架。结果显示,训练后的嵌入向量能够区分真实相互作用配对和随机配对。进一步的 UMAP 分析显示,不同区域的表面指纹对应不同类型的化学片段。例如,一些区域更富集氢键供体/受体较多的片段,另一些区域则更偏向芳香系统。表明 FragmentScope 不是单纯根据形状匹配片段,而是同时捕捉蛋白口袋表面的几何特征和化学特征,为后续片段放置提供了基础。
2. 片段放置预测与化学空间探索
从基准测试结果来看,FragmentScope 能够在 5 个靶点中找回真实结合片段。其中,BRD4 的真实结合片段找回率最高,为 82.5%;SARS Mpro 为 38%;ERK2 为 32.5%。对于结构数据较少的 TEAD2,找回率相对较低;而 KRAS 虽然数据库中相关结构较多,但由于结合口袋比较柔性,片段找回也更具挑战。

图 2 FragmentScope 在不同靶点中的片段放置表现
FragmentScope 不仅能从同源结构中找回片段,也能从结构不同的蛋白口袋中找到化学和空间特征相似的片段。如,在 TEAD2 和 ERK2 中,来自不同结构来源的 ground truth 片段找回率分别达到 27% 和 30%;KRAS 达到 20%。这说明模型学到的并不只是简单的同源结构匹配,而是蛋白表面几何和化学互补性。
在与其他方法比较时,FragmentScope 在 KRAS、BRD4、SARS Mpro 和 ERK2 上的片段放置准确性优于 AF3,并且在所有测试靶点上优于 GNINA。作者认为,FragmentScope 并不是要替代 docking,而是可以作为前置筛选工具,先缩小候选片段空间,再用于后续 docking、linker 生成或实验验证。
3. 计算识别片段的实验验证
在计算预测之后,研究者进一步验证这些片段是否真的能结合目标蛋白。

图 3 计算筛选片段的实验验证结果
在实验验证中,FragmentScope 表现出较高的片段命中率。PGK1 的结果最好,10 个片段中有 9 个在 2 mM 下显示结合,其中 4 个在 500 μM 下仍保持特异性。SARS Mpro 中,7 个新片段中有 4 个在 2 mM 下命中,其中部分片段进一步通过 NMR 验证。KRAS 中,6 个新片段中有 4 个在 2 mM 下结合,其中片段 322 在 500 μM 下仍能选择性结合 KRAS。PIN1 是最难的靶点,17 个片段中有 4 个在 2 mM 下命中,其中 2 个在 500 μM 下保持特异性。
总之4 个靶点在 2 mM 下的片段命中率分别为:KRAS 57%、PGK1 100%、SARS-CoV-2 Mpro 57%、PIN1 23%。明显高于传统非定向片段库筛选中常见的 5–10% 命中率,说明 FragmentScope 能够有效提高实验筛选前的片段富集效率。
在 NMR 验证中,KRAS 片段 875、322 和 238 均被确认结合,其中片段 238 引起 GLU62 和 ARG68 等口袋残基明显化学位移变化。PIN1 片段 126031 影响 GLN131 和 SER154,片段 155180 还成功获得与 PIN1 的共晶结构。虽然该片段的预测构象与晶体构象并不完全一致,RMSD 为 3.98 Å,但其确实位于预测口袋区域,支持 FragmentScope 对结合位置的判断。

图4 FragmentScope 设计小分子的实验验证
4. 基于片段的小分子设计
在片段验证之后,研究者进一步将 FragmentScope 与 DiffLinker 结合,用于从片段出发生成更完整的小分子。
在 KRAS 小分子设计中,研究团队共测试了 26 个设计化合物。结果显示,18 个化合物在 2 mM 下与 KRAS 有可测结合,其中 7 个在 500 μM 下保持 KRAS 选择性。进一步用 NMR 验证后,确认了 301、508、821、Z253、362 和 770 共 6 个化合物。残基层面结果显示,Z253、770 和 362 会影响 GLY75、HIS95 和 TYR96 等 KRAS Switch I/II pocket 相关残基,说明这些分子确实结合在目标口袋附近。

图5 靶向 KRAS 的 FragmentScope 设计小分子的实验验证和结构分析
在 BRD4 小分子设计中,作者测试了 28 个设计化合物,其中 13 个在 2 mM 下显示结合。分析显示,其中 2 个化合物对 BRD4 具有较好的选择性。更重要的是,化合物 960 和 662 成功获得 BRD4 共晶结构,其实验构象与 FragmentScope 预测构象的 RMSD 分别为 3.1 Å 和 2.0 Å。其中,化合物 662 还形成了多个水介导氢键,表明这些设计分子不仅能够结合靶点,还可能提供新的结构优化方向。

图 6 靶向 BRD4 的 FragmentScope 设计小分子的实验验证和结构分析
03
星宸 结论
这项研究表明,FragmentScope 可以利用学习到的蛋白表面指纹,有效缩小片段化学空间,并提高早期片段筛选的命中率。
与传统片段筛选相比,FragmentScope 的优势在于它不是盲目筛选大量分子,而是根据蛋白口袋的几何和化学特征,优先选择更可能形成相互作用的片段。研究中,FragmentScope 在 4 个靶点上的平均片段命中率约为 59%,明显高于普通片段筛选常见的 5–10%。同时,FragmentScope 还可以进一步支持小分子设计。通过片段放置、linker 生成和合成可及性筛选,作者获得了多个经 GCI、NMR 和晶体结构验证的候选小分子骨架。这说明该方法不仅能用于发现片段,也能帮助从蛋白口袋出发生成可优化的先导结构。
FragmentScope 的研究意义不在于直接“生成药物”,而在于为早期药物发现提供了一种更高效的片段优选策略。它把蛋白表面表示学习、片段数据库检索、linker 生成和实验验证连接起来,使研究者能够更快地从靶蛋白口袋找到可验证、可合成、可继续优化的小分子起始骨架。
参考文献:
ELIZAROVA E, MOROZOVA I, IGASHOV I, et al. FragmentScope: exploring the fragment space with learned surface representations. bioRxiv, 2025. https://doi.org/10.64898/2025.12.16.694391

@
您的关注、分享与反馈,是我们星宸人前进的动力。
愿你在科学药研的路上,风光无限、持续耀眼。

夜雨聆风