今天给大家分享一篇发表在《Chem》上的重磅研究成果。对于从事生物催化、酶挖掘以及结构生物学的小伙伴来说,这篇文献提供了一个极具启发性的全新范式——如何利用蛋白质语言模型(PLMs)和基于Motif的深度学习,在序列同源性极低的盲区中,精准挖掘出具有特定功能的全新酶。

1. 文献标题
A motif-based deep learning tool for the identification of unusual NADH-dependent imine reductases(一种基于基序的深度学习工具,用于鉴定不寻常的NADH依赖型亚胺还原酶)
2. 作者团队
作者:Xin-Yuan Shen, Yu-Xuan Wu, Zhi-Feng Ma 等
通讯作者:Gui-Sheng Fan, Gao-Wei Zheng
通讯单位:华东理工大学,生物反应器工程国家重点实验室
团队研究方向:生物催化、酶工程、结构生物学及生物制造。
3. 发表年份
2026年
4. 研究背景
亚胺还原酶(IREDs)是手性胺合成的核心生物催化剂,催化亚胺还原(IR)和还原胺化(RA)反应。然而,自然界中绝大多数已知的 IREDs 都严格依赖 NADPH 作为辅因子。NADH 相比 NADPH 具有价格更低廉、更稳定且更容易与现有代谢网络整合的优势。但目前天然的 NADH 依赖型 IREDs 尚未被开发。由于缺乏已知的靶序列,传统的基于序列比对(如 BLAST)的方法很难在基因数据库中挖掘出这类酶。
5. 研究目的
开发一种超越传统序列比对限制的新型生物信息学工具,以此在海量数据库中挖掘并鉴定出自然界中全新且天然偏好 NADH的亚胺还原酶家族,进一步扩充手性胺生物合成的工具箱。
6. 研究问题
在完全没有目标序列作为模板、且潜在目标蛋白与已知蛋白序列同源性极低的情况下,如何凭借“辅因子结合特征”,大海捞针般地找出隐藏在百万序列库中的新酶?
7. 研究的逻辑思路
作者摒弃了“看全序列相似度”的老路,采用了一套名为PM2S (Protein Motif to Search)的“漏斗式”挖掘逻辑:
交叉借用,理性设计 Motif:从结构同源的$\beta$-羟基酸脱氢酶($\beta$-HADs)中汲取灵感,将 NADPH 结合基序中的关键精氨酸(Arg)替换为决定 NADH 偏好性的天冬氨酸(Asp),人为构建出一段“NADH 偏好结合基序”(NADH-binding motif)。
规则初筛获取“种子”:用该 Motif 在扩充的数据库中进行正则表达式匹配,抓取少量符合条件的“种子蛋白”。
大语言模型降维扩展:将种子蛋白和数据库序列转化为高维向量(Embeddings),在语义空间中进行深度的迭代检索,大幅扩充候选池。
规则反向校准:再次利用正则表达式,剔除掉含有典型 NADPH 结合基序的假阳性序列。
湿实验“盖棺定论”:通过多重底物活性筛选、产物转化及 AlphaFold/X射线晶体学解析酶-辅因子复合物的机制。
图 1. 发现假定的天然 NADH 依赖型 IREDs。 (A) PM2S 挖掘平台的核心工作流程;(B) IRED NADH 结合基序的理性构建原理;(C) 15 个种子蛋白的鉴定及以 NADH/NADPH 为辅因子时的活性比较。
8. 理论基础 / 分析框架
酶结构进化理论:Rossmann 折叠域对辅因子的选择往往由关键位点的单个氨基酸残基(如 Asp 或 Arg)决定,且该催化核心基序高度保守。
蛋白质语言模型(PLMs):蛋白质序列可以被理解为一种“语言”,深度学习模型(如 ESM1b)能将其编码为蕴含结构和功能特征的高维致密向量(Dense vectors),这使得即使序列一致性很低,也能通过计算向量相似度找到功能相似的蛋白。
9. 研究方法
计算生物学方法:整合了正则表达式(Rule-based)、动态规划、随机森林算法、预训练蛋白质大模型(ESM1b)以及 Milvus 向量数据库检索技术(PM2S 平台)。
分子生物学与酶学:基因合成、大肠杆菌异源表达、Ni-NTA 亲和纯化、稳态动力学分析、气相/液相色谱(GC-FID/HPLC)底物谱测试及半制备级生物转化。
结构生物学:AlphaFold3 复合体结构预测、X射线晶体学解析及定点突变验证。
图 2. PM2S 平台挖掘出的新型 NADH 依赖型 IREDs 分析。 展示了候选蛋白与已知蛋白之间极低的序列同源性分布 (A),候选酶群的序列相似性网络 (SSN) 聚类情况 (B),代表性酶的辅因子偏好性 (C),以及新发现的结合基序的多样性 (D)。
图 3. 四种代表性 IRED 催化亚胺还原 (IR) 和还原胺化 (RA) 的底物谱及活性热图比较。
10. 研究结论
成功跨越同源性鸿沟:通过 PM2S 策略,成功鉴定出95 个此前未知的 NADH 依赖型 IREDs,它们与现有已知 IREDs 的序列相似度极低(仅 12%-43%),属于一个进化上独特的全新分支。
催化性能极其优异:表征的酶展现出了对 NADH 极其显著的偏好性,并在亚胺还原(IR)和还原胺化(RA)中表现出极为宽泛的底物耐受性,甚至能够接受大位阻的萘基取代亚胺和复杂的环酮。
确定了分子特异性机制:解析了 BubIRED 与辅因子的晶体结构,证实了Asp32 是决定 NADH 特异性的核心门控残基。NADH 的核糖羟基与 Asp32 形成了紧密的氢键网络,而 NADPH 的磷酸基团会由于静电排斥被该位点排斥。
图 4. NADH 依赖型 IREDs 催化不同取代基的亚胺还原转化。
图 5. NADH 依赖型 IREDs 催化的一系列高难度醛/酮还原胺化反应。
图 6. 揭示辅因子结合机制的结构分析。 (A-D) BubIRED 及其与 $\beta$-HAD 和已知 IRED 的结构比对差异;(E) 结合 AlphaFold 预测的酶-辅因子-底物三元复合物的活性口袋交互机制细节分析。
11. 研究局限性
虽然通过单点突变(Asp突变为Arg)可以在某些 NADH 依赖型酶中成功将其偏好性反转为 NADPH,但在已知的经典 NADPH 依赖型 IREDs 中进行反向突变(Arg 突变为 Asp)却失败了。这表明天然 NADPH-IREDs 的辅因子口袋可能在结构上非常刚性,仅仅依靠单点突变无法逆转其偏好,未来仍需要借助多位点组合甚至计算工具(如 CSR-SALAD)进行更深度的酶改造。
图 7. NADH 依赖型和 NADPH 依赖型 IREDs 的关键辅因子结合基序区域多序列比对。 (直观显示了32位保守的 D 与 R 残基分布规律)
图 8. 验证关键氨基酸功能的突变分析。 (A) BubIRED 与 PseIRED-2 在32位点的饱和突变比活数据;(B) 动力学参数变化趋势验证;(C-D) 多个 IRED 候选者进行点突变后的辅因子特异性逆转确认。
12. 研究创新点
方法学创新:首次开发出将“规则匹配(Rule-based Motif)”与“AI蛋白质语言大模型(PLMs)”融合的挖掘框架(PM2S)。解决了传统方法因“序列同源性极低”导致的假阴性,以及单纯使用 AI 盲筛带来的高假阳性与高成本问题。
发现全新酶族:打破了 IRED 家族几十年来“仅限使用 NADPH”的认知,挖掘并验证了自然界首批天然存在、催化性能优异的 NADH 依赖型 IREDs。
13. 研究贡献
该工作为整个新酶挖掘领域提供了一种通用的、低成本的智能化工作流模板。挖掘出的大量新型 NADH-IREDs 拥有极高的工业应用前景,由于 NADH 更廉价且易于实现辅因子再生循环,此发现为未来制药工业中大规模、连续流动、低成本的手性胺(以及空间大位阻的药物中间体)的生物催化合成铺平了道路。
夜雨聆风






