在蛋白质结构数据库(PDB)中,同一个 PDB ID 对应多个 Assembly(生物组合体)文件是非常常见的现象。简单来说,它们的区别在于“科学家认为蛋白质在生理状态下应该是怎样的” vs “实验实际观测到的样子”。
以下是详细的对比解释:
1. 核心定义区别
- 不对称单元 (Asymmetric Unit, ASU):这是晶体学实验中测定的最小重复单元。它往往不是蛋白质发挥功能的完整形态。它可能只包含半个分子,也可能包含多个互不相关的分子,完全由晶体堆积方式决定。
- 生物组合体 (Biological Assembly / Quaternary Structure):
这是研究人员通过计算和生物学知识还原出的、蛋白质在细胞内执行生物学功能时的真实结构。
2. 为什么一个 PDB 会有多个 Assembly?
一个 PDB 编号下出现 Assembly 1, Assembly 2... 通常源于以下几种情况:
A. 不同的猜测/证据(主次之分)
- Assembly 1: 通常是作者认为最可靠、最具有生物学意义的结构。例如,一个蛋白质在体内通常以四聚体形式存在,Assembly 1 就会通过对称操作还原出这四个链。
- Assembly 2/3...: 可能是其他的可能性。例如,实验证据显示该蛋白质在某些浓度下也可能以二聚体形式存在,或者软件预测出的另一种可能的堆积方式。
B. 不同的化学组成
- 有些 Assembly 包含配体(Ligand)、离子或水分子,而另一个 Assembly 可能只包含纯蛋白质骨架,以便用户根据需求下载。
C. 晶体堆积的产物
- 有时 Assembly 2 仅仅是为了描述晶体是如何在三维空间中“排排坐”的(Crystal Packing),而不代表它在人体内也是这样排列的。
3. AlphaFold 3 为什么训练阶段只选 Assembly 1?
结合你之前关注的 AF3 论文,它选择 Bioassembly 1 是因为:
- 权威性:按照 wwPDB 的规范,
Assembly 1默认是沉积者(Depositor)确定的首选功能形态。 - 数据一致性: 机器学习需要高质量、标准化的真值(Ground Truth)。如果一个 PDB 选 Assembly 1,另一个选 Assembly 2,模型会因为训练目标不一致而难以收敛。
- 还原界面:AF3 的核心是预测“相互作用”。Assembly 1 提供了最完整的、经过实验验证的链间界面(Interface)。
4. 实际例子
想象一个蛋白质:
- 在实验中(ASU): 因为晶体长得比较特殊,X射线只拍到了半个蛋白质分子。
- Assembly 1: 科学家通过对称性镜像出另外半个,拼成一个完整的、有活性的二聚体。
- Assembly 2:科学家发现两个二聚体在晶体里头碰头靠在一起,于是给出了一个四聚体的结构,但这可能只是晶体里挤得太紧,并不是生物学上的真实状态。
总结:
- 如果你做 AI 训练(如 AF3): 永远优先使用 Assembly 1,因为它代表了该 PDB ID 最公认的生物学状态。
- 如果你做分子动力学模拟: 你需要仔细检查 PDB 页面,确认哪个 Assembly 包含你需要的完整配体和正确的聚合状态。
- 如果你只是看单体折叠: 那么这几个 Assembly 里的单链结构通常是一样的,区别仅在于它们是如何拼在一起的。
夜雨聆风