欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/136002649
Paper: Rotamer density estimator is an unsupervised learner of the effect of mutations on protein-protein interaction
- 转角密度估计器(Rotamer Density Estimator) 是一种无监督的学习器,用于突变对于蛋白质-蛋白质相互作用的影响
源码:https://github.com/luost26/RDE-PPI
华深智药 Helixon Research
RDE(Rotamer Density Estimator,转角密度估计器),用于预测氨基酸突变对蛋白质-蛋白质相互作用的影响,利用基于流的生成模型,来估计蛋白质侧链构象的概率分布,并且用熵来衡量柔性。RDE只需要蛋白质结构作为输入,不需要实验数据的监督。此外,RDE提取的无监督表示还可以用于下游的神经网络预测,以获得更高的准确度。RDE在预测突变对结合自由能的变化(∆∆G)方面,优于经验能量函数和其他机器学习方法。
这篇论文的主要创新点:
- RDE使用生成模型来估计蛋白质侧链构象的概率分布的方法,可以有效地捕捉蛋白质的多样性和不确定性。
- RDE使用熵来衡量蛋白质-蛋白质界面的柔性的方法,可以直观地反映突变对结合的影响。
- RDE不需要实验数据监督的方法,可以从大规模的蛋白质结构数据库中自动学习,而不受数据稀缺和噪声的影响。
- RDE表示可以作为下游预测模型的输入,进一步提高预测的准确度和泛化能力。
这篇论文的主要实验结果:
- RDE在SKEMPI2数据集上的∆∆G预测,超越了基线方法,包括经验能量函数和其他机器学习方法。
- RDE在每个结构的相关性上,显著提高了预测的质量,这对于实际应用更为重要。
- RDE的无监督表示可以与其他特征结合,用于训练下游的神经网络模型,进一步提升预测的性能。
- RDE的生成模型可以产生多种可能的侧链构象,用于分析蛋白质的柔性和突变的影响。
RDE-Network是一种基于流式生成模型的方法,用于预测氨基酸突变对蛋白质-蛋白质相互作用的影响。工作原理是:
- RDE-Network使用一个变分自编码器(VAE)来学习蛋白质侧链构象的概率分布。VAE由一个编码器和一个解码器组成,编码器将蛋白质结构的输入转换为一个低维的隐变量,解码器将隐变量重构为蛋白质结构的输出。VAE的目标是最小化重构误差和隐变量的先验分布之间的散度。
- RDE-Network使用一个熵估计器来计算蛋白质-蛋白质界面的柔性。熵估计器使用一个神经网络来近似隐变量的条件分布,然后利用重参数化技巧来采样多个隐变量,并用解码器生成多个侧链构象。熵估计器的目标是最大化隐变量的熵,以增加蛋白质的多样性和不确定性。
- RDE-Network使用一个预测器来计算突变对结合自由能的变化(∆∆G)。预测器使用一个神经网络来接收蛋白质结构的输入和突变的信息,并输出∆∆G的值。预测器的目标是最小化预测值和实验值之间的均方误差。
RDE-Network的优点是它可以无监督地从大规模的蛋白质结构数据库中学习,而不需要实验数据的标注。它还可以利用生成模型的能力,来分析蛋白质的柔性和突变的影响,以及产生多种可能的侧链构象,用于进一步的研究。
蛋白质-蛋白质相互作用对许多生物过程至关重要,预测氨基酸突变对结合的影响对蛋白质工程很重要。虽然基于数据的深度学习方法已经显示出了潜力,但是标注的实验数据的稀缺仍然是一个主要的挑战。在这项工作中,我们提出了一种新的方法,使用蛋白质-蛋白质界面的构象柔性的变化来预测突变对结合的影响。我们的方法,命名为 Rotamer Density Estimator (RDE),采用了一个基于流的生成模型来估计蛋白质侧链构象的概率分布,并使用熵来衡量柔性。RDE 仅仅基于蛋白质结构进行训练,不需要结合亲和力变化的实验值的监督。此外,RDE 提取的无监督表示可以用于下游的神经网络预测,获得更高的准确度。我们的方法优于经验能量函数和其他基于机器学习的方法。
界面的 构象柔性(Conformational Flexibility) 在结合时通常会降低,如图:
- (A) Rotamer Density Estimator (RDE) 的总体架构,用于估计具有一个扭转角的 rotamers 的分布。
- (B) 可逆的耦合层在不同的维度之间交替,使得能够对具有多个扭转角的 rotamers 的分布进行建模。
Rotamer:
Rotamer 是指蛋白质侧链的不同构象,它们之间可以通过扭转角的旋转相互转换。Rotamer 分布是指在一定温度和环境下,蛋白质侧链采取不同 Rotamer 的概率分布。
Spline-Based Bijective:
基于样条的双射(Spline-Based Bijective):指一种数学上的映射,它可以将一个集合中的每个元素唯一地对应到另一个集合中的一个元素,并且可以反向进行。基于样条的双射是一种使用样条函数来构造这种映射的方法,样条函数是一种由多个多项式段组成的函数,它们在连接点处具有一定的光滑性。
训练 RDE 的数据集来自 PDB-REDO,这是一个包含了 PDB 中精细化的 X 射线结构的数据库。蛋白质链根据 50% 的序列相似度进行聚类,得到 38,413 个链簇,然后按照 95%/0.5%/4.5% 的比例随机划分为训练集、验证集和测试集。在训练过程中,数据加载器随机选择一个簇,然后从簇中随机选择一条链,以保证平衡采样。我们将结构裁剪成包含 128 个残基的片段,首先选择一个种子残基,然后根据 C-β 距离选择其 127 个最近邻残基。为了模拟突变,我们掩盖了片段中 10% 的残基的转换子,并且对于那些与最近的被掩盖残基的 C-β 距离小于 8A ̊ 的残基的转换子,我们添加了噪声。
SKEMPI2 数据库,用于训练 ∆∆G 预测的模型。按照结构将数据集分成 3 个折叠,每个折叠包含了不出现在其他折叠中的独特的蛋白质复合物。两个折叠用于训练和验证,剩下的一个折叠用于测试。这种方法产生了 3 组不同的参数,并且保证了 SKEMPI2 中的每一个数据点都被测试一次。
在 SKEMPI2 数据集上评估 ∆∆G 预测。RDE-Network 超越了基线方法。最值得注意的是,RDE-Network 显著提高了每个结构的相关性,这对于实际应用更为重要。
SKEMPI2数据集是一个包含了蛋白质-蛋白质相互作用的突变数据的数据库,包含了以下信息:
- 突变的类型、位置和序列
- 突变对结合自由能的变化 (∆∆G)
- 突变对结合动力学的影响 (kon | koff | kd)
- 突变对结合热力学的影响 (∆H | ∆S | T∆S)
- 突变是否导致了结合的消失
- 突变的实验条件和参考文献
- 突变的蛋白质复合物的结构信息 (PDB ID | 链 ID | 分子 ID)
SKEMPI2数据集是在SKEMPI数据集的基础上扩展和更新的,包含了7085个突变的数据,其中1844个突变有动力学数据,443个突变有热力学数据,440个突变导致了结合的消失。SKEMPI2数据集是一个用于评估和训练蛋白质-蛋白质相互作用的突变预测模型的重要的基准数据集。
左图:每个结构的 Spearman 相关系数的分布。中图:实验测得的 ∆∆G 与 RDE-Linear 预测的 ∆∆G 之间的相关性。右图:实验测得的 ∆∆G 与 RDE-Network 预测的 ∆∆G 之间的相关性。
每个结构的 Spearman 相关系数与 MSA Transformer 和 RDE-Network 的预测之间的关系。橙色的叉号表示抗体-抗原复合物,蓝色的点表示其他类型的复合物。坐标轴的范围被裁剪到 [0, 1]。
其中,Spearman 相关系数是一种用于衡量两个变量之间的单调关系的非参数统计量,MSA Transformer 是一种基于多序列比对的蛋白质语言模型,RDE-Network 是一种基于转换子密度估计器(RDE)的突变预测模型。