Paper - 转角密度估计器 RDE (Rotamer Density Estimator) 算法

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/136002649

Paper: Rotamer density estimator is an unsupervised learner of the effect of mutations on protein-protein interaction

  • 转角密度估计器(Rotamer Density Estimator) 是一种无监督的学习器,用于突变对于蛋白质-蛋白质相互作用的影响

源码:https://github.com/luost26/RDE-PPI

RDE

华深智药 Helixon Research

RDE(Rotamer Density Estimator,转角密度估计器),用于预测氨基酸突变对蛋白质-蛋白质相互作用的影响,利用基于流的生成模型,来估计蛋白质侧链构象的概率分布,并且用熵来衡量柔性。RDE只需要蛋白质结构作为输入,不需要实验数据的监督。此外,RDE提取的无监督表示还可以用于下游的神经网络预测,以获得更高的准确度。RDE在预测突变对结合自由能的变化(∆∆G)方面,优于经验能量函数和其他机器学习方法。

这篇论文的主要创新点:

  • RDE使用生成模型来估计蛋白质侧链构象的概率分布的方法,可以有效地捕捉蛋白质的多样性和不确定性。
  • RDE使用熵来衡量蛋白质-蛋白质界面的柔性的方法,可以直观地反映突变对结合的影响。
  • RDE不需要实验数据监督的方法,可以从大规模的蛋白质结构数据库中自动学习,而不受数据稀缺和噪声的影响。
  • RDE表示可以作为下游预测模型的输入,进一步提高预测的准确度和泛化能力。

这篇论文的主要实验结果:

  • RDE在SKEMPI2数据集上的∆∆G预测,超越了基线方法,包括经验能量函数和其他机器学习方法。
  • RDE在每个结构的相关性上,显著提高了预测的质量,这对于实际应用更为重要。
  • RDE的无监督表示可以与其他特征结合,用于训练下游的神经网络模型,进一步提升预测的性能。
  • RDE的生成模型可以产生多种可能的侧链构象,用于分析蛋白质的柔性和突变的影响。

RDE-Network是一种基于流式生成模型的方法,用于预测氨基酸突变对蛋白质-蛋白质相互作用的影响。工作原理是:

  • RDE-Network使用一个变分自编码器(VAE)来学习蛋白质侧链构象的概率分布。VAE由一个编码器和一个解码器组成,编码器将蛋白质结构的输入转换为一个低维的隐变量,解码器将隐变量重构为蛋白质结构的输出。VAE的目标是最小化重构误差和隐变量的先验分布之间的散度。
  • RDE-Network使用一个熵估计器来计算蛋白质-蛋白质界面的柔性。熵估计器使用一个神经网络来近似隐变量的条件分布,然后利用重参数化技巧来采样多个隐变量,并用解码器生成多个侧链构象。熵估计器的目标是最大化隐变量的熵,以增加蛋白质的多样性和不确定性。
  • RDE-Network使用一个预测器来计算突变对结合自由能的变化(∆∆G)。预测器使用一个神经网络来接收蛋白质结构的输入和突变的信息,并输出∆∆G的值。预测器的目标是最小化预测值和实验值之间的均方误差。

RDE-Network的优点是它可以无监督地从大规模的蛋白质结构数据库中学习,而不需要实验数据的标注。它还可以利用生成模型的能力,来分析蛋白质的柔性和突变的影响,以及产生多种可能的侧链构象,用于进一步的研究。

蛋白质-蛋白质相互作用对许多生物过程至关重要,预测氨基酸突变对结合的影响对蛋白质工程很重要。虽然基于数据的深度学习方法已经显示出了潜力,但是标注的实验数据的稀缺仍然是一个主要的挑战。在这项工作中,我们提出了一种新的方法,使用蛋白质-蛋白质界面的构象柔性的变化来预测突变对结合的影响。我们的方法,命名为 Rotamer Density Estimator (RDE),采用了一个基于流的生成模型来估计蛋白质侧链构象的概率分布,并使用熵来衡量柔性。RDE 仅仅基于蛋白质结构进行训练,不需要结合亲和力变化的实验值的监督。此外,RDE 提取的无监督表示可以用于下游的神经网络预测,获得更高的准确度。我们的方法优于经验能量函数和其他基于机器学习的方法。

界面的 构象柔性(Conformational Flexibility) 在结合时通常会降低,如图:

CF

  • (A) Rotamer Density Estimator (RDE) 的总体架构,用于估计具有一个扭转角的 rotamers 的分布。
  • (B) 可逆的耦合层在不同的维度之间交替,使得能够对具有多个扭转角的 rotamers 的分布进行建模。

RDE

Rotamer:

Rotamer 是指蛋白质侧链的不同构象,它们之间可以通过扭转角的旋转相互转换。Rotamer 分布是指在一定温度和环境下,蛋白质侧链采取不同 Rotamer 的概率分布。

Spline-Based Bijective:

基于样条的双射(Spline-Based Bijective):指一种数学上的映射,它可以将一个集合中的每个元素唯一地对应到另一个集合中的一个元素,并且可以反向进行。基于样条的双射是一种使用样条函数来构造这种映射的方法,样条函数是一种由多个多项式段组成的函数,它们在连接点处具有一定的光滑性。

训练 RDE 的数据集来自 PDB-REDO,这是一个包含了 PDB 中精细化的 X 射线结构的数据库。蛋白质链根据 50% 的序列相似度进行聚类,得到 38,413 个链簇,然后按照 95%/0.5%/4.5% 的比例随机划分为训练集、验证集和测试集。在训练过程中,数据加载器随机选择一个簇,然后从簇中随机选择一条链,以保证平衡采样。我们将结构裁剪成包含 128 个残基的片段,首先选择一个种子残基,然后根据 C-β 距离选择其 127 个最近邻残基。为了模拟突变,我们掩盖了片段中 10% 的残基的转换子,并且对于那些与最近的被掩盖残基的 C-β 距离小于 8A ̊ 的残基的转换子,我们添加了噪声。

SKEMPI2 数据库,用于训练 ∆∆G 预测的模型。按照结构将数据集分成 3 个折叠,每个折叠包含了不出现在其他折叠中的独特的蛋白质复合物。两个折叠用于训练和验证,剩下的一个折叠用于测试。这种方法产生了 3 组不同的参数,并且保证了 SKEMPI2 中的每一个数据点都被测试一次。

在 SKEMPI2 数据集上评估 ∆∆G 预测。RDE-Network 超越了基线方法。最值得注意的是,RDE-Network 显著提高了每个结构的相关性,这对于实际应用更为重要。

DB

SKEMPI2数据集是一个包含了蛋白质-蛋白质相互作用的突变数据的数据库,包含了以下信息:

  • 突变的类型、位置和序列
  • 突变对结合自由能的变化 (∆∆G)
  • 突变对结合动力学的影响 (kon | koff | kd)
  • 突变对结合热力学的影响 (∆H | ∆S | T∆S)
  • 突变是否导致了结合的消失
  • 突变的实验条件和参考文献
  • 突变的蛋白质复合物的结构信息 (PDB ID | 链 ID | 分子 ID)

SKEMPI2数据集是在SKEMPI数据集的基础上扩展和更新的,包含了7085个突变的数据,其中1844个突变有动力学数据,443个突变有热力学数据,440个突变导致了结合的消失。SKEMPI2数据集是一个用于评估和训练蛋白质-蛋白质相互作用的突变预测模型的重要的基准数据集。

左图:每个结构的 Spearman 相关系数的分布。中图:实验测得的 ∆∆G 与 RDE-Linear 预测的 ∆∆G 之间的相关性。右图:实验测得的 ∆∆G 与 RDE-Network 预测的 ∆∆G 之间的相关性。

Spearman

每个结构的 Spearman 相关系数与 MSA Transformer 和 RDE-Network 的预测之间的关系。橙色的叉号表示抗体-抗原复合物,蓝色的点表示其他类型的复合物。坐标轴的范围被裁剪到 [0, 1]。

RDE

其中,Spearman 相关系数是一种用于衡量两个变量之间的单调关系的非参数统计量,MSA Transformer 是一种基于多序列比对的蛋白质语言模型,RDE-Network 是一种基于转换子密度估计器(RDE)的突变预测模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/368373.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

公交最短距离-算法

题目 给定一个一维数组,其中每一个元素表示相邻公交站之间的距离,比如有四个公交站A,B,C,D,对应的距离数组为,1,2,3,4,如下图示 给定目标站X和Y,求他们之间最短的距离 解题 遍历一次整个数组,…

Docker搭建MySQL8主从复制

之前文章我们了解了面试官:说一说Binlog是怎么实现的,这里我们用Docker搭建主从复制环境。 docker安装主从MySQL 这里我们使用MySQL8.0.32版本: 主库配置 master.cnf //基础配置 [client] port3306 socket/var/run/mysqld/mysql.sock [m…

三分钟学懂C语言关键字——const

1,const修饰普通变量 const类型变量名常量; //类型:int char short 等等 类型const变量名常量; //举例:const int a5; int const a5;这两种写法表示a的值不能够改变 当我们直接改变const修饰的普通变量时,编译器会报…

Map和Set的封装

目录 一、底层原理 二、红黑树的节点 三、仿函数 四、迭代器 4.1、迭代器的定义: 4.2、*:解引用操作 4.3、->:成员访问操作符 4.4、!、 4.5、迭代器的: 4.6、迭代器的-- 五、Map 六、Set 七、红黑树源码 一、底层原理 我们要知道&#…

Docker 安装篇(CentOS)

Docker社区版 Docker从1.13版本之后采用时间线的方式作为版本号,分为社区版CE和企业版EE。 社区版是免费提供给个人开发者和小型团体使用的,企业版会提供额外的收费服务,比如经过官方测试认证过的基础设施、容器、插件等。 1、Docker 要求 C…

【Redis】整理

对于现代大型系统而言,缓存是一个绕不开的技术话题,一提到缓存我们很容易想到Redis。 Redis整理,供回顾参考

JVM系列——垃圾收集器Parrlel Scavenge、CMS、G1常用参数和使用场景

背景 当前在Java领域,JDK 8版本仍然享有广泛的使用,它支持了Parallel Scavenge、CMS和G1这几种垃圾收集器。因此,为了在业务应用中更加高效地进行开发和性能调优,我们需要对这些垃圾收集器的工作原理和特性有一个全面的理解和认识…

【Linux】vim的简单使用

我们知道在Windows下的VS2019是一个集成开发环境,也就是说,集编辑,编译,调试等功能都放在了一起;但是在Linux下,这些步骤都是分开的,我们这篇博客就来说一说vim这个编辑器,它只有编辑…

Android平台如何实现RTSP转GB28181

为什么要做GB28181设备接入侧? 实际上,在做Android平台GB28181设备接入模块的时候,我们已经有了非常好的技术积累,比如RTMP推送、轻量级RTSP服务、一对一互动模块、业内几乎最好的RTMP|RTSP低延迟播放器。 Android平台GB28181接…

clickhouse在MES中的应用-跟踪扫描

开发的MES,往往都要做生产执行跟踪扫描,这样会产生大量的扫描数据,用关系型数据库,很容易造成查询冲突的问题。 生产跟踪扫描就发生的密度是非常高的,每个零部件的加工过程,都要被记录下来,特别…

在Linux中对Nginx进行安全加固

准备工作 在IP为x.x.x.x的服务器上安装nginx,确保Linux系统为nginx环境。 检查nginx是否配置nginx账号锁定策略 配置nginx账号锁定策略,降低被攻击概率。 第一步,查看nginx的锁定状态。 命令:passwd -S nginx 若结果出现“P…

vivado 制定执行策略

制定执行策略 策略是一组到工具的开关,这些开关在预先配置的一组选项中定义用于合成应用程序或在实现期间运行的各种实用程序和程序。每个主要版本都有特定于版本的策略选项。 视频:有关更多信息,请参阅以下内容:Vivado Design …

在Flutter中调用Android的代码

参考 【Flutter 混合开发】嵌入原生View-Android 默认使用Android studio 和 Kotlin 基本配置 创建flutter项目 在终端执行 flutter create batterylevel添加 Android 平台的实现 打开项目下的android/app/src/main/kotlin 下的 MainActivity.kt 文件。 我这里编辑器有…

MicroPython ESP32开发:快速参考

ESP32是使用非常广泛的一款微处理器,集成了WiFi和蓝牙模块,根据性能和应用场景的不同有很多不同的版本,本文是ESP32开发板在MicroPython环境下运行的快速参考,对于首次使用这个开发板在MicroPython下进行开发的应该会有一定的帮助…

会计的记账凭证

目录 一. 记账凭证的填制与审核1.1 收付款凭证1.2 转账凭证1.3 单式记账凭证 二. 记账凭证的编号 \quad 一. 记账凭证的填制与审核 \quad \quad 1.1 收付款凭证 \quad 注意︰ 凡是涉及货币资金之间收付款的业务如将库存现金存入银行或从银行提取现金等类经济业务。在实际工作中…

探索设计模式的魅力:为什么你应该了解装饰器模式-代码优化与重构的秘诀

设计模式专栏:http://t.csdnimg.cn/nolNS 开篇 在一个常常需要在不破坏封装的前提下扩展对象功能的编程世界,有一个模式悄无声息地成为了高级编程技术的隐形冠军。我们日复一日地享受着它带来的便利,却往往对其背后的复杂性视而不见。它是怎样…

幻兽帕鲁服务器多少钱?价格PK阿里云腾讯云华为云

2024年幻兽帕鲁服务器价格表更新,阿里云、腾讯云和华为云Palworld服务器报价大全,4核16G幻兽帕鲁专用服务器阿里云26元、腾讯云32元、华为云26元,阿腾云atengyun.com分享幻兽帕鲁服务器优惠价格表,多配置报价: 幻兽帕鲁…

【C++】C++入门— 类与对象初步介绍

C入门 1 认识面向对象2 类的引入3 类的定义类的定义方式 4 类的访问限定符及封装访问限定符封装 Thanks♪(・ω・)ノ谢谢阅读!下一篇文章见!!! 1 认识面向对象 C语言是面向过程的,关注…

位运算之妙用:识别独特数字(寻找单身狗)

目录 找单身狗1 图解: 代码如下: 找单身狗2 图解: 代码如下: 寻找单身狗1 从数组中 的1 2 3 4 5 1 2 3 4 中找出没有另一个相同的数与其匹配的数 这个问题的原理是利用异或运算的性质。异或运算(XOR&#xff09…

java学习03 判断和循环

一 流程控制语句 1.流程控制语句分类 顺序结构 判断和选择结构(if, switch) 循环结构(for, while, do…while) 2. 顺序结构 顺序结构是程序中最简单最基本的流程控制,没有特定的语法结构,按照代码的先后顺序,依次执行,程序中…