Paper - CombFold: predicting structures of large protein assemblies 论文简读

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/136143199

CombFold: predicting structures of large protein assemblies using a combinatorial assembly algorithm and AlphaFold2

  • CombFold: 使用组合装配算法和 AlphaFold2 预测大型蛋白质组装的结构

Combinatorial Assembly Algorithm:组合装配算法

GitHub: https://github.com/dina-lab3D/CombFold

CombFold 算法,用于预测大型蛋白质复合物的结构,利用由 AlphaFold2 预测的亚基之间的成对相互作用。尽管大型蛋白质复合物的预测,仍然具有挑战性,但是 CombFold 在两个包含 60 个大型非对称组装的数据集中准确地预测了 72% 的复合物(TM分数>0.7)。此外,与相应的 Protein Data Bank 条目相比,预测的复合物的结构覆盖率提高了 20%。CombFold 还支持基于交联质谱的距离约束集成和可能复合物计量的快速枚举,其高准确性使其成为扩展单体蛋白质结构覆盖范围的有前途的工具。这一研究对于理解蛋白质功能、解释突变效应以及药物发现等方面具有潜在应用价值,尤其是对于细胞中的多分子组装体。虽然传统的结构表征技术(如X射线晶体学和核磁共振光谱)在这方面取得了一些进展,但是大型组装体的结构决定仍然具有挑战性。近年来,深度学习模型(如 AlphaFold2 和 RosettaFold)的发展极大地提高了我们预测高精度蛋白质结构的能力。AlphaFold2不仅适用于预测单链蛋白质,还可以用于预测蛋白质复合物。CombFold 的出现为预测大型蛋白质组装的结构带来了新的可能性,对于拓展蛋白质结构研究具有重要意义。

深度学习模型,如 AlphaFold2 和 RosettaFold,能够实现高精度的蛋白质结构预测。然而,由于尺寸较大和多个亚基之间的相互作用复杂,大型蛋白质复合物的预测仍然具有挑战性。在这里,我们提出了 CombFold,一种组合和分层的装配算法,用于利用 AlphaFold2 预测的亚基之间的成对相互作用来预测大型蛋白质复合物的结构。在两个包含 60 个大型非对称装配的数据集中,CombFold 准确地预测了前 10 个预测中 72% 的复合物(TM-score >0.7)。此外,预测的复合物的结构覆盖率比相应的蛋白质数据银行条目高出 20%。我们将该方法应用于 Complex Portal 中已知化学计量但未知结构的复合物,并获得了高置信度的预测。CombFold 支持基于交联质谱的距离约束的集成和可能的复合物化学计量的快速枚举。CombFold 的高精度使其成为扩展单体蛋白质结构覆盖率的有前途的工具。

CombFold 的概述

CombFold 的输入是亚基序列和可选的距离约束,输出是一组组装好的结构。一个亚基可以是一条链或一个结构域。该方法基于通过成对相互作用进行组合和分层的组装。原则上,复合物的大小没有限制,因为复合物可以被划分为适合 GPU 内存限制的亚基,而我们当前的实现支持多达 128 个亚基。CombFold 分为三个主要阶段:(1) 通过 AFM 生成亚基间的成对相互作用,(2) 创建亚基和相互作用的统一表示,(3) 亚基的组合组装。

在第一阶段,我们对所有可能的亚基配对应用 AFM。在此之后,我们为每个亚基创建三个额外的 AFM 模型,大小从三到五个亚基不等,包括与给定亚基有最高置信度得分的预测成对相互作用的亚基 (方法)。其基本概念是,一些超过两个亚基的组合形成了交织的结构,因此它们都应该被 AFM 预测为一个单一的模型 (方法)。

在第二阶段,为了为第三阶段的组装准备输入,为每个亚基选择一个单一的代表性结构,并计算代表性亚基之间的变换。这是必需的,因为每个亚基有多个来自成对 AFM 运行的 AFM 结构,而在组装阶段对它们进行枚举是不可行的。代表性亚基结构是根据该亚基的最大平均预测局部距离差异测试 (plDDT) 得分,从预测的模拟亚复合物中提取出来的。接下来,我们使用来自 AFM 模型的所有相互作用的亚基对 (Cα–Cα 距离 <8 Å) 来提取它们在全局参考系中的代表性结构之间的成对变换 (3D 中的旋转和平移)。通过代表性亚基结构和它们之间的变换来表示输入,使我们能够用 AFM 相互作用而不是基于对接的相互作用来应用组合组装算法。每个变换都与基于 AFM 预测的对齐误差 (PAE) 得分的分数相结合 (方法)。

在第三阶段,我们使用 N 个代表性亚基结构、它们之间的成对变换以及可选的距离约束,对整个复合物进行分层和组合组装。距离约束 可以来源于交联质谱、FRET 或其他信息源。如果一个蛋白质链被划分为亚基 (例如,结构域),则添加距离约束来强制序列连通性。这个组合组装阶段包含 N 次迭代,其中在第 i 次迭代中,我们构造 K 个大小为 i 的亚复合物。K 的值必须足够大,以包含各种亚复合物。大小为 i 的亚复合物是由之前计算的大小为 1 到 i−1 的亚复合物的配对构造的。例如,大小为 i 的亚复合物可以通过合并大小为 3 和 i−3 的亚复合物来计算。如果它们没有任何共享的亚基,并且亚基的总数是 i,我们就尝试合并一对亚复合物。在合并过程中,通过迭代所有的亚基对 (每个亚复合物中的一个) 并在整个亚复合物上应用这两个亚基之间的已知变换,生成新的亚复合物。接下来,我们丢弃生成的有严重空间冲突或链连通性违反的亚复合物。计算距离约束的满足度,并丢弃低分的亚复合物。剩余的亚复合物根据用于组装的变换的分数进行聚类和评分,并将前 K 个亚复合物保存到下一次迭代中。

我们方法产生的模型置信度得分是基于 AFM PAE 得分的。每个成对相互作用 (由变换表示) 都有一个基于 PAE 的得分 (方法)。组装结构的置信度,是用于组装的变换的加权得分,其中权重与每个变换合并的亚基子集的大小成比例。

基准数据集(Benchmark datasets):我们在四个基准数据集上,测试了该方法。

  • 基准1数据集:旨在测试该方法在大型异源复合物上的性能。具有许多不同链的结构,通常不具有明显的对称性,这使得组装更具挑战性,因为需要找到并组合许多不同的成对相互作用。基准1数据集包含35个结构,每个结构有5到20条链,每个复合物至少有5条不同的链,由1300到8000个氨基酸组成。该数据集只包含2018年4月之后,发布的复合物,AFMv2 没有在这些复合物上进行训练。
  • 基准2数据集:与基准1数据集类似,用于测试最近发布的AFMv3。它包含25个复合物,每个复合物有5到30条链,由2000到18000个氨基酸组成,这些复合物不在AFMv3的训练集中(2021年9月之后发布)。
  • 基准3数据集:用于评估 MoLPC 方法。它包含153个复合物,范围在500到10000个氨基酸之间,每个复合物有10到30条链。该数据集主要包含对称的同源体(98个复合物由一条独特的链组成,27个复合物由两条独特的链组成)。
  • 基准4数据集:包含七个CASP15目标,每个目标超过3000个氨基酸。

CombFold 评估基准:

成功率定义为在前 N 个最佳评分预测中,具有 TM-score 超过 0.7 的模型的基准案例的比例。a是对于 CASP15 的目标,完全自动化的 CombFold 的成功率为 57%。手动将蛋白质划分为域导致成功率提高到 86%。b是我们将 CombFold 与 Elofsson 小组使用 AFM 和 MoLPC 的 CASP15 提交进行了比较。

评估

准确性评估(Accuracy assessment)

为了评估模拟结构的准确性,我们依赖TM-score,它评估了复合物的全局准确性,类似于CASP和MoLPC。与CAPRI评估类似,如果TM-score高于0.7,则认为模型是可接受的质量;如果TM-score高于0.8,则认为模型是高质量的。成功率是以基准复合物中具有可接受或高质量模型的比例来衡量的,这些模型属于前N个得分最高的预测。

应用于预测未知结构的复合物 (Application for predicting complexes without known structure)

Complex Portal 是一个数据库,包含了关于稳定的大分子复合物的人工整理的信息。我们查询了该数据库中所有超过5000个氨基酸、已知化学计量比和没有与任何实验确定的结构同源性(方法)的复合物,得到了来自三种生物(人类、小鼠和酵母)的28个复合物。我们为其中七个复合物找到了高可信度的结构。 其中一个高可信度的预测是人类 Elongator 全酶复合物,它由六种蛋白质 Elp1-6 组成,每种各有两份。Elp123亚基的二聚体与Elp456亚复合物相互作用。酵母的部分同源结构是可用的,其中较大的亚复合物最近发表了。CombFold 预测的结构与已发表的同源结构一致。此外,预测的结构可以用来解释突变的影响。我们从 ClinVar 中提取了所有的致病性突变,并根据预测的结构将它们分类为可能破坏蛋白质核心或蛋白质-蛋白质相互作用的突变。

配位数预测 (Stoichiometry prediction)

将我们的方法,应用于已知的相互作用和复合物的主要障碍是需要配位数信息。我们的组装算法,可以应用于一组不需要配位数的亚基,使用 AFM 预测的代表性结构和亚基间的成对相互作用。不同的配位数可以使用相同的 AFM 模型作为输入来枚举,而置信度预测可以用来估计正确的配位数。 这使得我们可以只进行一次资源密集型的 AFM 计算,并用快速的组装算法来采样可能的配位数。在这里,我们展示了这种应用的两个例子。

  • 第一个是线粒体 ATP 合成酶与结合的天然心脏磷脂的复合物,它包含了十个ATP合成酶亚基c,形成了一个对称的圆柱体。我们使用 CombFold 来预测14种配位数的复合物:2-15个亚基c和其他所有亚基的正确数量。对于10、11和14个亚基c的组装,预测的置信度显著增加,表明置信度可以用来缩小可能的配位数的范围。
  • 另一个例子是来自 Paraburkholderia phytofirmans 的 PelC 十二聚体。这是一个由12个脂蛋白组成的对称复合物。我们使用 CombFold 来预测14种配位数(2-15个PelC亚基)的复合物。对于13个或更多的亚基,没有一种结构可以在没有严重的空间冲突的情况下组装。对于11或12个亚基的组装,预测的置信度出现了一个峰值。这不仅表明置信度是配位数的一个指标,而且组装的能力也是另一个指标。

Stoichiometry 是一个英文单词,中文意思是化学计量。它是指化学反应中各物质的量的相互关系,即反应物和生成物在化学反应前、反应中和反应后的量之间的关系。Stoichiometry 这个词来自于希腊语的 stoicheion(意为“元素”)和 metron(意为“测量”)。Stoichiometry 在化学中有很多用途,例如计算反应物和生成物的质量或体积,评估反应的完全性和效率,制备和合成物质等。

配位数预测

  • a. 结合了天然心脏磷脂(PDB 6TDX)的线粒体 ATP 合成酶的结构。圆圈内是由十个 c 亚基复制而成的对称结构。
  • b. CombFold 根据 c 亚基的复制数量预测的置信度。
  • c. PelC 十二聚体(PDB 5T11)的结构。
  • d. CombFold 根据输入配位数中的复制数量预测的 PelC 十二聚体的置信度。

Stoichiometry

ATP 合成酶的英文缩写是 Adenosine TriPhosphate Synthase,三磷酸腺苷合成酶,是一种能够利用质子的电化学势能,通过改变蛋白质的结构来进行三磷酸腺苷(ATP)的合成的酶。ATP是细胞中最常用的能量分子,由二磷酸腺苷(ADP)和无机磷酸根(Pi)形成。ATP合成酶由两个主要的亚基 Fo 和 F1 组成,具有允许 ATP 产生的旋转运动机制。

CombFold 装配算法的三个阶段。输入是复合物中亚基的序列。

  1. 使用 AFM 对所有成对和一些较大的亚基子集进行结构预测。
  2. 从所有预测的结构中选择代表性的亚基结构,然后计算预测的结构相对于代表性结构的所有成对变换。
  3. 使用计算出的成对变换对亚基结构进行组合和分层的装配。

在每次迭代中,使用一个成对变换将两个之前创建的子复合物连接起来,形成新的子复合物。

序列

CombFold 在基准测试 1 上的准确性。

  • a. CombFold (蓝色) 和 AFM (橙色) 的 top-N (N = 1, 5, 10) 成功率。AFM 只产生了五个预测。
  • b. CombFold 的预测置信度与 TM-score 的关系。
  • c. AFM 产生成对相互作用的成功率,以 CombFold 产生的模型的成对连通性与 TM-score 的关系来衡量。
  • d. AFM 模型与 CombFold 模型的 TM-score 的比较。
  • e. eIF2B:eIF2 复合物:CombFold 模型 (左) 和冷冻电镜结构 (右)。该模型包含了超过 1,500 个额外的氨基酸 (用红色圆圈标出)。
  • f. GID E3 泛素连接酶复合物:高质量的 CombFold 模型 (左),冷冻电镜结构 (中) 和不准确的 AFM 模型 (右)。
  • g. 多重抗性和 pH 适应性 (Mrp) 复合物:不准确的 CombFold 模型 (左),冷冻电镜结构 (中) 和高质量的 AFM 模型 (右)。
  • h. 人类线粒体转运蛋白 TIM22:由 CombFold 集成实验交联数据产生的高质量模型 (左),冷冻电镜结构 (中) 和不准确的 AFM 模型 (右)。交联显示为蓝色线条。

a-d

e-h

分层组装相比全局 AFM 的优势

  • a. 复合物 I 的早期 PP 模块组装中间体的实验结构 (左) 和相互作用图 (右)。节点的颜色对应于亚基的颜色。边显示了所有有紧密接触的氨基酸的亚基对。边上的标签是 AFM 在 CombFold 的第一阶段生成的最高 DockQ 和平均 PAE。
  • b–d. 预测的模型 (上) 和它们的成对相互作用的质量 (DockQ,PAE) 在相互作用图 (下) 上的映射,分别对应于 AFM (b),CombFold © 和带有交联的 CombFold (d)。准确的成对相互作用 (DockQ >0.23) 用红色表示。交联用蓝色线显示。CombFold 的组装顺序在图上用括号里的数字 (蓝色) 表示。

a-d

PAE,即Predicted Aligned Error,是一种由AlphaFold系统产生的量化输出,用于评估预测的蛋白质结构与真实蛋白质结构之间的位置误差。PAE可以帮助科学家判断预测的蛋白质模型中不同部分的相对位置和方向的可信度。PAE的计算方法是,如果预测的蛋白质结构和真实的蛋白质结构在某个残基上对齐,那么该残基在预测结构中的位置误差就是PAE的值。PAE的值越低,表示预测结构的可信度越高;PAE的值越高,表示预测结构的不确定性越大。PAE可以用二维的交互式图表来展示,其中坐标(x, y)处的颜色表示残基x在预测结构和真实结构在残基y上对齐时的位置误差。用户也可以下载原始的PAE数据,以JSON格式存储的,方便用编程语言如Python进行进一步的分析或可视化。

亚基的定义 (Definition of Subunits)

亚基是一个序列,可以是复合物的一个独立链或者链的一部分(例如,某个结构域)。有时候,需要将一个链划分为多个亚基——要么是因为这个链太长,无法被 AFM 预测,要么是因为结构域之间有一个长的连接器,而且不在空间上接近。如果一个链太长,无法与其他链一起建模,或者如果已知它包含一个长的结构域间连接器,最好是根据预测的无序区域,使用诸如 IUPred3 这样的工具,将它划分为结构域。
在 Benchmark 4 中,每个亚基都被定义为一个单链,根据 CASP 提供的定义。两个长单链的目标(T1165 和 T1169)根据 IUPred3 被划分为亚基。连接结构域的预测无序区域,没有被包含在预测中。在其他所有的基准测试中,一个完整的链被用作亚基,根据 PDB 条目的 SEQRES 段的定义,适用于几乎所有的情况。由于 Benchmark 2 和 3 中有很多长链,我们选择了一个简单的分割方法,而不依赖于预测的无序区域。在 Benchmark 2 中,五个复合物中的长链(PDBs 8HIL, 8F50, 8ADL, 8A3T 和 7OZN)被均匀地划分为亚基,直到每一对亚基都能被 AFMv3 预测。在 Benchmark 3 中,两个复合物中的长链(PDBs 1I50 和 6KWY)被划分为两个亚基,一个包含前 1,000 个氨基酸,另一个包含剩余的部分。对于 Complex Portal 的预测,UniProt 序列被类似于 Benchmark 2 的方式划分。

AlphaFold2 结构预测 (AlphaFold2 Structure Prediction)

在第一阶段,我们对每一对亚基运行 AFM。蛋白质,无论是同源体还是异源体,都有能力形成交织的结构,其中,相互作用的链交换小片段或紧凑的蛋白质子结构。这些相互作用,可以导致各种各样的四级结构,包括二聚体或更高级别的寡聚体。为了考虑这一点,AFM 预测被应用于三到五个亚基的更大的子集,如下所示。对于每个亚基,我们根据成对的 PAE 相互作用分数选择最有可能相互作用的亚基,并且,用它们构建更大的子集(方法)。在这里,我们将计算限制在输入序列的总长度为1800,这可以在标准的 GPU 上运行。 AlphaFold2 的运行是使用 ColabFold 的默认参数(没有模板)进行的,每次运行产生五个结构。亚基被作为单独的链输入。对于基准测试1和3,我们使用 AFMv2 和 AlphaFold-ptm 获得了十个结构模型。为了与基准测试1上的 CombFold 进行比较,只使用了端到端的 AFMv2。对于基准测试2,CASP15 和 Complex Portal 的预测,我们只使用了 AFMv3,因为没有在这些目标上进行训练。基准测试2上的 CombFold 预测与端到端的 AFMv3 进行了比较。

提取代表性的亚基结构 (Extracting Representative Subunit Structures)

从 AFM 预测中得到的每个亚基结构都根据平均 plDDT 分数进行排名,该分数使用 AFM 对成对和更大子集的运行得到的所有预测结构进行计算。得分最高的结构被选为组装阶段的‘代表性亚基结构。还考察了其他可能的排名分数,包括结构的平均 PAE 分数,最大的 plDDT 或者与 AFM 预测中的其他亚基的相互作用分数。在所描述的可能性之间没有显著的差异;选择了平均 plDDT,因为易于计算且更广泛使用。

计算两两变换 (Computing Pairwise Transformations)

该方法根据 AlphaFold2 的相互作用模型,为每一对亚基计算可能的变换列表。所有的亚基对都是从多亚基预测中提取的。对于每一对,如果它们是相互作用的(Cα–Cα 距离 <8 Å),则计算亚基之间的变换。我们可以标记两个亚基 A 和 B 的预测相互作用结构,以及这些亚基的两个代表性结构 A′ 和 B′。注意,即使 A 和 A′ 是相同的分子,不同的 AFM 模型中的不同相互作用会导致 A 和 A′ 有不同的结构和不同的参考系。我们想要计算代表性结构 B′ 到 A′ 之间的变换,使得相互作用界面尽可能接近于检测模型对 A 和 B 的相互作用界面。为了实现这一点,我们计算了将 A′ 对齐到 A 的变换 T1,该变换是通过计算最小化均方根偏差(RMSD)78,79 得到的。类似地,我们计算了将 B′ 对齐到 B 的变换 T2。最后,所需的变换由 T2 ∘ T1−1 组成。当一个亚基有一个无序区域时,就会出现一个问题——这个区域在每个预测模型中会有不同的折叠方式,这会显著影响对齐和结果变换。因此,在对齐过程中,我们只考虑那些具有高 plDDT 分数(>80)或至少一半具有最高 plDDT 的氨基酸。 每个变换都使用两个亚基的 PAE 分数进行评分。PAE 分数由 AFM 计算,用于预测结构中任意两个氨基酸之间的对齐误差。PAE 分数的值在 0 到 30 之间,较低的值对应较低的预测误差。变换分数通过方程 max{1, 100 − P2 /4} 计算并归一化到 1 到 100 之间,其中 P 是两个相互作用亚基的 PAE 的平均值。这个表达式赋予了分数二次性质,使得低 P 分数(通常至少为 1)之间的小差异有意义,而对于高 P 分数,变换分数之间没有太大差异,因为它们被预测为不准确。 我们考虑了多种评分的可能性,包括 PAE、最小 PAE、仅相互作用氨基酸的界面 PAE、界面预测的 TM-分数(ipTM)和界面 pLDDT(ipLDDT),这些都是广泛使用的12,35,80。所有的分数与 Cα RMSD 的相关性都相当(Pearson r 约为 0.5–0.6,扩展数据图 7a–e)。我们基于 PAE 的分数的优点是,不正确的界面始终有低分数(扩展数据图 7e)。我们对所有 AFM 两两相互作用模式的平均 PAE 分布与被选为 top-1 组装模型的相互作用模式的 PAE 分布的分析显示,CombFold 确实选择了具有较低 PAE 分数的相互作用(扩展数据图 7f)。

亚基的组合式组装 (Combinatorial Assembly of Subunits)

组装阶段的输入是,亚基的代表性结构列表,和亚基之间的两两变换列表。输出是,包含所有亚基的组装复合物列表。如果所有的亚基,都不能组装,算法输出包含最大数量,输入亚基的部分复合物。组装算法进行 N 次迭代,其中 N 是输入亚基的数量。在每次迭代中,创建的子复合物的大小增加,直到第 N 次迭代,计算的子复合物包含所有输入亚基。 每次迭代包含三个阶段:子复合物扩展、过滤和聚类。
第一阶段基于前一次迭代的较小子复合物和算法提供的两两变换创建新的子复合物。每个新的子复合物根据生成它的两两变换的分数进行评分。
第二阶段过滤掉亚基之间有空间冲突的组装子复合物。
第三阶段将具有相同亚基组成的子复合物聚类,并保存 K 个最高分的子复合物。
最后,最终结构可以选择性地放松以解决空间冲突。

扩展阶段 (Expansion stage)

在这个阶段,我们尝试连接没有重叠亚基,并且总共有 i 个亚基的子复合物对,其中 i 是迭代次数。对于两个子复合物(大小为 k 和 i − k)中的每一对亚基,根据这些亚基之间的输入两两变换,计算一个新的更大的子复合物。变换应用于第二个子复合物的所有亚基,从而将其带到第一个子复合物。 对于具有超过五个相同亚基并且使用相同的两两亚基变换的对称子复合物,有一个特殊的奖励分数。这个奖励分数补偿了基于两两亚基相互作用的组装,与 AFM 的完整组装相比,如果形成了对称结构,可能会导致较低的 PAE 分数。因此,如果基于两两亚基变换生成了一个对称结构,新的分数计算为 (S + S × (100 − S)/100),其中 S 是变换的原始分数。

过滤阶段 (Filtering stage):

由于两两变换可能至少部分不准确,应用其中一些,可能导致子复合物,出现空间冲突或违反距离约束和限制。空间冲突检查所有 plDDT 高于 80 的骨架原子,因为代表性结构可能包含无序区域,这些区域在组装过程中保持静态,很可能与其他亚基发生冲突。如果一个亚基的骨架原子的中心,穿透另一个亚基的表面超过 1 Å,就认为它是冲突的。空间冲突测试对所有亚基对进行,每个子复合物一个。如果一个亚基的超过 5% 的骨架原子与另一个亚基冲突,该子复合物就被过滤掉。 距离约束施加在同一链上的不同亚基上,以强制序列连通性。如果两个亚基之间的连续氨基酸的距离,大于连接氨基酸的数量乘以 3Å,该子复合物就被丢弃。

即:

CombFold 过滤可视化 (CombFold Filtering Visualization)。对于每个装配树,在每一步,CombFold 将两个先前装配的子复合物,通过应用输入的亚基间变换,组合成许多新的子复合物。这些新的子复合物被过滤掉,以丢弃次优的子复合物。

  • 第一个过滤器是通过允许的不同亚基之间的氨基酸 立体碰撞(Steric clashes) 的阈值,例如,这里的阈值是 5%。
  • 第二个过滤器是通过不满足子复合物中存在的足够的距离约束,这里的阈值是 70%。 (Crosslink satisfaction)
  • 最后一个过滤器根据使用的变换分数和距离约束满足率对每个子复合物进行评分。(Low-Scores)

即:

CombFold filtering visualization

聚类阶段 (Clustering stage)

RMSD 聚类是对包含相同亚基的子复合物进行聚类的过程。我们使用了迭代聚类,从 RMSD 阈值为 1 Å 的最佳评分子复合物开始。然而,缺省的 RMSD 计算并不考虑相同亚基的多个拷贝。这意味着对于一个包含 p 个相同亚基的子复合物,将有 p! 个等价的子复合物。在这种情况下,为了比较两个子复合物,我们需要找到不同子复合物之间的亚基拷贝的对应关系,使得 RMSD 最小化。不正确的对应关系将导致相似的子复合物具有高的 RMSD。为了避免枚举 p! 个配置,我们实现了一种启发式方法,只对亚基的质心进行叠加,使用初始顺序的亚基对应关系。在初始叠加之后,每对相同亚基的对应关系被交换,然后使用质心重新计算 RMSD。如果 RMSD 降低了,我们就继续使用新的对应关系。交换过程重复进行,直到没有进一步的 RMSD 降低。最终的亚基对应关系被用来计算两个子复合物之间的 Cα RMSD。 聚类之后,只有 K 个最佳评分的大小为 i 的子复合物被保存用于下一次迭代(在展示的基准测试中 K = 100)。聚类有助于增加存储的子复合物的多样性,避免次优的子复合物在下一次迭代的子复合物集合中占据优势。

松弛 (Relaxation)

由于使用了代表性的亚基结构,CombFold 可能会在界面处产生立体碰撞,主要是在侧链上。因此,建议使用类似于 AlphaFold 的 Amber81 力场,通过梯度下降法对结构进行额外的松弛步骤。这一步骤显著降低了由 Molprobity82 计算的碰撞分数,同时对结构的影响不大(所有基准 2 的目标中 Cα RMSD 的变化 <1 Å)。

即:

Relaxation

数据整合 (Data integration)

为了考虑亚基之间的已知相互作用,我们根据数据,将输入的亚基分组成子复合物。每个这样的组,将分别进行装配,然后将各组和剩余的亚基,装配成一个更大的复合物。因此,这些信息被用来强制执行一个与已知相互作用一致的特定装配顺序。 交联质谱信息,被转换成距离约束。如果 Cα–Cα 距离低于一个距离阈值,那么一个约束被认为是满足的。阈值由用户根据交联剂的长度来定义。在由于相同亚基的多个拷贝而导致的交联残基的歧义的情况下,我们要求交联限制的一个可能的距离低于距离阈值。CombFold 以下面的方式考虑交联数据和亚基结构的不确定性。数据的不确定性是通过根据实验证据(w1)对每个交联进行加权来考虑的,例如假阳性发现率83。为了考虑亚基结构的不确定性,每个交联被两个交联氨基酸的平均 AFM pLDDT 分数(w2)加权。一个子复合物的满足率被计算为满足的距离约束的权重之和除以给定子复合物内所有约束的权重之和。每个子复合物的分数被满足率乘以。因此,随着更多的约束被满足,分数增加,使得子复合物避免被过滤的可能性更大。一个子复合物在过滤阶段也会被过滤掉,如果它违反了一些最小百分比的约束(默认 10%)。

s a t i s f a c t i o n = ∑ s a t i s f i e d w 1 × w 2 ∑ a l l w 1 × w 2 satisfaction = \frac{\sum_{satisfied}w_{1}\times w_{2}}{\sum_{all}w_{1}\times w_{2}} satisfaction=allw1×w2satisfiedw1×w2

预测置信度 (Predicted confidence)

CombFold 使用组合装配算法和 AlphaFold2 预测组装结构的置信度,作为组装阶段使用的 成对变换分数( S T S_{T} ST) 的加权分数。为了计算给定 变换( W T W_{T} WT) 的权重,我们使用变换和复合体装配树,将复合体分割成两个子复合体。变换的权重是较小子复合体中的氨基酸数量。这个想法是,一些变换对复合体的最终全局结构,有更大的影响,因为它们影响了更多的氨基酸。最终分数是由组装阶段,使用的所有变换的总权重归一化的。

p r e d i c t e d   c o n f i d e n c e = ∑ T W T × S T ∑ T W T predicted \ confidence = \frac{\sum_{T}W_{T}\times S_{T}}{\sum_{T}W_{T}} predicted confidence=TWTTWT×ST

运行时间 (Runtimes)

CombFold 的运行时间主要取决于 AFM 对子单元对和较大子集的预测时间。在 Benchmark 1 中,AFM 预测的平均 GPU 时间分别为 709 和 1429 秒,分别针对子单元对和较大子集,运行在内存为 24 GB 的 NVIDIA A30 上。然而,由于我们的方法需要对子单元对进行 O(N2) 次 AFM 预测,对较大子集进行 O(N) 次 AFM 预测,所以每个复合体的平均总GPU 时间分别为7093和15404秒,分别针对子单元对和较大子集。
需要注意的是,CombFold 的第一阶段执行 AFM 计算,可以简单地分配到可以并行运行的较短的 AFM 任务中。相比之下,AFM 对于整个复合体进行端到端建模所需的平均 GPU 运行时间为 5154 秒,运行在内存为 48 GB 的 NVIDIA RTX A6000 上(n = 17,只考虑了AFM能够产生模型的情况)。
需要注意的是,CombFold 的运行时间对于包含更多独特链的异源复合体来说比相似大小的同源复合体要高,因为多个相同的子单元将使用相同的 AFM 相互作用模型。Benchmark 1 旨在包含具有许多独特链的异源复合体;同源复合体,如 Benchmark 3 中的,具有较低的运行时间。 例如,一个具有十个相同链的对称结构,在CombFold中所需的 GPU 时间比朴素的端到端 AFM 要少得多(因为我们只需要为两个链的副本运行一个任务,这比十个链的副本要快得多)。统一表示和组合装配阶段的运行时间与 AFM 相比可以忽略不计,在不同的基准测试中平均为 80-600 秒,运行在单个中央处理器上。与生成子单元对相互作用阶段相比,装配阶段对于具有更高数量独特链的异源复合体来说更快。装配时间比MoLPC快得多,后者报告的平均装配阶段需要 13000 秒。

运行时间分析。CombFold 运行时间与独特子单元数量的关系。根据 Benchmark 1 中的所有情况计算。皮尔逊相关系数为 0.74。

runtime

成对连通性 (Pairwise connectivity)

给定一组成对变换,和一个目标复合体结构,这个指标衡量,在目标复合体中的子单元之间的成对变换,有多少在这组变换中存在。构建一个图,其中每个节点是目标复合体中的一个子单元,如果在这组变换中,存在一个变换,使得这些子单元之间,相对于目标复合体中的变换的DockQ分数达到一个可接受的水平 (DockQ >0.23) ,则存在一条边。我们计算这个图的连通分量。成对连通性比率定义为最大连通分量中的氨基酸数量,与复合体中的总氨基酸数量的比值。图中的单个连通分量 (成对连通性1.0) 表明,存在可以导致复合体装配的成对变换。相反,多个连通分量表明,用现有的变换无法进行准确的装配。

与 HADDOCK、AlphaLink 和 RosettaFold2 的比较

HADDOCK 和 AlphaLink 使用模拟的交联实验数据在 Benchmark 2 上进行了测试。对于 HADDOCK (v2.4 with CNSv1.3),输入的亚基是与 CombFold 组装时使用的相同的代表性亚基。对于 AlphaLink (v2.2),使用了一个在 Cα-Cα 距离上有 25 Å 上限的约束条件训练的模型。RosettaFold2 使用 RF_apr23 模型权重在没有交联数据的情况下对 Benchmark 2 进行了测试。

CombFold 在 Benchmark 2 上的准确性。

  • (a) CombFold (蓝色)、AFMv3 (橙色) 和 RosettaFold2 (绿色) 的 Top-N (N = 1, 5, 10) 成功率。
  • (b) AFMv3 模型与 CombFold 模型的 TM-分数,对 Top-5 结果进行比较
  • © CombFold (蓝色)、带交联的 CombFold (青色)、AlphaLink (紫色) 和 HADDOCK (棕色) 的 Top-N (N = 1, 5, 10) 成功率。
  • (d) 带交联的 CombFold 模型与不带交联的 CombFold 模型的 TM-分数,对 Top-1 结果进行比较。
  • (e) CombFold 与 AFMv3 的界面接触相似性 (ICS),对 Top-1 模型进行比较。
  • (f) PRODIGY 预测的实验结构与 CombFold 生成的结构模型的界面解离常数的比较。 Spearman 相关系数为 0.55。
  • (g) 使用 MolProbity 计算 CombFold 输出模型 (左,N = 17) 和松弛后的相同模型 (右,N = 17) 的界面的 clashscore 分布。误差棒从上到下分别表示最大值、平均值和最小值。

即:

crosslinks

与 MoLPC 的比较

MoLPC 的评估使用 TM-分数高于 0.8 来定义高质量的预测。在这里,我们使用相同的高质量预测的定义。我们发现,TM-分数为 0.7 的预测可以具有正确的全局形状(图 3h 和 5b)。因此,我们为 TM-分数高于 0.7 的预测定义了一个额外的可接受质量类别。在原始的 MoLPC 出版物中,成功率是以具有高质量预测的基准案例的比例来计算的,而这些案例是从至少获得一个组装的案例中选出的。注意,MoLPC 能够为 175 个 Benchmark 3 案例中的 91 个获得一些预测。在这里,我们将成功率定义为具有可接受质量预测的基准案例的比例,而这些案例是从所有基准案例中选出的。另外,虽然 MoLPC 分别展示了基于 AFM 或 FoldDock 的流水线的成功率,但我们在计算的成功率中考虑了两种流水线的结果。我们根据我们的定义重新计算了 MoLPC 的成功率,得到了略有不同的值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/392186.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从物联网到数字孪生:智慧社区的演变

随着科技的飞速发展和数字化转型的深入推进&#xff0c;智慧社区已成为提升城市治理水平和居民生活质量的重要方向。在这一演变过程中&#xff0c;物联网和数字孪生技术起到了至关重要的作用。本文将深入探讨从物联网到数字孪生的演变过程&#xff0c;分析这一转变对智慧社区建…

EasyRecovery软件免费版与付费版有哪些功能区别?

免费版的EasyRecovery软件在功能和恢复能力上确实存在一些限制。 首先&#xff0c;在数据恢复方面&#xff0c;免费版通常只能恢复最多1GB的数据。这意味着&#xff0c;如果你需要恢复的数据量超过1GB&#xff0c;你将需要升级到付费版才能完全恢复。 其次&#xff0c;免费版…

LeetCode---384周赛

题目列表 3033. 修改矩阵 3034. 匹配模式数组的子数组数目 I 3035. 回文字符串的最大数量 3036. 匹配模式数组的子数组数目 II 一、修改矩阵 简单模拟即可&#xff0c;代码如下 class Solution { public:vector<vector<int>> modifiedMatrix(vector<vecto…

专业140+总分400+华中科技大学824信号与系统考研经验华科华中大电子信息与通信工程,真题,大纲,参考书。

今年考研落下帷幕&#xff0c;看到有人落寞&#xff0c;有人金榜题名&#xff0c;心里体会五谷杂陈&#xff0c;自己很幸运通过努力上岸华科&#xff0c;初试专业课824信号与系统140&#xff0c;数一130&#xff0c;总分400&#xff0c;对于这个成绩稍微有点超出自己预期&#…

ViT: transformer在图像领域的应用

文章目录 1. 概要2. 方法3. 实验3.1 Compare with SOTA3.2 PRE-TRAINING DATA REQUIREMENTS3.3 SCALING STUDY3.4 自监督学习 4. 总结参考 论文&#xff1a; An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale 代码&#xff1a;https://github.com…

删除windows自带输入法

ctrl shift F 搜狗简繁体切换

【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(4)数据准备的流程

今天学习的是数据准备的流程。 我们已经知道&#xff0c;数据准备占了AI项目超过一半甚至79%的时间。 那么数据准备&#xff0c;都做些什么&#xff0c;有哪些流程。 1.数据采集 观测数据人工收集调查问卷线上数据库 2.数据清洗 有缺失的数据有重复的数据有内容错误的数据…

CSS的注释:以“ /* ”开头,以“ */ ”结尾

CSS的注释:以“ /* ”开头&#xff0c;以“*/”结尾 CSS的注释: 以“ /* ”开头&#xff0c;以“ */ ”结尾 在CSS中&#xff0c;注释是一种非常重要的工具&#xff0c;它们可以帮助开发者记录代码的功能、用法或其他重要信息。这些信息对于理解代码、维护代码以及与他人合作都…

SpringBoot实现OneDrive文件上传

SpringBoot实现OneDrive文件上传 源码 OneDriveUpload: SpringBoot实现OneDrive文件上传 获取accessToken步骤 参考文档&#xff1a;针对 OneDrive API 的 Microsoft 帐户授权 - OneDrive dev center | Microsoft Learn 1.访问Azure创建应用Microsoft Azure&#xff0c;使…

Sora 文生视频提示词实例集 2

Prompt: Historical footage of California during the gold rush. 加利福尼亚淘金热期间的历史影像。 Prompt: A close up view of a glass sphere that has a zen garden within it. There is a small dwarf in the sphere who is raking the zen garden and creating patter…

Ubuntu 20.04 安装RVM

RVM是管理Ruby版本的工具,使用RVM可以在单机上方便地管理多个Ruby版本。 下载安装脚本 首先使下载安装脚本 wget https://raw.githubusercontent.com/rvm/rvm/master/binscripts/rvm-installer 如果出现了 Connection refused 的情况, 可以考虑执行以下命令修改dns,再执…

win10下wsl2使用记录(系统迁移到D盘、配置国内源、安装conda环境、配置pip源、安装pytorch-gpu环境、安装paddle-gpu环境)

wsl2 安装好后环境测试效果如下&#xff0c;支持命令nvidia-smi&#xff0c;不支持命令nvcc&#xff0c;usr/local目录下没有cuda文件夹。 系统迁移到非C盘 wsl安装的系统默认在c盘&#xff0c;为节省c盘空间进行迁移。 1、输出wsl -l 查看要迁移的系统名称 2、执行导出命…

配置oracle连接管理器(cman)

Oracle Connection Manager是一个软件组件&#xff0c;可以在oracle客户端上指定安装这个组件&#xff0c;Oracle连接管理器代理发送给数据库服务器的请求&#xff0c;在连接管理器中&#xff0c;我们可以通过配置各种规则来控制会话访问。 简而言之&#xff0c;不同于专用连接…

c入门第十八篇——支持学生数的动态增长(链表,指针的典型应用)

数组最大的问题&#xff0c;就是不支持动态的扩缩容&#xff0c;它是静态内存分配的&#xff0c;一旦分配完成&#xff0c;其容量是固定的。为了支持学生的动态增长&#xff0c;这里可以引入链表。 链表 在C语言中&#xff0c;链表是一种常用的数据结构&#xff0c;它由一系列…

深入解析鸿蒙系统的页面路由(Router)机制

鸿蒙系统以其独特的分布式架构和跨设备的统一体验而备受瞩目。在这个系统中&#xff0c;页面路由&#xff08;Router&#xff09;机制是连接应用各页面的关键组成部分。本文将深入探讨鸿蒙系统的页面路由&#xff0c;揭示其工作原理、特点以及在应用开发中的实际应用。 1. 实现…

使用Autodl云服务器或其他远程机实现在本地部署知识图谱数据库Neo4j

本篇博客的目的在于提高读者的使用效率 温馨提醒&#xff1a;以下操作均可在无卡开机状态下就可完成 一.安装JDK 和 Neo4j 1.1 ssh至云服务器 打开你的pycharm或者其他IDE工具或者本地终端&#xff0c;ssh连接到autodl的服务器。(这一步很简单如下图) 1.2 安装JDK 由于我…

gitlab代码控制平台搭建

docker-compose容器化gitlab docker-compose安装 # 官方链接(不推荐&#xff0c;太慢了) curl -L "https://github.com/docker/compose/releases/download/1.29.2/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose# 下面的官方链接会快一…

JAVA面试题基础篇

1. 二分查找 要求 能够用自己语言描述二分查找算法 能够手写二分查找代码 能够解答一些变化后的考法 算法描述 前提&#xff1a;有已排序数组 A&#xff08;假设已经做好&#xff09; 定义左边界 L、右边界 R&#xff0c;确定搜索范围&#xff0c;循环执行二分查找&#…

计算机网络——15套接字编程

套接字编程 Socket编程 Socket编程&#xff1a;应用进程使用传输层提供的服务才能够交换报文&#xff0c;实现应用协议&#xff0c;实现应用 TCP/IP&#xff1a;应用进程使用Socket API访问传输服务 地点&#xff1a;界面上的SAP 方式&#xff1a;Socket API 目标&#xff1…

鸿蒙开发系列教程(二十四)--List 列表操作(3)

列表编辑 1、新增列表项 定义列表项数据结构和初始化列表数据&#xff0c;构建列表整体布局和列表项。 提供新增列表项入口&#xff0c;即给新增按钮添加点击事件。 响应用户确定新增事件&#xff0c;更新列表数据。 2、删除列表项 列表的删除功能一般进入编辑模式后才可…