蛋白结构预测模型评价指标

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入


前言

本文汇总了AlphaFold和AlphaFold-multimer等蛋白结构推理预测中,不同蛋白结构预测模型的评价指标。


一、蛋白结构预测模型评价指标

TM-score

TM-score是一种用于评价蛋白质结构拓扑相似性的度量。由张yang首先提出,该方法解决了传统度量方法如均方根偏差(RMSD)中存在的两个主要问题:(1)TM评分对较小距离误差的权重大于对较大距离误差的权重,使得评分值对全局折叠相似性的敏感性大于对局部结构变化的敏感性;(2)TM-score引入了长度相关的尺度对距离误差进行归一化,并使得TM-score的大小与随机结构对的长度无关。计算公式如下:
在这里插入图片描述
该作者实验室提供了计算TM-score的C++程序,可编译后使用,方法如下:

wget https://zhanggroup.org/TM-score/TMscore.cpp

g++ -static -O3 -ffast-math -lm -o TMscore TMscore.cpp 
## Run TM-score to compare 'model' and 'native':
TMscore model native
## Run TM-score to compare two complex structures with multiple chains
## Compare all chains with the same chain identifier
TMscore -c model native

将RCSB pdb结构与AlphaFold2预测结果对比,结果如下:

./TMscore ranked_0.pdb  8i55.pdb 

 *************************************************************************
 *                                 TM-SCORE                              *
 * A scoring function to assess the similarity of protein structures     *
 * Based on statistics:                                                  *
 *       0.0 < TM-score < 0.17, random structural similarity             *
 *       0.5 < TM-score < 1.00, in about the same fold                   *
 * Reference: Yang Zhang and Jeffrey Skolnick, Proteins 2004 57: 702-710 *
 * For comments, please email to: zhanglab@zhanggroup.org                *
 *************************************************************************

Structure1: ranked_0.pdb    Length=  143
Structure2: 8i55.pdb    Length=  120 (by which all scores are normalized)
Number of residues in common=  120
RMSD of  the common residues=    0.581

TM-score    = 0.9811  (d0= 4.05)
MaxSub-score= 0.9753  (d0= 3.50)
GDT-TS-score= 0.9917 %(d<1)=0.9667 %(d<2)=1.0000 %(d<4)=1.0000 %(d<8)=1.0000
GDT-HA-score= 0.9271 %(d<0.5)=0.7417 %(d<1)=0.9667 %(d<2)=1.0000 %(d<4)=1.0000

 -------- rotation matrix to rotate Chain-1 to Chain-2 ------
 i          t(i)         u(i,1)         u(i,2)         u(i,3)
 1    -16.8570056544   0.9777658128  -0.0973231336   0.1857477405
 2     17.8632659480  -0.0324689163   0.8048346382   0.5926103059
 3     11.0145890770  -0.2071709074  -0.5854651253   0.7837798174

Superposition in the TM-score: Length(d<5.0)= 120
(":" denotes the residue pairs of distance < 5.0 Angstrom)
MEALVLVGHGSRLPYSKELLVKLAEKVKERNLFPIVEIGLMEFSEPTIPQAVKKAIEQGAKRIIVVPVFLAHGIHTTRDIPRLLGLIEDNHEHHHEHSHHHHHHHHHEHEKLEIPEDVEIIYREPIGADDRIVDIIIDRAFGR
:::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::                       :::::::::::::::::::::::::::::::
MEALVLVGHGSRLPYSKELLVKLAEKVKERNLFPIVEIGLMEFSEPTIPQAVKKAIEQGAKRIIVVPVFLAHGIHTTRDIPRLLGLIED-----------------------EIPEDVEIIYREPIGADDRIVDIIIDRAFGR
12345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123

lDDT

局部距离差异测试(Local Distance Difference Test,lDDT)是一种无叠加的评分,用于评估模型中所有原子的局部距离差异,包括立体化学变换的验证。参考物可以是单个结构,也可以是结构的集合。
蛋白质结构预测技术的评估需要客观的标准来衡量计算模型和实验确定的参考结构之间的相似性。传统的基于碳α原子全局叠加的相似性度量受到结构域运动的强烈影响,并且不能评估模型中局部原子细节的准确性。lDDT是非常适合评估本地模型的质量,即使在存在的结构域运动,同时保持良好的相关性。

LDDT计算方法一:
在线计算:SWISS-MODEL lDDT

LDDT计算方法二:
python版本:感谢CSDN博主的贡献,python版本的lDDT score的计算可参考博文:蛋白结构评价-LDDT score

二、Alphafold中的评价指标

pLDDT

AlphaFold 预测结构所有残基Cα原子的lDDT被称为pLDDT score(per-residue lDDT-Cα),范围在0-100,分数越高,置信度越高。
Deepmind提供的算法如下: 在这里插入图片描述作为一种基于lDDT的置信度度量,pLDDT也反映了结构(structure)中的局部置信度,应该用来评估单个结构域内的置信度。基于语言模型的蛋白结构预测方法如ESMFold也使用基于plDDT的度量方法。

plDDT 存储于AlphaFold及ESMFold预测结构(mmCIF或PDB文件)B因子字段(B-factor fields)中,即文件中ATOM记录的第11列。

pLDDT≥90:残基具有非常高(very high)的模型置信度
90 > pLDDT ≥70:残基则被归为确信的(confident)
70 > pLDDT ≥50:残基置信度较低(low)
pLDDT < 50:残基置信度很低(very low)。

最近的研究表明,非常低的置信度pLDDT分数与蛋白结构固有无序(intrinsic disorder)的高倾向相关。
在这里插入图片描述采用不包含在训练集中新近报道的PDB数据集(该数据集仅限于报告分辨率<3.5Å的结构,包括的链条总数为10215条)。比较了数据基于解析区域的每个残基lDDT-Cα和每个残基pLDDT。二者有很好的相关性:lDDT-Cα = 0.997 × pLDDT − 1.17 (Pearson’s r = 0.76)
在这里插入图片描述
在这里插入图片描述

pTM

pLDDT头预测了lDDT-Cα值,这是一个成对操作的局部误差度量,但根据设计,它对使用单个全局旋转和平移可以对齐的残基部分不敏感。这对于模型是否准确预测长链整体结构域堆叠是不利的,为此,作者使用了全局叠加度量TM得分的预测器 TM-score。

特别地,我们可以预测可能通过实验解析的残基,并使用它们来产生预测的TM分数(pTM),其中每个残基的贡献通过其被解析的概率进行加权。

加权的目的是降低预测的非结构化部分的权重,从而产生更好地反映模型对确实存在的结构域的度量。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在最新的不再训练集中的PDB数据集上,pTM与实际TM-score相关性良好。
TM-score = 0.98 × pTM + 0.07 (Pearson’s r = 0.85)
在这里插入图片描述

PAE

预测对齐误差( Predicted Aligned Error,PAE )是AlphaFold系统的另一个输出结果。AlphaFold DB提供给结构PAE的图片和数据.json文件。
它表示如果预测结构和实际结构在残基y (使用Cα、N和C原子)上对齐,显示在残基x处的期望位置误差。PAEs以A 为单位测定,上限为31.75A。可以利用这些数值来评估模型(例如两个结构域)不同部分的相对位置和朝向(orientation)的置信度。注意,PAE是不对称的;因此,(x,y)和(y,x)的PAE值之间可能存在差异。
对于两个不同结构域中的残基x和y,如果PAE值( x , y)较低,则AlphaFold预测结构域具有明确的(well-defined)相对位置和取向。如果PAE值很高,那么这两个结构域的相对位置和方向是不可靠的

在这里插入图片描述

三、AlphaFold-multimer 蛋白结构的评价指标

2021年10 月4 日,DeepMind 团队推出了AlphaFold-Multimer,用于蛋白质复合物的预测,尤其是对同源或者异源复合物,AlphaFold-Multimer 对接预测评分均有提升,弥补了AlphaFold2的不足。
在这里插入图片描述

DockQ

DockQ是一种用于评估蛋白质-蛋白质分子对接模型的工具和指标。它被广泛用于评估蛋白质分子对接方法的性能和预测模型的准确性。范围0-1之间,越大准确性越好。
DockQ是三个指标的综合评分,即Fnat、LRMS和iRMS,

在这里插入图片描述Fnat: 预测复合体在交界面上的作用残基在真实复合体中的比例。
LRMS: 把预测的复合体和真实复合体的两条链中比较长的链比对,短链的RMSD。
iRMS: 度量界面上两个原子相距10Å内的原子的集合的RMSD。

DockQ的计算方法:
https://github.com/bjornwallner/DockQ/

度量复合体预测准确性的指标:

***********************************************************
*                       DockQ                             *
*   Scoring function for protein-protein docking models   *
*   Statistics on CAPRI data:                             *
*    0    <  DockQ <  0.23 - Incorrect                    *
*    0.23 <= DockQ <  0.49 - Acceptable quality           *
*    0.49 <= DockQ <  0.80 - Medium quality               *
*            DockQ >= 0.80 - High quality                 *
*   Reference: Sankar Basu and Bjorn Wallner, DockQ:...   *
*   For comments, please email: bjornw@ifm.liu.se         *
***********************************************************

AlphaFold-Multimer的表现:
在这里插入图片描述

ipTM

AlphaFold-Multimer 建立了不同链残基之间相互作用的评分系统——Inerface pTM(ipTM),计算类似于pTM,只是分别考虑了不同链(i和j)。
在这里插入图片描述

实际使用中,Deepmind采用 pTM 和 ipTM 的加权组合作为模型置信度度量,以便在模型排名中考虑一些链内置信度:
在这里插入图片描述在这里插入图片描述在这里插入图片描述DockQ本身是ipTM的函数,也说明这两个评价multimer的指标具有一定的置信度和准确性。

总结

以上就是今天的内容,本文汇总了AlphaFold和AlphaFold-multimer等蛋白结构推理预测中,不同蛋白结构预测模型的评价指标。供大家参考。

参考资料

  1. https://zhuanlan.zhihu.com/p/539157126?utm_id=0
  2. http://www.360doc.com/showweb/0/0/1113559986.aspx
  3. https://www.biorxiv.org/content/10.1101/2021.10.04.463034v2.full.pdf
  4. https://seq2fun.dcmb.med.umich.edu//TM-score/TM-score.pdf

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/411630.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言函数递归

一、什么是递归 递归实际上就是函数自己调用自己。 递归在书写的时候&#xff0c;有2个必要条件&#xff1a; • 递归存在限制条件&#xff0c;当满足这个限制条件的时候&#xff0c;递归便不再继续。 • 每次递归调用之后越来越接近这个限制条件。 在下面的例子中&#xff0…

将一个 PostgreSQL 数据库复制到另一个数据库中

以管理员身份进入cmd窗口&#xff0c;输入如下命令 语法&#xff1a; pg_dump -C -h 本机IP -U 本机postgresql用户名 源数据库名 | psql -h 服务器IP -U 服务器postgresql用户名 目标数据库名 示例&#xff1a; pg_dump -C -h 127.0.0.1 -U postgres test01-dbname | psql…

leetcode:1925. 统计平方和三元组的数目(python3解法)

难度&#xff1a;简单 一个 平方和三元组 (a,b,c) 指的是满足 a2 b2 c2 的 整数 三元组 a&#xff0c;b 和 c 。 给你一个整数 n &#xff0c;请你返回满足 1 < a, b, c < n 的 平方和三元组 的数目。 示例 1&#xff1a; 输入&#xff1a;n 5 输出&#xff1a;2 解释…

AI绘画丨精美3D立体插图

利用衍纸艺术制作的3D立体精美插图&#xff0c;以星星作为主题&#xff0c;错落在整个画面中&#xff0c;一起看看他的生成关键词吧~ 使用关键词&#xff1a;A gorgeous multi-dimensional paper illustration, paper quilling, 3D diorama of a vintage stargazing illustrat…

JSON:简介与基本使用

目录 什么是JSON&#xff1f; JSON的基本结构 JSON的基本使用 在JavaScript中使用JSON 创建JSON对象 解析JSON字符串 生成JSON字符串 在其他编程语言中使用JSON 总结 什么是JSON&#xff1f; JSON&#xff0c;全称为JavaScript Object Notation&#xff0c;是一种轻量…

NCDA视觉传达设计大赛终极攻略:助你斩获佳绩

第十二届全国高校未来设计师数字艺术设计大赛&#xff08;NCDA&#xff09; A类&#xff1a;视觉传达设计 参赛对象&#xff1a; 大学生小组&#xff1a;分①研究生组②本科生组③专科生组&#xff0c;三组分别进行评审 教师小组&#xff1a;普通高校教师&#xff0c;不分小…

解除网页复制限制

chrome 中右击点检查&#xff0c; 找到要复制的文字块 把如图所示右边的 copy里的事件全部remove 然后就可以右击复制了

043 多态

示例 public class A {public void say(){System.out.println("I am A");} } public class B extends A {Overridepublic void say(){System.out.println("I am B");} } public class Test {public static void main(String[] args) {A a new B(); // …

项目管理基本要素--项目、项目集、项目组合

本文描述从事项目管理和了解项目管理领域所需的基本要素&#xff0c;词汇定义来自于《项目知识管理体系》(PMBOK指南)第六版&#xff0c;仅作个人学习使用&#xff0c;任何对此文章的引用&#xff0c;应当说明源出处&#xff0c;不得用于商业用途。 如有侵权、联系速删 文章目录…

项目管理工具git

git 1. git介绍1.1. 版本控制系统 2. 创建本地版本库2.1 概念2.2 操作步骤 3. 修改文件4. 练习: 添加一个本地项目到仓库5. 添加远程仓库5.1 添加远程仓库5.2 本地仓库同步到远程仓库5.3 克隆远程仓库到本地5.4 SSH设置 6. 分支管理6.1 创建分支6.2 切换分支6.3 合并分支6.4 解…

猫头虎分享已解决Bug || ValueError: No gradients provided for any variable

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

JAVA工程师面试专题-《Mysql》篇

目录 一、基础 1、mysql可以使用多少列创建索引&#xff1f; 2、mysql常用的存储引擎有哪些 3、MySQL 存储引擎&#xff0c;两者区别 4、mysql默认的隔离级别 5、数据库三范式 6、drop、delete 与 truncate 区别&#xff1f; 7、IN与EXISTS的区别 二、索引 1、索引及索…

操作系统系列学习——操作系统启动

文章目录 前言操作系统启动 前言 一个本硕双非的小菜鸡&#xff0c;备战24年秋招&#xff0c;计划学习操作系统并完成6.0S81&#xff0c;加油&#xff01; 本文总结自B站【哈工大】操作系统 李治军&#xff08;全32讲&#xff09; 老师课程讲的非常好&#xff0c;感谢 【哈工大…

亚信安慧AntDB:数据处理的好帮手

亚信安慧AntDB分布式数据库凭借平滑扩展、高可用性和低成本三大核心优势&#xff0c;在业界获得了极高的评价和认可。这些优点不仅为AntDB提供了巨大的市场发展潜力&#xff0c;也使其成为众多企业在数据管理上的首选解决方案。 AntDB的平滑扩展特性极大地提升了企业的灵活性和…

基于51单片机的智能监护与健康检测[proteus仿真]

基于51单片机的自行车测速系统设计[proteus仿真] 个人健康检测系统这个题目算是课程设计和毕业设计中常见的题目了&#xff0c;本期是一个基于51单片机的智能监护与健康检测 需要的源文件和程序的小伙伴可以关注公众号【阿目分享嵌入式】&#xff0c;赞赏任意文章 2&#xff…

系统找不到xinput1_3.dll怎么办?试试这五种解决方法轻松搞定

在计算机系统运行过程中&#xff0c;当我们遭遇“找不到xinput1_3.dll”这一错误提示时&#xff0c;实际上正面临一个软件兼容性、系统组件缺失以及游戏或应用程序无法正常启动的关键问题。深入探究这一现象&#xff0c;我们会发现它可能引发一系列连带问题&#xff0c;例如某些…

LLM推理入门指南①:文本生成的初始化与解码阶段

随着生成式AI的火热发展&#xff0c;高企的语言大模型&#xff08;LLM&#xff09;推理性能和成本成为阻碍其大规模应用的关键挑战。 LLM推理是指使用仅解码器Transformer模型生成词元&#xff0c;而大多数挑战及其相关的解决方法都来自这种特定的架构和用例。本系列文章将深入…

邮件营销神器Focussend,轻松实现1美元转化72美元的营销高回报!

随着社交媒体营销逐渐成为主流&#xff0c;一家名为Focussend的公司却在邮件营销领域崭露头角。成立于2009年&#xff0c;Focussend经过尝试综合营销后&#xff0c;选择进入古早但高回报的邮件营销市场。目前&#xff0c;该公司在跨境平台中排名靠前&#xff0c;服务着上万名中…

c入门第二十三篇: 学生成绩管理系统优化(支持远程操作)

前言 师弟高兴的说道&#xff1a;“师兄&#xff0c;你猜我今天上课看见谁了&#xff1f;” 我&#xff1a;“谁呢&#xff1f;” 师弟&#xff1a;“程夏&#xff0c;没想到&#xff0c;她竟然来旁听我们计算机系的课程了。虽然我从前门进去的&#xff0c;但是我还是一眼就看…

【力扣白嫖日记】178.分数排名

前言 练习sql语句&#xff0c;所有题目来自于力扣&#xff08;https://leetcode.cn/problemset/database/&#xff09;的免费数据库练习题。 今日题目&#xff1a; 178.分数排名 表&#xff1a;Scores 列名类型idintscoredecimal 在 SQL 中&#xff0c;id 是该表的主键。 …