3.1.5 域定位 (domain location)
残基在序列中的位置可分为N-terminal(1-30%)、中间(31-70%)和C-terminal(71-100%)。Singh等人报告称,TP53的中心和高度保守的DNA结合域包含一簇体细胞错义突变,包括R175、G245、R248和R273。这些突变形成与DNA的直接接触,并有助于维持蛋白质的三级结构。同样,P152L突变发生在S3/S4转向,与突变p53的DNA结合面相反,导致DNA结合域的构象变化(conformation change)。在EGFR中(图3),大多数突变位于细胞内区域(残基669-1210),该区域包含酪氨酸激酶和细胞质结构域。这些域因其在激活下游信号和调节EGFR功能方面的关键作用而闻名,该突变已在多种癌症类型中检测到,包括B-cell淋巴瘤和肿瘤发生中的多种信号通路。在其他基因如asPIK3CA, PTEN, EGFR和KRAS中也报道了类似的数据。
(举这些例子的目的是通过具体的案例来说明在不同蛋白质中突变的位置和性质可能导致的不同影响,以及这些影响可能如何与癌症的发生和发展相关联)
图3 细胞内区域EGFR (PDB id: 2EB2)的驱动基因(红色)和乘客基因(绿色)突变。
3.1.6 PSSM
PSSM (Profiles)是生物学中解码蛋白质序列进化信息的重要特征之一。它利用了从PSI-BLAST获得的多序列比对,该比对对保守位置赋予了较高的权重。在第一次迭代中生成PSSM,用于在后续迭代中搜索序列的新匹配。该过程重复多次迭代以获得最终矩阵。
之前写过一个计算的方法:
Blast生成蛋白质序列位置特异性矩阵-PSSM矩阵详细版_pssm blast-CSDN博客
python 服务器批处理得到PSSM矩阵_python语言如何获取未知蛋白质序列的pssm矩阵-CSDN博客
3.1.7 突变矩阵
突变矩阵是一个氨基酸替代矩阵(20*20矩阵),其中每个元素显示了取代其他19个残基的比率、偏好和概率。常用的矩阵有点接受变异矩阵(PAM)和块替换矩阵(BLOSUM)。PAM矩阵是根据观察到的密切相关蛋白质的高度可变和保守区域沿其整个长度的变化计算出来的(Dayhoff等,1978)。通过对同源序列高度保守区域的氨基酸置换得到blossom matrix 。此外,利用大量不同的蛋白质序列集,并根据大型预对齐的成对序列比对迭代评估替换率和进化距离,开发了几个突变矩阵。此外,已经报道了针对特定基因组或蛋白质家族的特殊基质,以及恶性疟原虫和约利疟原虫的富集基因组,整合膜蛋白, β-桶跨膜蛋白,G蛋白偶联受体的视紫红质家族,蛋白质-蛋白质相互作用网络的枢纽蛋白和本质紊乱蛋白。AAindex数据库中包含了这些突变矩阵,可以作为识别致病突变的重要特征。
3.1.8 保守性得分
一个残基的保守性得分揭示了在不同同源序列中同一位点出现相同残基的趋势。Valdar开发了一个web服务器AACon,它可以计算18个不同的保护分数,其中包括DNA结合和膜区域的特定分数。守恒计算服务器的例子arePhyloP、PhastCons 、AL2CO、FATHMM 和Consurf 。这些服务器有助于了解同源序列之间的系统发育(phylogenetic)关系,并识别功能/结构上重要的位点。
(具体的计算方法没有涉及过,这周应该会尝试一下,如果success,会更~)
3.1.9基于氨基酸基团的相邻残基信息
根据氨基酸的物理化学性质,将20个氨基酸残基分为脂肪族、芳香族、极性、含硫、负电荷和正电荷。两边的这些残基组的偏好。突变体位置在特定窗口长度内的变化。
(我觉得这个有点像蛋白质的一些描述子的方法,比如联合三元组(CT)、自协方差(AC)自相关描述符(AD)、局部描述子(LD)、多元互信息(MMI),这些的计算方法可以参考:
https://github.com/xueleecs
LD(Local descriptor)_ld和蛋白质序列-CSDN博客 )
3.2 基于结构的特征
利用实验已知或预测的三维结构来计算几个特征。web服务器PDBparam提供了四类基于结构的参数,即(1)结合位点,(2)残基间相互作用,(3)二级结构的倾向(propensity),(4)物理化学性质评估。具体特征包括氨基酸残基的二级结构,残基之间的氢键,每个残留物的可及表面积,长程顺序和周围疏水性。
(这一部分现在的热点应该是alphafold 、Rosetta以及MD,这一部分在尝试)
3.3 基于网络的特征
基于网络的特征包括度和介数中心性、聚类系数、特征向量和紧密度。度中心性衡量的是网络中一个蛋白质(或氨基酸)与其他蛋白质(或氨基酸)相互作用的次数,而介数中心性衡量的是一个蛋白质在网络中充当其他蛋白质(或氨基酸)之间桥梁的次数。Drivers 通常被发现具有高度的中心性和介数中心性,因为它们参与了许多对疾病进展重要的相互作用。图神经网络(GNNs)和基于接触图的特征被用于学习分子结构的表示。
(接触图了解过,可以找机会整理下,其他的还没了解)
(今天发现好多需要回顾的东西……)