Genomics, Proteomics & Bioinformatics (GPB)发表了由军事医学研究院辐射医学研究所张成岗研究员、周钢桥研究员和卢一鸣副研究员团队完成的题为“RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants”的方法文章。我们的“要文译荐”栏目很高兴邀请到文章的通讯作者张成岗研究员为大家介绍RegVar方法的建立与应用。
要点介绍
研究问题:
基于全基因组测序的研究工作,研究人员已在人类基因组上发现了超过8000万个基因突变位点,在单个个体基因组上也存在400~500万个突变位点。如何对这些海量突变位点在个体疾病与性状产生过程中的作用进行系统研究,仍然是基因组学与遗传学领域的一大难题。此外,由于基因组上绝大部分突变位于非编码区,可通过影响基因转录和翻译过程中的不同生物事件来发挥作用,对其进行准确的功能注释和靶基因鉴定仍是一重大挑战。
研究方法:
利用来自基因型-组织表达(genotype-tissue expression, GTEx)研究项目的组织类型特异性表达数量性状基因座(expression quantitative trait loci, eQTL)数据,采用深度神经网络(deep neural network, DNN)的计算框架,对发挥调控功能的SNP位点与其靶基因位点的多种分子特征进行整合建模分析,包括其序列特征、表观组学特征和进化保守性特征等,在17种人体组织中构建了组织特异性的非编码区调控型突变预测模型,并在多种条件下对模型的预测性能进行了充分评估。
主要结果:
我们建立了一种基于DNN的计算框架RegVar,它可以准确预测非编码区调控型突变的组织特异性调控功能,并对其靶基因进行高准确性鉴定。通过学习多种人类组织中“遗传位点-基因表达”关联的分子特征,RegVar在多种情景下表现出对非编码区调控型突变功能预测的优异性能。我们期待RegVar能够帮助深入理解人类基因组的遗传结构,并有助于揭示复杂性状和疾病背后新的分子机制。
背景和研究对象
来自全基因组关联分析(genome-wide association studies, GWAS)的研究结果显示,大量变异位点与疾病表型之间存在显著关联,其中绝大部分位于基因组的非编码区。非编码区的变异位点不改变编码蛋白的序列和功能,主要通过调控基因的表达来发挥效应。如何对这些具有调控功能的变异位点进行鉴定和注释是医学遗传学研究中的一大挑战。
以往针对非编码区突变效应的研究大多关注于致病型突变的注释,对这些方法的评测结果显示其并不适用于调控型突变的鉴定。与致病型突变相比,调控型突变的突变效应更为微弱,使得其鉴定更加困难。调控元件与其调控的靶基因之间通常具有较远的基因组距离,如何在远距离上将调控元件上的变异位点与靶基因联系起来,是本领域的研究难点。此外,调控型突变的作用往往具有组织或细胞类型特异性,对不同组织类型中的变异位点进行特异性注释,也具有十分重要的生物学意义。
方法建立
RegVar采用DNN算法框架,利用来自GTEx研究项目的eQTL数据进行建模分析,结合了突变位点及其所调控的靶基因的序列、表观组学和进化保守性等特征,在17种人体组织中构建了组织特异性的非编码区调控型突变预测模型。为了对方法的稳健性与有效性进行充分评估,构建了多种情景下的阴性数据集对RegVar的预测性能进行测试,包括:(1)随机突变组,即选择基因组上随机阴性SNP位点与靶基因构成阴性数据集;(2)镜像突变组,即选择基因组上与阳性突变位点关于靶基因镜像对称位置的阴性SNP位点与靶基因构成阴性数据集;(3)邻近突变组,即选择基因组上阳性突变位点附近的阴性SNP位点与靶基因构成阴性数据集;(4)随机基因组,即选择基因组上阳性突变位点1Mb之内的随机基因与阳性突变构成阴性数据集。对这些条件下的阴性数据集进行预测评估,发现RegVar均表现出良好的预测性能,说明RegVar具有较好的稳健性与有效性(图1)。与以往方法相比,RegVar也表现出更高的预测准确性。
图1 在不同条件下RegVar与已有方法在肝脏eQTL数据上的预测表现
RegVar应用性分析
在可应用性方面,采用RegVar对22号常染色体上所有SNP位点进行了调控概率的注释,结果显示其中存在大量具有高调控功能概率的变异位点,可能影响到特定靶基因的表达(图2)。在真实的eQTL研究中,这些位点并不能被成功检测出来,可能是由于这些位点的调控效应十分微弱而导致的,此外也可能受到样本量与统计效力等限制因素的影响。
图2 RegVar对22号常染色体上SNP位点进行调控概率预测
随后,使用RegVar模型对全基因组中随机选取的变异位点进行了组织特异性预测分析,鉴定到跨组织与组织特异性调控型突变位点(图3)。对其进行表观特征注释,结果显示,跨组织调控型突变位点往往带有多个组织的启动子表观修饰,而组织特异性调控型突变位点则大多带有组织特异性的增强子表观修饰(图3)。
图3 RegVar在全基因组上鉴定跨组织与组织特异性调控型突变位点
为了进一步探究RegVar模型的可拓展性,利用人类基因突变数据库(human gene mutation database, HGMD)中的致病型突变位点信息,利用相似的研究框架构建了致病型突变预测模型。与已发表的同类方法相比,RegVar可达到同等程度的预测性能。RegVar同时提供了可在线访问的网页应用(https://regvar.omic.tech/)和可下载的模型程序包供相关领域的研究者使用和参考。
扫描二维码获取链接
总结和讨论
非编码区突变能够通过多种复杂机制在许多疾病和复杂性状产生过程中发挥重要作用,然而如何将非编码区突变,尤其是长距离突变,与其靶基因联系起来一直是一个巨大挑战。目前已经有研究者开发了许多方法对非编码区突变进行功能注释,尽管这些方法在基本假设和具体算法框架上各不相同,但它们主要关注于致病型突变作用。因此,大量具有微弱调节作用的突变将被忽视。我们展示了RegVar在不同情景下对调控型突变进行功能预测的优异性能,RegVar有望应用于候选突变位点的筛选、靶基因的鉴定等研究中,为揭示基因组中复杂的调控关系以及阐明复杂性状的分子成因提供帮助。
审校人:
GPB青年编委侯娅丽
文章编译来源:
Lu H, Ma L, Quan C, Li L, Lu Y, Zhou G, Zhang C. RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants. Genomics Proteomics Bioinformatics 2023;21(2):385-395.
英文全文详见:
https://www.sciencedirect.com/science/article/pii/S1672022921002564
作者资助信息:
军事科学院军事医学研究院辐射医学研究所张成岗研究员、周钢桥研究员和卢一鸣副研究员为论文的共同通讯作者,该所的路浩助理研究员为论文的第一作者,马露雨、权诚、李磊为文章共同作者。该研究得到了国家自然科学基金、北京市科技新星计划的资助。
GPB论文:
RegVar: Tissue-specific Prioritization of Noncoding Regulatory Variants
长按并识别二维码,阅读原文
相关推荐
GPB | CARMEN:基因表达调控相关非编码变异的精准功能预测算法
GPB | NetGO 3.0: 蛋白语言大模型有效提升蛋白质功能预测性能
GPB | GREPore-seq:通过长片段PCR和纳米孔测序高效检测基因编辑后突变的实验流程
About GPB
Genomics, Proteomics & Bioinformatics(基因组蛋白质组与生物信息学报,简称GPB)于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由牛津大学出版社金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed/MEDLINE、Scopus等数据库收录。2023年公布的官方数据显示,CiteScore为11.7;2年和5年Impact Factor分别为9.5和10.1,分别排名WoS遗传学领域12/171和13/171;2022 JCI为2.08,排名WoS遗传学领域10/189。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划“资助(2019–2023)。
高颜值免费 SCI 在线绘图(点击图片直达)
最全植物基因组数据库IMP (点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习