干货 | 如何进行群体DNA甲基化分析

目前,针对群体的研究基本上还是以重测序为主,基于对遗传多样性丰富的自然群体中的个体进行全基因组重测序,研究物种遗传进化多样性,结合准确的目标性状的表型数据及统计方法进行全基因组关联分析,可对动植物复杂农艺性状进行定位,快速获得影响目标性状表型变异的遗传标记或候选基因。

随着表观遗传技术的发展,越来越多的表观技术也应用到群体的研究上,特别是DNA甲基化测序(比如WGBS),研究者们通过获得群体的DNA甲基化数据后进行种群DMR分析,与重测序数据关联分析、EWAS分析、meQTL分析获得影响目标性状表型变异的表观遗传标记以及候选基因。

我们先回顾一下重测序的分析策略。首先拿到大量样本(不同群体)的测序数据,然后利用FastQC进行原始数据的质控和过滤;得到质控结果后,再将过滤后的数据比对到参考基因组上,并进行排序和去重复等处理,利用BWA比对和samtools软件进行格式转化为bam文件;再利用GATK进行SNP和INDEL检测生成VCF文件;用lumpy得到结构变异(structure variants)的信息以及CNVnator分析得到拷贝数变异(Copy Number Variation,CNV)的VCF结果;利用ANNOVAR对SNP/INDEL、SV以及CNV进行注释;接下来构建进化树,PCA分析以及structure分析;得到群体之间的进化关系信息。LD衰减分析;群体选择分析(Tajima’D分析,Fst分析以及ROD分析);针对有表型数据的,可进行GWAS分析;得出性状与SNP/INDEL之间的关联信息;再通过QTL分析精准定位与目标性状相关的遗传标记或候选基因。

接来下我们看一下群体甲基化的分析流程:

01

群体的选择以及样本个数

参考已发表文献,我们可以发现所用群体以自然群体为主,也有一些自交群体。此外,2021年的一篇Science则是以不同物种的DNA甲基化进行后续分析(参见:动物群体甲基化如何讲故事?)。

图片

表1:不同文献中的群体选择以及样本个数。

02

基因组比对

常见的分析是直接将过滤后的数据比对到参考基因组。在有重测序的数据情况下,文献大部分都是比对过滤snp后的参考基因组。

03

计算每个样本的DNA甲基化水平

比对参考基因组后要计算每个样本的全基因组甲基化水平。计算公式如下:C位点的甲基化水平=100*支持甲基化的reads/(支持甲基化的reads+支持非甲基化的reads)。

图片

甲基化 C 碱基在基因组上的分布包含三种形式(CG,CHG 和 CHH,其中 H 代表 A 或T 或 C 碱基)。利用 cgmaptools[6] 软件(version: 0.1.1)统计各种类型的 C 碱基的甲基化水平的比例分布,在一定程度上反映了特定物种的全基因组DNA甲基化修饰特征,并且可计算不同甲基化位点的数量和比例。

04

DMR分析:可分析高频可变区域以及低频可变区域 

  • 筛选条件:

(1) 判定 C 选定区间,保证至少有 5 个 C 碱基并且所有 C 碱基深度大于 5x,这些区间最长1000bp 长度,两个短于1000bp的选定区域距离不小于 200bp;

(2)根据两个样本的选定区间判定差异DMR区间,阈值为Pvalue小于等于 0.001,DMR 水平大于等于 0.2。

DMR的筛选条件文献也是有不同的,可以根据测序得到的结果进行调整。

针对不同种群可以绘制不同种群的整体甲基化水平、差异DMRvenn图、热图。看不同种群之间是否存在甲基化整体水平的差异,以及DMR区域。DMR在基因不同区域,Exon、Intron、TE、Intergenic情况展示。

图片

图1:A.不同种群的甲基化水平;B.DMR的venn;D.DMR热图。

图片

图2:DMR的数量和长度统计以及DMR在不同元件的分布。

05

DMR注释,GO和KEGG富集分析

DMR 区域中点与基因或基因的 Promoter 区域(TSS 上游 2kb)有交集,认为与该基因有关联;然后,针对关联基因进行GO和KEGG富集分析。

图片

图3:DMR关联基因的GO和KEGG富集分析

06

WGBS和SNP关联分析以及PCA分析

使用SNP计算的成对亲缘关系与基于CG甲基化水平的亲缘关系高度相关(图4B),这表明DNA甲基化的变化可以概括不品种之间的遗传关系。此外,利用CG甲基化变异的主成分分析(PCA)成功地将品种划分为不同的亚群(图4C),目前看到的文献结果与基于SNP的分类一致。

图片

图4:B.通过SNP或mCGS水平计算样本之间亲缘关系;C.基于CG甲基化水平的所有水稻品种主成分分析

07

EWAS分析

GWAS(基因组关联研究)是一种用来找新基因和基因区域的方法,可以帮助我们定位复杂疾病/表型的关键基因。不过GWAS只能在遗传信息层面上解读复杂疾病/表型,无法涉及表观遗传。因此,新的方法出现了,名为表观基因组关联分析(EWAS),EWAS将表观遗传的变异和复杂疾病/表型联系起来,通过研究表观遗传学来解读复杂疾病/表型的原因,找到与疾病/表型相关的表观遗传学变异位点。

  • 7.1 EWAS可以检测受环境因素影响的新的调控机制

EWAS可以将在实验组全基因组范围内检测出的甲基化变异位点与对照进行比较,找出所有甲基化位点的变异频率,同时还可以鉴定新的与疾病/表型的甲基化位点。

  • 7.2 EWAS利用探究DNA序列变异和DNA甲基化之间的关系。

大部分GWAS显著关联位点落在基因组非编码区,其如何通过基因或者通路影响表型很难被阐述,一种可能得解释是,这些易感位点通过调节特定区域的甲基化水平,从而改变个性复杂形状。如果某个位点即对负责形状有影响,又对甲基化水平有影响,那么该位点就很有可能符合上述解释。共定位分析(Collocalization)正是试图找出这些“共定位”位点。共定位分析方法,属于Post-GWAS的一项重要工作,eQTL和mQTL是EWAS常用的共定位方法,旨在GWAS结果的基础上鉴定与表型相关的eQTL和mQTL位点。SMR利用GWAS的summary数据和表达数量性状基因座(eQTL)的数据,采用SMR和HEIDI方法,以测试基因表达水平与感兴趣的复杂性状之间的多效性关联。

目前,主要用到软件EWAS2.0(Xu et al., 2018a)进行分析。EWAS2.0软件可以进行:(i)全表观基因组单标记关联研究;(ii)表观基因组甲基化单倍型(meplotype)关联研究和(iii)表观基因组关联荟萃分析。

对于物理上彼此接近的多个DNA甲基化位点,这些位点之间存在表观等位基因的非随机关联,称之为甲基化不平衡(methylation disequilibrium, MD)。EWAS2.0可以计算MD系数识别MD块,并使用Excoffier等人的最大似然估计方法估计meplotype(染色体上一组特定的外显等位基因)的频率。对于病例/对照数据,EWAS2.0可以扫描整个表观基因组,识别疾病相关的meplotype(计算卡方、p值、奇比和95%保密区间)。EWAS2.0可以扫描整个表观基因组,识别疾病相关meplotype(计算卡方、p值、奇比和95%保密区间)。首先需要进行单个SMP分析后进行meplotype分析,以确定与疾病/表型相关的一些SMP位点的组合。EWAS2.0使用Cochran’s q统计量检验个体研究之间的异质性。

EWAS的可视化结果图和GWAS类似,曼哈顿图、QQ图和LD-Block图。下面是文献的展示结果:

图片

图5:基于SMPs和SNP关联分析的曼哈顿图以及Cis调控SMPs和SNPs在基因表达中的关联结果

图片

图6:(g)曼哈顿图显示Cross1中GATA9的SL/SW比值关联结果。(h)跨GATA9的SMPs之间的连锁不平衡和由单侧排列检验鉴定的显著位点组成的稳定连锁(p < 0.001)。

其中,番茄的研究结果还加入了代谢组的分析结果,展示图如下:

图片

图7:山奈酚3- o -葡萄糖苷的EWAS曼哈顿图。meQTL信号在番茄基因组中的分布。

08

WGCNA分析

DNA甲基化数据也可以构建WGCNA网络。使用WGCNA方法,将具有相似甲基化模式的CpG位点组成共甲基化模块,并用“模块特征基因”来总结这些模块的甲基化特征。

传统上,WGCNA应用于转录组数据,并使用无监督聚类方法将共表达基因分配到模块7。在“DNA Methylation Networks Underlying Mammalian Traits”这项研究中,作者使用WGCNA方法来定义哺乳动物样本中共甲基化CpGs的模块。首先,使用带符号矩阵的软阈值功率(调优值= 12)将邻接矩阵(cpg之间的相关性)转换为无标度网络。将结果转化为拓扑重叠矩阵(TOM)和1-TOM距离度量(不相似度),用于数据的分层聚类。使用动态树切算法对树进行修剪,以分配包含至少30个cpg的模块。基于奇异值分解方法,计算模块特征基因(MEs)为每个模块单个变量所能表示的模型方差的最大量。eutherian网络(Net 1)中的特征基因解释了24-63%(平均= 43%)的特征基因。每个模块中甲基化数据的差异(表S3)。基于特征基因连通性(eigengene connectivity, kME)定义了各模块的hub CpGs。采用多元线性回归模型对不同性状的模特征基因进行关联分析。使用WGCNA包中的matchLabels()函数对两个网络中的模块颜色进行匹配。利用WGCNA R包中的“modulePreservation”R函数,以灵长类动物为参照进行比较,估计各网络的模块保存情况。

图片

总之,群体甲基化分析策略为首先选择合适的群体,然后拿到WGBS数据后比对参考基因组,再进行每个样本甲基化水平,以及不同群体的DMR,然后与重测序数据进行关联分析,PCA分析,以及EWAS分析和meQTL定位,还可以加入WGCNA分析,最终得到表观遗传标记对群体进化/驯化或者人类疾病的影响。

  • 参考文献:

[1]  Haghani A, Li CZ, Robeck TR, et.al DNA methylation networks underlying mammalian traits. Science.PMID: 37561875.

[2] Xu J, Zhao L, et.al  EWAS: epigenome-wide association study software 2.0 PMID: 29566144;

[3] Wang Z, Xia A, Wang Q, Cui Z, Lu M, Ye Y, Wang Y, He Y. Natural polymorphisms in ZMET2 encoding a DNA methyltransferase modulate the number of husk layers in maize. Plant Physiol. 2024 Mar 2:kiae113. doi: 10.1093/plphys/kiae113. Epub ahead of print. PMID: 38431291.

[4] Cao S, Chen K, Lu K, Chen S, Zhang X, Shen C, Zhu S, Niu Y, Fan L, Chen ZJ, Xu J, Song Q. Asymmetric variation in DNA methylation during domestication and de-domestication of rice. Plant Cell. 2023 Sep 1;35(9):3429-3443. doi: 10.1093/plcell/koad160. PMID: 37279583; PMCID: PMC10473196.

[5] Song B, Yu J, Li X, Li J, Fan J, Liu H, Wei W, Zhang L, Gu K, Liu D, Zhao K, Wu J. Increased DNA methylation contributes to the early ripening of pear fruits during domestication and improvement. Genome Biol. 2024 Apr 5;25(1):87. doi: 10.1186/s13059-024-03220-y. PMID: 38581061; PMCID: PMC10996114.

[6] Guo H, Cao P, Wang C, Lai J, Deng Y, Li C, Hao Y, Wu Z, Chen R, Qiang Q, Fernie AR, Yang J, Wang S. Population analysis reveals the roles of DNA methylation in tomato domestication and metabolic diversity. Sci China Life Sci. 2023 Aug;66(8):1888-1902. doi: 10.1007/s11427-022-2299-5. Epub 2023 Mar 23. PMID: 36971992.

[7] Zhou J, Xiao L, Huang R, Song F, Li L, Li P, Fang Y, Lu W, Lv C, Quan M, Zhang D, Du Q. Local diversity of drought resistance and resilience in Populus tomentosa correlates with the variation of DNA methylation. Plant Cell Environ. 2023 Feb;46(2):479-497. doi: 10.1111/pce.14490. Epub 2022 Nov 26. PMID: 36385613.

[8] Shen Y, Zhang J, Liu Y, Liu S, Liu Z, Duan Z, Wang Z, Zhu B, Guo YL, Tian Z. DNA methylation footprints during soybean domestication and improvement. Genome Biol. 2018 Sep 10;19(1):128. doi: 10.1186/s13059-018-1516-z. PMID: 30201012; PMCID: PMC6130073.

[9] Xu J, Chen G, Hermanson PJ, Xu Q, Sun C, Chen W, Kan Q, Li M, Cri

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/729345.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据分析】用Python做事件抽取任务-快速上手方案

目录 方法一&#xff1a;使用OmniEvent库安装OmniEvent使用OmniEvent进行事件抽取OmniEvent优点缺点 方法二&#xff1a;使用大模型使用GPT网页版进行事件抽取事件类型列表 大模型优点缺点 总结 在自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;事件抽取是一项关键任…

迅狐短视频商城系统:打造直播带货、社区种草和商品分销一站式解决方案

迅狐短视频商城系统作为一体化电商解决方案&#xff0c;致力于为用户提供全方位、便捷的购物体验。从直播带货到社区种草、再到商品分销&#xff0c;系统提供了全面的功能模块&#xff0c;满足用户多元化的需求。 一、直播带货功能模块 迅狐短视频商城系统的直播带货功能模块&…

SAMBA(简单混合状态空间模型用于高效的无限上下文语言建模)及其对长文本模型的改进

论文地址&#xff1a; https://arxiv.org/pdf/2406.07522 SAMBA&#xff08;Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling&#xff09;是一种新型的基于Transformer的语言模型&#xff0c;旨在解决传统大语言模型在处理长文本时遇到的…

【初阶数据结构】二叉树(附题)

目录 1.树概念及结构 1.1树的概念 1.2 树的相关概念&#xff08;树结构的相关概念命名参考自然树和人的血缘关系&#xff09; 1.3 树的表示 1.4 树在实际中的运用&#xff08;表示文件系统的目录树结构&#xff0c;初次之外网盘中使用到&#xff09; 2.二叉树概念及结构 …

关于OS中逻辑地址与物理地址转换

首先将逻辑地址134D从十六进制转为2进制 0001 0011 0100 1101 1&#xff09;1K的时候对应2的10次方 页面大小占10位 从后往前数 0001 00 || 11 0100 1101 前面的转为十进制为4 对应页号4内容1A转为2进制01 1010将这个替换原来的前六位数字 即0110 1011 0100 1101 再转换为…

『互联网三驾马车』

某天开会的时候&#xff0c;老板问了大家一个问题&#xff0c;对目前各个角色分工合作有哪些不满意的地方。有人回答到&#xff0c;能不能别让产品同学每次都在假期前几天发布需求&#xff0c;让开发同学周末或者假期加班搞需求&#xff0c;然后在还在假期看着产品同学到处去玩…

【React 】折叠面板,点击展开时再请求数据

需求背景&#xff1a;使用折叠面板的形式展示数据&#xff0c;面板内部数据需要在打开时请求接口获取。 遇到问题&#xff1a;最开始使用Antd 的折叠面板组件&#xff0c;它对于数据直接渲染是没问题的&#xff0c;但是不好满足打开面板时再动态加载数据的需求&#xff0c;于是…

Linux机器通过Docker-Compose安装Jenkins发送Allure报告

目录 一、安装Docker 二、安装Docker Compose 三、准备测试用例 四、配置docker-compose.yml 五、启动Jenkins 六、配置Jenkins和Allure插件 七、创建含pytest的Jenkins任务 八、项目结果通知 1.通过企业微信通知 2.通过邮件通知 九、配置域名DNS解析 最近小编接到一…

MyBatis 源码分析--SqlSessionFactory

前言&#xff1a; 前文我们简单的回顾了 MyBatis 的基本概念&#xff0c;有聊到核心组件&#xff0c;工作流程等&#xff0c;本篇我们开始深入剖析 MyBatis 的核心源码&#xff0c;欢迎大家持续关注。 Mybatis 知识传送门 初识 MyBatis 【MyBatis 核心概念】 MyBatis 源码解…

深度学习500问——Chapter12:网络搭建及训练(3)

文章目录 12.3.5 Caffe有哪些接口 12.4 网络搭建有什么原则 12.4.1 新手原则 12.4.2 深度优先原则 12.4.3 卷积核size一般为奇数 12.4.4 卷积核不是越大越好 12.5 有哪些经典的网络模型值得我们去学习的 12.6 网络训练有哪些技巧 12.6.1 合适的数据集 12.6.2 合适的预…

【数据库】数据库脚本编写规范(Word原件)

编写本文档的目的是保证在开发过程中产出高效、格式统一、易阅读、易维护的SQL代码。 1 编写目的 2 SQL书写规范 3 SQL编写原则 软件全套资料获取进主页或者本文末个人名片直接获取。

[图解]企业应用架构模式2024新译本讲解15-行数据入口

1 00:00:01,060 --> 00:00:02,770 数据算完了 2 00:00:03,070 --> 00:00:07,720 接下来就是我们这一节的主要内容了 3 00:00:08,500 --> 00:00:13,630 应用服务调用第三方的&#xff0c;Email 4 00:00:13,640 --> 00:00:18,280 包括集成应用的接口来发Email 5 …

Springboot获取resources中的文件

1.Springboot以文件的形式获取resources中的文件 import com.google.gson.JsonIOException; import com.google.gson.JsonObject; import com.google.gson.JsonParser; import com.google.gson.JsonSyntaxException; import org.springframework.util.ResourceUtils; import j…

【Linux】进程信号2——阻塞信号,捕捉信号

1.阻塞信号 1.1. 信号其他相关常见概念 在开始内容之前&#xff0c;先介绍一些信号的专业名词&#xff1a; 实际执行信号的处理动作称为信号递达&#xff08;Delivery&#xff09;信号从产生到递达之间的状态&#xff0c;称为信号未决&#xff08;Pending&#xff09;&#…

Swift Combine — zip和combineLatest的理解与使用

Publisher 上还有一些其他的操作&#xff0c;比如 zip 和 combineLatest&#xff0c;能让我们在时序上对控制多个 Publisher 的结果进行类似 and 和 or 的合并&#xff0c;它们在构建复杂 Publisher 逻辑时也十分有用。 zip Publisher 中的 zip 和 Sequence 的 zip 相类似&am…

【备考指南】CDA Level Ⅰ 最全备考攻略

很多考生朋友在报名前后&#xff0c;一直不知道需要怎么备考&#xff0c;这里给大家盘点一下最全的备考攻略&#xff0c;希望对你有用&#xff1a; 1、需要准备好之后再报名吗&#xff1f; 不需要&#xff0c;CDA认证考试是报名后自行预约考试的&#xff0c;您可以先报名同时…

qml:一个基础的界面设计

文章目录 文章说明效果图重要代码说明组件矩形卡片窗口最大化后组件全部居中菜单栏Repeater实现重复8行图片加载直接加载图片文本转图片FluentUI中可供选择的图标 文章说明 qt6.5.3 qml写的一个界面配置设计软件&#xff0c;目前不含任何c代码&#xff0c;纯qml。windoms风格的…

WebStorm 配置 PlantUML

1. 安装 PlantUML 插件 在 WebStorm 插件市场搜索 PlantUML Integration 并安装&#xff0c;重启 WebStorm 使插件生效。 2. 安装 Graphviz PlantUML 需要 Graphviz 来生成图形。使用 Homebrew 安装 Graphviz&#xff1a; 打开终端&#xff08;Terminal&#xff09;。确保你…

mac 常用工具命令集合

Iterm2 Command T&#xff1a;新建标签 Command W&#xff1a;关闭当前标签 Command ← →&#xff1a;在标签之间切换 Control U&#xff1a;清除当前行 Control A&#xff1a;跳转到行首 Control E&#xff1a;跳转到行尾 Command F&#xff1a;查找 Command …

数据结构5---矩阵和广义表

一、矩阵的压缩存储 特殊矩阵:矩阵中很多值相同的元素并且它们的分布有一定的规律。 稀疏矩阵:矩阵中有很多零元素。压缩存储的基本思想是: (1)为多个值相同的元素只分配一个存储空间; (2)对零元素不分配存储空间。 1、特殊矩阵的压缩存储 &#xff08;1&#xff09;对称矩…