【基于R语言群体遗传学】-16-中性检验Tajima‘s D及连锁不平衡 linkage disequilibrium (LD)

Tajima's D Test

已经开发了几种中性检验,用于识别模型假设的潜在偏差。在这里,我们将说明一种有影响力的中性检验,即Tajima's D(Tajima 1989)。Tajima's D通过比较数据集中的两个𝜃 = 4N𝜇估计值来工作。我们已经推导出了𝜃is,等于平均成对杂合性(average pairwise heterozygosity),当我们讨论共祖时(也称为Tajima的估计器)。当考虑DNA序列集合中的等位基因或SNP总数以及将它们联合到共同祖先的共祖树内包含的预期世代数时,可以得出另一种推导。这被称为Watterson的𝜃估计器或𝜃W(Yong 2019)。正如我们在共祖中所展示的,n个谱系的预期共祖时间是:

一组n个初始谱系到一个单一祖先的所有共祖时间的总和是:

在每次共祖事件之间的步骤中,有i + 1个谱系可能发生突变。因此,当考虑一段时间内所有谱系可能产生的等位基因数量时,我们乘以i + 1:

我们将树上所有谱系的总时间乘以每代突变率𝜇,得到我们期望在n个DNA序列样本中的等位基因总数,而4N是一个常数,所以我们可以将其放在求和之外

其中S是序列集合中SNP的数量。这可以重新排列以从SNP的数量估计𝜃W=4N𝜇:

请注意,Watterson的𝜃估计器需要了解一组谱系的共祖,但这是在1975年发表的,当时还没有发表超过两个谱系的共祖(Kingman 1982)。Tajima's D是平均成对杂合性𝜃估计值与从样本中SNP数量估计的𝜃之间的差异,除以该差异的预期方差的平方根:

而:

这看起来有点乱,但在各种位置反复出现两个不同的n求和,只需要计算一次然后填入。这可以用以下代码计算(平均成对差异和S也可以从数据集中计算,但为了简洁起见,我们在这里省略了)。 

Tajima's D是用来评估一个种群中中性突变(即没有自然选择影响的突变)的假设是否成立。它通过比较两个不同的估计器来衡量种群的遗传多样性和种群规模的变化,我们通过R语言实现:
 

# Calculates Tajima’s D

# 平均成对差异,用于估计theta_IS
theta_IS <- 2.8

# 数据集中的SNP数量
S <- 16

# 采样的等位基因拷贝数
n <- 20

# 初始化求和变量
i1_sum <- 0.0

# 循环计算i1的和,这是Watterson's theta的一部分
for(i in 2:n-1){
    i1_sum <- i1_sum + 1/i
}

# 计算Watterson's theta,它是基于序列多态性的一个种群规模的估计器
theta_W <- S / i1_sum

# 初始化第二个求和变量
i2_sum <- 0.0

# 循环计算i2的和,用于后续计算
for(i in 2:n-1){
    i2_sum <- i2_sum + 1/i^2
}

# 计算期望值e1,它是Tajima's D公式中的项
e1 <- ((n+1)/(3*(n-1)) - 1/i1_sum) / i1_sum

# 计算期望值e2,它也是Tajima's D公式中的项
e2 <- (2*(n^2+n+3)/(9*n*(n-1)) - (n+2)/(n*i1_sum) + i2_sum/i1_sum^2) / (i1_sum^2 + i2_sum)

# 计算Tajima's D值,它衡量的是theta_IS和theta_W之间的标准化差异
(D <- (theta_IS - theta_W) / sqrt(e1*S + e2*S*(S-1)))

前三个变量将根据您的数据进行调整。在这个例子中,返回的D = -1.409。大于或小于2的D被认为是显著的;然而,实际的p值是通过模拟确定的。D的正值表示中间频率等位基因过多,这可能是由于人口减少或平衡选择,因为这两种情况都会延长人口历史较老部分的共祖事件时间。在更大的种群中,有更多的祖先可供选择,共祖是一种罕见的事件,并会膨胀𝜃IS,因为相对于𝜃W,较老的谱系在后代中以更高的频率共享。这种负D表示稀有频率等位基因过多(共祖的最近尖端被放大;它们对S和𝜃W的贡献比对平均成对差异的贡献更多,因为它们很稀有),这表明人口扩张、选择性清除或对有害等位基因的低效净化选择。关键是要计算多个位点的D值,并寻找异常值以标记假定选择候选者。人口统计学效应,如人口规模的变化,应该影响基因组中的所有位点,而选择(通常被认为)在其影响上是位点特异性的。还有许多其他的中性检验,如HKA检验(Hudson等人,1987)、McDonald-Kreitman检验(McDonald和Kreitman,1991)、Fay和Wu的H(Fay和Wu,2000)以及dN/dS比率(Yang和Bielawski,2000)。其中许多也利用了物种之间发生的遗传变化,它们都有各自的优点和缺点。

linkage disequilibrium (LD)

群体遗传学的一个独特性质,在进化博弈论等类似领域中并未发现,即不同位点甚至不同染色体上的等位基因可以“链接”(尽管并不总是与经典遗传学中的重组图谱同义),并且比随机预期更频繁地一起遗传。 连锁不平衡(LD)的程度由𝒟量化,不要与Tajima的D混淆。考虑两个位点:一个具有A/a多态性,另一个具有B/b多态性。我们对于跨位点一起遗传的等位基因之间的关联感到好奇。使用概率的乘法规则,我们期望AB单倍型(pAB)的频率是两个等位基因频率pApB的乘积,如果它们是独立遗传的话。这两者之间的差异由𝒟量化,作为连锁不平衡的一种度量。

根据AB单倍型是过量还是不足,𝒟可以是正数或负数(或者如果你从ab单倍型任意计算𝒟,符号会改变)。𝒟也可以从所有单倍型频率计算得出。

为了说明,假设我们有一个包含两个SNP的单倍型频率的小型数据集。一个是A/G多态性,另一个具有C/T等位基因:

让我们关注A-C单倍型。A等位基因的频率是0.57,C等位基因的频率是0.65

遗传漂变、种群结构和强选择是推动𝒟偏离零的力量。在大种群中,预测𝒟随时间呈指数衰减轨迹返回到零,就像在小种群中遗传漂变下的杂合性一样:

其中r是感兴趣的位点对之间预期的重组分数。这可以用来估计单倍型的年龄。最后,即使对于在不同染色体上独立分配的位点,𝒟也需要时间衰减。哈代-温伯格基因型可以在一代中恢复,但过去的事件对LD有持续影响,这可以用来推断更远的过去的过程,如种群中不再存在的种群结构。 当从实际数据集计算𝒟时,双重杂合子是不明确的。假设我们有一个个体的C/T,A/G SNP集合。C等位基因与第二个位置的A还是G等位基因相关联?通常我们不知道。但是,不明确的单倍型频率为我们提供了关于解决双重杂合子可能方式的信息。如果C-G单倍型非常常见,而C-A单倍型很少见,那么这表明C/T,A/G个体可能具有C-G/T-A单倍型。使用这种方法计算𝒟太繁琐,无法手工完成。 幸运的是,这正是EM算法发挥作用的地方。Kalinowski和Hedrick(2001)使用大角羊(Ovis canadensis)数据集(Boyce等人,1997)来估计LD。这个物种很罕见,样本量很小,所以我们需要从可用的数据中获得尽可能多的信息。 以下R代码实现了Kalinowski和Hedrick(2001)给出的方程式。它从猜测相等的单倍型频率和𝒟 = 0开始。然后它更新这个猜测,并迅速达到最大似然解𝒟 ≈0.0779和na-B单倍型频率基本为零。

# 定义各个复合基因型的频率
AABB <- 2  # 两个位点都是纯合子AABB的个体数量
AaBB <- 0  # 一个位点是杂合子,另一个是纯合子AaBB的个体数量
aaBB <- 0  # 一个位点是纯合子aa,另一个是纯合子BB的个体数量
AABb <- 0  # 第一个位点是纯合子AA,第二个位点是杂合子Bb的个体数量
AaBb <- 1  # 两个位点都是杂合子AaBb的个体数量(双杂合子)
aaBb <- 0  # 第一个位点是纯合子aa,第二个位点是杂合子Bb的个体数量
AAbb <- 1  # 第一个位点是纯合子AA,第二个位点是纯合子bb的个体数量
Aabb <- 0  # 第一个位点是杂合子Aa,第二个位点是纯合子bb的个体数量
aabb <- 0  # 两个位点都是纯合子aabb的个体数量

# 使用上述输入运行函数‘Dcalc’
Dcalc(AABB, AaBB, aaBB, AABb, AaBb, aaBb, AAbb, Aabb, aabb)

𝒟与用于衡量线性相关性的统计相关系数(皮尔逊)“r”有关。让我们使用ℛ表示相关系数,以避免将其与重组分数r混淆。𝒟2除以所有等位基因频率的乘积等于ℛ^2。

此外,奇怪的是,如果我们将ℛ2乘以采样的染色体总数(如果我们观察n个二倍体个体,通常为2n),那么我们就会得到一个具有一个自由度的𝜒2统计量:

然而,这并不令人惊讶。在如此小的样本量下,即使LD非常强,检测偏差的能力也非常有限。最后,我们希望指出,EM算法是一种“爬山”算法,它找到一个局部最大似然峰值。可能存在其他峰值,可以使用MCMC方法来处理这个问题,并更全面地探索复杂的似然表面。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/790730.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【栈和队列】

目录 一、栈1.1、栈的基本概念1.2、栈的基本操作1.3、栈的顺序存储实现1.3.1、顺序栈的定义1.3.2、顺序栈的初始化1.3.3、顺序栈的入栈和出栈1.3.4、读取栈顶元素1.3.5、共享栈&#xff08;即两个栈共享同一片空间&#xff09; 1.4、栈的链式存储实现1.4.1、链栈的定义1.4.2、链…

Spring Boot 高级配置:如何轻松定义和读取自定义配置

目录 1. 环境准备 2. 读取配置数据 2.1 使用 Value注解 2.2 Environment对象 2.3.2.3 自定义对象 这篇博客我们将深入探讨如何在Spring Boot应用中有效地定义和读取自定义配置。掌握这一技巧对于任何希望优化和维护其应用配置的开发者来说都是至关重要的。我们将从基础开始…

昆法尔The Quinfall在Steam上怎么搜索 Steam上叫什么名字

昆法尔The Quinfall是一款全新的MMORPG&#xff0c;在中世纪的深处&#xff0c;参与独特的战斗和沉浸式的故事&#xff0c;有几十个不同的职业。而游戏中的战斗系统更是丰富多彩&#xff0c;无论是陆地激战、海上鏖战还是城堡围攻&#xff0c;都能让玩家感受到前所未有的刺激和…

BJT交流分析+共发射极(CE)放大器+单片机的中断系统(中断的产生背景+使用中断重写秒表程序+中断优先级)

2024-7-10&#xff0c;星期三&#xff0c;16:58&#xff0c;天气&#xff1a;阴&#xff0c;心情&#xff1a;晴。今天终于阴天啦&#xff0c;有点风凉快一点了&#xff0c;不然真要受不了了&#xff0c;然后没有什么特殊的事情发生&#xff0c;继续学习啦&#xff0c;加油加油…

blender 纹理绘制-贴花方式

贴画绘制-1分钟blender_哔哩哔哩_bilibili小鸡老师的【Blender风格化角色入门教程】偏重雕刻建模https://www.cctalk.com/m/group/90420100小鸡老师最新的【风格化角色全流程进阶教程】偏重绑定。早鸟价进行中&#xff01;欢迎试听https://www.cctalk.com/m/group/90698829, 视…

2024年PMP考试备考经验分享

PMP是项目管理领域最重要的认证之一,本身是IT行业比较流行的证书&#xff0c;近几年在临床试验领域也渐渐流行起来&#xff0c;是我周围临床项PM几乎人手一个的证书。 考试时间&#xff1a;PMP认证考试形式为180道选择题&#xff0c;考试时间为3小时50分。 考试计划&#xff…

政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署MuseV (踩完了所有的坑):基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成

目录 下载项目 创建虚拟环境 启动虚拟环境&执行项目依赖 基于DOCKER的尝试 A. 安装引擎 B. 下载桌面安装包 C. 安装桌面包 用Docker运行MuseV 1. 拉取镜像 ​编辑 2. 运行Docker镜像 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 收…

内存迎来革命性升级,只装一条就能组成双通道

相信用过台式机的同学或多或少都遇到过一个情况&#xff0c;那就是按下开机键后&#xff0c;除了显示器不亮&#xff0c;哪儿都亮。 拿着自己的故障满世界发帖求助&#xff0c;得到最多的回答就是&#xff0c;断电拔下内存用橡皮擦擦擦金手指再装回。而这样的操作确实能解决大部…

51.通过获取数据快速实现一个辅助

上一个内容&#xff1a;50.破坏性更小的代码跳转功能完善&#xff08;无敌秒杀&#xff09; 原理是&#xff1a;找一个现成的辅助&#xff0c;使用PCHunter工具看现成辅助对目标游戏做了那些hook操作&#xff0c;然后再使用Ollydbg.exe工具分析现成辅助为何这样做。 下图左边…

短信验证码研究:公开的短信验证码接口、不需要注册的短信验证码接口

短信验证码研究&#xff1a;公开的短信验证码接口、不需要注册的短信验证码接口 0 说明 本文提供了一个短信验证码接口&#xff0c;主要用于以下场景&#xff1a; 1、用于开发调试 2、用于申请验证码困难的企业和个人 3、用于短信验证码认证还没有通过&#xff0c;但是着急…

深入了解java锁升级可以应对各种疑难问题

对于java锁升级&#xff0c;很多人都停留在比较浅层的表面理解&#xff0c;一定程度下也许够用&#xff0c;但如果学习其中的细节&#xff0c;我们更好地理解多线程并发时各种疑难问题的应对方式&#xff01; 因此我将锁升级过程中可能涉及的大部分细节或者疑问都整合成了一篇…

免费分享:中国1KM分辨率月平均气温数据集(附下载方法)

数据简介 中国1KM分辨率月平均气温数据集为中国逐月平均温度数据&#xff0c;空间分辨率为0.0083333&#xff08;约1km&#xff09;。 数据集获取&#xff1a;根据全国2472个气象观测点数据进行插值获取&#xff0c;验证结果可信。 数据集包含的地理空间范围&#xff1a;全国…

YOLOv10改进 | 图像去雾 | MB-TaylorFormer改善YOLOv10高分辨率和图像去雾检测(ICCV,全网独家首发)

一、本文介绍 本文给大家带来的改进机制是图像去雾MB-TaylorFormer&#xff0c;其发布于2023年的国际计算机视觉会议&#xff08;ICCV&#xff09;上&#xff0c;可以算是一遍比较权威的图像去雾网络&#xff0c; MB-TaylorFormer是一种为图像去雾设计的多分支高效Transformer…

技术文件国产化准备

技术文档的本地化涉及调整内容以满足特定目标市场的文化、语言和技术要求。这一过程超越了简单的翻译&#xff0c;确保文件在文化上适合预期受众&#xff0c;在技术上准确无误。适当的准备对于成功的本地化至关重要&#xff0c;以下步骤概述了一种全面的方法。 分析目标受众 …

IEC62056标准体系简介-4.IEC62056-53 COSEM应用层

为在通信介质中传输COSEM对象模型&#xff0c;IEC62056参照OSI参考模型&#xff0c;制定了简化的三层通信模型&#xff0c;包括应用层、数据链路层&#xff08;或中间协议层&#xff09;和物理层&#xff0c;如图6所示。COSEM应用层完成对COSEM对象的属性和方法的访问&#xff…

怎么将3张照片合并成一张?这几种拼接方法很实用!

怎么将3张照片合并成一张&#xff1f;在我们丰富多彩的日常生活里&#xff0c;是否总爱捕捉那些稍纵即逝的美好瞬间&#xff0c;将它们定格为一张张珍贵的图片&#xff1f;然而&#xff0c;随着时间的推移&#xff0c;这些满载回忆的宝藏却可能逐渐演变成一项管理挑战&#xff…

MT3047 区间最大值

思路&#xff1a; 使用哈希表map和set&#xff08;去重&#xff09;维护序列 代码&#xff1a; #include <bits/stdc.h> using namespace std; const int N 1e5 10; int n, k, A[N]; map<int, int> mp; // 元素出现的次数 set<int> s; // 维护出现…

Elasticsearch文档_id以数组方式返回

背景需求是只需要文档的_id字段&#xff0c;并且_id组装成一个数组。 在搜索请求中使用 script_fields 来整理 _id 为数组输出&#xff1a; POST goods_info/_search?size0 {"query": {"term": {"brand": {"value": "MGC"…

印刷企业如何判断数字工厂管理系统的实施周期

在数字化转型的浪潮中&#xff0c;印刷企业正积极拥抱新技术以提升生产效率、优化成本结构并增强市场竞争力。数字工厂管理系统的引入&#xff0c;作为这一转型的关键步骤&#xff0c;不仅能够实现生产流程的自动化、智能化监控&#xff0c;还能显著提升数据分析能力和决策效率…

Java getSuperclass和getGenericSuperclass

1.官方API对这两个方法的介绍 getSuperclass : 返回表示此 Class 所表示的实体&#xff08;类、接口、基本类型或 void&#xff09;的超类的 Class。如果此 Class 表示 Object 类、一个接口、一个基本类型或 void&#xff0c;则返回 null。如果此对象表示一个数组类&#xff…