MP | 基于kmer的泛基因组分析方法及应用

2024年5月24日,中国农业大学分子设计育种前沿科学中心作物杂种优势与利用教育部重点实验室郭伟龙与姚颖垠团队在《Molecular Plant》发表了题为《A k-mer-based pangenome approach for cataloging seed-storage-protein genes in wheat to facilitate genotype-to-phenotype prediction and improvement of end-use quality》的研究论文。

文中分享了一种基于kmer的泛基因组分析方法,并在小麦种子储藏蛋白SSP表型预测研究中进行应用,该方法能够更加精准的识别基因组SSP变异信息,并为实际研究提供重要参考价值。


小麦是全球超过35%人口的主食,面粉被用来制作成百上千种烘焙食品。小麦品质是一个重要的育种目标,然而提高品质的过程耗时且成本高昂。编码种子贮藏蛋白(SSPs) 的基因形成多基因家族,并且是重复的,几个基因组组装中常有缺口。为了克服这些障碍并有效识别优质的小麦SSP等位基因,作者开发了“PanSK”,用于基因型到表型的预测。

PanSK使用长度为29的kmer序列,这些序列在泛基因组水平上代表每个SSP基因,揭示了地方种和栽培种中未被利用的遗传多样性,作者进一步通过k-mer进行的全基因组关联研究识别了23个与品质相关的SSP基因。

最后,作者通过PanSK开发了基于机器学习的预测模型,实现了从基因型预测表型,并提供了一种基于SSP基因的基因组设计方法。

研究结果

Pacbio长读测序鉴定SSP基因

alt

小麦SSP蛋白由多基因家族编码,这些基因家族具有高序列相似性,并且包含长重复序列元素,二代短读长测序难以完整无误的组装SSP基因,阻碍了进一步分析和研究工作。

alt

为了克服这一问题并获得SSP基因的全长和无间隙转录本,作者利用PacBio长读测序技术从小麦种子胚乳种提取RNA进行测序,获得了85个编码SSP的全长转录本。其中包括5个HMW-GS基因、11个LMW-GS基因、57个麦胶蛋白基因和12个ALP基因。麦胶蛋白基因TraesCS1D02G002063在IWGSC1.0组装中包含一个缺口,该缺口由长度为498bp的Iso-Seq填充。

alt

有趣的是,与使用短读测序技术组装的已发表的参考小麦基因组相比,经测试证实Iso-Seq长读测序组装的全长SSP基因更多。因此,整合通过长读RNA测序组装的转录本有可能提供更准确和全面的小麦SSP序列。

然而,Iso-Seq成本较高,并且无法组装低表达量的转录本,这限制了在群体水平上的应用。作者通过整合Iso-Seq获得的全长SSP序列,以及NCBI上的SSP序列,开发了一种基于k-mer的方法来建立基于SSP的小麦全基因组图谱,有研究表明这种策略对于发现R基因而不进行定位是有效的。


基于kmer的泛基因组分析流程

为了鉴定每个SSP基因特有的kmer信息,作者通过直接扫描测序reads,快速准确地测定遗传变异,包括每个品种的存在/缺失变异和核苷酸多态性。

alt

作者开发了基于k-mer的分析流程,并将其命名为PanSK,用于通过扫描原始测序reads在全基因组水平上检测小麦SSP。

Step1:整合非冗余SSP序列合集

从多个资源中收集了649个全基因组水平的SSP基因序列,其中515个基因来自小麦基因组注释基因,125个基因来自Isoseq长读测序数据,还有9个基因来自已公开发表SSP基因sanger测序数据。 将序列相似性超过99% 的所有基因分组在一起,并从每组中选择最长序列作为非冗余代表性SSP序列,共得到了139个SSP序列集。

Step2:获得唯一性kmer片段

作者尝试了不同的kmer大小,以确定最佳的k值。从每个SSP基因中生成kmer,当k=29的时候,足以鉴定出139个SSP基因,并且再增加k值并不会显著改善结果,因此作者选择k=29作为kmer的大小,并鉴定出了40453个唯一性kmer,用来代表139个SSP基因。

Step3:扫描检测变异信息

开发了PanSK来扫描原始重测序数据并推断由kmers代表的SSP的变异信息(有或无),然后通过扫描每个SSP基因的唯一kmer相对比例来评估SSP是否存在,这个过程无需参考基因组比对。

alt

为了评估PanSK的准确性,作者从11个样本重测序数据中扫描了SSP特异性kmer,这些数据来源于随机抽样或者基因组生成的模拟短读序列。通过与这些序列中已经注释的SSP基因比较,结果显示随着测序深度增加,SSP基因kmer检出率也随之增加。即使是读长为1X的情况下,kmer也能相对可靠的检测SSP基因,说明kmer方法有效果!

alt

同时,作者还评估了不同测序深度下PanSK的检测能力,结果发现4X深度足以确定SSP基因是否存在,进一步增加测序深度不会显著提高F-score

alt

为了评估PanSK在基因组装中的表现,作者利用11个基因组进行比较,结果发现PanSK能够直接从重测序数据中鉴定更多的SSP基因。在长读组装基因组和短读组装基因组比较中,作者鉴定了23个麦胶蛋白预测基因,其中16个基因在IWGSC 1.0版本有注释信息,8个基因在IWGSC 2.0版本中有注释信息。对于Gli-ω基因,作者通过PanSK获得了14个预测基因,这些基因在两个版本参考基因组中都组装的比较差。

此外,PanSK能够有效解决基因组组装错误问题,例如IWGSC 1.0中的TraesCS1B02G329711和IWGSC 2.0中的TraesCS1B03G0904700基因被注释为HMW glutenin 1Bx,这两个序列相较于PanSK组装的基因存在664、2028bp的错误组装,通过PanSK能够更加精准的研究SSP基因多态性。

PanSK不仅能使用重测序数据识别SSP基因,还能基于kmer实现其他功能:

  1. 通过重叠kmer组装新的SSP基因
  2. 构建群体水平SSP基因指纹图谱
  3. 关联分析发掘SSP功能基因
  4. 协助进行表型预测

基于PanSK的SSP基因指纹图谱

作者使用PanSK鉴定了365个重测序小麦样本中139个SSP基因的PAV变异情况,构建了SSP基因指纹图谱,每个品种中预测的SSP基因数量差异很大。

alt

在139个SSP基因中,有8个基因存在于超过95%的材料中,这些被定义为核心基因,有26个基因存在于80-95%的材料中,被定为普通基因,有76个基因存在于5-80%的材料中,被定为可替换基因,另外还有29个基因存在于5%内的材料中,被定为特化基因。

alt

Cultivars中存在的SSP基因数量显著高于Landraces,与地方种相比,栽培种的α-, γ- 和ω-gliadin麦胶蛋白基因分别增加了5.9%、10.7%和24.6%。

alt

为了研究小麦面包加工过程中SSP基因的多样性和丰度关系,作者绘制了SSP基因和特异性kmer的饱和曲线,随着地方种和栽培种群体泛基因组扩大,只有少数材料的地方种小于栽培种,这与现代小麦积累SSP基因相一致。

育种导致小麦品种中的SSP基因数量更多,但是多样性更少,例如在地方种Huoliyan和Tutoumai中分别含有44个和5个SSP基因,其中只有有32个是共享的。相比之下,Liangxing99和Ningchun4中均含有76个SSP基因,但是有70个是共享的。在1B染色体的麦胶蛋白基因位点上,Huoliyan只有两个麦胶蛋白位点,而Liangxing99有10个。表明小麦地方种中SSP基因高度多样性,而现代品种中仍未得到充分利用。

alt
基因组关联分析发掘优异基因

为了确定与小麦籽粒品质相关的优质SSP基因,作者使用SDS-SV为表型进行基于kmer的基因组关联分析,为了防止1BL/1RS易位系影响,作者选择了103个携带相同类型的材料进行分析,最终发现了23个SSP基因的336个Kmer与表型相关,其中有3个已知的SSP基因,剩余20个新的候选基因。

alt

接下来,作者将这23个SSP基因的单倍型与kmer区分开,扫描变异信息,共鉴定了63个单倍型。为了研究单倍型在育种过程中的传播规律,作者引入每种单倍型的育种选择分数来比较栽培种和地方种之间的百分比。

高SDS-SV相关的5个单倍型在品种中富集,说明已经在育种过程中被育种家选中。低SDS-SV的4个单倍型在地方种中富集,说明被育种家选择丢弃。另外有25个单倍型与SDS-SV相关,但是在现在育种中没有被选择,这些是未来潜在的新候选基因。

alt

同一个基因的不同单倍型往往对表型产生相反影响,这突出了PanSK选择优异单倍型的重要性。下面是三种谷蛋白的单倍型分析结果,h3和h2的SDS-SV表型值显著高于h1,在地方种中h1单倍型占比明显大于栽培种,h2和h3是主要单倍型,h3单倍型在栽培种中频率提高,说明h3已经被选择。

alt

作者进一步比较了三种单倍型之间的序列差异,基于kmer组装了完整编码序列,发现h1和h2有19个SNP差异,而h2和h3只有1个SNP差异。与h1单倍型相比,h2和h3都在翻译起始位点下游277bp处发生C→T突变,导致过早的终止密码子,这些结果表明Gli-γ-1B-3缺失等位基因有助于提高小麦品质。

alt
1BL/1RS易位系黑麦碱遗传变异

小麦-黑麦1BL/lRS易位系将黑麦染色体lRS的短臂替换为小麦染色体1B (1BS)的短臂,由于提高抗病性和优异的粮食产量而在世界范围内使用,然而,这些易位系对面包烘焙质量有影响,这是由于在lRS上引入了黑麦麦蛋白基因,以及麦胶蛋白和LMW谷蛋白基因的缺失,通过在lBL/lRS中调控黑麦碱来选育高产优质优良品种、提高籽粒品质和产量是一种有效策略。利用PanSK进行黑麦碱基因变异检测,确定合适的靶标,以提高最终使用品质。

alt

组装后的1BL/lRS基因组携带Sec-1,ω-secalin 2 ,ω-secalin 3和含有两个活性基因的Sec4位点,利用PanSK确定了这些特殊蛋白所特有的k-mers,并对过去40年的77个1BL/lRS易位系的特殊蛋白变异进行了分类。

alt

o-secalin-4特异性k-mers的PAV表明,该基因在育种过程中逐渐被消除,从20世纪80年代到2020年,这些k-mers的含量逐渐减少,优质品种正麦1860和周麦30含有最少的k-mers(右下角箭头所示样本)

alt

o-secalin-4的k-mers数量与SDS-SV之间存在统计学上显著的负相关,表明消除o-secalin4对籽粒品质有积极影响,这些结果共同揭示了一种趋势,即现代育种逐渐去除lRS中的o-secalins以提高小麦籽粒质量。

利用PanSK进行基因型-表型预测

通过PanSK鉴定的k-mers可以充分捕捉到SSP基因的存在/缺失变异(PAV)和等位基因,这是传统SNP芯片或基于SNP的基因分型方法所面临的困难。因此,作者试图建立一个基于k-mer的预测模型,用于基因型到表型的预测,并评估每个SSP基因对籽粒品质的贡献。然后提出了一个理想的SSP基因组合,有助于改良最终性状。

对于训练群体,作者随机选择1000个非冗余k-mers作为初始候选集。接下来使用基于随机森林的模型,以k-mers PAV变异作为基因型和SDS-SV作为表型来训练模型。作者选择了一种贪婪的策略,通过每次从最少的k-mer中选择具有最佳预测性能的候选k-mer来对关键k-mer进行优先级排序。

alt

使用90个k-mers足以达到稳定的效果(Pearson相关系数0.64),因此,作者开发了一种小麦籽粒品质性状预测器,并将其命名为“KPPer”(基于k-mer的表型预测器),通过使用90个选定的k-mers的遗传变异作为基因型。

alt 为了测试KPPer的预测能力,作者预测了172个小麦籽粒品质性状表型,并测量了它们的SDS-SV,通过采用十折交叉验证方法进行评估,获得了预测和观察到的SDS-SV之间的相关性为0.64。SDS水平较高的品种携带了更多正效应位点,而SDS较低的品种携带较少正效应位点,这些结果表明基于kmer的预测模型能够促进选择能力,具有改进小麦籽粒品质性状的潜在能力。

alt

KPPer可以从基因型预测表型,从而减轻了传统方法的局限性,在育种中具有广阔的应用前景。作者提出了一种使用PanSK来提高最终用途质量的新育种策略:

首先,选择含有优质SSP基因的优质种质资源作为亲本系。在两个亲本系(如F2群体)产生的后代的早期阶段,根据基因型到表型的预测来选择优异单株。对于F2群体中的单株,KPPer预测最终使用质量的表现,并选择携带更多SSP基因且对籽粒品质有积极影响的优异个体作为下一代。

最后,在F3或F4代选择纯合子系,通过检测不同品种中不同k-mers的组成,可以选择合适的互补亲本组合,聚集对品质有正面影响的k-mers,排除对品质有负面影响的k-mers,创造出新的高质量品种。

alt

为了验证,作者使用Nongda3097和Lunxuan987的重组自交系来验证基因型-表型预测,Nongda3097具有较高的SDS-SV(观察值= 25.0 mL,预测值= 24.90 mL),携带6个阴性k-mers和14个阳性k-mers。Lunxuan987的SDS-SV较低(观测值为15.4mL,预测值为20.49 mL),携带11个对SDS-SV有负面影响的k-mers, 2个对SDS-SV有正面影响的kmers,证实了KPPer在预测籽粒品质的基因型到表型方面的能力。


通过学习这篇文章,了解到许多新的分析思路,基于kmer的泛基因组分析策略在小麦研究中将会越来越普遍,相信这种方法在作物抗病领域也同样会发光。

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一道笔试题 - 反转列表

文章目录 描述预期结果代码 描述 给定一个单链表的头结点pHead(该头节点是有值的,比如在下图,它的val是1),长度为n,反转该链表后,返回新链表的表头。 如当输入链表{1,2,3}时, 经反转后,原链表变…

【RHCE】NFS 实验

主服务器 下载nfs-utils软件包: 1.如果停⽌该服务,启动并启⽤该服务: systemctl enable - now rpcbind 2.要启动 NFS 服务器,并使其在引导时⾃动启动:systemctl enable - now nfs- server 3.配置防火墙,开…

基于swagger插件的方式推送接口文档至torna

目录 一、前言二、登录torna三、创建/选择空间四、创建/选择项目五、创建/选择应用六、获取应用的token七、服务推送7.1 引入maven依赖7.2 test下面按照如下方式新建文件 一、前言 Torna作为一款企业级文档管理系统,支持了很多种接口文档的推送方式。官方比较推荐的…

【深度学习】PyTorch深度学习笔记02-线性模型

1. 监督学习 2. 数据集的划分 3. 平均平方误差MSE 4. 线性模型Linear Model 用穷举法确定线性模型的参数 import numpy as np import matplotlib.pyplot as pltx_data [1.0, 2.0, 3.0] y_data [2.0, 4.0, 6.0]def forward(x):return x * w# loss function 是 均方根误差 lo…

YoloV8改进策略:卷积篇Kan行天下之JacobiKAN,KAN遇见Jacobi多项式

摘要 将Kolmogorov-Arnold Networks (KAN) 中的B-spline替换为Jacobi多项式是一个很有创意的想法,因为Jacobi多项式在函数逼近方面表现出色,并且具有递归计算的特性。经过测试,Jacobi多项式的KAN在YoloV8中,取得了非常不错的涨点效果。下面我将概述如何构建基于Jacobi多项…

【库架一体立体库】与【传统立体库】对比

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。 随着冷链物流行业的快速发展,对于冷藏设施的要求也在不断提高。库架一体式智能立体冷藏库以其高效、节能、智能化的特点,正逐渐成为行业发展的新趋势。 分享一…

大模型应用中什么是SFT(监督微调)?

大模型应用中什么是SFT(监督微调)? 一、SFT的基本概念 监督微调(Supervised Fine-Tuning, SFT)是对已经预训练的模型进行特定任务的训练,以提高其在该任务上的表现。预训练模型通常在大量通用数据上进行训…

算法:字符串相关

目录 题目一:最长公共前缀 题目二:最长回文子串 题目三:二进制求和 题目四:字符串相乘 题目一:最长公共前缀 编写一个函数来查找字符串数组中的最长公共前缀 如果不存在公共前缀,返回空字符串 "…

mysql判断时间段是否重合

mysql判断时间段是否重合 SELECT CASE WHEN t1.start_time < t2.end_time AND t1.end_time > t2.start_time THEN ‘重合’ ELSE ‘不重合’ END AS result FROM table_name t1, table_name t2 WHERE t1.id <> t2.id;

产品经理-交互设计动手实践(11)

业内有很多画交互的工具&#xff0c;这里不过多介绍&#xff0c;互联网公司最常用的工具是Axure,墨刀,蓝湖,小瀑 它是一个专业的快速原型设计工具&#xff0c;使用它能够快速创建线框图、流程图、原型和规格说明文档。 它能快速、高效地创建原型&#xff0c;同时支持多人协作设…

不想成为失业大军,就要学习六西格玛?

最近&#xff0c;优思学院收到一封邮件&#xff0c;这封邮件的发送者是一位完成了我们六西格玛绿带课程的学生。 他的公司裡有20%的工程师被裁员&#xff0c;但值得注意的是&#xff0c;留下来的工程师中有70%人竟然都持有六西格玛绿带或黑带证书。 他的公司不仅希望利用这些…

科普文:深入理解Mybatis

概叙 (1) JDBC JDBC(Java Data Base Connection,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组成.JDBC提供了一种基准,据此可以构建更高级的工具和接口,使数据库开发人员能够编写数据库应用程序。 优点…

React文档内网搭建

React文档内网搭建流程 官网地址 官网中文地址 通过官网我们可以找到React的github存储库 ReactGitHub 在介绍中可以找到对应的文档存储库 React文档存储库 此存储库是英文文档地址,我们通过中文文档地址以及该存储库作者目录下找到中文存储库 React文档中文存储库 下载…

JavaSE语法 | 初识Java!!!

初识Java 一、Java开发环境二、初步认识Java的main方法2.1 main方法的实现2.2 运行Java程序 三、注释四、标识符五、关键字 一、Java开发环境 IDEA版本&#xff1a;IntelliJ IDEA Community Edition 2022.3.3 JDK17 Windows 11 二、初步认识Java的main方法 2.1 main方法的实…

C语言入门-1.数据的类型、数据的输入输出

数据类型常量变量&#xff08;整型-浮点-字符&#xff09; 数据类型 基本类型 整型int 符号常量 定义一个整形变量时要使用关键字int #include <stdio.h> //符号常量练习 #define PI 3 2 int main() {int i PI * 2;printf("i%d\n",i);return 0; } //7 …

解密 AI 客服:LangChain+ChatGPT 打造智能客服新时代

你需要了解 ChatGPT ChatGPT 是 OpenAI 开发的一种基于人工智能技术的自然语言处理模型。它可以通过对大量文本数据进行训练&#xff0c;自动生成高质量的回答和对话。ChatGPT 具有高效、准确、自然的特点&#xff0c;可以帮助人们更加高效地处理信息和交流。 ChatGPT 有很多…

QT TCP多线程网络通信

学习目标&#xff1a; TCP网络通信编程 学习前置环境 运行环境:qt creator 4.12 QT TCP网络通信编程-CSDN博客 Qt 线程 QThread类详解-CSDN博客 学习内容 使用多线程技术实现服务端计数器 核心代码 客户端 客户端&#xff1a;负责连接服务端&#xff0c;每次连接次数1。…

启动tomcat时提示The JRE_HOME environment variable is not defined correctly

我的情况是在已经安装过jdk后&#xff0c;启动tomcat时出现以下问题 原因是环境变量配置不正确导致的 首先确认一下jre的实际安装路径 然后修改环境变量配置文件 vim /etc/profile 添加以下内容&#xff0c;JRE_HOME为实际jre的路径 然后保存退出 让文件生效一下 source…

Docker-搭建部署Jenkins(保姆篇)

文章目录 Jenkins部署拉取镜像启动容器查看初始密码关闭CSRF Jenkins页面使用解决插件下载缓慢访问jenkins页面推荐插件安装创建一个管理员账号实例配置页面展示 更多相关内容可查看 Jenkins部署 拉取镜像 如果想拉取对应版本请指明版本号 docker pull jenkins/jenkins:lts-…

数据分析入门指南:表结构数据(三)

在数字化转型的浪潮中&#xff0c;表结构数据作为企业决策支持系统的核心要素&#xff0c;其重要性日益凸显。本文深入剖析了表结构数据的本质特征、高效处理策略&#xff0c;并探讨了其在现代商业智能环境中的广泛应用&#xff0c;旨在为数据分析师与决策者提供前沿洞察与实战…