2024年5月24日,中国农业大学分子设计育种前沿科学中心作物杂种优势与利用教育部重点实验室郭伟龙与姚颖垠团队在《Molecular Plant》发表了题为《A k-mer-based pangenome approach for cataloging seed-storage-protein genes in wheat to facilitate genotype-to-phenotype prediction and improvement of end-use quality》的研究论文。
文中分享了一种基于kmer的泛基因组分析方法,并在小麦种子储藏蛋白SSP表型预测研究中进行应用,该方法能够更加精准的识别基因组SSP变异信息,并为实际研究提供重要参考价值。
小麦是全球超过35%人口的主食,面粉被用来制作成百上千种烘焙食品。小麦品质是一个重要的育种目标,然而提高品质的过程耗时且成本高昂。编码种子贮藏蛋白(SSPs) 的基因形成多基因家族,并且是重复的,几个基因组组装中常有缺口。为了克服这些障碍并有效识别优质的小麦SSP等位基因,作者开发了“PanSK”,用于基因型到表型的预测。
PanSK使用长度为29的kmer序列,这些序列在泛基因组水平上代表每个SSP基因,揭示了地方种和栽培种中未被利用的遗传多样性,作者进一步通过k-mer进行的全基因组关联研究识别了23个与品质相关的SSP基因。
最后,作者通过PanSK开发了基于机器学习的预测模型,实现了从基因型预测表型,并提供了一种基于SSP基因的基因组设计方法。
研究结果
Pacbio长读测序鉴定SSP基因
小麦SSP蛋白由多基因家族编码,这些基因家族具有高序列相似性,并且包含长重复序列元素,二代短读长测序难以完整无误的组装SSP基因,阻碍了进一步分析和研究工作。
为了克服这一问题并获得SSP基因的全长和无间隙转录本,作者利用PacBio长读测序技术从小麦种子胚乳种提取RNA进行测序,获得了85个编码SSP的全长转录本。其中包括5个HMW-GS基因、11个LMW-GS基因、57个麦胶蛋白基因和12个ALP基因。麦胶蛋白基因TraesCS1D02G002063
在IWGSC1.0组装中包含一个缺口,该缺口由长度为498bp的Iso-Seq填充。
有趣的是,与使用短读测序技术组装的已发表的参考小麦基因组相比,经测试证实Iso-Seq长读测序组装的全长SSP基因更多。因此,整合通过长读RNA测序组装的转录本有可能提供更准确和全面的小麦SSP序列。
然而,Iso-Seq成本较高,并且无法组装低表达量的转录本,这限制了在群体水平上的应用。作者通过整合Iso-Seq获得的全长SSP序列,以及NCBI上的SSP序列,开发了一种基于k-mer的方法来建立基于SSP的小麦全基因组图谱,有研究表明这种策略对于发现R基因而不进行定位是有效的。
基于kmer的泛基因组分析流程
为了鉴定每个SSP基因特有的kmer信息,作者通过直接扫描测序reads,快速准确地测定遗传变异,包括每个品种的存在/缺失变异和核苷酸多态性。
作者开发了基于k-mer的分析流程,并将其命名为PanSK,用于通过扫描原始测序reads在全基因组水平上检测小麦SSP。
Step1:整合非冗余SSP序列合集
从多个资源中收集了649个全基因组水平的SSP基因序列,其中515个基因来自小麦基因组注释基因,125个基因来自Isoseq长读测序数据,还有9个基因来自已公开发表SSP基因sanger测序数据。 将序列相似性超过99% 的所有基因分组在一起,并从每组中选择最长序列作为非冗余代表性SSP序列,共得到了139个SSP序列集。
Step2:获得唯一性kmer片段
作者尝试了不同的kmer大小,以确定最佳的k值。从每个SSP基因中生成kmer,当k=29的时候,足以鉴定出139个SSP基因,并且再增加k值并不会显著改善结果,因此作者选择k=29作为kmer的大小,并鉴定出了40453个唯一性kmer,用来代表139个SSP基因。
Step3:扫描检测变异信息
开发了PanSK来扫描原始重测序数据并推断由kmers代表的SSP的变异信息(有或无),然后通过扫描每个SSP基因的唯一kmer相对比例来评估SSP是否存在,这个过程无需参考基因组比对。
为了评估PanSK的准确性,作者从11个样本重测序数据中扫描了SSP特异性kmer,这些数据来源于随机抽样或者基因组生成的模拟短读序列。通过与这些序列中已经注释的SSP基因比较,结果显示随着测序深度增加,SSP基因kmer检出率也随之增加。即使是读长为1X的情况下,kmer也能相对可靠的检测SSP基因,说明kmer方法有效果!
同时,作者还评估了不同测序深度下PanSK的检测能力,结果发现4X深度足以确定SSP基因是否存在,进一步增加测序深度不会显著提高F-score
为了评估PanSK在基因组装中的表现,作者利用11个基因组进行比较,结果发现PanSK能够直接从重测序数据中鉴定更多的SSP基因。在长读组装基因组和短读组装基因组比较中,作者鉴定了23个麦胶蛋白预测基因,其中16个基因在IWGSC 1.0版本有注释信息,8个基因在IWGSC 2.0版本中有注释信息。对于Gli-ω基因,作者通过PanSK获得了14个预测基因,这些基因在两个版本参考基因组中都组装的比较差。
此外,PanSK能够有效解决基因组组装错误问题,例如IWGSC 1.0中的TraesCS1B02G329711和IWGSC 2.0中的TraesCS1B03G0904700基因被注释为HMW glutenin 1Bx,这两个序列相较于PanSK组装的基因存在664、2028bp的错误组装,通过PanSK能够更加精准的研究SSP基因多态性。
PanSK不仅能使用重测序数据识别SSP基因,还能基于kmer实现其他功能:
-
通过重叠kmer组装新的SSP基因 -
构建群体水平SSP基因指纹图谱 -
关联分析发掘SSP功能基因 -
协助进行表型预测
基于PanSK的SSP基因指纹图谱
作者使用PanSK鉴定了365个重测序小麦样本中139个SSP基因的PAV变异情况,构建了SSP基因指纹图谱,每个品种中预测的SSP基因数量差异很大。
在139个SSP基因中,有8个基因存在于超过95%的材料中,这些被定义为核心基因,有26个基因存在于80-95%的材料中,被定为普通基因,有76个基因存在于5-80%的材料中,被定为可替换基因,另外还有29个基因存在于5%内的材料中,被定为特化基因。
Cultivars中存在的SSP基因数量显著高于Landraces,与地方种相比,栽培种的α-, γ- 和ω-gliadin麦胶蛋白基因分别增加了5.9%、10.7%和24.6%。
为了研究小麦面包加工过程中SSP基因的多样性和丰度关系,作者绘制了SSP基因和特异性kmer的饱和曲线,随着地方种和栽培种群体泛基因组扩大,只有少数材料的地方种小于栽培种,这与现代小麦积累SSP基因相一致。
育种导致小麦品种中的SSP基因数量更多,但是多样性更少,例如在地方种Huoliyan和Tutoumai中分别含有44个和5个SSP基因,其中只有有32个是共享的。相比之下,Liangxing99和Ningchun4中均含有76个SSP基因,但是有70个是共享的。在1B染色体的麦胶蛋白基因位点上,Huoliyan只有两个麦胶蛋白位点,而Liangxing99有10个。表明小麦地方种中SSP基因高度多样性,而现代品种中仍未得到充分利用。
基因组关联分析发掘优异基因
为了确定与小麦籽粒品质相关的优质SSP基因,作者使用SDS-SV为表型进行基于kmer的基因组关联分析,为了防止1BL/1RS易位系影响,作者选择了103个携带相同类型的材料进行分析,最终发现了23个SSP基因的336个Kmer与表型相关,其中有3个已知的SSP基因,剩余20个新的候选基因。
接下来,作者将这23个SSP基因的单倍型与kmer区分开,扫描变异信息,共鉴定了63个单倍型。为了研究单倍型在育种过程中的传播规律,作者引入每种单倍型的育种选择分数来比较栽培种和地方种之间的百分比。
高SDS-SV相关的5个单倍型在品种中富集,说明已经在育种过程中被育种家选中。低SDS-SV的4个单倍型在地方种中富集,说明被育种家选择丢弃。另外有25个单倍型与SDS-SV相关,但是在现在育种中没有被选择,这些是未来潜在的新候选基因。
同一个基因的不同单倍型往往对表型产生相反影响,这突出了PanSK选择优异单倍型的重要性。下面是三种谷蛋白的单倍型分析结果,h3和h2的SDS-SV表型值显著高于h1,在地方种中h1单倍型占比明显大于栽培种,h2和h3是主要单倍型,h3单倍型在栽培种中频率提高,说明h3已经被选择。
作者进一步比较了三种单倍型之间的序列差异,基于kmer组装了完整编码序列,发现h1和h2有19个SNP差异,而h2和h3只有1个SNP差异。与h1单倍型相比,h2和h3都在翻译起始位点下游277bp处发生C→T突变,导致过早的终止密码子,这些结果表明Gli-γ-1B-3缺失等位基因有助于提高小麦品质。
1BL/1RS易位系黑麦碱遗传变异
小麦-黑麦1BL/lRS易位系将黑麦染色体lRS的短臂替换为小麦染色体1B (1BS)的短臂,由于提高抗病性和优异的粮食产量而在世界范围内使用,然而,这些易位系对面包烘焙质量有影响,这是由于在lRS上引入了黑麦麦蛋白基因,以及麦胶蛋白和LMW谷蛋白基因的缺失,通过在lBL/lRS中调控黑麦碱来选育高产优质优良品种、提高籽粒品质和产量是一种有效策略。利用PanSK进行黑麦碱基因变异检测,确定合适的靶标,以提高最终使用品质。
组装后的1BL/lRS基因组携带Sec-1,ω-secalin 2 ,ω-secalin 3和含有两个活性基因的Sec4位点,利用PanSK确定了这些特殊蛋白所特有的k-mers,并对过去40年的77个1BL/lRS易位系的特殊蛋白变异进行了分类。
o-secalin-4特异性k-mers的PAV表明,该基因在育种过程中逐渐被消除,从20世纪80年代到2020年,这些k-mers的含量逐渐减少,优质品种正麦1860和周麦30含有最少的k-mers(右下角箭头所示样本)
o-secalin-4的k-mers数量与SDS-SV之间存在统计学上显著的负相关,表明消除o-secalin4对籽粒品质有积极影响,这些结果共同揭示了一种趋势,即现代育种逐渐去除lRS中的o-secalins以提高小麦籽粒质量。
利用PanSK进行基因型-表型预测
通过PanSK鉴定的k-mers可以充分捕捉到SSP基因的存在/缺失变异(PAV)和等位基因,这是传统SNP芯片或基于SNP的基因分型方法所面临的困难。因此,作者试图建立一个基于k-mer的预测模型,用于基因型到表型的预测,并评估每个SSP基因对籽粒品质的贡献。然后提出了一个理想的SSP基因组合,有助于改良最终性状。
对于训练群体,作者随机选择1000个非冗余k-mers作为初始候选集。接下来使用基于随机森林的模型,以k-mers PAV变异作为基因型和SDS-SV作为表型来训练模型。作者选择了一种贪婪的策略,通过每次从最少的k-mer中选择具有最佳预测性能的候选k-mer来对关键k-mer进行优先级排序。
使用90个k-mers足以达到稳定的效果(Pearson相关系数0.64),因此,作者开发了一种小麦籽粒品质性状预测器,并将其命名为“KPPer”(基于k-mer的表型预测器),通过使用90个选定的k-mers的遗传变异作为基因型。
为了测试KPPer的预测能力,作者预测了172个小麦籽粒品质性状表型,并测量了它们的SDS-SV,通过采用十折交叉验证方法进行评估,获得了预测和观察到的SDS-SV之间的相关性为0.64。SDS水平较高的品种携带了更多正效应位点,而SDS较低的品种携带较少正效应位点,这些结果表明基于kmer的预测模型能够促进选择能力,具有改进小麦籽粒品质性状的潜在能力。
KPPer可以从基因型预测表型,从而减轻了传统方法的局限性,在育种中具有广阔的应用前景。作者提出了一种使用PanSK来提高最终用途质量的新育种策略:
首先,选择含有优质SSP基因的优质种质资源作为亲本系。在两个亲本系(如F2群体)产生的后代的早期阶段,根据基因型到表型的预测来选择优异单株。对于F2群体中的单株,KPPer预测最终使用质量的表现,并选择携带更多SSP基因且对籽粒品质有积极影响的优异个体作为下一代。
最后,在F3或F4代选择纯合子系,通过检测不同品种中不同k-mers的组成,可以选择合适的互补亲本组合,聚集对品质有正面影响的k-mers,排除对品质有负面影响的k-mers,创造出新的高质量品种。
为了验证,作者使用Nongda3097和Lunxuan987的重组自交系来验证基因型-表型预测,Nongda3097具有较高的SDS-SV(观察值= 25.0 mL,预测值= 24.90 mL),携带6个阴性k-mers和14个阳性k-mers。Lunxuan987的SDS-SV较低(观测值为15.4mL,预测值为20.49 mL),携带11个对SDS-SV有负面影响的k-mers, 2个对SDS-SV有正面影响的kmers,证实了KPPer在预测籽粒品质的基因型到表型方面的能力。
通过学习这篇文章,了解到许多新的分析思路,基于kmer的泛基因组分析策略在小麦研究中将会越来越普遍,相信这种方法在作物抗病领域也同样会发光。
本文由 mdnice 多平台发布