探秘动植物物种进化及遗传多样性的第一步往往是进行基因组测序,基因组从头组装(Genome De novo assembly) 是指从测序数据中重建生物基因组序列的过程。组装一直是生物信息学中的核心问题。
然而,到2019年底完成图这个概念仍然只在细胞器基因组、细菌、病毒基因组中流行。由于真核生物常见的二倍体或多倍体基因组结构的特殊性,以及一些组装工具的限制,导致真核生物基因组通常只能获得scaffold水平精细图或染色体水平的基因组。
细菌基因组完成图
2019年以PacBio HiFi测序为代表的高精度长读长测序的出现彻底改变了基因组序列组装领域。长读长测序技术(Long-Read Sequencing,LRS)可以产生长度≥10kb的连续序列。利用三代测序,科学家们首次完成了一个人类基因组从端粒到端粒(T2T)水平的组装。预计在未来几年内,越来越多的物种将得到T2T基因组。所以不少科学家都提出,基因组组装已经进入了T2T时代。
2023年5月,Dana-Farber癌症研究所李恒老师,发表了题为《Genome assembly in the telomere-to-telomere era》的综述文章。详细介绍了目前T2T基因组数据和组装软件等的进展,也为组装T2T基因组提供了自己的见解和指导。
1.影响T2T组装的主要因素和相关测序技术
影响基因组组装难易程度的主要因素其实不是基因组的大小,而是重复序列。理论上重复序列可以通过长读长和加大测序深度来解决。
在二倍体物种中,两个同源的单倍型也可以视为彼此的重复。正确分离这两个拷贝(或多倍体的多个拷贝)被称为“分型”。单倍型的分型和组装重复序列二者是相关的。能够解决相似重复序列的组装工具自然具有高度分离同源单倍型的能力。
T2T组装通常需要多种测序技术相结合。目前采用的主要测序手段是二代测序+HiFi测序+Hi-C,HiFi测序数据是高质量组装和T2T组装的核心数据类型,Hi-C测序技术可以提供染色体的空间构象信息。此外,亲本序列数据(Trio),也可以被视为一种长距离数据,对于全基因组分型非常有帮助,
2.T2T的组装和相关算法
目前对二倍体样品的T2T组装策略依然集中在HiFi数据结合ONT超长、Trio和Hi-C数据。作者提出Trio数据可以对基因组进行准确的分型,但没有亲本样品时也可以利用Hi-C测序技术。
对于纯合基因组,端粒到端粒组装的最可靠解决方案使用PacBio-HiFi数据和ONT超长数据,目前,单独使用HiFi数据就可以实现纯合基因组的良好组装。Verkko、hifiasm、HiCanu和LJA等都可以实现良好的组装。VGP和DToL都可以整合Hi-C数据。
目前,ONT超长数据的获取相对昂贵,并且需要大量的起始DNA。许多测序项目不会生成ONT超长数据,而是选择单独使用HiFi数据。将HiFi与远距离数据(如trio、Hi-C或Strand-seq)相结合,也可以产生一对高质量的单倍型分型的组装。对于杂合基因组,verkko和hifiasm都可以整合PacBio-HiFi、ONT超长和Hi-C数据,并可以解析人类染色体单倍型。它们还可以单独处理HiFi数据,也可以得到高质量的组装结果。HiCanu可以单独使用HiFi数据生成高质量的组装结果。
此外文章还提到了组装T2T目前的核心算法,包括overlap-graph和de Bruijn graph的主要原理以及使用这些算法的主流软件等。
纯合与杂合二倍体的组装流程
3.T2T基因组的评估
要使一个基因组组装成为真正T2T基因组,它必须覆盖每个染色体的整个部分,并且不包含大规模的组装错误。在得出端粒对端粒的结论之前,严格评估组装的质量至关重要。这里通常用到N50和BUSCO进行评估,BUSCO仍然是评估基因组完整性的黄金标准。minimap2中的“asmgene”工具是BUSCO的替代品,可以解决高质量参考基因组偶尔低完整性的问题。同时kmer评估和基因组的QV值也是很重要的评估指标。
文章中最常见的基因组评估表格(以茶树为例)
4.挑战与展望
尽管T2T组装取得了部分进展,但在实际应用中仍面临不小的挑战,组装算法的局限性、ONT对DNA质量的严苛要求、Hi-C技术对性染色体识别的效果不佳、多倍体基因组的倍性问题,都是目前基因组组装过程中急需解决的问题。除大型动植物基因组外,宏样本中常常要面临完整的MAGs组装的挑战,要实现完整的宏基因组组装,还有很长的路要走。
一个完整的基因组组装往往只是下游研究的开始,尽管基因组组装进展迅速,但基因组比对和注释工具却远远落后。作者希望在未来看到这些工具的不断发展,以实现完整基因组组装的全部功能。
参考文献:
Genome assembly in the telomere-to-telomere era. 2023, arXiv