Two telomere-to-telomere gapless genomes reveal insights into Capsicum evolution and capsaicinoid biosynthesis
两个端粒到端粒无缝基因组揭示了辣椒进化和辣椒素生物合成的相关见解
摘要
辣椒(Capsicum)因其果实中含有辣椒素而闻名,这使其具有独特的辣味。然而,由于缺乏高质量的辣椒基因组,辣椒素生物合成的进化历史及其组织特异性机制仍然不清楚。在本研究中,我们报告了辣椒和其野生无辣味近缘种C. rhomboideum的两条端粒到端粒(T2T)无缝基因组,以研究辣椒果实辣味的进化。我们精确描绘了辣椒的着丝粒,这些着丝粒缺乏高拷贝串联重复序列,但被大量的CRM逆转录转座子入侵。通过系统基因组学分析,我们估算了辣椒素生物合成的进化时间。我们揭示了无辣味物种中关键生物合成基因的编码和调控区域存在破坏。我们还发现了保守的胎座特异性开放染色质区域,这些区域可能允许组织特异性生物合成基因的共调控和辣椒素的积累。这些T2T基因组资源将加速辣椒的遗传改良,并有助于理解辣椒基因组的进化。
引言
辣椒(Capsicum annuum)属于茄科(Solanaceae),是一种在全球范围内广泛种植的蔬菜和香料作物,其果实因含有辣味物质而闻名,这种辣味是由辣椒素类物质(capsaicinoids)引起的。辣椒素类物质是一种生物碱,通过苯丙烷类途径和支链脂肪酸途径的融合合成,随后通过辣椒素合成酶(CS)进行缩合;然而,其完整的生物合成途径尚未完全阐明。辣椒素类物质在茄科植物中的出现和消失,对于植物进化生物学家来说,仍是一个尚未深入理解的领域。辣椒素类物质的生物合成发生在辣椒果实的胎座组织中,这是辣椒属(Capsicum spp.)独有的特性,在其他茄科植物中(如番茄)未被检测到。然而,果实的辣味并不是在所有辣椒属植物中普遍存在的,因为在一些栽培品种和野生近缘种(如Capsicum rhomboideum)中也发现了非辣味现象。由于缺乏高质量的辣椒属基因组资源,尤其是非辣味成员,对于辣椒属植物如何获得和失去果实辣味以及辣椒素类物质如何在果实中独特产生的机制仍然知之甚少。
2014年,C. annuum(品种CM334)的基因组草图被发布,大小为3.06 Gb,contig N50为30 kb。随后,随着单分子DNA测序技术的发展,几个基因组装配的质量有所提高,例如品种‘59’(3.07 Gb,contig N50:41.27 Mb)、‘Takanotsume’(3.05 Gb,contig N50:99.05 Mb)和CC-090(3.06 Gb,contig N50:187.09 Mb)的基因组装配。截至目前,包括C. annuum、C. baccatum、C. chinense和C. pubescens在内的23个辣椒栽培品种的基因组装配已经公开。然而,野生辣椒的基因组序列非常稀少。尽管基因组装配不断改进,已发布的装配仍然存在许多空缺和错误,且缺乏完整的着丝粒和端粒。辣椒基因组富含重复序列(约80%),使得基因组装配特别具有挑战性。装配空缺和错误常导致基因的错误注释和基因变异的虚假发现,因此辣椒的功能基因组研究仍然具有挑战性。因此,生成从端粒到端粒(T2T)无空缺且准确注释的基因组序列,对于提高辣椒的精准遗传表征和解析辣椒素类物质及其他有价值的天然产物的完整生物合成途径至关重要。
对于具有大且复杂基因组、广泛重复、高杂合性或多倍体的真核生物来说,完整基因组序列的准确装配仍然是一项艰巨的任务。人类T2T联盟最近在组装完整人类基因组序列方面取得了突破,这是人类基因组学的一个里程碑。这一突破革命性地改变了人类基因组变异和着丝粒中的表观遗传和转录签名的分析。在第一个植物基因组序列发布近二十年后,最近报告了拟南芥、水稻、马铃薯和大豆的T2T无空缺基因组装配。然而,这些被认为是近乎完整的基因组,只有在难以组装的区域有少量空缺或遗漏了一些端粒或着丝粒,这些区域通常含有高拷贝的串联重复。此外,这些已发布的植物T2T基因组相对较小(拟南芥134 Mb,水稻385 Mb,马铃薯773 Mb,大豆1.01 Gb)。最近,报道了玉米(2.10 Gb)的完整基因组装配。然而,大型复杂植物基因组的完整基因组,尽管装配难度更大,但仍然非常稀少。
在本研究中,我们对两种T2T无空缺的辣椒基因组序列进行从头组装和注释,包括辣味辣椒C. annuum及其非辣味的野生近缘种C. rhomboideum;这些序列构成了辣椒基因组研究的一个里程碑。对这两个T2T基因组的深入分析揭示了它们在着丝粒中的独特结构、表观遗传和转录特征。通过系统基因组学和表观基因组数据分析,获得了关于辣椒素类物质生物合成途径和调控的进化见解。我们的研究提供了及时的基因组资源和见解,这将促进辣椒研究和遗传改良。
结果
T2T无缺口的辣椒基因组装配
为了组装辣味C. annuum和非辣味C. rhomboideum的T2T无缺口基因组,我们生成了高覆盖度的PacBio HiFi读数、Oxford Nanopore Technology(ONT)超长读数、Illumina双端(NGS)读数以及高通量染色质构象捕获(Hi-C)测序读数,针对C. annuum双单倍体品种G1-36576和C. rhomboideum野生品种PI 645680(补充图1和补充表1)。基因组装配使用了一个内部管道,该管道集成了各种计算工具,以最大限度地利用各种类型数据的优势(补充图2和补充表2)。简而言之,首先分别使用hifiasm和NextDenovo对HiFi和ONT读数进行独立组装。基于HiFi的C. annuum组装为3.13 Gb,contig N50为262.4 Mb,包含18个端粒,在12个contig的一端或两端含有数千个端粒重复单位(TRUs),其中六个为T2T。ONT读数的组装生成了一个3.10 Gb的草图组装,contig N50为177.8 Mb,包含22个端粒,具有超过10,000个TRUs拷贝,其中四个几乎是T2T。随后使用ONT组装来填补HiFi组装中的空缺(补充表3)并修补端粒,生成一个混合组装,包括12个无缺口的染色体级contig,带有22个端粒加上包含45S rDNA阵列的contig。核仁组织者区域(NORs)使用含45S rDNA的HiFi读数分别进行组装,并基于特定k-mer将contig组装成单个序列(补充图3)。为了确保准确性,将ONT来源的序列替换为相应的HiFi组装contig,随后使用Hi-C对12条染色体进行搭架(图1a)并使用Juicebox进行错误组装的人工校正。添加rDNA阵列和端粒修补后,最终的C. annuum基因组T2T无缺口组装(CaT2T)为3.1 Gb,contig N50为262.6 Mb(表1);Ca59中的所有503个空缺均已关闭(图1b),这代表了迄今为止报告的最大的完整基因组序列(图1c)。使用相同的方法,我们组装了一个1.70 Gb的C. rhomboideum T2T无缺口基因组序列(CrT2T),包含13条染色体,contig N50为146.0 Mb(图1a和表1),代表了一个非驯化辣椒的无缺口基因组(图1c)。我们在C. annuum中识别了完整的一套(24/24)端粒(补充图4),在C. rhomboideum中识别了大部分(17/26)端粒(补充图5)。共线性分析显示C. rhomboideum基因中有45.07%与C. annuum基因具有共线性(补充表4),但它们的全基因组比对显示出低序列一致性,表明存在显著的分化。通过比较两个基因组,我们证明了从C. rhomboideum的核型到C. annuum的核型至少需要10次染色体裂解和11次染色体融合(图1d和补充图6)。
a 圆形图展示了C. annuum(CaT2T)和C. rhomboideum(CrT2T)的T2T基因组组装。从a到g的轨道依次如下:染色体(红色:Ca,蓝色:Cr),GC含量,基因密度,转座子密度,LTR/Gypsy密度,LTR/Copia密度以及代表全基因组共线性块的彩色带。染色体轨道上标注了着丝粒区域(黑色)。
b 气泡图突出显示了本研究中(CaT2T和CrT2T)和之前报道的辣椒基因组组装的关键统计数据。
c CaT2T基因组组装的染色体示意图,显示了填充的空缺、候选辣椒素生物合成基因(CBGs)、着丝粒和端粒的映射,并在每条染色体上叠加了基因密度的热图。
d CaT2T和CrT2T之间重排(裂解和融合)事件的重构。共线性块由MCScanX着色。红色矩形表示着丝粒区域。提供源数据作为源数据文件。
Genomic feature | Capsicum annuum | Capsicum rhomboideum |
---|---|---|
Number of contigs | 12 | 13 |
Total length (bp) | 3,103,116,129 | 1,707,653,203 |
Contig N50 (bp) | 262,573,928 | 145,987,823 |
Number of gaps | 0 | 0 |
Number of telomeres | 24 | 17 |
Number of centromeres | 12 | 13 |
Number of gene models | 34,428 | 33,512 |
GC content (%) | 35.00 | 36.31 |
Repeat content (%) | 79.50 | 74.64 |
Assembly BUSCOs (%) | 98.62 | 97.12 |
Annotation BUSCOs (%) | 97.04 | 93.23 |
QV | 56.60 | 77.18 |
Completeness (%) | 96.49 | 98.11 |
基因组验证与注释
我们对两个T2T基因组装配进行了广泛验证。首先,我们检查了它们的Hi-C染色质相互作用图,结果显示在CaT2T和CrT2T装配中没有明显的contig错位(补充图7)。然后,我们分别将所有HiFi、ONT和NGS读数映射到装配上,所有三种数据类型的映射率均超过99.96%(补充表5)。映射的HiFi或ONT读数在基因组上显示出均匀覆盖率,除了CrT2T中由于高拷贝数卫星重复序列的存在而有少数例外(补充图7)。CaT2T和CrT2T的质量值(QV)分别为56.60和77.18,BUSCO得分分别为98.62%和97.12%,展示了两个装配的高准确性和完整性(表1)。此外,将最近发布的C. annuum品种‘59’(以下简称Ca59)基因组装配与CaT2T装配进行比对,显示出很强的共线性(补充图2)。CaT2T的高质量装配得到了映射在这些空缺区域的HiFi和ONT读数的高覆盖率的有力支持(补充图8和补充表6)。有趣的是,我们观察到CaT2T和CrT2T的高覆盖率读数映射,这与完整的线粒体或叶绿体基因组相对应;这一结果通过跨越整个整合位点的ONT超长读数的高覆盖率得到了验证(补充图9和补充表7),表明核基因组中最近发生了质体基因组的整合。
重复序列注释表明,C. annuum和C. rhomboideum基因组中分别有79.5%(2.45 Gb)和74.6%(1.28 Gb)是重复序列,主要由转座子(TEs)组成,特别是长末端重复(LTR)逆转座子(补充表8)。虽然C. rhomboideum中的LTR插入发生得相对较晚,但C. annuum在大约0.1百万年前(Mya)和3.9 Mya有两次插入爆发(补充图10),这与之前Ca59装配的报告一致。两种辣椒基因组中的卫星重复序列含量都很低(<0.01%),远低于人类(4.5%)、模式植物拟南芥(0.37%)和其茄科近亲烟草(1.75%)。通过结合从头预测、同源蛋白和转录组数据,共预测出CaT2T和CrT2T分别含有34,428和33,512个蛋白编码基因。CaT2T填补的空缺区域编码614个基因,其中110个是新注释的(与Ca59无共线性)(补充图11)。两个辣椒基因组在染色体末端区域基因密集,但在着丝粒区域基因稀疏。CaT2T编码了117个推定的辣椒素生物合成基因(CBGs),包括之前报道的编码辣椒素合成酶(CS)、氨甲基转移酶(AMT)、酮酰基-ACP合成酶(Kas)和酰基载体蛋白(ACL)的基因。这些推定的CBGs在至少一种组织中表达,其中26个在果实胎座中的表达水平远高于其他组织(补充图12),因此,这些基因是完全阐明辣椒素生物合成酶的有力候选基因。
辣椒的着丝粒广泛受到CRM逆转座子的侵袭
着丝粒在细胞分裂过程中对染色体的准确分离至关重要,通常是含有巨型串联重复阵列的异染色质区域,是动粒蛋白复合物的结合位点。我们首先通过为C. annuum生成CENH3 ChIP-seq数据来识别CaT2T的着丝粒,这清晰地描绘了CaT2T中12个着丝粒的位置和边界(图2a)。然后,我们观察到染色体间的相互作用总是与ChIP-seq峰值正相关,特别是在CrT2T中(补充图13)。与拟南芥和人类着丝粒不同,辣椒着丝粒缺乏高拷贝串联卫星重复和高阶重复(HORs),这表明这些是新形成的着丝粒。此外,我们发现辣椒着丝粒被Gypsy-LTR广泛侵袭,占总着丝粒序列的约71%(图2b),而Gypsy-LTR仅占整个基因组的47.3~49.7%(补充表8)。这一模式在单粒小麦和棉花中也有报道,其功能性着丝粒中有超过80%是Gypsy-LTR。我们还发现,着丝粒中LTR插入的爆发晚于整个基因组中的插入,表明最近的着丝粒进化是由LTR插入形成的。LTR通常由于不等同源重组事件而重新洗牌和重排,产生碎片化或单独的LTR。我们在两个辣椒基因组中鉴定了许多单独的LTR和完整的LTR(补充表9)。我们观察到,辣椒的着丝粒比非着丝粒在去除LTR方面的能力更弱,其单独LTR与完整LTR的比例显著低于整个基因组。共线性分析显示,玉米的着丝粒逆转座子(CRMs)在几个辣椒基因组的着丝粒中富集,表明CRM的分布是识别辣椒着丝粒的标志,可以不依赖ChIP-seq数据。CRM具有与着丝粒组蛋白相互作用的染色体域或CR基序,在着丝粒进化和功能中发挥重要作用。此外,对两个辣椒和马铃薯基因组中Gypsy-LTR逆转座子的系统发育分析显示出六个亚家族,其中两个主要亚家族是Athila和Tekay。Athila LTR是拟南芥着丝粒中的主要LTR,不同于辣椒着丝粒,它们富含CRM Gypsy-LTR。卫星重复序列的缺乏和CRM LTR的富集使得辣椒着丝粒与其他已发表的植物T2T基因组中的着丝粒有所区别。令人惊讶的是,CrT2T中的CRM含量比CaT2T更高,这可能导致其着丝粒内特有的序列一致性特征。对于这两个T2T基因组,我们观察到低的种间和染色体间着丝粒序列一致性,表明辣椒着丝粒在种内和种间迅速分化;这一结果与最近对拟南芥着丝粒研究的发现一致。
a 示意图展示了在CaT2T的12个着丝粒中不同转座子元素的分布。CENH3 ChIP-seq信号(两个生物重复的平均值)通过30 kb窗口中的富集水平表示,ChIP识别的着丝粒用灰色框标记。CRM轨道中的红线表示完整的CRM位于着丝粒中。
b 整个基因组和着丝粒中特定LTR插入时间的分布。图中的中央白线和黑线分别表示插入时间的中位数以及上下四分位数。使用双侧Wilcoxon秩和检验评估组间的显著差异。
c 整个基因组和着丝粒中特定单独LTR与完整LTR-RT分布的比例。使用双侧Wilcoxon秩和检验评估组间的显著差异。
d 基于C. annuum、C. rhomboideum和S. tuberosum的全基因组完整Ty3-Gypsy元素构建的邻接树。树枝上的红色、绿色和黄色实心圆代表位于着丝粒区域的元素。
e 例子展示了C. annuum和C. rhomboideum中非重叠的5 kb着丝粒区域的成对序列一致性。源数据提供为源数据文件。
着丝粒和端粒在转录和表观遗传上是活跃的
着丝粒和端粒在蛋白编码基因以及转录和表观遗传控制方面是较少了解的基因组区域。基因组注释显示,CaT2T着丝粒中的60个基因富集于响应冰冻、DNA拓扑变化和减数分裂染色体分离等功能(补充图15)。相比之下,CrT2T着丝粒编码的94个基因富集于响应UV-B、光合作用和昼夜节律调节。有趣的是,只有六或七个着丝粒基因是同源的(补充数据3)。着丝粒基因的低同源性反映了物种间着丝粒的高度分化,这与它们的全基因组序列比对差异一致。RNA-seq分析表明,CaT2T着丝粒(图3a和补充图16和17)和端粒(图3b)中既有转座子也有蛋白编码基因的活跃转录。例如,C. annuum中大约42个(70.0%)着丝粒编码基因在至少一种组织中表达(TPM > 1),包括CaT2T07g00954,编码一种端粒维护蛋白,保护端粒末端免受攻击,以及CaT2T01g02835,编码一种控制开花时间的蛋白。CrT2T着丝粒编码的基因(92.5%)更加活跃,具有三串联拷贝的染色体凝聚调节因子(RCC1),平均TPM > 200;这些基因可能在有丝分裂中染色质凝聚的调节中发挥关键作用。
a 以C. annuum Chr07的着丝粒为例的特征分布示意图。依次从上到下绘制TADs、染色质环、A/B区隔、ChIP-seq信号(H3K27me3,红色;H3K9me2,绿色;和H3K4me3,紫色)、甲基化水平(CG,红色;CHG,绿色;和CHH,紫色)、ATAC-seq信号、TE元素(Athila,蓝色;CRM,黄色;Tekay,红色;和其他,灰色)、基因(绿色)、TE转录本丰度(蓝色)和基因转录本丰度(红色)。
b 以C. annuum Chr01为例的端粒表观遗传和转录图谱。
c 在或接近着丝粒处检测到的TE、GC和基因密度的表观遗传信号。
d 在或接近着丝粒处的CENH3和组蛋白修饰ChIP-seq信号。
e 在Athila、CRM和Tekay区域(包括C. annuum上下游10 kb区域)的CG、CHG和CHH甲基化的分布。
辣椒基因组包含丰富的表观基因组标记,如DNA甲基化、组蛋白修饰、拓扑相关域(TADs)和A/B区隔。然而,这些表观遗传标记在着丝粒和端粒中的情况了解甚少。因此,我们将自己生成的(Hi-C和全基因组亚硫酸氢盐测序)和公共的表观基因组(组蛋白ChIP-seq)数据映射到CaT2T装配中。Hi-C数据分析揭示了在着丝粒内的A/B区隔、TADs和小染色质环。C. annuum的着丝粒主要属于“B”区隔,通常与低转录相关;然而,在一些着丝粒(如Chr08、Chr09和Chr10)上也检测到“A”区隔。与之一致的是,在富集CENH3 ChIP-seq信号的异染色质着丝粒和近着丝粒中检测到高TE密度、低基因密度和低H3K9me2组蛋白修饰ChIP-seq峰值。虽然总体上着丝粒和非着丝粒区域的DNA甲基化水平相当,但我们发现位于着丝粒的CRMs显示出比基因侧翼区域更低的基因体CHG甲基化,表明CRMs具有高转录活性。尽管异染色质性质如此,我们在着丝粒中仍然鉴定到一些高表达的基因和TEs,例如一个在Chr07上的编码过氧化物还原酶Q蛋白的基因,它参与细胞氧化还原稳态。相比之下,大多数端粒显示出较低的Hi-C映射信号,这可能是由于高密度的串联端粒重复序列所致。端粒区相对基因丰富,主要与“A”区隔相关,并标有低H3K9me3 ChIP-seq信号,除了基因稀疏区域。这些结果为辣椒中复杂基因组区域的组织和功能提供了前所未有的见解。
辣椒素生物合成途径的进化历史
植物中辣椒素生物合成起始的机制仍然知之甚少。Kim等人首次通过比较一个碎片化的辣椒基因组与一个番茄基因组来探讨这个问题,从而揭示了辣味机制。然而,更好地理解该途径如何出现和演化需要在更广泛的系统发育背景下进行研究。因此,我们通过使用两个T2T辣椒基因组和其他14个被子植物基因组进行系统基因组学研究(补充表10),包括三种辣味和13种非辣味物种。我们发现辣椒与酸浆(Physalis)比与茄属(如番茄)更为相关,并分别在约17百万年前和约19百万年前从这两个类群中分化出来。辣椒素生物合成仅限于辣椒属,这表明在其与酸浆在约17百万年前分化后,辣椒属产生了特化代谢物。此外,C. baccatum在约5百万年前从C. annuum和C. chinense中分化出来,而这两者在约13.4百万年前从非辣味的C. rhomboideum中分化出来,表明辣椒素途径可能在13.4百万年前至5百万年之间起源。为了理解该途径在辣椒植物中是如何出现的,我们使用OrthoFinder从16个被子植物中鉴定出具有已知CBGs同源物的基因。所有物种,无论辣味与否,都含有CBGs同源物,除了最关键的基因CS,它在约71百万年前仅在茄科中以串联重复形式出现。特别是,辣椒属物种具有最多的CS拷贝,C. annuum中有七个,C. chinense中有六个,而C. pubescens、C. baccatum和C. rhomboideum中各有四个。由于前两者的基因丢失或后者的串联重复,C. pubescens和C. baccatum中的拷贝数少于C. annuum。事实上,CS重复在茄科中广泛检测到,之前在番茄中有报道,但串联重复主要发生在茄属、酸浆属和辣椒属之间的30百万年和40百万年之间。此外,微共线性分析表明CS串联重复在辣椒、酸浆和茄属中具有共线性,其他CBGs也具有共线性。这一结果表明非辣味物种中CBGs的表达可能被破坏。确实,我们发现许多CBGs在辣味辣椒物种的果实中高度表达,而C. rhomboideum和酸浆的CS和KasI基因几乎没有表达。序列比对显示这些共线性的CS拷贝(CS-1/CS-2)在辣味物种中具有保守的编码序列(CDS)和上游和下游调控区域,而非辣味物种在CDS和侧翼区域内存在结构变异。此外,在其他CBGs中也观察到了序列变异,包括ACL、BCAT、CCoAMT、FatA和KasI。高度保守的CS拷贝仅存在于栽培辣椒中,表明它们是相对较新的(约5百万年前)从旧CS基因中串联重复出来的。总的来说,这些结果表明尽管非辣味物种包含功能性CBGs的同源物,它们的编码和调控区域与C. annuum显著分化。
a, b C. annuum及其相关被子植物物种的系统基因组学分析。在使用单拷贝直系同源基因构建的MCMC系统发育树上标记了全基因组重复(WGD)或三倍体化(WGT)事件和基因家族扩展/收缩统计数据(a)。MRCA代表最近的共同祖先。物种旁边的面板总结了与辣椒素生物合成相关的基因家族成员在系统基因组学背景下的丰度(b)。
c 在系统共线性区块中,辣椒素合成酶(CS)基因及其串联拷贝的微共线性关系,在茄属番茄(Sl)、酸浆(Pp)、C. annuum(Ca)、C. rhomboideum(Cr)、C. baccatum(Cb)、C. chinense(Cc)和C. pubescens(Cp)之间保持保守。红线表示关键CS基因的最近同源物。
d 左图:辣椒素生物合成途径及关键基因示意图。PAL,苯丙氨酸解氨酶;C4H,肉桂酸4-羟化酶;4CL,4-香豆酸:CoA连接酶;HCT,羟基肉桂酰基转移酶;CCoAOMT,咖啡酰-CoA 3-O-甲基转移酶;C3H,香豆酸3-羟化酶;HCHL,羟基肉桂酰-CoA水解酶/裂解酶;AMT,氨基转移酶;BCAT,支链氨基酸氨基转移酶;BCKDH,支链α-酮酸脱氢酶;Kas,β-酮酰基-ACP合成酶;ACL,酰基载体蛋白;FatA,酰基-ACP硫酯酶;ACS,乙酰-CoA合成酶;和CS,辣椒素合成酶。右图:五种茄科植物不同组织中辣椒素生物合成基因及其同源基因的转录表达热图。
e 七种茄科植物中CS核苷酸序列的点图。绘制的序列包括CS的全编码序列和串联重复以及它们的2 kb侧翼序列。
f 两个CS基因及侧翼区域的表观基因组和转录组图谱。
g 在开放染色质区域(ATAC-seq)和七个辣椒素生物合成基因上游(2 kb)序列中富集的常见转录因子结合基序。
染色质可及性调控组织特异性的辣椒素生物合成
辣椒素生物合成具有高度的组织特异性,仅发生在果实中,尤其是胎座,从开花后约16天开始。为了理解如何实现组织特异性,我们对C. annuum果实和叶片进行了多组学联合分析,包括转座子可及染色质测序(ATAC-seq)、全基因组亚硫酸氢盐测序和RNA-seq,并使用CaT2T作为参考进行数据分析。RNA-seq分析表明,CS及其转录调控因子MYB31和MYB48在胎座中特异表达。胎座特异的开放染色质区域(OCRs)在CS-2、MYB31和MYB48的上游2 kb内检测到,而CS-1在果肉和种子中也显示出OCRs,表明CS-2可能是主要功能基因,促成胎座特异的辣椒素合成。另有26个推定的CBGs编码苯丙氨酸和缬氨酸途径的基因在果实和叶片中均有表达,但缺乏组织特异的OCRs,表明这些基因在辣椒素生物合成之外的功能。然而,与其他组织相比,胎座中表达量的增加表明辣椒素生物合成的强协同调控。
然而,如何实现分散在基因组中的CBGs的协同调控以赋予辣椒素生产的时间和空间特异性仍然未知。可以预期,CBGs应该有共同的调控元素。为了验证这一假设,我们提取了ATAC-seq识别的胎座相关OCRs和CBGs的上游2 kb序列进行序列基序富集分析,获得了38个富集的基序(p < 0.01)。从两个富集分析中获得的重叠富集基序揭示了五个转录因子结合基序(TFBS),即MYB、G-box、Box-4、ABRE和MYC,这些基序存在于所有七个CBGs中,包括CS、ACL、KasI、PAL、CCoAOMT和BCAT。这些在共同OCRs内显著富集的TFBS可能被某些TFs识别,例如MYB31,它在特定组织中协同调控这些CBGs。在非辣味C. annuum栽培品种中,CS-2的OCR由于2.4 kb缺失而丢失,导致这些品种缺乏辣椒素。简而言之,多组学数据分析揭示了辣椒中辣椒素生物合成基因组织特异性协同调控的可能表观遗传机制。
讨论
本研究中生成的两个T2T无缺口辣椒基因组装配代表了植物基因组研究的关键里程碑。首先,在首次发布辣椒基因组近十年后,我们绘制了C. annuum的完整基因组序列,这是迄今为止报道的最大完整基因组序列。辣椒基因组学已经进入了完整T2T基因组的时代,跟随人类和模式植物如拟南芥、水稻和玉米的脚步。其次,为了研究辣味进化的机制,我们为一种非辣味的野生辣椒C. rhomboideum组装了一个T2T无缺口基因组。通过涉及五种辣椒属(四种辣味,一种非辣味)和十种非辣椒属(均为非辣味)基因组的系统基因组学,我们通过估算辣味出现的时间、关键基因的串联重复发生时间以及功能性生物合成途径在进化树中的发展,追踪了辣椒素生物合成途径在密切相关的茄科植物中的进化历史(图5)。然而,由于缺乏足够的高质量辣椒基因组,除了本研究中组装的两个基因组之外,回答一些关键的进化问题仍然困难。例如,辣味的C. baccatum如何拥有一个功能性CS基因的重复,而非辣味的C. rhomboideum保留了所有四个拷贝?是否有可能茄科植物中已经存在功能性CS基因和顺式调控元件,但在非辣味物种中后来丢失了?或者,五种栽培辣椒物种可能通过自然突变或转座子转位在驯化过程中获得了功能性CS基因或顺式调控元件。辣椒属有超过40种具有多样遗传背景和特征的物种,但迄今为止只有四种物种有参考基因组。在未来,随着更多具有多样辣椒素谱系的辣椒属基因组的出现,将有可能更好地推断该途径的出现和消失发生的时间和方式。
a 辣味物种C. annuum(CaT2T)、C. baccatum和C. chinense均至少有一个功能性CS基因。此外,C. annuum、C. baccatum和C. chinense有几个CS基因的串联重复(形成于13.38百万年前到4.8百万年前),其中大多数是部分基因的旁系同源基因且非功能性。Mya:百万年前。CRE:顺式调控元件。
b 相反,非辣味番茄(S. lycopersicum)、酸浆(P. pubescens)和C. rhomboideum(CrT2T)物种缺乏功能性CS基因,但具有不同数量的CS串联旁系同源基因,这些基因由于CREs中的缺失而包括部分CS或非表达的CS(形成于19.28百万年前到13.38百万年前)。
c 辣味辣椒通过在CS基因(CS2)周围的胎座特异性染色质开放区域(由ATAC-seq鉴定)实现辣椒素生产的组织特异性调控,从而允许其转录(通过RNA-seq确定)。相反,非辣味物种由于缺乏功能性CS基因拷贝或相应的CREs而不进行辣椒素生物合成。
许多植物次级代谢物会在多种组织和器官中积累,但特定组织中天然产物分子的生产并不罕见,例如鸦片罂粟胶囊中的吗啡和辣椒果实中的辣椒素。特定组织中生物合成基因的表达是实现特异性的必要条件,其调控机制仍然不明确。通常,代谢基因簇可以促进生物合成基因的协同调控,如在吗啡(罂粟)和他连醇(拟南芥)中观察到的那样。然而,许多植物代谢物的生物合成基因,如辣椒素和秋水仙碱(百合),通常不是成簇的而是分散的。总体而言,生物合成基因的时空调控机制尚不清楚。通过果实和叶片组织的比较ATAC-seq和RNA-seq分析,我们确定了几个关键生物合成基因和调控因子在果实特异性的开放染色质区域中编码的保守TF结合位点。这种协同的基因调控可能使生物合成酶在特定时间和特定组织中的高效生产成为可能。要确定这些基因如何演化出这样的共同顺式调控元素,还需要进一步研究。
使用两个T2T无缺口基因组使我们得以深入了解复杂的基因组区域,如着丝粒、端粒和填补的空缺。人类、拟南芥和水稻的T2T基因组中的着丝粒已经被广泛研究,这些基因组都含有丰富的高拷贝串联重复。然而,辣椒的着丝粒缺乏这样的卫星重复,但富含Gypsy-LTR,特别是CRM逆转座子。我们还发现,根据最近报道的高质量基因组,这种模式在C. baccatum、C. chinense和C. pubescens中也是普遍的,尽管不同辣椒物种之间CRM逆转座子的组成有所不同。马铃薯基因组也显示着丝粒中富含CRM,但在P. pruinosa(1.38 Gb,contig N50:82.2 Mb)的整个基因组中没有鉴定出CRM,这表明茄科植物的着丝粒进化迅速且物种间差异很大。最近对346个拟南芥着丝粒的研究表明,植物着丝粒由于转座子侵入的循环而迅速多样化,这展示了所谓的着丝粒悖论。随着更多完整的辣椒基因组的出现,比较不同辣椒品种或物种的着丝粒,以理解物种形成和驯化过程中着丝粒的进化将会非常有趣。
总而言之,在本研究中,我们迄今为止已生成了最大的完整植物基因组装配(C. annuum)和两个辣椒的T2T无缺口基因组。基于辣椒T2T基因组的系统基因组学和多组学揭示了辣椒果实中辣椒素独特且组织特异性积累的进化机制。这些T2T基因组资源是作物基因组研究的重要里程碑,将加速辣椒研究并促进精准改良。
方法
植物材料和测序
C. annuum双单倍体品系‘G1-36576’和C. rhomboideum野生品种‘PI 645680’的植物在北京大学先进农业科学研究院(山东省潍坊市,北纬36°42'和东经119°10')的温室中,使用盆栽混合物、粘土和蛭石的组合在常规杜鹃花盆中种植,于2022年夏季和秋季生长。收获四周龄的C. annuum和C. rhomboideum的新鲜叶片,用于DNA提取和测序。在开花后两天收集叶、根、茎和花组织,在开花后21天收集果实(分为果皮、胎座和种子)用于RNA提取和测序。在开花后21天收集C. annuum的叶、胎座、果皮和种子组织用于ATAC-seq。在开花后21天收集C. annuum的叶片和整个果实组织用于亚硫酸氢盐测序。
DNA和RNA的分离
使用十六烷基三甲基溴化铵(CTAB)方法进行高分子量(HMW)基因组DNA的分离。简而言之,将10μg干净的新鲜叶片在液氮中研磨,然后进行DNA提取。根据制造商的说明,使用Qubit仪器(Thermo Fisher Inc.)和脉冲场凝胶电泳仪(Bio-Rad)检查DNA质量。使用TRIzol RNA提取试剂(15596018CN,Thermo Fisher Inc.)根据制造商的说明分离总RNA。根据制造商的说明,使用Bioanalyzer 2100系统的RNA Nano 6000 Assay Kit(5067-1511,Agilent Technologies,CA)评估提取的RNA。RNA样品的RNA完整性编号(RIN)>6.0用于RNA测序的下游文库构建。
基因组测序
Illumina双端测序文库使用NEBNext® Ultra™ DNA Library Prep Kit for Illumina(E7645L,NEB,USA)根据制造商的标准协议制备。简而言之,5µg HMW DNA样品通过超声波处理成350bp大小。然后,对DNA片段进行末端抛光、A尾加和与全长Illumina测序接头连接。使用Illumina NovaSeq 6000平台(Novogene Biotechnologies, Inc.,天津,中国)生产了共计300.8 Gb(~100×基因组覆盖率)的150 bp双端读数。使用干净数据进行基因组调查、基因组组装抛光和装配评估。为了生成PacBio HiFi长读数,共剪切15µg HMW DNA通过gTUBEs(Covaris,MA,USA)并使用PacBio SMRTbell Express Template Prep Kit 2.0(PacBio,CA,USA)构建标准PacBio SMRTbell文库。通过BluePippin(Sage Science,MA,USA)进行文库分离,去除短DNA片段,截止点为15 kb。然后,使用PacBio Sequel II系统在Novogene Biotechnologies, Inc.(天津,中国)生成356.3 Gb的HiFi共识读数,N50长度为18.3 kb。为了生成Oxford Nanopore超长读数,选择长DNA片段并使用Ligation Sequencing SQK-LSK109 Kit(Oxford Nanopore Technologies,Oxford,UK)根据制造商的说明进行处理。简而言之,对DNA末端进行甲醛固定和石蜡包埋(FFPE)并使用NEBNext End Repair/dA-tailing模块(New England Biolabs,UK)进行末端准备/dA尾加。然后,使用NEBNext Quick Ligation模块(New England Biolabs,UK)将测序接头连接到已准备的末端。最终的DNA文库使用GridION X5/PromethION测序仪(Oxford Nanopore Technologies,Oxford,UK)通过北京大学先进农业科学研究院(潍坊,中国)的单分子测序平台进行测序。共生成261.5 Gb的超长读数,读长N50为100.3 kb。Hi-C文库从辣椒叶片的交联染色质中使用标准Hi-C协议制备。然后,使用Illumina NovaSeq 6000仪器在Novogene Biotechnologies, Inc.(天津,中国)测序文库,以获得2×150 bp双端读数。共生成348.2 Gb的Hi-C数据,覆盖率约为112×,并使用HiC-Pro v3.1.0分类为有效或无效;仅保留有效相互作用进行后续分析。
基因组组装
步骤1:使用Illumina数据通过Jellyfish v2.3.0(k-mer大小=19)和GenomeScope v1.0(最大k-mer覆盖=1,000,000)估算了双单倍体品系‘G1-36576’的基因组大小和杂合率。估算的基因组大小为3.19 Gb,杂合率为0.207%。
步骤2:对于PacBio组装,使用hifiasm(v0.16.1)默认参数组装HiFi读数。ONT组装使用NextDenovo(v2.5.0)并使用NextPolish(v1.4.0)进行抛光,参数为‘hifi_options=-min_read_len 1k -max_depth 100’和‘sgs_options=-max_depth 100 -bwa’。然后,我们使用Minimap2(v2.24)将contigs比对到C. annuum叶绿体(GenBank登录号NC_018552.1)和线粒体(GenBank登录号NC_024624.1)的参考基因组。去除了至少有50%碱基被叶绿体或线粒体基因组序列覆盖的contigs。
步骤3:使用Quickmerge将HiFi组装中的contigs(作为查询)与ONT组装中的contigs(作为参考)连接,创建一个HiFi和ONT混合组装。由于ONT长读数通常存在错误,因此我们将HiFi contigs比对到合并的组装中,并用相应的HiFi contigs替换来自ONT的序列。经过此步骤,获得了十个几乎完整的染色体级contigs,而两个对应于Chr04和Chr08的contigs只有一个端粒。然后,使用Hi-C测序数据通过Juicer(v1.5)、3D-DNA(v180419)和Juicebox(v1.11.08)管道将所有contigs锚定。为了验证组装,我们手动检查了contigs并调整了方向,并在Juicebox中调整了任何错误的组装。
步骤4:在臂状Chr08上的rDNA阵列是45S单元(18S-5.8S-25S rDNA)的长串联重复。为了组装45S rDNA阵列,我们首先估计了rDNA拷贝数。我们使用Barrnap v0.9预测HiFi读数中的rDNA位置,并提取含45S rDNA的HiFi读数。基于含45S rDNA的HiFi读数的19-mers(>20 kb,42×深度),估计拷贝数为~60,000/42=1,428。确定了两种主要类型的重复单元,长度不同,分别为A型(8351–8377 bp)和B型(8498–8506 bp),分别占总45S rDNA阵列的70%和30%。为了组装rDNA串联阵列,我们使用了centroFlye HOR管道作为参考。由于rDNA单元之间的高相似性和ONT长读数的错误特性,我们未能使用ONT数据组装NOR区域。使用含45S rDNA的ONT长读数提取含端粒重复的前缀读数,含两种类型rDNA的内部读数,以及含非rDNA序列的后缀读数。然后,我们使用hifiasm组装含45S rDNA的HiFi读数,生成一个草图rDNA组装(78个contigs,N50为445.3 kb,总计15.5 Mb)。通过结合提取的ONT读数和组装的HiFi contigs,我们识别了罕见的19-mers并连接具有相同独特19-mers的序列。然后使用Hi-C数据将这些序列锚定,并通过使用Winnowmap2(v2.03,k=19,-x asm5)将HiFi读数映射到rDNA组装来填补空缺。最终获得了12.66 Mb rDNA阵列,包含1,506个rDNA拷贝,并将此序列添加到Chr08的contig中。
步骤5:我们提取了至少含有十个端粒重复基序‘TTTAGGG’或‘TTCAGGG’变体的超长ONT读数(>200 kb),并使用Winnowmap2(v2.03,k=19,-ax map-ont)将这些读数比对到上述基因组组装中。使用这些比对坐标,手动修补每个端粒的端挂序列。然后手动确认端粒在结构上有效。最终,我们获得了C. annuum品系G1-36576的T2T基因组组装,并将其命名为CaT2T。类似地,C. rhomboideum基因组使用上述相同策略进行组装。最终组装命名为CrT2T。
基因组质量评估
为了评估基因组组装的质量,我们首先使用Minimap2和D-GENIES比较了CaT2T和Ca59组装的基因组比对点图。对于映射统计,使用BWA(v0.7.17)映射NGS短读数,使用Minimap2映射HiFi和ONT长读数。然后使用SAMtools(v1.10)确定映射率和覆盖深度。使用IGV手动检查在CaT2T基因组中解决的Ca59空缺区域。为了评估基因组的完整性,我们使用BUSCO(v5.4.3)进行直系同源基因检测,使用solanales_odb10数据库(n=5,950)。使用HiFi读数中的Merqury(v1.3)估计质量值(QV)。使用Tandem Repeat Finder(TRF,v4.09.1)识别端粒序列,参数为‘2 7 7 80 10 80 2000 -d -l 16’。生成的‘.dat文件’被转换为GFF3文件,随后用于识别七碱基端粒重复。
重复序列注释和转座子分析
我们使用通用的Repbase数据库和由RepeatModeler构建的物种特异性de novo重复库对两个辣椒物种的DNA序列进行了注释。然后使用RepeatMasker(v4.1.2)注释和屏蔽基因组中的重复元素,参数为‘-xsmall -s -no_id -cutoff 255 -frag 20000 -e ncbi’。为了大规模准确地发现LTR逆转座子,我们应用了LTR_Finder(v1.2)、LTRharvest(v1.6.2)和LTR_retriever(v2.9.0)识别LTR元素。我们在CaT2T和CrT2T中分别识别了7383和9579个完整的LTR-RT候选者,并将其用作TEtranscripts分析的输入。随后使用TEsorter(v1.3)实现,使用从TE蛋白域数据库REXd-plant获得的HMM配置文件。TE序列首先在所有六个框架中翻译,然后将翻译的序列与数据库进行搜索。覆盖率低于20%或E值高于1e-3的匹配被丢弃。对于LTR-RT的分类,基于五个保守域(包括衣壳蛋白(GAG)、天冬氨酸蛋白酶(AP)、整合酶(INT)、逆转录酶(RT)和RNase H(RH))的存在和顺序识别和分类完整元素。过滤保守域后,CaT2T和ChT2T中的LTR-RT数量分别减少到5202和6834。使用TEsorter(v1.3),将Ty1-Copia元素分类为多个类群,包括Ale、Alesia、Angela、Bianca、Ikeros、Ivana、SIRE、TAR和Tork;而Ty3-Gypsy元素分类为Athila、CRM、Galadriel、Ogre、Reina和Tekay类群。使用LTR_retriever软件中的‘solo_intact_ratio.pl’脚本计算每个LTR家族中单独LTR与完整LTR的比例。根据公式使用LTR_retriever计算完整LTR逆转座子的插入时间:
[ \text{插入时间} = \frac{K}{2r} ]
其中K是两个LTR之间的差异,r是核苷酸替代率。我们使用平均替代率(r)7×10^−9估计LTR-RT的插入时间。
基因组注释
基因模型预测结合了以下三个方面的证据:(a)从头预测,(b)同源蛋白,(c)RNA-seq证据,使用MAKER(v2.31.11)管道进行两轮连续的基因模型预测。在第一轮中,提供了短读和全长RNA-seq证据和同源蛋白。用于基于同
源预测的蛋白序列来自A. thaliana、C. annuum、S. tuberosum和通用Swiss-Prot蛋白。为了实现MAKER管道,使用StringTie(v2.2.1)将短读RNA-seq数据组装成转录组。使用SMRT Analysis软件Isoseq3处理PacBio长读转录组数据。通过MAKER将转录本和蛋白质比对到软屏蔽的基因组,然后使用Exonerate(v2.2.0)打磨BLAST命中,从而准确注释编码区域。est2genome和protein2genome参数设置为1,因此MAKER仅基于提供的转录本和蛋白质预测基因模型。然后,使用AED分数<0.25的MAKER基因模型子集进行SNAP训练三轮。使用BRAKER(v2.1.6)管道训练GeneMark-ET和Augustus模型。简而言之,使用Exonerate和HISAT2将相同的数据比对到软屏蔽基因组。然后GeneMark-ET在预测的基因结构上进行训练,生成的约6000个优良基因模型用于训练AUGUSTUS。在第二轮中,将第一轮中的每组基因预测通过model_gff选项传递给MAKER,并关闭证据比对选项。训练的SNAP、GeneMark-ET和AUGUSTUS模型也整合到MAKER中以预测更可信的基因。最终,筛选掉不支持的基因模型(keep_preds=0),并保留AED分数<0.5的最高排名基因集。
为了将之前发布的C. annuum基因组注释与我们的CaT2T基因组注释进行比较,我们还使用Liftoff(v1.6.3)基于参考注释CaT2T组装的蛋白编码基因,参数为“ -flank 0.1 -sc 0.99 --copies”。然后使用Gffread(v0.12.7)筛选没有正常开放阅读框的转录本。在映射RNA-seq读数和先前注释的支持下,基因模型最终在IGV-GSAman(v0.6.76)中手动检查和校正。
共线性和系统基因组分析
为16个物种准备了非冗余蛋白序列用于直系同源分析。然后使用OrthoFinder(v2.5.4)在默认设置下推断直系同源和同系组,并激活‘-M msa’。每个基因的最长预测蛋白用作OrthoFinder分析的代表输入。TrimAl(v1.4.12)用于删除蛋白多重序列比对中的差比对区域。RAxML(v8.2.12)使用GAMMAJTT模型构建最大似然系统发育树,水稻作为外群。TimeTree是一个公共数据库,包含来自各种出版物的分化时间估算及其自身的估算。这些估算忽略了离群值,用于选择下限和上限均匀校准先验的范围。选择的校准值为1.1–1.6、109.2–123.5和<200,分别用于13个茄属物种、双子叶植物和所有植物的最近共同祖先。使用PAML(v4.9)中的CodeML和MCMCTree程序分析氨基酸替代模型并估计分化时间。然后使用CAFE5推断每个基因组中的基因增益和丧失率。OrthoFinder生成的同系组被视为不同的基因家族并作为CAFE5分析的输入。鉴定的基因进行了基因本体论(GO)和京都基因与基因组百科全书(KEGG)富集分析,显著富集的p值设为0.05。使用JCVI(v1.1.19)进行共线性分析。通过执行全对全LAST搜索并将命中链接到距离20个基因的截止值来识别共线性块。此外,我们要求每个共线性块至少有五个基因对。在Gepard中显示主要CBGs的点图。使用ParaAT(v2.0)计算C. annuum共线性块基因的Ks值。
CENH3 ChIP-seq
使用对应于C. annuum CENH3的完整肽序列产生C. annuum抗CENH3抗体在兔中。由AtaGenix(中国武汉)进行抗血清的制备和亲和纯化。对于ChIP实验,使用1%甲醛溶液在MS缓冲液(10 mM磷酸钾,pH 7.0;50 mM NaCl)中在真空下固定辣椒幼苗15分钟。固定后,在真空下与0.15 M甘氨酸在室温下孵育5分钟。大约1 g固定的组织在液氮中均质化,纯化细胞核,重悬于1 ml细胞裂解缓冲液中,在冰上孵育10分钟,并在1500 rpm(RC-3B,600 × g)下离心5分钟(细胞裂解缓冲液:10 mM Tris,10 mM NaCl,0.2% NP-40 [pH 8.0],1×蛋白酶抑制剂)。将细胞裂解液进一步重悬于1 ml细胞核裂解缓冲液中,在冰上孵育10分钟(细胞核裂解缓冲液:50 mM Tris,10 mM EDTA,1% SDS,1×蛋白酶抑制剂)以分离细胞核。重悬的染色质溶液在约10%功率下超声处理五次,每次15秒(超声仪设定为2.5,Sanyo Soniprep 150)。测量染色质样品的体积,然后加入ChIP稀释缓冲液到1 ml染色质中,加入2.5µg抗H3K4me3,样品在4°C下孵育12小时。然后加入50µl蛋白A/G珠,在4°C下孵育4小时。珠子分别用以下缓冲液洗涤两次:洗涤缓冲液A(50 mM HEPES-KOH pH 7.5,140 mM NaCl,1 mM EDTA pH 8.0,0.1%去氧胆酸钠,1% Triton X-100,0.1% SDS),洗涤缓冲液B(50 mM HEPES-KOH pH 7.9,500 mM NaCl,1 mM EDTA pH 8.0,0.1%去氧胆酸钠,1% Triton X-100,0.1% SDS),洗涤缓冲液C(20 mM Tris-HCl pH 8.0,250 mM LiCl,1 mM EDTA pH 8.0,0.5%去氧胆酸钠,0.5% IGEPAL C-630,0.1% SDS),洗涤缓冲液D(含0.2% Triton X-100的TE)和TE缓冲液。为了纯化洗脱的DNA,加入200μl TE,通过加入2.5μl 33 mg/mL RNase A(Sigma,R4642)并在37°C孵育2小时降解RNA。然后将DNA重悬于50μl TE中,并使用VAHTS® Universal DNA Library Prep Kit for Illumina V3(Vazyme ND607)扩增。扩增的ChIP文库在Illumina NovaSeq 6000平台上测序。
表观基因组测序和数据分析
Hi-C数据如上所述从叶组织生成,并使用HiC-Pro(v3.1.0)和Juicertools(v1.22.01)处理,生成10 kb、15 kb、20 kb、25 kb、40 kb、100 kb和500 kb接触图。使用HiTC(v1.42.0)和Cworld-dekker(v0.0.1)中的R(v4.2.0)脚本在100 kb冰冻接触矩阵中识别A/B区隔。根据制造商的协议,使用ATAC-seq构建试剂盒(南京瓦奇美有限公司)对C. annuum的染色质可及性进行了分析。使用Qubit和Agilent Bioanalyzer 2100进行片段分析评估构建的文库的质量。文库在Novogene, Inc.(天津,中国)使用Illumina NovoSeq 6000平台测序。为每种植物组织生成了三个生物学重复,并使用相同的计算方法进行分析。ATAC-seq数据使用内部计算管道分析。基本上,将清洁的ATAC-seq读
数使用BWA-MEM(v2.2.1)映射到CaT2T参考基因组,默认参数。比对文件(.bam)使用MACS2(v2.2.7.1)调用峰值。组蛋白修饰ChIP-seq数据从公共CNGBdb数据库下载,登录号CNP0001129。使用C. annuum的叶片和整个果实组织进行了全基因组亚硫酸氢盐测序。ChIP-seq映射和峰值调用使用Bowtie2(v2.5.1)、SAMtools(v1.10)和MACS2(v2.2.7.1)执行。使用StainedGlass完成着丝粒重复的可视化。使用Bismark(v0.24.0)估计DNA甲基化水平,在使用BWA-MEM(v2.2.1)将全基因组亚硫酸氢盐测序(WGBS)数据映射到参考基因组后。
转录组测序和分析
从包括叶、花、胎座、根、茎、种子和果皮在内的七种组织中提取总RNA。然后使用Illumina True-seq转录组试剂盒(Illumina,CA)构建转录组测序文库。然后在Biomarker Technologies Corporation(青岛,中国)使用Illumina NovaSeq 6000平台测序文库,生成150 bp双端读数。对于全长转录组测序,大约5µg mRNA逆转录为全长cDNA,使用SMARTer™ PCR cDNA合成试剂盒(Clontech,CA,USA),并通过PCR进一步扩增cDNA。对扩增的cDNA进行末端修复,随后连接SMRTbell接头。连接产物进一步用外切酶处理以降解未成功的产物,然后使用PacBio Sequal IIe仪器在Biomarker Technologies Corporation(青岛,中国)测序Iso-Seq文库。使用SMRTlink管道在不同组织中组装全长转录本,并用于指导基因注释。我们使用kallisto(v0.48.0)量化基因表达水平。映射读数的计数通过每百万转录本(TPM)进行标准化。使用HISAT2(v2.1.0)进行读数比对。为了可视化目标基因在样本中的表达模式,使用R包生成热图。
报告摘要
有关研究设计的更多信息,请参阅链接到本文的《Nature Portfolio报告摘要》。
数据可用性
在本研究中生成的原始测序数据(PacBio HiFi、ONT、Illumina双端、Hi-C和RNA-seq)和基因组组装已存储在国家生物技术信息中心(NCBI),登录号为PRJNA962192。基因组组装和注释文件可在北京大学先进农业科学研究院的辣椒基因组数据库[Download | PGDB]获取。提供源数据随本文。