The high-resolution three-dimensional (3D) chromatin map of the tea plant (Camellia sinensis)
茶树(Camellia sinensis)的高分辨率三维染色质图,还记得茶属的转录组分析嘛~
比较转录组分析揭示了116种山茶属(Camellia)植物的深层系统发育和次生代谢物演化-文献精读分享1
茶树(山茶属)CCoAOMT基因家族的全基因组鉴定、表达分析和蛋白质相互作用分析-全基因组家族分析-文献精读13
茶树(Camellia sinensis (L.) O. Kuntze)是世界上最重要的非酒精饮料之一,具有巨大的经济、健康和文化价值。最近,已经解读了几个C. sinensis var. assamica (CSA) (云康10号)、C. sinensis var. sinensis (CSS) (曙茶枣、碧云、龙井43号、铁观音、黄丹) 和古老茶树(DASZ)的基因组 [1–3],但迄今为止尚未涉及三维染色质图的研究。三维染色质组织在基本生物学过程中发挥关键作用,包括DNA复制、基因表达调控、细胞分裂、染色体重组等 [4],而三维染色质组织、可及性、转录调控元件的变化直接影响基因表达的变化,最终导致重要性状的差异 [5]。茶树的三维基因组将为复杂性状的解析提供一个多层次的基因表达调控模块全景。
为了解茶树的高分辨率三维染色质图,我们从乌龙茶品种“铁观音”(TGY)的六个新鲜叶片文库中获取了622.9 Gb的干净Hi-C reads,相当于TGY基因组的216.63 X测序覆盖率(表S1,见在线补充资料)。Hi-C图显示了沿着主对角线的较强的接触信号和染色体之间的明显分离,表明随着物理距离的增加,染色质接触强度有延迟(图1A)。基于PCA的分析(详见在线补充资料中的材料和方法)显示,100 kb分辨率的Hi-C接触数据中,约有48.87%和51.13%的TGY基因组分别属于841个A和826个B区,包含27,642个和17,593个基因,而A和B区的百分比在染色体间存在差异(图1B;表S2,见在线补充资料)。这个A和B的百分比与水稻(A vs B分别为48.31% vs 51.69%) [6] 相似,并且与棉花(A vs B分别为54.20% vs 45.80%)、花生(A vs B分别为52.30% vs 47.70%) [5, 7] 和辣椒(A vs B分别为59–65% vs 48.55%) [8] 不同,后者有稍高的A百分比。与其他植物的三维基因组 [7, 8] 类似,A区域集中在端粒附近,而B区域则占据染色体的中间重复区域,如着丝点(图1A)。这些不同物种之间A/B区的百分比和位置的比较结果暗示,A/B区的基因组位置分布可能比百分比更为保守。早期的研究表明,A和B区具有不同的基因组学、转录组学和表观基因组学特征,这些差异与A/B功能性区划(如转录激活或抑制)密切相关 [5–8]。因此,我们利用WGBS-seq、H3K27ac Chi-seq、ATAC-seq和RNA-seq(表S3,见在线补充资料)分析了茶树A/B区的基因组学、转录组学和表观基因组学特征,并注意到A区富集了基因、CHH DNA甲基化、H3K27ac ChIP-seq信号和ATAC-seq信号,这些信号往往标志着活性染色质状态(图1C;图S1,见在线补充资料)。但是B区相对于A区具有更高的GC比率、LTR密度、CG和CHG DNA甲基化水平,这些特征与抑制染色质密切相关。与辣椒的三维基因组的发现相似 [8],这些结果表明,茶树基因组中的区域在多种表观遗传修饰上也存在差异,并且这种表观遗传差异可能会影响3D接触模式。
茶树(Camellia sinensis)的高分辨率三维染色质图包括基因组范围的Hi-C相互作用矩阵和A/B区。A A和B区在所有染色体中的比例。C A和B区的基因组、转录组和表观基因组特征。D 拓扑相关域(TADs)的数量。E TADs边界的Motif富集结果。F TADs内多个标记之间的Pearson相关性。G 环的分类。H 与一个基因相关的环的数量。I 具有不同数量环的基因的基因表达水平。J 多环调控基因的KEGG富集结果。K 基因转录起始位点(TSSs)上游和下游2 Kb处的读深度。L H3K27ac和ATAC-seq峰值上游和下游2 Kb的5 mC甲基化修饰水平。M ATAC-seq和H3K27ac峰值的基因组位置注释。N 具有/没有启动子可及染色质区域(ACRs)的基因表达水平。O 华茶(CSA)和中国茶(CSS)品种中F3'5'H基因的基因表达水平。P ATAC-seq数据中F3'5'H基因周围的差异染色质可及性(TGY, CSS和Yinghong No. 9, YH9H)。Q CSA和CSS品种F3'5'H基因差异积累EGC和EGCG的推测调控模型。
拓扑相关域(TADs)在基因表达调控中至关重要,并且类似TAD的结构在多种植物中广泛存在。我们分别通过hicFindTADs(图1D)在100 Kb、40 Kb、20 Kb、10 Kb和5 Kb分辨率下获得了2287、5288、10,382、18,017和26,353个TADs。在5 Kb分辨率下,TADs的长度以55 kb为中心,约70%的TADs包含超过一个基因。我们发现茶树TADs的边界富集了fos-1转录因子(TFs),这表明fos-1 TF可能参与了茶树TAD结构的形成。Pearson相关性结果表明,抑制性和活性标记分别聚集为两个独立的簇。基于这些标记的层次聚类,我们将TADs划分为三个主要组,并将Cluster 1(n = 12,129)定义为抑制性,因为它们富集了抑制性标记,将Cluster 3(n = 9404)定义为活性,因为它们富含活性标记(H3K27ac、ATAC-seq、RNA-seq和基因密度)。Cluster 3具有最高水平的活性标记,而Cluster 1具有最高水平的三种甲基化标记,而Cluster 2(n = 4820)在三个簇中的表达水平中等,但在H3K27ac和ATAC-seq信号水平上最高。
在5 Kb分辨率下,我们通过Hiccups CPU模式识别了125,404个环结构(环)。总体而言,随着距离的增加,环的数量下降,达到了400 Kb内环的57.91%。根据环锚点是否与基因重叠,我们将总环细分为55,568个基因间-基因间环、43,383个基因-基因间环和26,453个基因-基因环,这意味着大多数环通过远距离调节元件(富集在基因间区域)与基因之间的相互作用来调节基因表达。为了进一步表征环对基因表达的影响,我们分析了与一个基因相关的环的数量,并发现绝大多数基因只参与一个环结构。与仅有一个环的基因相比,具有多个环的基因具有更高的基因表达水平,表明整体上基因表达水平与环的数量呈正相关。具有多个环的基因意味着该基因可能由多个远程转录元件调控,或者与多个基因具有转录调控关系,这可以解释为什么这些基因具有更高的表达水平。
总的来说,我们整合了基因组、RNA-seq、ATAC-seq、基于H3K27ac的Chip-seq和WGBs-seq数据,构建了一个包含茶树启动子和增强子的高分辨率三维染色质图。我们还对三级3D结构单元的基因组、转录组和表观基因组特征进行了表征,并初步探讨了TADs、启动子和增强子结构变异对基因表达或/和茶树中味道代谢物积累的影响。这些结果将为未来研究复杂性状的基因表达调控机制提供重要参考。