富集分析可以说是我们的老帮手了!进行富集分析,就不能不提基因集,那基因集我们该去哪里找呢?我们又该如何选择适合自己数据的基因集呢?咱们今天就来浅浅唠一唠!
最常见的操作就是去MSigDB数据库找现成的基因集,当然也可以自定义基因集,那既然有现成的,我们为什么还要多此一举去自定义呢?因为呀,总会有新发现的基因集或其它感兴趣的基因的集合对不对,甚至有些物种没有现成的基因集,我们只能自制,所以在之后我会教大家怎么制作自定义基因集,有需求的小伙伴们也可以催催我哈哈哈哈哈哈哈哈哈哈哈哈!!!
MSigDB数据库
**MSigDB(Molecular Signatures Database)**是一个汇集了经过良好注释的基因集合的数据库,被广泛用于分析基因富集通路。我们在之前的看完还不会来揍我 | GSEA富集分析详解(一)—— 代码实操中也对其进行过简单介绍。
官网链接:https://www.gsea-msigdb.org/gsea/msigdb/index.jsp
在MSigDB的官网上,我们可以通过关键字搜索基因集、按名称或集合浏览基因集、查看基因集及其注释、下载基因集、计算我们提供的基因集与MSigDB中的基因集之间的重叠、按基因家族对基因集的成员进行分类以及在提供的公共表达概要中查看基因组的表达谱等等。不仅如此,我们还可以调查在线生物网络存储库NDEx中的基因集。
官网页面如下:
我们可以看到它包含人类和小鼠的基因集,数据库一直处于更新中,最新版本就像上图展示的那样,我们今天就先重点介绍人类基因集,它们被划分为9个大类,包括**H(hallmarker gene sets)、C1(positional gene sets)、C2(curated gene sets)**等等。我们接下来就具体介绍一下这9大基因集,方便大家判断自己的数据更适合使用哪些基因集进行富集分析(当然也可以自定义基因集,也就是新发现的基因集或其它感兴趣的基因的集合,甚至有些物种没有现成的基因集,我们只能自制,所以在之后我会教大家怎么制作自定义基因集,有需求的小伙伴们也可以催催我哈哈哈哈哈哈哈哈哈哈哈哈)。
这里我只能略微详细介绍啦,想更进一步了解的小伙伴们,MSigDB当前最新版本详情大家可以在https://docs.gsea-msigdb.org/#MSigDB/Release_Notes/MSigDB_2023.2.Hs/进行查看。
-
H(hallmarker gene sets): Hallmark基因集总结并代表了特定的明确定义的生物状态或过程,它包含由多个已知的基因集构成的超级基因集,每个H类别的基因集都对应多个基础的其他类别的基因集,较为常用。我们可以详细查看一下!按照下面的步骤依次点进去!
我们以第一个脂肪生成为例,点击后会出现如下界面,里面会包含这个基因集的简介、所包含的相关的基因集信息、以及与此基因集相关的200个基因信息等等。
后面的几个大类我就不这么一个一个点进去了哈,大家自行操作!
-
C1(positional gene sets): 与基因在染色体上的位置相关的基因集合,根据不同染色体编号进行二级分类,不太常用,感觉性别相关研究可能会用到。
-
C2(curated gene sets): 包含已知数据库、文献和专家支持的基因集信息,每个基因集的基因集页面会列出其来源。C2集合分为以下两个子集合:化学和遗传扰动 (CGP,chemical and genetic pertubations) 和规范通路 (CP,canonical pathways)。
-
C3(regulatory target gene sets): 代表转录因子或microRNA调控潜在靶标的基因集。些集合由按它们在非蛋白质编码区域中共享的元素分组的基因组成。这些元件代表启动子和3’-UTR中已知或可能的顺式调节元件。C3集合分为两个子集合:microRNA靶基因(MIR,microRNA targets)和转录因子靶基因(all transcription factor targets)。
-
C4(computational gene sets): 通过挖掘大量面向癌症的表达数据来定义的计算基因集。C4集合现阶段(它更新蛮快的嘛!上次看才俩!)分为三个子集合:3CA(Curated Cancer Cell Atlas)、CGN(cancer gene neighborhoods)和CM(cancer modules)。
-
C5(ontology gene sets): 包含由相同本体术语注释的基因的基因集。C5集合分为两个子集合,第一个来自基因本体资源(GO,Gene Ontology),其中包含BP、CC和MF组件;第二个来自人类表型本体(HPO,Human Phenotype Ontology)。
-
C6(oncogenic signature gene sets): 代表通常在癌症中失调的细胞通路特征的基因集。大多数特征直接来自 NCBI GEO 的微阵列数据或来自内部未发表的涉及已知癌症基因扰动的分析实验。
-
C7(immunologic signature gene sets): 代表免疫系统内细胞状态和扰动的基因集。
-
C8(cell type signature gene sets):包含针对人类组织单细胞测序研究中确定的细胞类型的精选簇标记的基因集。
以上就是关于这几个基因集的介绍啦!下载使用的话需要注册账号,很简单的!不要担心!
那我们就以C6为例向大家介绍基因集的具体下载过程!
基因集下载
首先我们进入官网后,依次按照下图所示方式操作即可!
可以下载整个基因集,也可以下载单个通路的基因集进行分析。一般我们最常用的就是gmt格式,还有图中可以看到,有Gene Symbols、NCBI (Entrez) Gene IDs等等,大家要依据自己的数据情况进行选择。
那今天的分享就到这里啦!我们下期再见哟!
最后顺便给自己推荐一下嘿嘿嘿!
如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!
蟹蟹你们的喜欢和支持!!!
啊对!如果小伙伴们有需求的话,也可以加入我们的交流群:一定要知道 | 永久免费的生信交流群终于来啦!
还有兴趣的话,也可以看看我掏心掏肺的干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!
如果有小伙伴对付费分析有需求的话,可以看看这里:个性化科研服务 | 付费分析试营业正式启动啦!定制你的专属生信分析!可提供1v1答疑!
入群链接后续可能会不定期更新,主要是因为群满换码或是其他原因,如果小伙伴点开它之后发现,咦,怎么失效啦!不要慌!咱们辛苦一下动动小手去主页的要咨询
那里,点击进交流群
即可入群!