善用KEGG数据库挖掘目的基因

有关KEGG的分析在很多已发表的论文中都十分常见,涉及到的方向也很广泛,比如:代谢组、表观组、转录组等等。通常得到相关的基因集或者代谢物后,我们都希望能够快速了解它们的蛋白功能和涉及的调控机制,从而进一步锁定接下来关注的核心基因。

KEGG富集分析就是一种很好的手段。该分析方法是由Kanehisa实验室(Kanehisa Laboratories)在1995年开发。

 什么是KEGG数据库? 

KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个包含生物信息学数据库和相关工具的综合性资源,旨在帮助研究人员理解生物系统的功能和组成。KEGG数据库包含了多种生物信息学数据,包括基因组、代谢途径、疾病和药物等信息。主要包括以下几个部分:

1

基因组数据库:

包括已知生物物种的基因组序列和注释信息。

2

代谢途径数据库:

包括生物体内代谢途径的图谱和相关基因、蛋白质等信息。

3

疾病数据库:

包括与基因和代谢途径相关的疾病信息。

4

药物数据库:

包括与基因和代谢途径相关的药物信息。

KEGG数据库还提供了一系列工具和资源,如KEGG Pathway,KEGG BRITE,KEGG Orthology等,帮助我们进行生物信息学分析和研究。

图片

进入KEGG官网的页面后我们可以看到便捷搜索框、简介与引用、KEGG子库列表以及各种分析工具等。其中,KEGG PATHWAY会是我们要重点关注的部分,点击进入后首先会看到pathway的一级分类。目前可以分为七大类,分别为:

1

代谢途径(Metabolic Pathways):

包括碳水化合物代谢、脂类代谢、氨基酸代谢、核苷酸代谢等。

2

遗传信息处理( Genetic Information Processing):

包括转录、翻译、DNA 复制、修复等。

3

环境信息处理( Environmental Information Processing):

包括信号转导、细胞周期、细胞凋亡等。

4

细胞过程(Cellular Processes):

包括细胞结构、细胞运动、细胞分裂等。

5

有机系统(Organismal Systems):

包括免疫系统、内分泌系统、循环系统、消化系统、排泄系统、神经系统等。

6

人类疾病(Human Diseases):

包括各种人类疾病的相关基因和蛋白质信息。

7

药物开发(Drugs Development):

包括各种药物的作用机制和代谢途径等信息。

图片

除此之外,页面的下方我们也可以看到更为详细的分类。KEGG目前一共有三级分类,我们常说的富集通路为第三级分类。

说到这里,大家可能会问到不同的编号有什么含义呢?或者他们的区别在哪里?

其实每个通路都由一个五位数字标识,后跟以下任意一个:map,ko,ec,rn和三字母或四字母生物代码,它们分别代表五种通路类型:

  • map编号:代表reference pathway,根据已有的知识绘制的、概括的、详尽的具有一般参考意义的代谢图。一个点同时表示一个基因,这个基因编码的酶或这个酶参加的反应

  • org编号:物种特异性通路,这里就是将K编号基因(直系同源基因,后面会介绍)换为每个物种中对应的基因

  • ko编号:KO通路中的点表示直系同源基因

  • ec编号:EC通路中的点表示相关的酶

  • rn编号:化学反应通路中的点只表示该点参与的某个反应、反应物及反应类型

这五种前缀其实都是同一张通路图,只不过高亮显示的内容不同。要注意的是KEGG各个通路并非完全独立的,而是存在着普遍的联系。而且KEGG通路的联系一般不是单纯的上下游关系,更多是重叠交错的关系。在转录组、表观组研究中我们最常见的是map编号和ko编号。

了解完KEGG数据库的基本界面信息,我们再来认识下KEGG注释结果和富集分析结果。以下是富集分析后最常见的两种文件格式。

 KEGG注释结果文件 

与富集分析不同,KEGG注释是基于基因本身比对数据库后给出对应的K号,K号表示基因,每个号代表的是所有物种的一个同源基因。

以“K00410”为例,通过K号的搜索也能查找到对应的通路图。

Entry、Symbol、Name为基本信息;Pathway表示相关的map通路,点击map号可显示对应通路图;Module表示包含这个KO条目的KEGG模块,点击链接后在模块map中相应的KO矩形会被标记为红色;Brite代表了遵循KEGG通路层次结构的KO系统的分级分类,以及BRITE数据库中的其他分类;Other DBs链接到KEGG REACTION,以及COG,GO和其他分类系统;Genes表示KEGG组织中属于这个KO组的基因;Reference、Authors、Title、Journal 为该通路图的参考文献信息。

KEGG富集分析的结果文件

通过目的基因集和背景文件,完成富集分析后我们会得到下方格式的结果文件。

图片

ID :KEGG pathway ID

Description :KEGG Pathway ID 的描述

GeneRatio :本次富集实验注释到该 KEGG Pathway 的基因数/本次富集实验注释到 KEGG Pathway 数据库的基因总数

BgRatio :基因组中能注释到该KEGG Pathway的基因数/基因组中能注释到 KEGG Pathway数据库的基因总数

pvalue :富集P value (本表格中保留 3 位小数)

p.adjust :校正后的P value (本表格中保留 3 位小数)

qvalue :富集Q value (本表格中保留 3 位小数)

geneID :富集的基因名称

Count :富集的基因个数

一般来说,通过Description列对于通路的描述可以快速锁定与研究目的相关的通路和基因。但有些通路的简单描述可能并不能满足老师的需求,此时就需要我们关注ID,即结果第一列的KEGG map号,“00190”=“map00190”。

这里我们以map00190为例,通过KEGG官网输入map号再Search可以得到更为详尽的map通路信息。

图片

图片

  • 关于导航栏:

  1. scale拉动可以调节右侧图片大小

  2. 用来通过ID或别名搜索map中对象,并可显示基因对应的ko号

  3. 可通过多个ID 和KEGG标识符搜索map中对象

  4. 按照模块选择代谢途径

  5. 光标移至图中任意圆圈显示对应的C number/化合物,方框显示ko number/基因名称,圆角矩形显示的是另外的通路图。

注:图中我们可以标注出感兴趣的蛋白、mRNA或者酶等等,标注后的图片点击上方Download即可下载。点击“Change pathway type”可切换每种通路类型以及对物种进行选择。

KEGG通路图本质是一副线框图,即由点和线构成的基因-代谢物关系图。图中的方框、箭头、圆圈等也分别代表着不同的含义,关系类型可以分为蛋白-蛋白互作关系,基因表达关系和酶-酶关系。要注意的是KEGG通路图之间并非孤立的,而是常常会标注该通路中的基因或代谢物来自或流向其它相关的通路。

富集分析常见结果图

使用KEGG数据库分析后,结果如何可视化呢?这里有些例子供大家参考。

图片

......

其中大部分图通过爱基百客云平台即可实现无代码完成,真正的小白福音,欢迎咨询哦~

相关教程:富集分析不求人,零代码可视化GO/KEGG分析结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/636935.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Substrate 优秀学员专访|从前端到高级测试工程师,他坚定奔赴 Web3 红海

4 月 29 日,第 14 期「Substrate 区块链开发入门课」课程圆满毕业收官,课程涌现了新一批优秀毕业学员,他们即将带着自己在课程中学习的新知识、新经验,奔赴 Web3 行业各个赛道。在这些学员中,有这样一位开发实力突出、…

线上研讨会 | 探索非标自动化产线行业的数转智改之路

报名链接: 2024 达索系统工业大发展在线研讨会 (tbh5.com)

2024电工杯A题保姆级分析完整思路+代码+数据教学

2024电工杯A题保姆级分析完整思路代码数据教学 A题题目:园区微电网风光储协调优化配置 接下来我们将按照题目总体分析-背景分析-各小问分析的形式来 总体分析: 题目要求对园区微电网进行风光储协调优化配置,具体涉及三个园区&#xff08…

Python魔法学院:PySpider篇——网络世界的探险与征服

Hi,我是阿佑,迎来到Python魔法学院,今天阿佑要带大家学习的是PySpider篇——一门让你在网络世界中探险与征服的魔法课程。从环境搭建到高级功能应用,再到性能优化,每一个章节都是成为数据大师的必经之路! 文…

深度学习之基于YOLOV5的口罩检测系统

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 随着全球公共卫生事件的频发,口罩成为了人们日常生活中不可或缺的一部分。在公共场所&am…

Nacos 微服务管理

Nacos 本教程将为您提供Nacos的基本介绍,并带您完成Nacos的安装、服务注册与发现、配置管理等功能。在这个过程中,您将学到如何使用Nacos进行微服务管理。下方是官方文档: Nacos官方文档 1. Nacos 简介 Nacos(Naming and Confi…

Qt for Android 乱码问题

java文件乱码 导致编译失败 使用notepad等查看java文件的编码, 修改成utf-8,否则会因为乱码编译失败, 记住是utf8不是utf8-bom. 做如下修改确保utf8文件不被修改掉。 编译时错误显示的是乱码 如果开发其他乱码再改回, 原本是Sys…

Q-Learning学习笔记-李宏毅

introduction 学习的并不是policy,而是学习critic,critic用来评价policy好还是不好;一种critic:state value function V π ( s ) V^\pi(s) Vπ(s)是给定一个policy π \pi π,在遇到state s s s之后累积的reward的…

docker所在磁盘空间不足 迁移数据

1.查看原始目录docker info | grep "Docker Root Dir" 一般在/var/lib/docker 2.停止docker service docekr stop 3.移动数据 注意 移动前不要创建docker目录! mv /var/lib/docker /home/docker 4.进入目录查看是否与原始目录相同,确认一…

操作系统总结(2)

目录 2.1 进程的概念、组成、特征 (1)知识总览 (2)进程的概念 (3)进程的组成—PCB (4)进程的组成---程序段和数据段 (5)程序是如何运行的呢&#xff1f…

微服务架构下Docker容器技术与Kubernetes(K8S)

Kubernetes、微服务和Docker容器技术的结合提供了一个强大、灵活且高效的平台,能够应对现代应用程序的复杂性和动态性。Kubernetes的自动化管理、服务发现、负载均衡和配置管理,与Docker的标准化打包和运行环境相结合,最大化地发挥了微服务架…

听说京东618裁员没?上午还在赶需求,下午就开会通知被裁了~

文末还有最新面经共享群,没准能让你刷到意向公司的面试真题呢。 京东也要向市场输送人才了? 在群里看到不少群友转发京东裁员相关的内容: 我特地去网上搜索了相关资料,看看网友的分享: 想不到马上就618了,东哥竟然抢…

电磁仿真软件CST六面体网格和六面体TLM网格的区别【仿真入门】

六面体网格(1) Time Domain Solver中使用的Hexahedral Mesh! 网格可以说是为了Maxwell方程式计算,将仿真结构分割成许多小的网格单元。因此,仿真计算中识别的结构是网格结构。 Time Domain Solver中使用的Hexahedra…

【Python】 去除字符串中的所有空白字符

基本原理 在Python中,字符串(String)是不可变的数据类型,这意味着一旦创建了一个字符串,就不能修改它的内容。然而,我们可以创建一个新的字符串,它包含原始字符串中的字符,但不包含…

【Unitydemo制作】音游制作—控制器与特效

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:就业…

2024电工杯A题详细思路代码分析数学建模:园区微电网风光储协调优化配置

题目分析:园区微电网风光储协调优化配置 我们会先给出三个问题总体的分析,最后会详细分析问题一的建模和详细内容。 背景: 园区微电网由风光发电和主电网联合为负荷供电,为了尽量提高风光电量的负荷占比,需配置较高比…

《TortoiseSVN》简单使用说明

##################工作记录#################### 常用图标说明 一个新检出的工作副本 修改过的文件 更新过程遇到冲突的文件 你当前对文件进行了锁定,不要忘记不使用后要解锁,否则别人无法使用 当前文件夹下的某些文件或文件夹已经被调度从版本控制…

Lc42---- 1200. 最小绝对差(java版)---排序

1.题目描述 2.知识点和思路 (1)先排序 (2)再计算元素对之间的差值,找到最小绝对差: (初始化 minDiff 为最大整数值,然后遍历数组找出相邻元素之间的最小差值。) int m…

在R中赞扬下努力工作的你,奖励一份CheetShet

传说有个R,R里有个包,包的名字叫praise,会一直不停地夸赞你。 > praise() [1] "You are sensational!" > praise() [1] "You are luminous!" > praise() [1] "You are pioneering!" > praise() […

文件中海量数据的排序

文件中海量数据的排序 题目: 跟之前堆排序可以解决TopK问题一样,我们来看看归并排序会用来解决什么问题? 思路: 我们说归并排序是外排序。其实就是将数据分成一个个小段,在内存中进行排序,再拿出内存&am…