生物信息学 GO、KEGG

文章目录

  • 北大
    • 基因本体论
    • 分子通路KEGG
    • GO注释
    • 分子通路鉴定
  • 关于同源 相似性

b站链接:北大课程
概述了当前生物信息学领域中几个重要的概念和工具,介绍基因本体论(Gene Ontology, GO)、分子通路知识库KEGG(Kyoto Encyclopedia of Genes and Genomes)以及分子通路鉴定和GO注释的过程。
首先从北京大学生物信息学团队的研究工作讲起,解释了基因本体论的框架,它是一套用于表示基因产品属性的控制词汇表。然深入探讨了KEGG数据库如何系统地整合了生物化学通路和分子交互网络的信息。此外,还探讨了GO注释的重要性,它是指将基因本体论的术语分配给基因产品以描述其特性的过程。文章解释了分子通路的鉴定如何帮助科学家理解复杂的生物学过程和疾病机理。

北大

基因本体论

当时不同的生物测序,同源基因对不上,于是大家商讨着确定一套体系

  1. 在信息科学中,ontology 是对特定领域的概念和概念之间关系的一种规范描述。它通常使用共享词汇来定义领域内的概念类型、属性以及这些概念之间的关系。简单来说,它是一种数据模型,用于组织和整合信息,使其可查询、可分析。
  2. 在哲学中,ontology 是研究存在本质、变化、实在性以及存在的基本类别及其相互关系的领域。它探讨了现实和存在的基础框架以及如何理解世界的本质。

  1. 通信(Communication): 本体可以帮助确保不同团队或不同学科领域之间的无歧义沟通。举例来说,在各种基因组项目中,不同研究组对基因功能的注释可能各不相同。使用本体,这些注释可以统一标准化,确保所有人对同一术语有相同理解。
  2. 计算(Computation): 本体使知识可以以计算机可处理的形式表示,这意味着文献和数据可以结构化,使得计算机程序能够自动执行分析。例如,研究人员可以编写程序来查询和分析基因或蛋白质的功能,这一过程由本体中定义的结构化知识支持。
  3. 模式发现(Discovery of Patterns): 本体还可以用来发现更大规模的模式和关联。例如,研究人员可以通过本体来识别涉及特定基因集的更广泛的功能分类或代谢途径,从而提供一个从局部到整体的视角。这就像从鸟瞰视角看问题,而不仅仅是从地面水平视角看问题。

  • Gene Ontology (GO)
    • 从刚开始的三家,到现在有二十多家机构参与

  • 三个部分

这张幻灯片介绍了基因本体论(Gene Ontology, GO)中的三个主要类别:

  1. 分子功能(Molecular Function):指的是基因产品(如蛋白质)的基本活动或任务,比如特定的生化活动。例如,某个蛋白质可能具有碳水化合物结合的功能或ATP酶活性。
  2. 生物过程(Biological Process):涉及多个分子功能的集合,这些集合合作实现某个宽泛的生物目标或目的,如细胞分裂(有丝分裂)或嘌呤代谢。
  3. 细胞组分(Cellular Component):特定的细胞位置或复杂体,如亚细胞结构、位置或大分子复合体。这可能包括核、端粒或RNA聚合酶II整体等。
  • 使用基因本体论(Gene Ontology, GO)来描述与色素形成(pigmentation)相关的生物过程的一个例子
    • GO提供了一个用于描述基因功能和相关生物学特性的标准化词汇。
    • 这个系统中,生物过程、分子功能和细胞组分是通过有向无环图(Directed Acyclic Graph, DAG)的形式展现的,其中节点表示GO术语,而边表示这些术语之间的关系。

在这个例子中,每个方框代表一个GO术语,这些术语描述了色素形成的不同方面,例如:

  • 色素形成过程
  • 发育期间的色素形成调控
  • 色素代谢过程

箭头表示的是不同术语之间的关系,比如某个过程是另一个过程的一部分,或者一个过程是另一个过程的调控(正调控或负调控)。GO的这种层级结构和术语间的关系有助于研究人员精确地描述和理解基因产物的功能和它们在生物学中的作用。

  • 如何将像上面的图**(有向无环图)**存储进电脑

  • 几种存储格式

    • OBO File Format

      • [Term]
      • id
      • name
      • Namespace(三大类)
      • def
      • synonym 同义词 简称
      • Is_a 从属于哪些更大的类别
    • XML

      • Go:term
        • go:accession
        • go:name
        • go:synonym
        • go:definition
        • go:isa
        • Go:dbxref. 其他数据库如果也存在,就给出其他数据库的链接

  • 三种relationship
    • is a
    • part of
    • regulates
  • 这样的推断规则就让计算机比较方便的处理

  • 目前的GO的规模(2018年)

可以在官网搜索

分子通路KEGG

Main types of biological pathways:

  • Metabolic pathways:添加原材料(食物和氧气),转化成产品(能量、生长和维修所需的分子)并分配到身体的各个部分。
  • Gene regulation pathways:根据外界/自身的情况,调节哪些基因多表达一些,哪些少表达一些。
    • 确定哪些工厂(基因)应当在什么时候开工,生产多少商品(蛋白质和RNA)
  • Signal transduction pathways:信号转导
    • 帮助城市的各个部分(细胞)根据收到的消息(信号分子)做出反应,调整各自的活动

最完善的是代谢相关的通路

  • 每一个pathway也会链到其他的pathway

  • 重要的就是interactions

    • PPI
    1. 磷酸化(Phosphorylation):一个蛋白质(酶)向另一个蛋白质添加磷酸基团,通常导致被磷酸化的蛋白质活性的增加或减少。
    2. 去磷酸化(Dephosphorylation):磷酸基团从蛋白质上移除,这个过程通常是由另一类酶执行的,可以逆转磷酸化的效果。
    3. 泛素化(Ubiquitination):将泛素(一种小蛋白质)附加到目标蛋白质上,通常标记蛋白质进行降解。
    4. 糖基化(Glycosylation):添加糖基团到蛋白质上,这可以影响蛋白质的稳定性、位置和功能。
    5. 甲基化(Methylation):添加甲基团到蛋白质上,这种修改可以影响蛋白质的活性或相互作用。
    6. 激活(Activation):使蛋白质变得活跃或增强其活性。
    7. 抑制(Inhibition):降低蛋白质的活性或完全停止其功能。
    8. 间接效应(Indirect effect):一个蛋白质对另一个蛋白质产生的非直接作用,比如通过影响一个中间分子。
    9. 状态变化(State change):蛋白质状态的改变,例如从不活跃状态到活跃状态。
    10. 结合/联合(Binding/Association):两个或多个蛋白质形成稳定的复合物。
    11. 解离(Dissociation):蛋白质复合物的分离。
    12. 复合物(Complex):两个或多个蛋白质通过结合形成的稳定结构。
    • Gene expression relations
    • 酶之间的反应
  • KEGG Pathway File

    • KGML格式

  • KEGG Orthology (KO)
    • KEGG的一个数据库,存储“KO”号
    • 主要是对于不同物种中具有相似功能基因的标识符,更多的是针对基因
    • KO 提供了一个标准化的方法来标识和分类这些基因和蛋白质,并将它们与 KEGG Pathways 中描述的特定生物化学过程相关联。
      • 每个 KO 都是一个编码特定分子功能的基因或蛋白质的集合,在不同物种中,执行相同功能的基因或蛋白质会被分配相同的 KO 编号。
      • 在 KEGG Pathways 的上下文中,可以使用 KO 来标识途径中涉及的特定基因或蛋白质,这有助于跨物种比较途径成分。这种关联是双向的:一个特定的 KO 可能参与多个不同的途径,而一个途径可能涉及多个不同的 KO。

KO vs GO

  • 基因本体论(Gene Ontology, GO):GO 为基因产品(主要是蛋白质)的功能提供了一个结构化的、动态更新的控制词汇。GO 将基因产品的功能描述为属于三个不同领域的属性:生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)。GO 更多关注单个基因产品的特定功能,以及它们在细胞内外的位置。
  • KEGG:KEGG 关注的是基因产品参与的整体生物化学途径和网络。KEGG 提供了对这些网络的图形表示,强调了不同基因和蛋白质如何协同工作,影响生物学功能。KO 系统是 KEGG 用来标准化和整合这些信息的方式,侧重于跨物种的功能比较。

GO注释

  • 通过实验证据,并且人工review过的

  • 通过计算分析,并通过人工review的

  1. ISO (Inferred from Sequence Orthology): 这是当一个基因产品的功能被推断出与其他已知功能的基因产品有序列同源性时使用的。通常涉及比较进化上相关物种之间的基因。
  2. ISA (Inferred from Sequence Alignment): 通过序列比对的方法推断功能。如果一个未知功能的蛋白质与已知功能的蛋白质序列对齐,那么未知蛋白质可能具有类似的功能。
  3. ISM (Inferred from Sequence Model): 通过比对特定的序列模式或序列特征,如保守域或基序,预测功能。
  4. ISS (Inferred from Sequence or Structural Similarity): 当一个基因产品由于序列或结构相似性被推断具有某种功能时使用。这可以基于序列比对或三维结构的比较。
  5. IGC (Inferred from Genomic Context): 根据基因在基因组中的位置来推断功能,例如在同一操作单元中的基因,或基因的邻近性,可能参与相同的代谢途径或生物过程。
  6. IBA (Inferred from Biological aspect of Ancestor): 当一个功能从一个祖先物种中推断出来,并且被认为在当前物种中仍然存在时使用。
  7. IBD (Inferred from Biological aspect of Descendant): 如果一个功能可以在下游的物种中观察到,并且这种功能被推断在共有的祖先物种中存在,就会使用这种方法。
  8. RCA (Inferred from Reviewed Computational Analysis): 功能推断是基于经过审查的计算分析,可能涉及多种生物信息学工具和方法。
  9. IKR (Inferred from Key Residues): 相反的推断,如果序列差不多,但是缺少了关键的残基,那么就排除该序列具有该功能
  10. IRD (Inferred from Rapid Divergence): 当一个基因或蛋白质与已知的功能相似,但序列发生了快速演变,使其在某些位置有显著差异,可能指示功能上的差异化时使用。
  • 通过计算分析但没有人工review
  • 其他奇怪的
    • 就是说一些没有足够的证据的注释,比如作者在论文中提了一嘴这样
  • 这是一个关于不同物种注释类型的数据统计
    • 可以看出水果的话,大部分都是实验得到的和经过人工review注释,计算机推测的比较少
    • 而对于猪的话,就是计算机推测的还没经过人工review的占比比较大

分子通路鉴定

当时老师课题组的一个工作

  1. 给基因注释上通路(有时候能注释到8 90% 有时候一半都不到)

  • KO
    • 存储了KEGG里pathway的表
    • 存储了KEGG里KO的表
    • 存储了KO对应pathway的表
  • Gene
    • 存储了gene对应pathway的表 (推理出的)
    • 存储了ko对应gene的表(推理出的)
    • 存储了genes的信息

大概的思路,是query的gene序列,跟KEGG 里的genes做blast,相似度高的,进行一个mapping。就是query对应到KEGG里的gene的KO,然后再从KO对应到pathway

  1. 哪些通路是sigificant的

很多时候由于实验,数据是带有噪声的,即数据中存在由测量误差、实验条件或其他非相关生物学过程导致的变异,因此需要统计方法来确定哪些结果是真正具有生物学意义的。

  • Most frequent pathway

  • Most enriched pathway 通路富集

    • 对于某一个通路(一个一个看),
    • 研究的一个基因组中,所有能注释到的基因称为“background”
    • 评估自己实验条件下的这些基因在通路中的概率,跟background中所有基因落在通路中的概率,比较这二者,算p值
  • 其实就是一个抽样问题,用超几何分布来算p值

多假设检验矫正 FDR矫正

因为前面是一个一个通路去做检测的,所以每个通路判断的误差累计起来还是不容忽视的,所以这里进行一个多假设检验的矫正

如果这个期望小于0.05,那么认为是比较有生物学意义的

有三类分析方法,这里只介绍了第一种,并且给出了一些分析软件

关于同源 相似性

homology

Ortholog直系同源:不同物种的相同功能序列,来自历史上同个祖先

paralog旁系同源:同个物种,发生复制

同源性往往具有相似性,所以我们常常会根据相似性去推断同源性

相似性矩阵

  • 对于氨基酸
    • PAM矩阵
    • BLOSUM矩阵

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/488309.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis进阶

缓存雪崩 缓存穿透 缓存击穿 Redis在项目中常用作缓存来使用,主要用两大作用: 1.提升系统的性能 Redis基于内存,IO效率远高于MySql数据库 2.减少数据库压力 Redis处理很多请求,使用Redis作为缓存可以减少数据库的请求量&…

9.2024

使用冒泡排序给{10 ,1,35,61,89,36,55}排序 代码&#xff1a; public class 第九题 {public static void main(String[] args) {int a[]{10,1,35,61,89,36,55};for (int i0;i<a.length-1;i){for (int j0;j<a.length-1;j){if (a[j]>a[j1]){int temp0;tempa[j];a[j]a[…

数字量化值Digital Number, 辐射亮度Radiance, 反射率Reflectance,发射率Emissive

我们经常听到有人困惑于图像的像素值储存的是什么信息&#xff0c;以及如何获取所需的值。这里我们总结以下几个概念。 数字量化值&#xff08;Digital Number &#xff1a;DN&#xff09; 像素值的通用术语是数字量化值或DN值&#xff0c;它通常被用来描述还没有校准到具有意…

hbase启动错误-local host is“master:XXXX“ destination is:master

博主的安装前提&#xff1a; zookeeper安装完成&#xff0c;且启动成功 hdfs高可用安装&#xff0c;yarn高可用安装&#xff0c;且启动成功 报错原因&#xff1a;端口配置不对 解决方案&#xff1a; 输入&#xff1a;hdfs getconf -confKey fs.default.name 然后把相应的…

Spring Cloud 网关Gateway + 配置中心

网关 网络的接口&#xff0c;负责请求的路由、转发、身份校验 路由&#xff1a;告诉请求去哪找 转发&#xff1a;请求找不到直接带请求过去 路由及转发 判断前端请求的规则就这么配 当前情况下只需要访问8080端口 就可以完成对全部微服务的访问 路由属性 登录校验 没必要在每…

如果有意外,这个窗口就会弹出,希望你们能够看到!——夜读(逆天打工人爬取热门微信文章解读)

第一个日二更 引言Python 代码第一篇 定时任务运行结果 第二篇 人民日报 【夜读】最好的教养&#xff0c;是对家人和颜悦色结尾 时间不会无缘无故增加 也不会无缘无故减少 我们唯一能够控制就是 加大时间的密度 引言 为了不让我在大庭广众下大喊我是沙比 我来更新文章啦 这次带…

网络七层模型之物理层:理解网络通信的架构(一)

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

【漏洞复现】商混ERP系统 DictionaryEdit.aspx接口处存在SQL注入漏洞

免责声明&#xff1a;文章来源互联网收集整理&#xff0c;请勿利用文章内的相关技术从事非法测试&#xff0c;由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;所产生的一切不良后果与文章作者无关。该…

并发编程之的虚假唤醒和精准唤醒的详细解析

虚假唤醒 例子 wait&#xff08;&#xff09;是object类自带的方法&#xff0c;在jdk有介绍&#xff0c;有可能出现中断、虚假唤醒 也就是在下面的例子中 if(number ! 0){this.wait(); } 当线程成功进入if语句块中&#xff0c;发生了中断&#xff0c;cpu跑去调度别的进程了&am…

厨余垃圾处理设备工业监控PLC连接APP小程序智能软硬件开发之功能结构篇

厨余垃圾处理设备工业监控PLC连接APP小程序智能软硬件开发之功能结构篇 好几年前&#xff0c;应朋友之邀&#xff0c;为其工厂的厨余垃圾处理设备研发一套用于对现场的生产及维护进行远程查看、管理和质量监控的厨余垃圾处理设备工业监控PLC连接APP小程序智能软硬件系统。 因为…

MVC框架里的几种对象

Java语言是一门面向对象的编程语言&#xff0c;所有都用类表达&#xff0c;入口都是一个类&#xff0c;没有独立的main&#xff08;&#xff09;函数&#xff0c;类的实例化就是对象。 简单来讲类包括数据和方法&#xff0c;方法就是操作&#xff0c;是实现业务逻辑的地方&…

获取高德安全码SHA1

高德开发者平台上给的三种方法 获取安全码SHA1&#xff0c;这里我自己使用的是第三种方法。 1、通过Eclipse编译器获取SHA1 使用 adt 22 以上版本&#xff0c;可以在 eclipse 中直接查看。 Windows&#xff1a;依次在 eclipse 中打开 Window -> Preferances -> Androi…

C++动态内存管理:new/delete与malloc/free的对比

在C中&#xff0c;动态内存管理是一个至关重要的概念。它允许我们在程序运行时根据需要动态地分配和释放内存&#xff0c;为对象创建和销毁提供了灵活性。在C中&#xff0c;我们通常会用到两对工具&#xff1a;new/delete 和 malloc/free。虽然它们都能够完成类似的任务&#x…

「10」文本(GDI+):添加文字,可设置背景添加移动效果

「10」文本&#xff08;GDI&#xff09;添加文字&#xff0c;可设置背景添加移动效果 在OBS软件里&#xff0c;通过来源组件「文本&#xff08;GDI&#xff09;」&#xff0c;您可以添加任意您想要呈现的文字&#xff0c;在直播窗口中显示&#xff0c;它可以是提示语、广告词、…

【双指针】Leetcode 盛最多水的容器

题目解析 11. 盛水最多的容器 木桶效应&#xff0c;寻找一个区间使得这个区间的体积最大 算法讲解 1. 暴力枚举 遍历这个容器&#xff0c;将每一个区间的体积求出来&#xff0c;然后找出最大的 class Solution { public:int maxArea(vector<int>& height){int n…

【技术总结】常用指标mAP, mIoU, mDice, mFscore, aAcc 实现

mAP mAP 全称是 mean Average Precision. 其中 mean 这个操作是在 class 级别上, 因此只需要将所有类别平均即可. 所有需要关注的就是 AP. AP 是 Precision-Recall 曲线和坐标轴围成的面积. 提到曲线可能会感觉比较懵 – 模型的预测对或者不对都是确定的, 哪里来的曲线呢? 想…

字节算法岗二面,凉凉。。。

节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学&#xff0c;针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 汇总…

php反序列化刷题1

[SWPUCTF 2021 新生赛]ez_unserialize 查看源代码想到robots协议 看这个代码比较简单 直接让adminadmin passwdctf就行了 poc <?php class wllm {public $admin;public $passwd; }$p new wllm(); $p->admin "admin"; $p->passwd "ctf"; ec…

【第三方登录】Google邮箱

登录谷歌邮箱开发者 https://console.developers.google.com/ 先创建项目 我们用的web应用 设置回调 核心主要&#xff1a; 1.创建应用 2.创建客户端ID 3.设置域名和重定向URL 4.对外公开&#xff0c;这样所有的gmail邮箱 都能参与测试PHP代码实现 引入第三方包 h…

【云能耗管理系统在某大型商场的应用】安科瑞Acrel-EIOT能源物联网平台方案

摘要&#xff1a;依据对上海市某大型商场现场考察的结果&#xff0c;提出通过建设云能耗管理系统的方案来改善商场能耗的管理现状。首先充分搜集建筑信息和设备运行工况&#xff0c;合理设计系统实施方案&#xff0c;解决现场数据采集和传输障碍&#xff0c;完成云能耗管理系统…