生物信息—数据库

文章目录

  • 核酸数据库
    • 1 一级核酸数据库:GenBank
      • 1.1 原核生物核酸序列
      • 1.2 真核生物成熟mRNA
      • 1.3 真核生物DNA序列
    • 2 一级核酸数据库:基因组数据库:Ensemble
    • 3 一级核酸数据库:微生物宏基因组数据库:JCVI
    • 4 二级核酸数据库
  • 蛋白质数据库
    • 1 一级蛋白质序列数据库 UniProtKB
    • 2 一级蛋白质结构数据库 PDB
    • 3 二级蛋白质数据库
      • 3.1 Pfam
      • 3.2 Cath
      • 3.3 SCOP2
  • 专用数据库
    • 1 KEGG
      • 1.1 三羧酸循环
      • 1.2 Toll样受体(Toll-like receptors, TLR)
    • 2 OMIM

b站:山东大学生物信息学课程
概述了几种主要的生物信息学数据库,包括核酸序列、蛋白质序列及其结构和专用生物路径数据库。文章从一级核酸数据库开始,详细介绍了GenBank、Ensemble和JCVI等数据库,这些数据库提供了广泛的原核和真核生物的遗传信息。然后是蛋白质数据库,从UniProtKB的基本序列信息到PDB的三维结构信息,以及如Pfam、Cath和SCOP2等二级蛋白质数据库的深入分析。最后,探讨了KEGG和OMIM等专用数据库,提供了详细的生物化学路径和遗传疾病信息。

  • 数据库
    • 核酸数据库
      • 一级核酸数据库
      • 二级核酸数据库
    • 蛋白质数据库
      • 一级蛋白质数据库
        • 一级蛋白质序列数据库
        • 一级蛋白质结构数据库
      • 二级蛋白质数据库
    • 专用数据库
      • 文献数据库PubMed

核酸数据库

  • 一级核酸数据库

    • NCBI GenBank:美国国家生物技术信息中心
    • ENA
    • DDBJ
    • 这三合并为INSDC:国级核酸序列数据库合作联盟

1 一级核酸数据库:GenBank

1.1 原核生物核酸序列

  • 原核生物没有内含子

  • 原核生物序列的一个基因序列,举例,同一个基因的名字是一样的,但是在不同数据库的检索号不同

  • LOCUS ACCESSION VERSION GI

    • LOCUS 是姓名 ACCESSION是学号
    • 同一个基因在不同的数据库中LOCUS是一样的,ACCESSION不同
  • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

  • Features

    • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

    • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

    • 蛋白质数据库中的大部分蛋白质序列,都是核酸序列,根据翻译密码本,翻译过来的

    • 计算机预测出来的该序列上的其他基因,还没有实验验证,这种情况很常见

      • 外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
    • 完整序列

    • 下载序列

    • 下载纯文本格式


1.2 真核生物成熟mRNA

因为真核生物有内含子,所以真核生物的核酸序列信息比原核生物要复杂得多

浏览编码人(真核生物)dUTPase的成熟mRNA(加工过之后的)序列信息:U90223

重点讲一下不同点

  • 数据库经常出现数据不完整、更新不及时的问题,当然现在已经更新了

  • 信号肽就是用于决定蛋白质工作的地方,后面matpeptide就是编码成熟蛋白的序列

  • 编码区差三位,是因为最后三位是终止密码子

1.3 真核生物DNA序列

前面的都是线性的,这里是非线性的

浏览编码人(真核生物)dUTPase的基因组DNA序列信息:AF018430

当时还是第三个外显子,现在已经几个外显子被整合拼成完整基因了 AH005568

  • 完整的gene 和 成熟的mrna(经过剪接)

  • 对应多种mRNA 分别对应在线粒体中的蛋白质和细胞核中的蛋白质

  • 以下为四个外显子片段(四条序列上的该基因外显子部分)

不同的剪接方式会有不同的外显子形成不同的氨基酸序列。这可能涉及基因的表达调控,不是简单分类。

选择性剪接:许多基因通过选择性剪接可以产生多个mRNA变体。这意味着从同一个基因序列中,通过在成熟的mRNA中包含或排除不同的外显子,可以制造出多种不同的蛋白质。这是蛋白质多样性的重要来源。

真核生物比原核生物复杂得多

2 一级核酸数据库:基因组数据库:Ensemble

这才是真正的天书!

  • 显示演示了如何从染色体入手找到一个具体的基因
  • 更多的方法需要大家去实践熟悉

3 一级核酸数据库:微生物宏基因组数据库:JCVI

  • 微生物研究计划之一HMP

    • 人们不知道微生物跟人的具体关系是什么,相互之间如何影响。

    • WGS全基因组鸟枪法测序项目数据库

    • SRA高通量测序数据库

    • Annotation是基因组在genbank中所有注释的链接


4 二级核酸数据库

一级数据库是直接实验得出的数据,二级数据库是经过处理、注释、分析的序列数据

  • 二级核酸数据库(举例)
    • RefSeg数据库:参考序列数据库,是通过自动及人工精选出的非冗余数据库,包括基因组序列、转录序列和蛋白质序列。
    • dbEST数据库:表达序列标签数据库,包含来源于不同物种的表达序列标签 (EST)
    • Gene数据库:为用户提供基因序列注释和检索服务,收录了来自5300多个物种的430万条基因记录
    • 非编码RNA数据库:ncRNAdb,其不编码蛋白质,但在细胞中起调节作用
    • microRNA数据库:miRBase,可以获得microRNA在基因组中的定位,挖掘microRNA序列之间的关系

蛋白质数据库

蛋白质数据库比核酸数据库种类多,但是annotation要直白的多

  • 一级蛋白质数据库分为蛋白质序列数据库和蛋白质结构数据库
    • 都是实验直接得出的数据
  • 二级蛋白质数据库是基于一级数据库基础上,分析加工出来的

1 一级蛋白质序列数据库 UniProtKB

swissprot:人工标注的蛋白质序列数据库,可信度高,冗余度低

TrEMBL:蛋白质序列数据(由计算机完成):把数据库中能编码蛋白质的核酸序列,都翻译成蛋白质序列,然后存在里面,可信度低,冗余度大。所以剔除了所有swissprot中已经人工标注的序列

PIR:支持基因组学、蛋白质组学、和系统生物学综合研究的数据库

2002年这三个合并为Uniprot,

  • UniProt三个层次数据库:

    • UniParc:收录所有UniProt数据库子库中的蛋白质序列,量大,粗糙。
    • UniRef:归纳UniProt几个主要数据库并将重复序列去除后的数据库。
    • UniProtKB:有详细注释并与其他数据库有链接的数据库,分为
  • swiss-port是经过检查的,TrEMBL是没经过检查的,计算机生成的

  • 我们搜索"human dutpase"查看相关蛋白质序列信息

  1. 序列号
  2. 有这个标志的,就是swiss-port中的,也就是经过实验检查的
  3. 序列名 可以发现是来自哪个物种的
  4. 蛋白质名字
  5. 对应基因名
  6. 物种
  7. 长度
  • 点击一条进去查看

annotation score 就是注释打分,表示注释是否全面

  • 具体注释

    • Function:蛋白质功能相关信息 描述、催化反应方程式、辅助因子、代谢途径

    • Names&Taxonomy:蛋白质名字,所属物种的分类学信息等基本信息

      • 包括全称、别名等等 所属物种 分类谱系
    • Subcell location(重要)

      • 成熟的蛋白质必须在特定的细胞位置才可以发挥其生物学功能。蛋白质在细胞内不同组分的定位,即为蛋白质的亚细胞定位

      • 目前研究亚细胞定位的数据基本都来源于swissprot数据库

      • 在上一节我们知道but基因有两种剪切方式,其中一种会保留前端的一种信号肽,会将蛋白质定位于线粒体,而没有的会留在细胞核。跟这里的注释是一样的

    • 所以这个蛋白质有两个异构体

  • Pathology & Biotech: 提供蛋白质突变或缺失导致的族病及表型信息。

    • 比如99位的丝氨酸会突变成丙氨酸,导致磷酸化的缺失,具体参考来源文献
  • PTM/ Processing:

    • 提供蛋白质翻译后修饰 (Post-translationalmodification, PTM) 或翻译后加工的相关信息
    • 比如信号肽到了指定位点后会被剪切掉
    • 有些氨基酸位点上会发生甲基化 乙酰化 磷酸化的翻译后修饰
  • Eexpression:

    • 提供了基因在mRNA水平上的表达信息,或者在细胞中蛋白质水平上的表达信息,或者在不同器官组织中的表达信息。
  • Interaction:

    • 提供了蛋白质之间相互作用的信息
    • 直接两两作用的蛋白质链接
    • 蛋白质网络数据库中涉及的记录链接
  • Structure:提供蛋白质二级结构和三级结构信息注:只有那些通过实验方法测定三级结构并且已提交到蛋白质结构数据库PDB的蛋白质才有结构注释。

    • 一条蛋白质对应多个结构
  • Family & Domains:

    • 提供蛋白质家族及结构域信息。
    • 与系统发生数据库和结构域数据库链接
  • Sequence:

    • 提供蛋白质氨基酸序列信息。多个isoform(异构体)会显示多条序列。
  • Publications:列出了有关这个蛋白质已发表的所有文献信息


保存下载

可以保存成纯文本格式的file,其中每行开头的字母表示这一行记录什么内容

参考如下表

2 一级蛋白质结构数据库 PDB

  • 蛋白质的结构可分为四级:
    • 一级结构 Primary structure
      • 氨基酸序列
    • 二级结构 Secondaty structure
      • 周期性的结构构象,Q螺旋,阝折叠等
    • 三级结构 Tertiary structure
      • 整条多肽链的三维空间结构,3D结构
    • 四级结构 Quaternary structure
      • 几个蛋白质分子(亚基)形成的复合
        体,如四聚体

我们前面讲过苏教授发表的关于dUTPase晶体结构的文章,我们在PDB数据库中就查找该文章所发现的蛋白质晶体结构

搜索"Su X D dUTPase"

打开“3H6X”这个

  • PDB

    • 蛋白质结构数据库

    • 同一个蛋白质可能有多个不同结构,可能是不同的作者提交的,也有可能是不同形态

      • 每个结构对应的PDB ID是唯一的,而不是蛋白质对应的PDB ID是唯一的。就如同上面这个“3H6X”一样
    • 真正的结构存储在pdb纯文本文件中,需要download

      • 打开后第一部分是基本信息描述

      • HEADER:分子类别,日期,PDBID
      • COMPND:对各个分子的描述
      • KEYWDS:系列关键词, 可用于数据库搜索
      • SOURCE:结构中包括的每一个分子的实验来源(生物学/化学
      • EXPDTA:测定结构所用的实验方法:
        • 绝大多数:X-RAY DIEERACTION X-射线衍射
      • REVDAT:历史上曾经对该数据库记录进行过的修改
      • JRNL:发表这个结构的文献
      • REMARK:无法归入以上内容的注释
      • 一级结构信息部分
      • 一级结构
        • DBREF:一级结构信息:该蛋白质在蛋白质序列数据库UniProt中的检索号等信息
        • SEQRES:氨基酸序列
        • MODRES:对标准残基上的修饰
          • 比如这些位置上的蛋氨酸被硒代蛋氨酸给取代
      • 非标准残基部分
      • 二级结构部分
        • 哪里是螺旋、哪里是折变
      • 比如106号氨基酸上的C和107号上的氨基酸上的N形成肽键,键长1.32
      • 除了肽键,还有氢键、二硫键等等
    • 3D坐标部分,每个原子的一些信息,蛋白上的每一个氨基酸上的每一个原子都能找到自己的位置,也就是因为这个,可以实现3d蛋白质结构的建模

  • 3D结构直观呈现:

    • 很多软件,如JMOL,会根据原子坐标、大小,以及原子间距离画上化学键
    • 安装java

PDB在线的查看只能看,没有分析功能,具体会在第六章介绍

3 二级蛋白质数据库

蛋白质一般是由一个或多个功能区城组成,这些功能区域通常称作结构域(domain)。在不同的蛋白质中结构域以不同的组合出现,形成了蛋白质的多样性。识别出蛋白质中的结构域对于了解蛋白质的功能有重要意义

  • 比如人体内有很多toll样受体蛋白,但是他们都分为三个结构域,如上图

    • 胞外域识别入侵的东西,跨膜区穿模,胞内域行使一些胞内信号传导
  • 最右边这个图可以看到,有一个免疫蛋白MYD88存在于细胞内,虽然功能与Toll样受体不同,但是有一个与Toll样受体胞内域相同的结构域,可以结合激活下游的一些信号传导

  • 所以如果我们能够探明一个未知功能的蛋白质上有哪些已知的结构域,那就大致可以推测出它的功能了

3.1 Pfam

在Pfam平台(现已停用)查找该蛋白相关结构域

TIR就是胞内域,可以点开查看其具体注释

  • 有一些平台,可以输入蛋白质序列,然后检测出其上有已知的结构域
    • 可以获得结构域的功能注释和功能信息

3.2 Cath

结构分类是针对结构域进行的,而不是整个蛋白质 ,所以CATH中一个蛋白质可能对应多个分类

  • 蛋白质结构分类数据库
    • CATH分类对象是PDB中存储的已经测定结构的结构域名(domain)
  • 分类代码

目前CATH已经为15万个蛋白质的50多万个结构域进行了分类,可以归类进5481多个蛋白质超家族中(2024.3.16)

  • 聚类
    • 所有拥有2.70.40.10.10.1.1.2.1结构域的蛋白质序列,进行聚类

3.3 SCOP2

4层分类

专用数据库

1 KEGG

KEGG:生物总的代谢通路图,百科全书

1.1 三羧酸循环

点击pathway-metabolism(global)-metabolic pathways

  • 节点:代表特定的生化分子,如酶、代谢物或中间体。节点通常会被标注为特定的化合物(如“Fumarate”),或者以数字代码表示特定的酶,如“1.1.1.37”代表某个特定的酶的EC编号(酶的编码系统)。
  • 线:代表生化反应,显示了分子如何转化为另一种分子,或者如何通过酶的作用被修改。通常,线的方向表示反应的方向。

  • 进一步详细查看三羧酸循环的具体路径

  • 具体点开一个酶,展示了一个pathway条目,可以发现KO体系,提供酶在代谢网络中的上下文,包括它所参与的所有生化通路

  • 酶学分类:提供对该酶更具体的生化特征的深入信息,包括它催化的特定反应以及在这些反应中使用的底物和产物。

1.2 Toll样受体(Toll-like receptors, TLR)

点击pathway之后,选择“5 Organismal Systems”,选择“5.1”里的“Toll-like receptor signaling pathway”

人类的Toll样受体信号通路的简化示意图,用于展示我们的免疫系统如何通过Toll样受体(TLRs)识别病原体。

  1. TLRs:不同的TLRs(例如TLR1, TLR4, TLR5)识别病原体的特定成分。
  2. 信号传递:当TLRs识别到病原体后,它们激活信号传递分子,如MyD88,开始一系列的反应。
  3. 激活核因子:信号传递激活了如NF-κB这样的转录因子。
  4. 产生细胞因子:激活的转录因子调控炎症反应相关的基因,引导细胞因子(如TNF-α, IL-1β, IFN-α/β)的产生。
  5. 产生效应:细胞因子促进炎症反应,吸引免疫细胞到感染部位,并激活抗病毒防御机制。

  • 随便点开一个toll样受体,比如TLR4,可以看到它的详细信息

可以提供很多信息,比如这里提供了药物靶点,就是针对这个TLR4设计的药

2 OMIM

搜索阿尔兹海默症AD,找到了相关的基因

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/488033.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯练习07小兔子爬楼梯

小兔子爬楼梯 介绍 小兔子想去月球上旅行,假设小兔子拥有一个阶梯子,当你爬完层就可以到达月球,小兔子每次可以跳1或者2个台阶,小兔子有多少种跳法可以到达月球呢? 给定n是一个正整数,代表梯子的阶数&…

数据可视化基础与应用-04-seaborn库从入门到精通03

总结 本系列是数据可视化基础与应用的第04篇seaborn,是seaborn从入门到精通系列第3篇。本系列的目的是可以完整的完成seaborn从入门到精通。主要介绍基于seaborn实现数据可视化。 参考 参考:数据可视化-seaborn seaborn从入门到精通03-绘图功能实现01-关系绘图 …

在ubuntu22.04系统上用pycharm编写第一个ros2程序

1.打开终端(快捷键altctrlt),创建工作空间,工作空间就是文件夹 2.创建一个功能包 打开pycharm的终端(altf12) 3.创建节点文件 在village_li文件夹右键新建li4.py 4.在li4.py编写代码 5.在setup.py里面添加…

http模块 获取http请求报文中的路径 与 查询字符串

虽然request.url已包含属性和查询字符串,但使用不便,若只需其中一个不好提取,于是用到了如下路径和字符串的单独查询方法: 一、获取路径 例如:我在启动谷歌端口时输入http://127.0.0.1:9000 后接了 "/search?k…

一文解释python中的实例方法,类方法和静态方法作用和区别是啥?该如何使用

我们都知道 ,python类中有三种常见的方法 ,分别是实例方法 ,类方法和静态方法 。那么这几个方法到底有什么作用 ? 它们之间有什么区别 ?该如何使用 ? 带着这些问题 ,下面我们就来了解下这三种方…

基于FPGA实现的自适应三速以太网

一、三速以太网 千兆以太网PHY芯片是适配百兆和十兆的&#xff0c;十兆就不管了&#xff0c;我们的设计只适应千兆和百兆。 根据上图&#xff0c;我们是可以获取当前主机网口的速率信息的。 always(posedge w_rxc_bufr) beginif(w_rec_valid d0) beginro_speed < w_rec_…

Ubuntu系统部署Inis博客结合内网穿透实现公网访问本地站点

文章目录 前言1. Inis博客网站搭建1.1. Inis博客网站下载和安装1.2 Inis博客网站测试1.3 cpolar的安装和注册 2. 本地网页发布2.1 Cpolar临时数据隧道2.2 Cpolar稳定隧道&#xff08;云端设置&#xff09;2.3.Cpolar稳定隧道&#xff08;本地设置&#xff09; 3. 公网访问测试总…

java一和零(力扣Leetcode474)

一和零 力扣原题 给定一个二进制字符串数组 strs 和两个整数 m 和 n&#xff0c;请你找出并返回 strs 的最大子集的长度&#xff0c;该子集中最多有 m 个 0 和 n 个 1。 示例 1&#xff1a; 输入&#xff1a;strs [“10”, “0001”, “111001”, “1”, “0”], m 5, n …

RabbitMQ3.x之二_RabbitMQ所有端口说明及开启后台管理功能

RabbitMQ3.x之二_RabbitMQ所有端口说明及开启后台管理功能 文章目录 RabbitMQ3.x之二_RabbitMQ所有端口说明及开启后台管理功能1. RabbitMQ端口说明2. 开启Rabbitmq后台管理功能1. 查看rabbitmq已安装的插件2. 开启rabbitmq后台管理平台插件3. 开启插件后&#xff0c;再次查看插…

itextPdf生成pdf简单示例

文章环境 jdk1.8&#xff0c;springboot2.6.13 POM依赖 <dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>5.5.13</version></dependency><dependency><groupId>com.ite…

Ruoyi若依框架下载流程详细解读(SpringBoot-Vue)

图解&#xff1a; 前端设计&#xff1a; 前端设计一个link文字连接或者按钮&#xff08;ElementUI&#xff09;Element - The worlds most popular Vue UI framework 前端请求设计&#xff1a; import request from /utils/request //下载示例模型定义语言的JSON export const…

pe启动盘破解windows密码wins电脑登录密码修改重置

目录 1.进入电脑BIOS&#xff0c;设置电脑第一启动项为U盘启动2.进入微pe系统3.然后点击界面最左下方的Windows图标4.点击windows密码选择对应用户名称修改&#xff1b; 1.进入电脑BIOS&#xff0c;设置电脑第一启动项为U盘启动 把u盘插到要清除密码的电脑&#xff0c;然后开机…

基于nodejs+vue基于hive旅游数据的分析与应用python-flask-django-php

系统阐述的是使用基于hive旅游数据的分析与应用系统&#xff0c;对于nodejs结构、MySql进行了较为深入的学习与应用。主要针对系统的设计&#xff0c;描述&#xff0c;实现和分析与测试方面来表明开发的过程。开发中使用了express框架和MySql数据库技术搭建系统的整体架构。利用…

原生 HTML/CSS/JS 实现右键菜单和二级菜单

文章来源&#xff1a;www.huhailong.vip 站点 文章源地址&#xff1a;https://www.huhailong.vip/article/1764653112011841538 Demo效果演示地址 先看效果图 {{{width“auto” height“auto”}}} 需要注意的就是边界检测处理&#xff0c;到极端点击底部和右侧时如果不做处理会…

ffmpeg拉流并解码

流程 注意事项 版本不同导致的api差异资源安全释放

【多模态融合】SuperFusion 激光雷达与相机多层次融合 远距离高清地图预测 ICRA 2024

前言 本文介绍激光雷达与相机进行多层次融合&#xff0c;包括数据级融合、特征级融合和BEV级融合。 融合后的BEV特征可以支持不同的任务头&#xff0c;包括语义分割、实例编码和方向预测&#xff0c;最后进行后处理生成高清地图预测&#xff0c;它是来自ICRA 2024的。 会讲解…

2002-2023年各地级市环境规制强度数据(环保词频统计)

2002-2023年各地级市环境规制强度数据&#xff08;环保词频统计&#xff09; 1、时间&#xff1a;2002-2023年 2、来源&#xff1a;政府工作报告 3、指标&#xff1a; 行政区划代码、年份、城市、所属省份、文本总长度、仅中英文-文本总长度、文本总词频-全模式、文本总词频…

四创科技解决方案

联合解决方案 推进智慧水利建设是推动新阶段水利高质量发展的六条实施路径之一,四创科技按照“需求牵引、应用至上、数字赋能、提升能代化能力”要求,以数字化、网络化、智能化为主线,以数字化场景、智慧化模拟、精准化决策为路径&#xff0c;以构建数字李生流域为核心,全面推进…

使用ChatGPT的场景之gpt写研究报告,如何ChatGPT写研究报告

推荐写研究报告使用智能站&#xff1a; dayfire.cn/ 1. 确定研究主题 明确主题&#xff1a;在开始之前&#xff0c;你需要有一个清晰的研究主题。这将帮助AI更好地理解你的需求…

关于 Flutter 项目中已为整个 APP 配置了主题颜色但是在 AppBar 等某些组件中主题颜色不生效的问题

这里需要先说明的&#xff0c;从 Flutter 2.5 开始&#xff0c;Flutter 团队开始慢慢移除ThemeData 中 primaryColor 属性对所有组件的影响&#xff0c;取而代之的是基于 ColorScheme 的 Color。因此&#xff0c;在 Flutter 2.5 之后为整个 APP 配置主题颜色&#xff0c;我们需…