文章系列2:Unraveling the functional dark matter through global metagenomics

这篇文章发布于2023年10月nature。通讯作者是来自于 DOE Joint Genome Institute, Lawrence Berkeley National Laboratory, Berkeley, CA, USA.

背景介绍&目标

作者首先背景介绍了两种主流宏基因组分析方法,包括reads-based reference mapping(eg. MG-RAST)和assembled-based de novo(Integrated Microbial Genomes & Microbiomes (IMG/M) and MGnify)两种.

又提到目前无论哪种方法下游分析中对基因组的功能注释都依赖于现有的库,这种分析方法会去除掉一些未知的基因。所以一个全面的基因组比对以解释未知功能的分析是非常需要的。那这个未知功能作者援引为functional dark matters。

原文:‘

Same major limitation with respect to gene functional annotation, which relies on predicting function by homology searching against reference protein databases, such as COG, Pfam and KEGG Orthology. As a result, any genes predicted in assembled metagenomic data that do not map to reference protein families are typically ignored and dropped from subsequent comparative analysis.

To estimate the breadth of unexplored functional diversity, referred to as the functional dark matter an all-versus-all metagenomic comparison is required.’

这些reference database都是做功能注释非常常用的库。

  • COG-Database: The Clusters of Orthologous Genes (COGs) database

  • Pfam: a complete and accurate classification of protein families and domains.

  • KEGG Orthology: molecular functions represented in terms of functional orthologs.

为了揭示这个位置的dark matters(功能),总结来说这篇文章主要做了以下工作

  • They present a scalable computational approach 他们提出了一种可扩展的计算方法,用于识别和表征宏基因组中发现的功能性暗物质。

  • They identified the novel protein space (after removing all reference matched genes) and clustered them into families首先,在删除与超过 100,000 个参考基因组或 Pfam 的 IMG 数据库匹配的所有基因后,我们确定了 IMG/M 的 26,931 个宏基因组数据集中存在的新蛋白质空间。接下来,我们将剩余的序列聚集到蛋白质家族中。

  • They explored their taxonomic and biome distributions 他们探索了这些未知cluster的分类学和生物群落分布

  • They predicted their three-dimensional (3D) structures他们预测了它们的三维结构

数据来源和数据处理Data source and preprocess of the data

Environmental dataset 来源于:数据来源:来自IMG/M平台托管的所有公共参考基因组和组装的宏基因组和元转录组的所有蛋白质序列(超过35个氨基酸残基)

这个来自于supplementary的图片说明整个流程更加的清晰。可以看到首先去除一些低复杂度的序列,拿到>35bp的序列,作者用hmm比对pfam数据库去除map上的hits,后面又使用LAST比对工具再次过滤reference genomes。最后仅仅得到最初序列的14%,即1,171,974,849序列,这些序列被称为novel protein sequences。

tips:

文章中去除低复杂度序列应该是处于低复杂度区域通常包含一些高度重复的序列,这些重复序列可能对分析和解释基因组和转录组数据造成干扰,因此去除它们有助于减少噪音和提高数据的可信度。

文章中提到提取reference genomes方法:

Reference Genomes: In total, we extracted all protein sequences from 89,412 bacterial, 9,202 viral, 3,073 archaeal and 804 eukaryal genomes, resulting in a final dataset of 94,672,003 sequences. The reference genomes included in this study consisted solely of isolate genomes, not MAGs or single-amplified genomes.

那么接下来拿到这些novel protein sequences 之后作者又用LAST对蛋白质序列之间做相似性比较(an all-versus-all similarity matrix was built for each of the two gene catalogues by calculating all significant pairwise sequence similarities.),生成一个相似性矩阵,然后根据相似性矩阵用HipMCL进行聚类得到最后的蛋白质clusters。作者同样对reference genomes也进行了类似的操作,以便后续比较。整个过程结合图1a和supp figure更加清楚

原文细节描述(具体node和edges数目)如下

We next clustered the 1.1 billion ED proteins using a graph-based approach. For comparative purposes, we followed the same approach for the 94 million proteins from reference genomes. 
First, an all-versus-all similarity matrix was built for each of the two gene catalogues (that is, proteins from reference genomes and those from the ED) by calculating all significant pairwise sequence similarities.
The all-versus-all pairwise alignments were calculated using LAST (70% sequence identity, 80% alignment coverage). The reference genome graph consisted of 71,312,220 nodes (proteins) and 5,313,956,680 edges (pairwise similarities). The graph for the ED proteins consisted of 570,198,677 nodes and 5,196,499,560 edges.
 

下面作者进一步移走了一些只有少数蛋白序列的cluster以及和pfam有weak hits的cluster,只留下包含有至少100个memeber的cluster,我认为这部是为了保证这个novel。这个部分就是novel protein families,也就是全文通篇在提的NMPFs(novel metagenome protein families)

结果1: ED has more clusters than reference genomes

文章这里的图是说明与reference genome的cluster相比,NMPFs包含的蛋白序列更加的多,不仅仅是有3个members的cluster多,从3-100都多。

  • In total, we identified 106,198 families with at least 100 members that will be referred to as novel metagenome protein families (NMPFs) (Table 1 (right column)). 

  • For comparison, we identified 92,909 protein clusters in the corresponding set of protein clusters with at least 100 members from reference genomes.

  • We observed an increase in the ED protein clusters by greater than 14-fold for clusters with at least 3 members, greater than 3-fold for clusters with at least 25 members, around a 2-fold increase for clusters with at least 50 and 75 members as well as an increase for clusters with at least 100 members.

下面作者又做了一个稀释曲线,可以发现ED组相比较reference genomes的斜率更大,说明随着sample数目的增加,还可能有更多的cluster被发现。这进一步说明这些unknown protein sequence是未知的,非常值得探索的,是比reference genomes更多未知的更丰富的功能序列。

结果2:biome distribution(未完待续。会明天补全。)

reference 

Unraveling the functional dark matter through global metagenomics | Nature

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/174648.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

8.Gin 自定义控制器

8.Gin 自定义控制器 前言 在上一篇路由文件抽离的过程中,我们发现接口的业务逻辑还写在路由配置中,如下: 1696385129126 但是如果业务逻辑比较多,如果写在路由之中,肯定不合适。 我们可以将业务逻辑抽离,单…

python实战—核心基础4(超市购物小票随机抽奖程序) lv1

目录 一、核心代码解释 二、代码 三、运行截图 一、核心代码解释 1、random() 函数 描述 random() 方法返回随机生成的一个实数,它在[0,1)范围内。 语法 以下是 random() 方法的语法: import randomrandom.random() 注意:random()是不能直接访问…

【高性能计算】CUDA,OpenCL,FPGA 加速,MPI

OpenCL OpenCL(Open Computing Language)是一种跨平台的GPU加速技术,由Khronos Group开发。OpenCL允许开发人员在不同的硬件平台上编写并行计算应用程序。 OpenCL使用C语言的子集来编写应用程序,并提供了一组API,可以…

Keil MDK 安装

0 Preface/Foreword 1 下载和安装 官网:Keil Embedded Development Tools for Arm, Cortex-M, Cortex-R4, 8051, C166, and 251 processor families. Keil MDK 下载链接:Keil MDK 1.1 下载 根据需求下载对应的Keil MDK edition。 不同的editions包括 …

TensorFlow实战教程(一)-TensorFlow环境部署

从本篇文章开始,作者正式开始研究Python深度学习、神经网络及人工智能相关知识。第一篇文章主要讲解神经网络基础概念,同时讲解TensorFlow2.0的安装过程及基础用法,主要结合作者之前的博客和"莫烦大神"的视频介绍,后面随着深入会讲解具体的项目及应用。基础性文章…

Python的安装及其python程序生成exe可执行程序

Python是一种高级编程语言,由Guido van Rossum在1989年12月首次发布。它具有简单易学、易读、易写的语法和强大的动态类型和垃圾回收机制。Python解释器是自由且开放源代码的软件,可以在各种操作系统(如Linux、Windows、macOS等)上…

基于Bagging集成学习方法的情绪分类预测模型研究(文末送书)

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

机器学习笔记 - 创建CNN + RNN + CTC损失的模型来识别图像中的文本

我们将创建一个具有CTC损失的卷积循环神经网络来实现我们的OCR识别模型。 一、数据集 我们将使用 Visual Geometry Group 提供的数据。 Visual Geometry Group - University of OxfordComputer Vision group from the University of Oxfordhttps://www.robots.ox.ac.uk/~vgg/d…

chromium114添加新的语言国际化支持

一、需求说明 需要chromium114支持新语言体系,例如藏语,蒙古语,苗语等 二、操作步骤 1. build/config/locales.gni修改 在all_chrome_locales变量中添加新的语种标识,如下图。 2. 添加编译文件,告诉浏览器在编译时需要加载和输出那些文件 尝试编译出现错误一提示。需要…

Linux socket编程(5):三次握手和四次挥手分析和SIGPIPE信号的处理

在我之前写的Wireshark抓包:理解TCP三次握手和四次挥手过程中,通过抓包分析了TCP传输的三次握手和四次挥手的过程。在这一节中,将分析在Linux中的三次握手和四次挥手的状态和过程,另外还有一个在我们编程过程中值得注意的SIGPIPE信…

《微信小程序开发从入门到实战》学习二十四

3.3.12开发创建投票多选投票页面 创建投票多选投票页面和创建单选投票页面没有区别,唯一区别仅在于向服务端发送数据时,告诉服务器这个投票是什么类型的投票。这个类型用三种数据类型表示都可以,分别如下所示: multiple:true/fa…

【计算机网络笔记】路由算法之距离向量路由算法

系列文章目录 什么是计算机网络? 什么是网络协议? 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能(1)——速率、带宽、延迟 计算机网络性能(2)…

软件设计中如何画各类图之一实体关系图(ER图):数据库设计与分析的核心工具

目录 1 前言2 符号及作用:3 绘制清晰的ER图步骤4 实体关系图的用途5 使用场景6 实际应用场景举例7 结语 1 前言 当谈到数据库设计与分析的核心工具时,实体关系图(ER图)无疑是其中最重要的一环。在软件开发、信息管理以及数据库设…

从大模型到内容生成,初窥门径的AI新次元

视频云AI进化新纪元。 最近Gartner发布2024年十大战略技术趋势,AI显然成为其背后共同的主题。全民化的生成式人工智能、AI增强开发、智能应用......我们正在进入一个AI新纪元。 从ChatGPT的横空出世,到开发者大会的惊艳亮相,OpenAI以一己之力…

909-2015-T1

文章目录 1.原题2.算法思想3.关键代码4.完整代码5.运行结果 1.原题 线性表使用公式化描述方式存储。编写一个函数&#xff0c;从一给定的线性表A中删除值在x ~ y&#xff08;x到y&#xff0c;x<y&#xff09;之间的所有元素&#xff0c;要求以较高的效率来实现。提示&#…

Redis(事务和持久化)(很重要!)

事务的定义&#xff1a; Redis中的事务是指一组命令的集合&#xff0c;这些命令可以在一个原子操作中执行。在Redis中&#xff0c;可以使用MULTI命令开始一个事务&#xff0c;然后使用EXEC命令来执行事务中的所有命令&#xff0c;或者使用DISCARD命令来取消事务。事务可以确保…

Python+Qt虹膜检测识别

程序示例精选 PythonQt虹膜检测识别 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对《PythonQt虹膜检测识别》编写代码&#xff0c;代码整洁&#xff0c;规则&#xff0c;易读。 学习与应用推…

从0开始学习JavaScript--JavaScript类型化数组进阶

前面的文章&#xff0c;已经介绍了JavaScript类型化数组的基本概念、常见类型和基本操作。在本文中&#xff0c;我们将深入探讨类型化数组的一些进阶特性&#xff0c;包括共享内存、大端小端字节序、以及类型化数组与普通数组之间的转换&#xff0c;通过更丰富的示例代码&#…

读像火箭科学家一样思考笔记05_思想实验

1. 思想实验室 1.1. 思想实验至少可以追溯到古希腊时期 1.1.1. 从那时起&#xff0c;它们就跨越各个学科&#xff0c;在哲学、物理学、生物学、经济学等领域取得重大突破 1.1.2. 它们为火箭提供动力&#xff0c;推翻政府&#xff0c;发展进化生物学&#xff0c;解开宇宙的奥…

算法的奥秘:常见的六种算法(算法导论笔记2)

算法的奥秘&#xff1a;种类、特性及应用详解&#xff08;算法导论笔记1&#xff09; 上期总结算法的种类和大致介绍&#xff0c;这一期主要讲常见的六种算法详解以及演示。 排序算法&#xff1a; 排序算法是一类用于对一组数据元素进行排序的算法。根据不同的排序方式和时间复…