Nature Protocols:整合多组学并进行因果推理的系统框架

转载自:MetaAI

在生物学研究中,随着实验和计算技术的进步,生物系统研究产生了大量高通量数据。技术努力主要集中在提高吞吐量、降低成本和提升实验与计算效率。因此,整合不同类型组学数据,并通过关联分析识别关键因素和机制的计算方法变得尤为重要。

发表在《Nature Protocols》中的这篇文章,提出了一个可以从多组学中推断因果关系的系统框架 - Transkingdom Network Analysis (TkNA),并详细介绍了该框架的使用流程。TkNA是一种独特的因果推理分析框架,能够整合多个数据集和不同类型的组学数据,执行荟萃分析并识别关键的调控关系。它之前被用于研究抗生素耐药微生物、2型糖尿病和免疫缺陷相关肠病,以及宫颈癌、淋巴瘤和黑色素瘤中微生物组的作用。TkNA可以识别微生物和微生物基因、宿主途径、宿主基因以及控制宿主-微生物群相互作用的主要调节因素。

图1. TkNA流程图

TkNA流程包括3个主要部分,5个阶段,并在这些之前有两个预处理步骤(图1)。TkNA可以用于分析实验验证后的结果,构成一个循环的分析框架(图2)。

图2. TkNA管道以循环方式进行

a、进行实验并获得样品。b,在开始TkNA之前对样品进行测序和标准化。c、对每种数据类型进行比较。bar图分别代表测量的基因表达水平、微生物丰度和表型。星号代表治疗组之间的显着差异,因为仅保留显着变化的特征下游分析。d、在每种数据类型之间和内部执行相关性。e,删除意外的相关性。f、重建网络。g,询问网络以寻找调控节点。h,确定从网络中找到前部节点的概率,然后进行后续验证研究并重复该循环。

TkNA不仅可以识别关键调节节点,还能计算网络的拓扑属性,并通过如Cytoscape这样的外部程序可视化网络。TkNA的方法已经用于验证多项研究中的推论。它提供了一种分析不同组学数据之间交互作用的方法,可以用于分析遗传和转录数据、代谢物、蛋白质和表型之间的相互作用。与其他方法相比,TkNA侧重于通过荟萃分析识别跨多个队列的稳健模式,并且专注于建立因果关系而非仅仅发现关联。尽管TkNA提供了强大的工具,但用户仍需要具备一定的统计知识来理解软件的适用性和局限性。

TkNA的目标用户是宿主和/或微生物组领域的研究人员,这些人员可能缺乏计算和统计专业知识。该方法适用于生物和生物医学研究的多个学科,从建立新的细胞和分子治疗靶点到研究基础生物学问题。用户无需编程专业知识,但需要熟悉Unix环境中的命令行操作,以及能够理解JSON文件格式以自定义和修改程序选项。

该手册详细描述了一个复杂的分析流程和具体步骤,并给出了相应的命令行,这个流程分为3个主要部分,涵盖了5个阶段,以及在这些阶段之前的两个预处理步骤(图1)。下面只做简单描述,具体详细步骤见原文:

第一部分:重建网络

这部分涉及数据的标准化、文件格式化以及设定统计阈值(预处理步骤)。

阶段1:数据导入、计算/荟萃分析和按用户指定的条件过滤数据。这一步骤首先找出基于用户定义的统计标准的不同类别样本(如病态与健康对照组)间表达/丰富的变量(基因、微生物、代谢物等)。然后,进行每组内和组间的相关性分析。

阶段2:基于网络的拓扑特性,用户决定是否进入下一个分析阶段。这些特性包括网络密度、观察到的正/负相关偏差及意外相关比例等。

第二部分:询问/分析重建的网络

阶段3:分析重建的网络以找出在调查的生物过程中因果作用的节点或节点组。用户可以使用TkNA识别网络中的节点集群,并通过外部推荐软件进行富集分析,以识别集群中的节点所贡献的生物途径或功能。

第三部分:从用户重建的网络分析中创建发布就绪的图表

阶段4:评估特定节点显示非随机值的概率。在这里,TkNA重建了许多随机网络,与重建网络进行比较。

阶段5:创建多种高质量的图表,包括度分布的点图、节点及其计算属性的点图,以及前调节节点的丰富度或表达水平。

图3展示了TkNA的一些输出结果。

图3. TkNA生成的示例图

a,网络属性度(degree)分布图。b,左:节点属性可视化示例,其中每个点代表重建网络中的一个节点。右图:同一张图,放大了前10个微生物BiBC节点。c,b中前部BiBC节点的丰度/表达图示例。图例显示了数据集中的两个类。在本例中,将名为“高”的样本类别与名为“低”的样本类别进行比较。盒子显示每次实验每组的四分位数;须线包括除边远点之外的其余分布。d,10,000个随机网络的二维密度图。

TkNA方法依赖于在多个实验中进行荟萃分析,以识别多个队列中倍数变化(fold change)和相关性的稳健模式。默认情况下,它使用Fisher方法来组合来自多个独立测试的P值。其他通用R包(例如,meta、netmeta和mixmeta)提供了多种元分析方法,但这些方法并未考虑因果关系原理,例如相关不等式。其他R软件包(例如MixOmics、MOFA+和iClusterPlus)也使用复杂的统计方法来组合从同一患者测量的多个组学数据。然而,它们同时应用于多个队列或独特的组学数据(其中数据组成或不满足分布假设)可能具有挑战性。TkNA提供了一个框架来实现多种组学类型和群组的同时整合。请注意,“整合”一词指的是两种截然不同的分析。具体来说,在整篇文章中以以下方式使用它:荟萃分析是来自多个独立数据集的数据的集成,而网络重建涉及在多种类型的组学数据之间建立统计依赖关系的集成。

参考文献:

Newman, N.K., Macovsky, M.S., Rodrigues, R.R. et al. Transkingdom Network Analysis (TkNA): a systems framework for inferring causal factors underlying host–microbiota and other multi-omic interactions. Nat Protoc (2024). https://doi.org/10.1038/s41596-024-00960-w

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/790434.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[机器学习]-人工智能对程序员的深远影响——案例分析

机器学习和人工智能对未来程序员的深远影响 目录 机器学习和人工智能对未来程序员的深远影响1. **自动化编码任务**1.1 代码生成1.2 自动调试1.3 测试自动化 2. **提升开发效率**2.1 智能建议2.2 项目管理 3. **改变编程范式**3.1 数据驱动开发 4. **职业发展的新机遇**4.1 AI工…

大数据开发者:如何快速熟悉新公司的技术环境

目录 1. 了解系统架构实践建议:示例对话: 2. 了解领域模型实践建议:示例: 3. 了解代码结构实践建议:示例: 结语 作为一名大数据开发者,加入新公司后快速熟悉技术环境是一项重要而又具有挑战性的…

bev 之 fastBEV

前面我们提到bev 之 LSS, 知道视觉的BEV方案的主要痛点在于: 1、depth 的预测 2、图像特征到BEV特征之间的视图变换消耗大量计算 LSS 为什么需要D维深度 占据大量消耗的原因是LSS 对每个图像特征点引入深度D,即假设每个像素上存在可能的D维深度。也就是假设不同像…

C++ 栈-队列-优先级队列

目录 1 栈 2 队列 3 deque 介绍 4 优先级队列 5 反向迭代器 栈也是我们在C语言就模拟实现过的一种数据结构,在C中,栈其实和我们前面模拟实现过的string、vector等容器有一点区别,站起是不是容器,而是一种容器适配器,我…

Floyd判圈算法——寻找重复数(C++)

287. 寻找重复数 - 力扣(LeetCode) 题目描述 给定一个包含 n 1 个整数的数组 nums ,其数字都在 [1, n] 范围内(包括 1 和 n),可知至少存在一个重复的整数。假设 nums 只有 一个重复的整数 ,返…

python基础语法笔记(有C语言基础之后)

input()用于输入,其有返回值(即用户输入的值),默认返回字符串。括号里可放提示语句 一行代码若想分为多行来写,需要在每一行的末尾加上“\” 单个“/”表示数学中的除法,不会取整。“//”才会向下取整。 …

无人机之飞行规划与管理篇

无人机飞行规划与管理是确保无人机安全、高效且符合法规的运行的关键步骤。这一过程包括了对飞行任务的详细安排、航线的设定以及风险的评估和管理。下面简述这一过程的主要环节: 一、飞行目的和任务确定 在规划之初,必须明确无人机的飞行目的&#xf…

HTTPS理解

一个完整的HTTP连接 TCP三次握手接受窗口发送数据关闭连接 接受窗口是用来做什么呢? 它根据自身网络情况设置不同大小的值用来控制对方发送速度,避免对方发送太快,导致网络拥塞。 为什么TCP握手要三次? 1)确认双方的…

单片机中有FLASH为啥还需要EEROM?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「单片机的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!! 一是EEPROM操作简单&…

JDK11中zgc垃圾回收器的探索

背景 垃圾回收器主要做的事情 自动跟踪和管理程序中创建的对象,确定哪些对象仍在使用,哪些对象已经不再使用。回收那些不再使用的对象所占用的内存空间,使得这部分内存可以被重新使用。 1.1 传统垃圾回收器 垃圾回收器简述优缺点应用场景…

typora 两边太宽,设置宽度

步骤: 查看目前使用主题类型 文件 —> 偏好设置 —> 外观 —> 打开主题文件夹 修改对应的主题:max-width

在Linux下使用Docker部署chirpstack

目录 一、前言 二、chirpstack 1、chirpstack是什么 2、chirpstack组件 3、为什么选择Docker部署 三、Linux下部署过程 四、web界面部署过程 一、前言 本篇文章我是在Linux下使用 Docker 进行部署chirpstack,chirpstack采用的是v4 版本,v4 版本 与…

实时数仓搭建

项目概述 本项目针对实时数仓中的dim层,使用flik获取维度数据以及维度表结构把处理过的数据和维度表同步到habse中,同步采用的是雪花模型,遵循三范式,对维度数据进行实时的增删改查。 对维度表进行动态拆分功能。 动态拆分功能…

centos安装数据库同步工具sqoop并导入数据,导出数据,添加定时任务

目录 1.安装jdk 1.1上传jdk安装包到/opt目录下并解压 1.2解压 1.3配置环境变量 2.安装hadoop 2.1.下载hadoop 2.2.解压hadoop 2.3配置环境变量 3.安装sqoop 3.1下载 3.2解压 3.3下载依赖包并复制到指定位置 3.3.1下载commons-lang-2.6-bin.tar.gz 3.3.2将mysql-c…

【postgresql初级使用】用户与角色的关系,搭建数据库安全体系中的分权管理

用户角色管理 ​专栏内容: postgresql使用入门基础手写数据库toadb并发编程 个人主页:我的主页 管理社区:开源数据库 座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物. 文章目录 用户角色管…

Nature Renderer 2022(植被渲染工具插件)

渲染大量详细的植被。 自然渲染器通过替换Unity的默认地形细节和树系统来提高植被渲染的质量。一切都适用于现有数据:使用相同的草地、植被和树木,并保留现有地形。我们只是升级您的渲染器。 Unity验证的解决方案 Nature Renderer受到25000多名开发人员的信任,是Unity验证的…

基于Make的c工程No compilation commands found报错

由于安装gcc时只安装了build-essential,没有将其添加到环境变量中,因此打开Make工程时,CLion会产生如下错误: 要解决这个问题,一个方法是将GCC添加到环境变量中,但是这个方法需要修改至少两个配置文件&…

请编写函数,删除字符串中指定位置下的字符,删除成功函数返回被删字符,否则返回空值

char arr_del(char* p, int pos) {if (pos> strlen(p) || pos<0){printf("这是一个无效下标\n");exit(1);}//到这里就是有效下标char ch p[pos];//把要删除的下标存储for (int i pos; p[i] ! \0; i){p[i] p[i 1];}return ch; } int main() {char arr[100];…

PFC电路中MOS管的选取3

MOS管的驱动波形 一个 MOS管在开通或者关断的时候&#xff0c;必定会经历一个线性区。这个线性区域在 Vgs波形上表现出一个平台&#xff0c;在这个平台的时候电流和电压的变化率是很大的&#xff0c;有很大的 dv/dt&#xff0c;di/dt &#xff0c;由于 di/dt变化非常大&#xf…

Transformer模型解析:走进自然语言处理的新时代

UPDATED&#xff1a;2023 年 1 月 27 日&#xff0c;本文登上 ATA 头条。&#xff08;注&#xff1a;ATA 全称 Alibaba Technology Associate&#xff0c;是阿里集团最大的技术社区&#xff09;UPDATED&#xff1a;2023 年 2 月 2 日&#xff0c;本文在 ATA 获得鲁肃点赞。&…