Mowgli用于配对多组学整合

对同一组细胞的多个分子层进行分析逐渐流行。越来越需要能够联合分析这些数据的多视图学习方法。Mowgli是一种支持配对多组学数据的整合方法。值得注意的是,Mowgli将非负矩阵分解和最优传输相结合,同时提高了非负矩阵分解的聚类性能和可解释性。作者将Mowgli应用于10X Multiome,CITE-seq和TEA-seq分析的多个配对单细胞多组学数据。深入的基准测试表明,Mowgli的性能在细胞聚类方面与最先进的技术相竞争,并且在考虑生物可解释性时优于最先进的技术。

来自:Paired single-cell multi-omics data integration with Mowgli,Nature communications,2023

目录

  • 背景概述
  • 方法概述
  • 可解释方法
  • 结果
    • Mowgli通过在TEA-seq中提供细胞类型特异性因子,提高了生物学可解释性
    • Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

背景概述

单细胞测序技术提供了细胞异质性的定量测量,正在彻底改变我们对免疫系统、发育和复杂疾病的理解。单细胞测序技术的一个新前沿是多组学单细胞测序,允许同时分析来自同一个细胞的多个分子reads(例如转录组、染色质可及性、表面蛋白)。这些前沿测序技术的例子是CITE-seq,利用寡核苷酸偶联抗体同时测量RNA和表面蛋白的丰度,以及10x Genomics Multiome平台,通过基于液滴的单核分离来测量RNA和染色质的可及性。

多组学单细胞测序平台为我们提供了细胞的互补分子读数,称为配对多组学数据。对这些数据的联合分析提供了一个令人兴奋的机会来了解细胞的不同分子方面是如何协同决定细胞的功能、形态和状态的。因此,最近开发了几种多视图学习方法,通过考虑其共享和互补信息来联合分析配对的多组学数据。这些方法不同于非配对整合方法,它们利用了细胞之间的已知对应关系。最先进的单细胞多组学整合的多视图学习方法是基于矩阵分解,k近邻或变分自编码器。整合矩阵分解(Integrative Matrix Factorization, integrated MF)和变分自编码器进行降维,通过利用公共的细胞/观测,将高维多组学细胞图谱联合嵌入到共享的低维空间。Integrative MF由于其线性性质,定义了一个具有自然生物学解释的潜在空间,但它过于简单,无法捕捉复杂的生物过程。另一方面,非线性方法,如变分自编码器,在聚类细胞中显示出巨大的潜力,但尽管最近在这一主题上有研究,但它们本质上缺乏生物可解释性。因此,改进Integrative MF方法对于在可解释性和性能之间取得平衡至关重要。

作者在此提出了Multi-Omics Wasserstein inteGrative anaLysIs (Mowgli),一种新的Integrative NMF(Non-negative MF)方法用于多组学整合。

一方面,Mowgli采用了iNMF,这种方法在计算生物学中很流行,因为它可以直观地用parts表示,增强了可解释性。另一方面,Mowgli通过利用OT(最有传输)增强了iNMF的聚类性能,之前已经证明OT可以更好地捕捉单细胞组学图谱之间的相似性。作者对Mowgli进行了广泛的基准测试,以整合使用CITE-seq、10X Genomics Multiome和TEA-seq平台分析的多个配对多组学数据。值得注意的是,虽然作者专注于整合当前可用的组学数据,但Mowgli可以处理具有任何类型和数量的组学的配对多组学数据集,而无需对数据进行任何统计假设。

深入比较表明,Mowgli的嵌入和聚类质量在真实多组学数据中优于最先进的技术,并且在更复杂的真实多组学数据中具有竞争力。值得注意的是,后者受到大多数真实数据集上缺乏绝对基础真值注释的影响。最后,通过对TEAseq数据进行深入的生物学分析,证明Mowgli在生物学可解释性方面提高了最新水平。

方法概述

Mowgli是基于集成矩阵分解(integrative Matrix Factorization, integrated MF)。开始于 d d d组学矩阵 A ( p ) ∈ R m p × n A^{(p)}\in\mathbb{R}^{m_{p}\times n} A(p)Rmp×n,其中 p ∈ [ 1 , . . . , d ] p\in[1,...,d] p[1,...,d],具有相同的列(细胞),不同的特征(genes,peaks),Mowgli将它们分解为组学特定的字典 H ( p ) ∈ R m p × k H^{(p)}\in\mathbb{R}^{m_{p}\times k} H(p)Rmp×k和共享的embedding W ∈ R k × n W\in\mathbb{R}^{k\times n} WRk×n k k k是latent空间的维数。

根据最先进的多组学整合MF方法,细胞嵌入 W W W可用于可视化和细胞聚类(图1B)。相反,字典 H ( p ) H^{(p)} H(p)通过基因集富集分析、基序富集分析或通过识别最高权重的marker来实现生物学解释(图1C)。

Mowgli的主要创新是将非负矩阵分解(integrative Non-Negative Matrix Factorization, iNMF)与最优运输(Optimal Transport, OT)相结合,从而解决了优化问题,OT可以优化NMF的重构损失。

Mowgli是Python开发的,支持Scanpy与Muon进行预处理和下游分析,此外,Mowgli提供了一个用户友好的top基因和富集基因集的可视化,从而有助于生物解释性。

作者将Mowgli与最先进的技术进行广泛的基准测试:Seurat v4, Cobolt, Multigrate和MOFA。虽然存在几种方法,但在这里重点介绍了配对数据集成的主要方法。此外,还考虑了综合NMF基线,以比较Mowgli与标准的NMF。
fig1

  • 图1:Mowgli概述。

关于因子
在非负矩阵分解(NMF)中,因子是指分解后的矩阵中的列向量,它们代表了数据的特征或者隐藏的主题。每个因子可以看作是原始数据中的一种模式或结构,它们的组合可以近似地重构原始数据。

已知 H ( p ) H^{(p)} H(p)形状为 m p × k m_{p}\times k mp×k,列代表的就是因子,指定一种特定的模式,其中的值即为该模式的表达权重(得分)。

可解释方法

基因集合富集分析
gProfiler API是通过Scanpy来使用的。作者将每个因子的150个top基因用作gProfiler的无序输入。

Motif富集分析
Signac使用JASPAR2022 Motif数据库进行Motif富集分析。为了使峰值具有可比性,作者将矩阵 H ( a t a c ) H^{(atac)} H(atac)的行归一化为1。每个因子的前100个峰值被用作Signac的FindMotifs的输入。各因子的峰值组合构成了背景。

结果

Mowgli通过在TEA-seq中提供细胞类型特异性因子,提高了生物学可解释性

作者根据MOFA+和integrative NMF的生物学可解释性对Mowgli进行了基准测试(见图4A)。MOFA+是领先的单细胞多组学整合工具,并提供了用户友好的生物学解释。与此同时,iNMF可被视为Mowgli的基线。
fig4ab

  • 图4A和B

对于这个基准,作者考虑了人类PBMCs的TEA-seq数据集,对应于scRNA-seq、scATACseq和表面蛋白的配对分析。该数据集允许我们在两个以上的组学数据集上测试方法,从而考虑到更多互补的分子调控层。

首先,分别使用MOFA+、integrative NMF和Mowgli对构成TEA-seq数据的三个组学进行整合。由于数据集未提供细胞注释,作者将Mowgli、integrative NMF和MOFA+获得的嵌入分别聚类,并基于基因和蛋白质marker进行注释(见图4B)。作者用这种方法鉴定了粗粒度免疫细胞类型:CD4 T细胞、CD8 T细胞、B细胞、自然杀伤(NK)细胞、MAIT T细胞、单核细胞(Monocytes)和红细胞(Erythroid cells)。值得注意的是,使用Mowgli、iNMF和MOFA+获得的细胞类型注释的一致性为94%,并且与通过Azimuth获得的独立的基于RNA的注释相匹配(见补充图3)。因此,这三种方法都能够通过对其嵌入的聚类恢复预期的细胞类型。
supfig3

  • 补充图3:注释一致性。

为了测试Mowgli、iNMF和MOFA+的生物学可解释性,作者评估了它们的factors与鉴定的免疫细胞类型之间关联的特异性。在此提出的基本假设是,一种可解释的方法应该提供并非在所有细胞中广泛活跃,但选择性地与细胞类型相关的因子。事实上,描述一种由多种因子组合而成的细胞类型是一项艰巨的任务。发现细胞类型特异性因子可以使相关细胞类型的生物学特性研究变得简单明了。

为了评估这种特异性,对于每种细胞类型,作者绘制了Mowgli、integrative NMF和MOFA+因子,根据它们在细胞类型内和细胞类型外的平均权重分布(图4C)。特定于细胞类型的factors应该在细胞类型内具有较高的平均权重,而在细胞类型外具有较低的平均权重,因此落在图的左上角。由于MOFA+的因子并不一定是阳性的,它们的阳性和阴性部分可能与不同的生物信息有关,作者将每个因子分成两部分,就像MOFA+的解释工具一样。此外,用特异性评分量化了每个因子的表现,也在图4C中用粗体进行了报道,并在方法部分细节中进行了定义
fig4c

  • 图4C:绘制了细胞类型内外的平均权重,分别为Mowgli(紫色)、MOFA+(红色为阴性部分,蓝色为阳性部分)和iNMF(橙色)。

如图4C所示,虽然MOFA+和iNMF倾向于将多个因子与同一细胞类型关联起来,但Mowgli经常定义因子与细胞类型之间明确的一对一关联。此外,这些因子在Mowgli中的特异性评分高于MOFA+和iNMF。其中MOFA+和iNMF似乎都聚集了来自许多因子的信息,而Mowgli更具选择性。值得注意的是,如补充图4所示,与相同细胞类型的MOFA+相关的多个因子并不一定对应于相同细胞类型的亚群。
supfig4

  • 补充图4:MOFA+的因子表达

Mowgli在TEA-seq数据中确定了相关的免疫细胞亚群

最后,作者将重点放在Mowgli在人类PBMC TEA-seq数据上确定的因子的生物学相关性上,如前一节所述。在上一节中,只考虑了粗糙的免疫细胞类型(例如B细胞、CD4 t细胞、CD8 t细胞),Mowgli可以识别出能够将这些细胞类型划分为相关亚群的多种因子,例如,Mowgli确定了将B细胞群分成两个亚群(记忆B细胞和幼稚B细胞)的因子(图5A和B)。

以同样的方式,Mowgli检测与CD8 T细胞亚群(幼稚,中枢记忆和效应记忆),单核细胞亚群(经典和非经典),树突状细胞亚群(浆细胞样细胞和传统)和自然杀伤细胞(NK)亚群(CD56dim和CD56bright)相关的因子。这些因子与特定免疫亚群的关联是基于效应记忆CD8 T细胞、幼稚B细胞、记忆B细胞和CD56dim NK细胞中排名靠前的基因和蛋白质。图5B并排显示了UMAP图,显示了因子与其相关免疫亚群的蛋白质marker活性之间的相似性。
fig5ab

  • 图5A和B:,重点关注四个特定免疫亚群(效应记忆CD8 T细胞,记忆B细胞,CD56dim NK细胞,naive B细胞)。

由于在上一节中观察到MOFA+具有较低的生物学可解释性。因此,例如用MOFA+解释与CD56bright NK细胞相关的pathway,将需要复杂地结合从不同因子获得的pathway富集。相反,在Mowgli,同样的分析可以很容易地通过观察其第13个因子的富集pathway来实现。

最后,作者研究了Mowgli可以提供的关于已确定的免疫亚群的生物学信息。在这一部分中,重点研究了与四种免疫细胞亚群相关的因子:效应记忆CD8 t细胞(因子49)、幼稚B细胞(因子33)、记忆B细胞(因子44)和CD56dim NK细胞(因子2)。对于这四个因子,作者考虑了在 H ( r n a ) , H ( a d t ) , H ( a t a c ) H^{(rna)},H^{(adt)},H^{(atac)} H(rna),H(adt),H(atac)中的相关负载,并分析了top genes,top protein,富集基因集,富集基序。图5C为结果。
fig5c

  • 图5C:图5A中显示的4个因子的top基因、top蛋白质、基因集和转录因子(tf)。星号表示与该因子和靶向top基因的tf相关的免疫亚群相关的基因集和marker。

对于效应记忆CD8 T细胞(CD8 TEM细胞),对应于因子49,Mowgli可以提取两个top基因(CRTAM和KLRK1),已知对CD8+T细胞介导的细胞毒性至关重要,两个top蛋白(CD45RO, TCR-a/b)分别是已知的记忆T细胞标记物和T细胞受体。更有趣的是,还确定了该亚群的几个转录因子TF,其中包括EOMES和TBX21(又名T-bet),已知它们对CD8 TEM发育很重要。此外,5个候选TF调控因子(TBR1、TBX21、TBX4、TBX5和MGA)靶向同一因子的3个top基因(CCL5、CRTAM和IL21R),这表明调控程序可能对CD8 TEM细胞很重要。

还有其余细胞类型的分析,这里不再叙述。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/656518.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

解锁数据的力量:Navicat 17 新特性和亮点

解锁数据的力量:Navicat 17 新特性和亮点 大家好,我是猫头虎。今天我要为大家介绍 Navicat 17 的新特性和亮点。Navicat 是一款专业的数据库管理工具,支持多种数据库类型,包括 MySQL、Oracle、SQL Server、PostgreSQL、MariaDB、…

5月28号总结

刷题记录 1.A. Phone Desktop 输入: 11 1 1 7 2 12 4 0 3 1 0 8 1 0 0 2 0 15 0 8 2 0 9 输出: 1 1 2 2 1 1 0 1 1 2 5 题意:题目给我们1x1和2x2的图标个数,让我们求最少需要多少个5x3的屏幕。 思路:当只看2x2的图…

新建一个esri_sde_gists的服务

需求 新建一个esri_sde_gists的服务 步骤: 需要拷贝ora11gexe目标为新的目录,例如ora11gexe_gists 运行drivers找到etc下面的services文件,添加端口5152: 检查sde的library并创建: CREATE or REPLACE LIBRARY ST_S…

elastich运维

Elastichsearch是一种高度可扩展的开源全文搜索和分析引擎,可以用来实现快速、高效的数据检索。 集群规划与部署:首先需要根据业务需求规划Elastichsearch集群的节点数量和角色(如主节点、副本节点、协调节点等)。在部署时&#x…

@EnableConfigurationProperties源码解析

前言 EnableConfigurationProperties注解的使用,请移步相关博文:EnableConfigurationProperties注解使用 前置知识 Import注解作用简述 注入的类一般继承 ImportSelector 或者 ImportBeanDefinitionRegistrar 接口 继承ImportSelector接口&#xff…

AIGC 人工智能全能实操课:用AI工作,提升效率,帮你赚钱(33节课)

课程目录 2-AIGC介绍先导1.mp4 3-第一节-chatGPT介绍与原理1.mp4 4-第二节-CHATGPT提示词的三个原则_1.mp4 5-第三节-chatgpt提示词的7个步骤1.mp4 6-第四节-chatgpt提示词的4个技巧1.mp4 7-第五节-chatgpt制作分镜案例分享1.mp4 8-第六节-chatgpt提示词生成工具1.mp4 …

最短路Dijkstra求最短路(讲解 + 模板 + 例题)

Dijkstra算法 Dijkstra是基于贪心思想的单源最短路算法; 变量定义 : const int N 510; const int INF 1e9 10 ; struct edge{int v , w ; // 表示出边和边权 }; vector<edge> e[N] ; int d[N] ; // dis[u]存u到源点s的最短距离 int vis[N] ;// vis[u]标记u是否…

K8s集群调度续章

目录 一、污点&#xff08;Taint&#xff09; 1、污点&#xff08;Taint&#xff09; 2、污点组成格式 3、当前taint effect支持如下三个选项&#xff1a; 4、查看node节点上的污点 5、设置污点 6、清除污点 7、示例一 查看pod状态&#xff0c;模拟驱逐node02上的pod …

选择快充时代下的理想充电器与电压诱骗芯片PW6606

随着科技的不断进步&#xff0c;我们的电子设备对于充电速度和效率的要求越来越高。在快充技术迅猛发展的今天&#xff0c;了解不同类型的充电器及其对应的快充协议&#xff0c;以及如何选择适合的电压诱骗芯片&#xff0c;对于提升充电体验和保障设备安全显得尤为重要。 一、快…

「代码厨房大揭秘:Python性能优化的烹饪秘籍!」

哈喽&#xff0c;我是阿佑&#xff0c;上篇咱们讲了 Socket 编程 —— 探索Python Socket编程&#xff0c;赋予你的网络应用隐形斗篷般的超能力&#xff01;从基础到实战&#xff0c;构建安全的聊天室和HTTP服务器&#xff0c;成为网络世界的守护者。加入我们&#xff0c;一起揭…

什么情况下JVM内存中的一个对象会被垃圾回收?

什么情况下JVM内存中的一个对象会被垃圾回收? 1、什么时候会触发垃圾回收?2、被哪些变量引用的对象是不能回收的?3、Java中对象不同的引用类型4、finalize()方法的作用1、什么时候会触发垃圾回收? 平时我们系统运行创建的对象都是优先分配在新生代里的,如图: 然后如果…

【JVM底层原理,JVM架构详解】

1. JVM简介 1.1 什么是JVM? JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。 主流虚拟机: 虚拟机名称介绍HotSpotOracle/Sun JDK和OpenJDK都使用HotSPo…

【算法】位运算算法——丢失的数字

题解&#xff1a;丢失的数字(位运算算法) 目录 1.题目2.题解3.位运算异或4.总结 1.题目 题目链接&#xff1a;LINK 2.题解 哈希数组查漏高斯求和排序位运算异或… 3.位运算异或 class Solution { public:int missingNumber(vector<int>& nums) {int ret 0;for…

单调栈--

1.每日温度 那么单调栈的原理是什么呢&#xff1f;为什么时间复杂度是O(n)就可以找到每一个元素的右边第一个比它大的元素位置呢&#xff1f; 单调栈的本质是空间换时间&#xff0c;因为在遍历的过程中需要用一个栈来记录右边第一个比当前元素高的元素&#xff0c;优点是整个数…

使用大模型LLM实现销售AI

想象一个场景&#xff0c;客户通过聊天窗口咨询一款产品。销售AI首先使用LLM解析客户的问题&#xff0c;然后通过智能代理查询数据库获取产品详细信息&#xff0c;并以自然而友好的方式回应客户。 在对话过程中&#xff0c;AI可以评估客户的兴趣&#xff0c;并主动提供促销信息…

【设计模式】JAVA Design Patterns——Curiously Recurring Template Pattern(奇异递归模板模式)

&#x1f50d;目的 允许派生组件从与派生类型兼容的基本组件继承某些功能。 &#x1f50d;解释 真实世界例子 对于正在策划赛事的综合格斗推广活动来说&#xff0c;确保在相同重量级的运动员之间组织比赛至关重要。这样可以防止体型明显不同的拳手之间的不匹配&#xff0c;例如…

Linux——多线程(一)

一、线程的概念 1.1线程概念 教材中的概念&#xff1a; (有问题?) 线程是进程内部的一个执行分支&#xff0c;线程是CPU调度的基本单位 之前我们讲的进程&#xff1a; 加载到内存中的程序&#x…

云易办springboot+vue后端

springbootvue云易办后端项目完成 一.创建项目 创建父项目&#xff1a;yeb&#xff0c; 使用spring Initializr&#xff0c;完成创建之后删除无用文件夹&#xff0c;作为父项目 添加packaging <packaging>pom</packaging>二.创建子模块&#xff1a;yeb-server …

PyCharm基本配置内容

如何更换 Python 解释器 输入一段代码点击运行后&#xff0c;画面下方有一个路径如图中框中所示&#xff1a; 上面的路径为虚拟路径&#xff0c;可以改为我们自己设置的路径 点击设置&#xff0c;选择settings 选择Project&#xff1a;y002———》Python Interpreter&#…

Clickhouse 嵌套数据类型总结—— Clickhouse 基础篇(三)

文章目录 创建嵌套类型的表插入读取数据在嵌套类型上使用数组函数 在 clickhouse 中存储嵌套类型的关键字是 Nested, 只支持一级嵌套。数据结构类似于在数据结构类似于在表的单元格里面嵌套“一张表格”&#xff0c;如下图所示&#xff1a; 嵌套类型是列存储&#xff0c;本质…