SEACells:元细胞分析

元细胞是从单细胞测序数据中衍生的细胞分组,代表高度精细的不同细胞状态。在这里,作者介绍了单细胞细胞状态聚集 (SEACells),这是一种用于识别元细胞的算法,它克服了单细胞数据的稀疏性,同时保留了传统细胞聚类所掩盖的异质性。SEACells 在识别 RNA 和ATAC模态分析中的全面、紧凑且分离良好的元细胞表现上优于现有算法,作者展示了如何使用 SEACells 来改善gene-peak关联、计算 ATAC 基因分数并推断分化过程中关键regulators的活动。元细胞级分析可扩展到大型数据集。作者利用元细胞揭示造血分化过程中染色质景观的表达动态,并唯一地识别与 2019 年冠状病毒病 (COVID-19) 患者群体中的疾病发作和严重程度相关的 CD4 T 细胞分化和活化状态。

来自:SEACells infers transcriptional and epigenomic cellular states from single-cell genomics data

目录

  • 方法概述
  • 实验
    • SEACells元细胞代表准确和稳健的细胞状态
    • SEACell促进的调控推断
  • 方法
    • SEACells
    • Toolkit for ATAC
      • Peak calling
      • Peak-gene关联和gene score
      • 推断TF活性

方法概述

SEACells 力图将单个细胞聚合成代表不同细胞状态的元细胞,这种方式与数据模态无关。使用计数矩阵作为输入,它为每个元细胞提供每个细胞的权重、每个元细胞的硬分配以及每个元细胞的聚合计数作为输出。SEACells可以捕获数据中的全部细胞状态,包括较罕见的状态。基于几个关键假设建立了 SEACells:(1) 单细胞分析数据可以用低维流形(表型流形)来近似;(2) 观察到的细胞间变异性大部分是由于采样不完整造成的;(3) 大多数细胞可以分配到一组有限的细胞状态,每个状态都以不同的活性基因调控程序组合为特征。

SEACells 利用基于图的流形学习算法,该算法已被证明能够忠实而稳健地捕捉单细胞基因组数据中的细胞状态图。该算法首先构建一个表示表型流形的最近邻图。然后,它应用原型分析迭代细化元细胞。最后,它将计数聚合到一组输出元细胞中。流形构造针对每种数据模态定制,之后算法可以以与数据类型无关的方式进行。作者使用来自早期人类造血的 CD34+ 细胞来演示方法(图 1)。使用最小-最大采样进行初始化,它识别出一组均匀分布在表型流形中的代表性细胞状态(图 1e),并且特别擅长处理密度差异,从而确保捕获稀有状态。这些采样细胞是waypoints(每种细胞类型有多个),它们在邻居图中定义清晰的结构;然而,细胞状态本身仍然有些分散(图 1f)。

为了细化元细胞,作者采用了核原型分析-kernel archetypal analysis(图 1g)。原型分析-archetypal analysis是一种稳健的矩阵分解技术,已应用于数据矩阵,以识别细胞表型空间边界处的极端细胞状态。相反,作者将原型分析应用于细胞间相似性核矩阵。该核将细胞投影到更高维空间中,其中两个细胞只有当它们共享邻居并且与共享邻居的距离相似时才相似。这种转换所施加的更严格的相似性条件将高度相似的细胞投射到微小的簇中,使得核空间中的原型成为每个独特细胞状态的良好代表。因此,核原型分析将细胞划分为高度相似的细胞的紧密簇(图 1g),沿细胞-细胞相似性矩阵的对角线赋予紧密的块,这些块代表不同的细胞状态(图 1h)。
fig1

  • 图1:a,6,800 个 CD34+ 分类的造血干细胞和祖细胞 (HSPC) 的 scRNA-seq UMAP。细胞按簇着色。b,每个簇的轮廓图突出显示密度并表明每个簇内存在多种细胞状态。插图:基因-基因协方差矩阵显示每个状态包含多个不同的基因表达程序。c,左:UMAP 表示 MEP(巨核细胞-红细胞祖细胞)簇。右:当 MEP 簇根据发育进程分为三个大小相等的箱体时(顶部,G1 到 G3),它反映了 GATA2(已知的 MEP 谱系驱动因素)的推断表达(底部)。d,覆盖图显示所有 MEP(顶部)、单个 MEP 细胞(底部)和 c 中的三个箱体中的 GATA2 可访问性。右:相应细胞中的 GATA2 表达。突出显示的峰值展示了可访问性动态如何跟踪表达动态。有关动态的信息在簇级别被掩盖,而单个细胞中的峰值识别太嘈杂。e,UMAP 与 a 中的一样,按细胞类型着色。用于元细胞识别的 SEACells 算法由waypoints(大红色圆圈)初始化,waypoints是采样以均匀覆盖表型景观的细胞子集。f,使用自适应高斯核计算的细胞间亲和力矩阵。g,核原型分析示意图。核矩阵分解为原型矩阵 B 和嵌入矩阵 A。根据矩阵 A 上的逐列最大值来识别元细胞成员资格。插图:核原型分析将细胞划分为高度相似的细胞簇,使其非常适合识别稳健的细胞状态。h,左:来自 f 的细胞-细胞亲和力矩阵,但按元细胞分配排序(到这里,体现出用于发现罕见簇的潜力)。右:覆盖来自 e 的 UMAP 的轮廓图,突出显示元细胞的分布;细胞和轮廓通过元细胞分配来着色。

实验

SEACells元细胞代表准确和稳健的细胞状态

作者首先在 10x Genomics 的外周血单核细胞 (PBMC) 公共多组学 (同时进行 scRNA-seq 和 ATAC-seq) 数据集上评估了 SEACells 的性能,这是一个经过充分研究的系统,具有不同的细胞群体。可以发现 SEACells 元细胞全面,在细胞类型中分布良好 (图 2a、b)。

元细胞有助于克服稀疏性,数据稀疏性在 scATAC-seq 中非常严重。作者发现每个 SEACells 元细胞都比单个细胞提供了更完整的分子表征——例如,通过揭示主要细胞类型已知marker基因的可及性。元细胞(但不是大多数单个细胞)的可及性和表达可以准确区分淋巴亚群(图 2c )。因此,元细胞的粒度足以区分细胞类型内的状态;并且可以使用经典免疫marker进行查询。
fig2

  • 图2:a、(i) 使用 RNA 数据得出的 10x Genomics 多组学数据集中人类 PBMCs 的 UMAP,突出显示细胞类型和 SEACells 元细胞。(ii) RNA 模态下每种细胞类型的元细胞分布。(iii) 细胞类型纯度分布(每种元细胞中最具代表性的细胞类型的频率)。高纯度代表更准确的元细胞。b、与 a 中一样,使用来自多组学数据集的 ATAC 数据得出人类 PBMCs 的 UMAP、元细胞和细胞类型纯度分布。c、CD4 和 CD8A 的元细胞可及性 (i) 和表达 (iii) 准确区分 CD8(绿色)和 CD4(橙色)T 细胞。TYROBP 和 CD8A 的元细胞可及性 (ii) 和表达 (iv) 区分 NK(棕色)和 CD8(绿色)T 细胞。插图:相应的单细胞可及性太稀疏,无法实现相同的区分。

元细胞的意义:获得一个新的细胞数据,这个数据不稀疏,并且保留了原有的异质性


SEACell促进的调控推断

可以通过识别 ATAC-seq 读取计数峰值内的假定转录因子 (TF) 结合基序来推断基因调控,这些基序代表开放或可访问的染色质区域。scATAC-seq 提供了许多观测结果(细胞),能以精细分辨率推断更复杂的基因调控模型,但数据稀疏性严重限制了其实用性。SEACells 元细胞能克服稀疏性,从而实现各种基因调控推断任务。

典型的 SEACells 元细胞包含 120 万个读数,与单个细胞中的 25,000 个读数相比有显著改善,但仍远少于典型bulk样本中的 5000 万个读数。为了提高 ATAC 峰值调用中的信噪比,作者利用了 ATAC-seq 片段长度分布(一种表示方式),其中第一和第二模式分别代表无核小体 (NFR) 片段(可能富含 TF 结合事件)和核小体。

调控推断的下一个任务是将每个基因与调控它的元素关联起来。跨细胞的可及性和表达之间的相关性已被用于预测scRNA-seq 和 scATAC-seq 中调控每个基因的峰集,但数据稀疏阻碍了单细胞水平上的稳健性。使用来自 CD34+ 骨髓 ATAC 数据中的 SEACells 元细胞,作者计算了核心造血基因集中每个基因 ±100 kb 范围内每个 NFR 峰的基因表达与可及性之间的相关性 。使用 ATAC 元细胞的最相关峰的可及性跟踪基因表达,与单细胞数据相比有了显着改善(图 3a)。例如,关键的红系谱系调节剂TAL1的峰值可及性与元细胞中表达之间的相关性为0.82,而在单细胞水平上的相关性为0.03(图3a)。

对于关键的红细胞因子 GATA2,单细胞数据仅恢复了使用元细胞检测到的 11 个关联中的2个(图 3b)。为了系统地探索预测的peak-gene关联的准确性,作者通过汇总所有显着相关峰的可访问性并将其与基因表达进行比较来计算基因得分。SEACells 基因得分的相关性明显优于使用所有相关峰的汇总得出的得分。因此,SEACells 元细胞清楚地识别了与表达显着相关并可能调节相应基因的顺式调控元件。
fig3ab

  • 图3a:ATAC 元细胞(顶部)或单细胞(底部)基因表达与 TAL1(红细胞)、MPO(髓系)和 IRF(树突状细胞)marker基因中最相关峰的可及性之间的 Spearman 相关性,基于 CD34 多组学数据计算。每个元细胞和单细胞根据细胞类型着色。注意:不同模态也可以计算Spearman 相关性(用于衡量两者的单调性)。
  • 图3b:使用 NFR(顶部)或所有 ATAC(底部)片段绘制 HSC、MEP 和红细胞 (Ery) 中的红细胞因子 GATA2 的可及性景观。将染色质可及性分析限制在 NFR 片段可提高峰值分辨率和调节元件与基因的关联。弧线由峰值-基因 Spearman 相关性着色(右侧颜色值介于 0 和 1 之间),使用 SEACells ATAC 元细胞确定。

准确推断peak-gene关联可以促进将ATAC数据转换为gene score。


方法

SEACells

SEACells 是一种从单细胞数据定义元细胞的算法。SEACells 算法假设生物系统由明确定义且有限的细胞状态集组成。观察到的单细胞数据被认为是这些细胞状态的稀疏且嘈杂的测量值(当前最先进的单细胞测量技术只能捕获 <10% 的转录本或 <5% 的开放染色质区域)。尽管噪声程度很高,但由于定义细胞状态的基因表达模式和调控机制,从相同状态中采样的细胞被认为具有密切相关的表型。SEACells 旨在将密切相关的细胞聚集到代表它们的元细胞中,从而克服单细胞数据的稀疏性。此外,由于稀疏性,scATAC-seq 数据的实用性特别有限。SEACells 元细胞还提供了一种可扩展的表示,可以有效处理大规模单细胞数据。尽管聚类被广泛用于克服稀疏性,但聚类掩盖了数据中存在的大量异质性。SEACells 元细胞实现了保留异质性同时克​​服单细胞数据稀疏性。

SEACells 的输入包括 (1) 原始计数矩阵(例如,RNA 的转录本计数、ATAC 的peak或bins计数);(2) 使用模态适当的预处理(例如 RNA 的主成分分析 PCA)得出的数据的低维表示;以及 (3) 要识别的元细胞数量。作为下游分析的输出,SEACells 生成代表元细胞的细胞分组、聚合的元细胞计数矩阵和代表高度相关细胞组的软分配。该算法可在 https://github.com/dpeerlab/SEACells 免费获取。

SEACells大致包含5个步骤:

  • 使用在低维嵌入空间中计算的细胞之间的欧几里得距离构建KNN图,以表示表型流形(phenotypic manifold)
  • 使用最近邻图导出细胞间相似性的亲和矩阵。使用自适应高斯核将graph中的距离转换为相似性,以解释表型流形中的细胞密度差异。亲和矩阵或核矩阵编码细胞之间的非线性关系
  • 使用核矩阵作为原型分析的输入(图1g)。虽然原型分析通常应用于数据矩阵,但作者将其应用于核矩阵,该核矩阵将细胞划分为高度相似的细胞簇,并能够表征整个表型流形,使其非常适合识别稳健的细胞状态。原型分析将数据分解为原型矩阵,原型矩阵包括代表表型流形上细胞状态的细胞线性组合,以及将单个细胞重构为原型线性组合的隶属度矩阵(图1g)。该方法对数据进行分区,使细胞-细胞相似性矩阵沿对角线具有紧密的块结构;每个分区是一组最能代表细胞状态并定义一个metacell的cells。元细胞的数量被指定为原型分析的输入
  • 将通过原型分析确定的分组标记为SEACells元细胞,并相应地汇总单个细胞原始计数,以导出metacell-by-feature矩阵
  • 归一化计数矩阵,可用于所有下游分析任务,如聚类、可视化、数据整合、轨迹推断和基于ATAC-seq的调控推理

Toolkit for ATAC

目前已经开发出大量强大的工具来解释来自bulk ATAC-seq 数据的开放染色质数据。然而,由于稀疏性,它们不能直接应用于单细胞数据。SEACells 元细胞是紧密相关细胞的聚集体,因此在忠实保留数据的异质性和结构的同时,稀疏性大大降低。在这里,作者描述了一个适用于 scATAC-seq 数据的强大工具包,该工具包改编自bulk数据分析工具。

Peak calling

使用ArchR执行。ArchR首先对单细胞数据进行聚类,并使用MACS2 peak caller分别识别每个簇的峰值。然后将每个峰的大小调整为500个碱基,峰顶位于中心,并合并跨不同簇的重叠峰。合并的峰值再次调整为500个碱基。

ATAC-seq数据提供了跨越TF结合区域和非抑制区域核小体的开放染色质区域的概况。ATAC-seq数据的片段大小分布包含反映该信息多样性的特征模式。因为第一种模式代表NFR,作者修改了ArchR管道,只使用NFR片段(片段长度< 147)来识别峰值,而不是使用所有片段的默认值。这种变化导致对调控元件的识别更加敏感。

Peak-gene关联和gene score

尽管NFR片段的使用提高了被称为峰的灵敏度,但并非所有被识别的峰都代表调节基因表达的TF结合事件。已有研究提出利用整合ATAC和RNA数据的峰可达性与基因表达的相关性来识别可能调控基因表达的峰。SEACells元细胞为计算这些关联提供了理想的分辨率,当使用稀疏的单细胞数据计算时,这些关联是不可靠的。作者使用ATAC模态鉴定的元细胞来构建峰基因关联。

作者采用Ma等人的程序来确定显著的峰-基因关联(Chromatin potential identified by shared single-cell profiling of RNA and chromatin)。对于每个基因,使用归一化的元细胞表达和归一化的ATAC可及性,计算基因上游100kb和下游100kb内的每个峰值的Pearson相关性。为了评估峰-基因相关性的重要性,采样了100个峰的经验背景,这些峰与GC含量和所考虑的峰的可及性相匹配。根据气相色谱含量和样品经验背景可及性,将各峰分别分成100个bins。任何名义 P < 1 × 1 0 − 1 P < 1 × 10^{−1} P<1×101的峰都被认为是显著的峰-基因关联。使用NFR片段鉴定的峰用于本分析。与基因相关的所有峰的总可达性用于确定元细胞基因评分。

推断TF活性

为了利用峰基因关联,作者提供了一种简单的基因调控网络(GRN)方法来推断TF活性,用于识别与不同细胞类型相关的关键TF。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/683980.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LW-DETR:实时目标检测的Transformer, Apache-2.0 开源可商用,实验超 YOLOv8

LW-DETR&#xff1a;实时目标检测的Transformer&#xff0c; Apache-2.0 开源可商用&#xff0c;实验超 YOLOv8 LW-DETR 架构实例化高效训练高效推理 目的与解法拆解ViT编码器和DETR解码器多级特征图聚合变形交叉注意力窗口注意力和全局注意力 论文&#xff1a;https://arxiv.o…

QT系列教程(9) 主窗口学习

简介 任何界面应用都有一个主窗口&#xff0c;今天我们谈谈主窗口相关知识。一个主窗口包括菜单栏&#xff0c;工具栏&#xff0c;状态栏&#xff0c;以及中心区域等部分。我们先从菜单栏说起 菜单栏 我们创建一个主窗口应用程序, 在ui文件里的菜单栏里有“在这里输入”的一个…

AI大底座核心平台:百度百舸AI异构计算平台(AI IaaS)与AI中台(AI PaaS)

AI大底座正是整合了以上端到端全要素技术能力&#xff0c;将基础架构IaaS与应用平台PaaS能力深度融合&#xff0c;面向企业和产业AI生 产与应用的全生命周期提供完整解决方案。 百舸AI异构计算平台是AI IaaS层的核心平台&#xff0c;包括AI计算、AI存储、AI加速、AI容器四层套件…

算法人生(19): 从“LangChain的六大组件”看“个人职业规划”

我们今天要说说和大模型有着密切关系的Langchain &#xff0c;它提供了一个平台&#xff0c;让开发者可以更加轻松地训练、部署和管理这些大模型。具体来说&#xff0c;Langchain 可以通过提供高性能的计算资源、灵活的模型管理和部署选项、以及丰富的监控和调试功能&#xff0…

「动态规划」如何求下降路径最小和?

931. 下降路径最小和https://leetcode.cn/problems/minimum-falling-path-sum/description/ 给你一个n x n的方形整数数组matrix&#xff0c;请你找出并返回通过matrix的下降路径的最小和。下降路径可以从第一行中的任何元素开始&#xff0c;并从每一行中选择一个元素。在下一…

CentOS 环境下 PostgreSQL 在线安装和源码安装详解

1、内容概述 昨天给大家简单的介绍了一下 PostgreSQL,并且在Windows系统上通过图形化界面的方式搭建好了环境&#xff0c;今天我们就来学习一下如何在Linux 系统上搭建 PostgreSQL环境&#xff0c;我会给大家介绍在线安装、离线源码安装以及Docker 安装三种方式。 2、在线安装…

umijs 服务端渲染(SSR) 指南

umijs 服务端渲染&#xff08;SSR&#xff09; 指南 Umi 是什么&#xff1f; Umi&#xff0c;中文可发音为乌米&#xff0c;是可扩展的企业级前端应用框架。Umi 以路由为基础的&#xff0c;同时支持配置式路由和约定式路由&#xff0c;保证路由的功能完备&#xff0c;并以此进…

枚举(enum)+联合体(union)

枚举联合 一.枚举类型1.枚举类型的声明2.枚举类型的优点3.枚举类型的使用 二.联合体1.联合体类型的声明2.联合体的特点3.相同成员的结构体和联合体对比4.联合体大小的计算5.联合体的练习&#xff08;判断大小端&#xff09;6.联合体节省空间例题 一.枚举类型 1.枚举类型的声明…

安全U盘和普通U盘有什么区别?

安全U盘&#xff08;也称为加密U盘或安全闪存驱动器&#xff09;与普通U盘肯定是有一些区别的&#xff0c;从字面意思上来看&#xff0c;就能看出&#xff0c;安全U盘是能够保护文件数据安全性的&#xff0c;普通U盘没这一些功能的&#xff0c;可随意拷贝文件&#xff0c;不防盗…

Hadoop3:MapReduce源码解读之Mapper阶段的TextInputFormat切片机制(3)

Job那块的断点代码截图省略&#xff0c;直接进入切片逻辑 参考&#xff1a;Hadoop3&#xff1a;MapReduce源码解读之Mapper阶段的Job任务提交流程&#xff08;1&#xff09; 5、TextInputFormat源码解析 类的继承关系 它的内容比较少 重写了两个父类的方法 这里关心一下泛型…

《开源模型食用指南》基于Linux环境快速部署开源模型,更适合中国宝宝的部署教程

今天给大家推荐一个非常适合中国宝宝学习的专属大模型教程&#xff0c;也就是它《开源模型食用指南》&#xff01; 当前百模大战正值火热&#xff0c;开源LLM层出不穷。 如今国内外已经涌现了众多优秀开源LLM&#xff0c;国外如LLaMA、Alpaca&#xff0c;国内如ChatGLM、BaiCh…

【Unity Shader入门精要 第13章】使用深度和法线纹理(一)

1. 原理 深度纹理的本质是一张RenderTexture&#xff0c;只不过其中记录的不是颜色值&#xff0c;而是一个深度值 这些深度值来自于顶点在空间变换后得到的归一化设备坐标&#xff08;NDC&#xff09;的Z值 由于NDC坐标的分量取值范围在[-1, 1]之间&#xff0c;要使颜色值能…

欧盟EDPS发布首份生成式人工智能与数据安全指南解读

6月3日&#xff0c;欧洲数据保护监督机构&#xff08;EDPS&#xff09;在其官网上发布了题为《生成式人工智能与EUDPR》的指南&#xff08;注&#xff1a;EUDPR指的是《欧盟2018/1725号条例》&#xff09;&#xff0c;这是首份适用于欧盟机构的人工智能与数据安全指南。 01 指南…

STM32 SPI驱动读取LSM6DSRTR

提示&#xff1a;通过SPI驱动读取传感器数据 文章目录 前言一、LSM6DSRTR二、配置步骤1.配置SPI2.引入 LSM驱动库3.结果 总结 前言 制作一个倾角传感器&#xff0c;通过SPI读取LSM6DSRTR的加速度数据转换为角度&#xff0c;不用IIC的原因是考虑IIC通讯的协议过于繁琐&#xff…

c# iText使用

引入包 用nuget安装itext和itext.bouncy-castle-adapter包&#xff1a; 创建pdf string path "a.pdf"; PdfWriter writer new PdfWriter(path); PdfDocument pdfDoc new PdfDocument(writer); var docnew Document(pdfDoc); Paragraph p new Paragraph(&quo…

Java装饰器模式,装饰器模式通常通过创建一个接口和一个或多个实现了该接口的类来开始,然后创建装饰器类,这些类也实现了相同的接口

1、定义一个接口Component public interface Component { void operation(); }2、创建一个实现了Component接口的简单类SimpleComponent public class SimpleComponent implements Component { Override public void operation() { System.out.println("SimpleCom…

正大国际期货:什么是主力合约?

一个期货品种&#xff0c;在同一时间段&#xff0c;会上市多个月份的合约&#xff0c; 由于主力合约交易量大&#xff0c;流动性高&#xff0c;一般建议新手交易主力合约。 主力合约通常指交易集中&#xff0c;流动性好的合约 &#xff0c;即在一段时间内交易量和持仓量最大的…

java框架树结构实现(带层级、编码、排序)

1、需求 实现一个影像资料库的功能&#xff0c;用树结构对资料进行分类 2、数据结构 通过id、pid表示父子关系 通过code表示层级关系 通过layer表示层级 通过sort进行排序 3、实体类 package org.jeecg.modules.image.entity;import com.baomidou.mybatisplus.annotation…

交叉编译freetype

目录 一、前言 二、交叉编译 freetype 1.交叉编译安装工具链 zlib 2.交叉编译安装工具链 libpng 3.交叉编译安装工具链 freetype 4.编译测试发现错误并解决 5.上机测试 一、前言 交叉编译常见错误解决方法可看&#xff1a;交叉编译中常见错误解决方法_交叉编译后fail t…

DevExpress Installed

一、What’s Installed 统一安装程序将DevExpress控件和库注册到Visual Studio中&#xff0c;并安装DevExpress实用工具、演示应用程序和IDE插件。 Visual Studio工具箱中的DevExpress控件 Visual Studio中的DevExpress菜单 Demo Applications 演示应用程序 Launch the Demo…