用于scATAC-seq有监督分类的Cellcano

细胞类型识别是单细胞数据分析的基本步骤。由于高质量参考数据集的可用性,有监督细胞分类方法在scRNA-seq数据中很受欢迎。染色质可及性分析(scATAC-seq)的最新技术进步为理解表观遗传异质性带来了新的见解。随着scATAC-seq数据集的不断积累,迫切需要专门为scATAC-seq设计的有监督细胞分类方法。作者开发了Cellcano,这是一种基于两轮监督学习的算法,用于从scATACseq数据中识别细胞类型。

来自:Cellcano: supervised cell type identification for single cell ATAC-seq data


表观遗传异质性:细胞或个体内同一基因组中某些基因的表达水平因表观遗传机制(如DNA甲基化、组蛋白修饰等)而出现的差异。这些表观遗传差异可以影响基因的转录和翻译,从而导致表型的差异,包括细胞命运、发育、生长、代谢和疾病等方面的变化。

scRNA-seq也具有表观遗传异质性,scATAC可以作为该异质性的另一种体现。


目录

  • 背景概述
  • 方法
    • Cellcano架构
    • ATAC细胞分型任务与基因特征空间
    • ATAC的另外两种特征空间

背景概述

单细胞测序技术的发展极大地增强了对复杂组织生物学机制的理解。在所有单细胞分析中,scRNA-seq最受欢迎,目前已经开发了1200多种分析工具。在scRNA-seq分析中,基于单个细胞的基因表达值做细胞类型判别(以下称为"细胞分型")是最基本的问题。目前有许多细胞分型方法可用。这些方法可以分为有监督和无监督两类。部分基准研究表明,有监督的细胞分型方法在准确性、鲁棒性和可扩展性方面比无监督的方法具有优势。

基因表达可以由几个因素调节。其中,染色质可及性对于DNA和调控元件之间的相互作用至关重要,并为理解转录调控机制提供了重要信息。近年来,通过scATAC-seq分析,也见证了从测量批量样品中的染色质可及性到单细胞分辨率的转变。与scRNA-seq一样,细胞分型也是scATAC-seq数据分析中的一个重要问题。然而,scATAC-seq数据具有某些特性,这使得细胞分型更加困难。首先,由于低读取计数,scATAC-seq数据要稀疏得多,这导致用于区分细胞类型的信号较弱。其次,与scRNA-seq不同,scATAC-seq数据中的特征空间定义不明确,这给提取有用信息带来了困难。原始scATAC-seq数据可以总结为全基因组固定大小bin的计数、peak代表可访问区域或基因。因此,特征空间的确定是scATAC-seq细胞分型的另一个重要步骤。尽管可以利用多组学测序技术的信息进行细胞分型,但这些数据集昂贵且有限。因此,迫切需要专门为scATAC-seq细胞分型开发方法。

大多数scATAC-seq细胞分型方法都是无监督的,并且基于先验知识。到目前为止,虽然已经开发了许多用于单细胞多组学数据整合的方法,而专门用于scATAC-seq细胞分型的方法非常有限。Seurat和scJoint使用scRNA-seq作为参考,将 label 在联合embedding空间中转移到scATAC-seq。由于不同测序技术之间数据分布的强烈变化,这两种方法可能表现不佳。Signac是最近开发的端到端scATAC-seq数据分析管道,提供scATAC-seq批次整合和标签转移功能。EpiAnno最近也提供了以scATAC-seq为参考在scATAC-seq中进行有监督学习的细胞分型。Signac和EpiAnno的一个主要问题是,它们使用来自所谓peak的读取计数作为输入,其中峰值高度依赖于数据。由于技术和生物伪影,reference和query之间的峰值一致性可能较低,这将导致信息丢失和不理想的细胞分型结果。此外,EpiAnno对于大型数据集在计算上是不可用的。

因此,作者开发了一种用于scATAC-seq的细胞分型方法,名为Cellcano。Cellcano实现了两轮监督学习算法。首先在参考数据集上训练多层感知器,并预测目标数据中的细胞类型。从预测结果中看,Cellcano选择一些被认为预测良好的目标细胞(称为anchor)来形成新的训练集。接下来,Cellcano使用预测的伪标签在anchor上训练自知识蒸馏模型(KD模型),然后应用训练的KD模型来预测剩余的非anchor细胞的细胞类型。通过广泛的真实数据分析,证明了与现有方法相比,Cellcano明显更准确、计算效率更高、可扩展性更强。

方法

Cellcano架构

Cellcano使用来自原始scATAC-seq数据的gene-level summaries作为输入。在给定原始数据的情况下,Cellcano结合了ArchR管道来处理原始数据,并获得参考数据集和目标数据集的gene score。使用gene score可以提供良好的预测准确性和计算效率。然后,Cellcano对参考gene score应用 F-test,选择细胞类型特异性基因作为模型构建的特征。在获得所选特征的参考基因和目标基因得分后,Cellcano采用两轮监督细胞分型策略,如图1所示。在第一轮中,Cellcano用参考基因得分训练MLP模型,并预测目标数据中的细胞类型。如果目标规模太小,Cellcano会停止并返回预测结果。当目标规模足够大(例如,超过1000个细胞)时,Cellcano会执行另一轮模型训练以提高预测结果。第二轮从选择anchor cell开始。为此,首先根据第一轮预测的预测概率计算每个细胞的熵,然后选择熵较低的细胞作为anchor(假设具有较低预测熵的细胞更有可能被准确预测)。然后,使用anchor及其预测的细胞类型作为新的参考数据来训练另一个分类器来预测非anchor细胞。在这里,使用KD模型作为分类器,因为当参考数据具有不完美的标签时,它可以更好地工作。第二轮中的假设是,与在参考数据集上训练的分类器相比,在anchor(来自target数据)上训练的分类器可以更好地捕捉目标数据集中的数据分布,从而提高预测性能。


在F检验中,通过计算两个或多个组的方差比值,来检验样本组之间是否存在显著差异。如果F检验的p值小于预设的显著性水平(通常为0.05或0.01),则可以拒绝零假设,认为不同组之间的差异是显著的,反之,则认为差异不显著。

F检验广泛应用于多个组之间的差异分析,例如,在生物医学研究中,可以用F检验来比较不同组之间的基因表达水平、蛋白质表达水平。


ATAC细胞分型任务与基因特征空间

作者收集并处理了四个人类外周血单核细胞(PBMC)数据集和两个小鼠大脑数据集。对于这六个数据集,设计了50个细胞分型任务,全面覆盖了不同的真实应用场景。

scATAC-seq数据可以在三个不同的特征空间中表示:全基因组固定大小仓(genome-wide fixed-size bins)、峰值(peaks)和基因(genes)。全基因组固定大小的仓具有非常大的特征空间,这造成了沉重的计算负担。峰值不是预先定义的,并且需要调用统一峰值的额外步骤。更重要的是,由于每个数据集的峰值都不同,因此不能对新的目标数据重用预先训练的预测模型。在这项工作中,作者选择基因得分作为输入。此外,还可以将基于基因评分训练的模型进一步连接到scRNA-seq模型。总结基因评分有不同的方法,第一个问题是如何利用这些基因评分模型。ArchR提供了54种基因评分模型的变体,其推荐的模型被证明是在匹配的scATAC-seq和scRNA-seq数据中推断基因表达最准确的。从实际数据分析中,发现使用ArchR推荐的基因评分模型可以从Cellcano获得良好的细胞分型性能。


在scATAC-seq数据中,每个细胞的开放染色质区域可以看作是该细胞特定的基因调控区域。因此,可以通过这些开放区域对单个细胞的基因调控水平进行建模,并得到基因评分。具体来说,基因评分模型通常包括以下几个步骤:

  • 建立基因-开放区域映射:首先,需要将每个开放区域与其可能调控的基因进行映射。这可以通过将开放区域与最近的基因或者包含该开放区域的基因进行关联来实现。
  • 计算基因调控得分:然后,对于每个基因,可以将与该基因调控相关的开放区域的开放程度进行加权平均,得到基因调控得分。这个得分可以反映该基因在单个细胞中的表达水平。

基因评分的获取可以理解为将ATAC模态转移到RNA模态


fig1

  • 图1:Cellcano采用两轮学习策略。在第一轮中,Cellcano根据已知细胞标记的参考基因评分训练MLP。然后,Cellcano使用经过训练的MLP来预测目标基因评分上的细胞类型。当目标数据规模足够大时,Cellcano通过选择锚来开始第二轮学习。利用从第一轮预测获得的预测概率矩阵,计算每个细胞的熵。选择熵相对较低的细胞作为锚,以训练知识蒸馏(KD)模型。训练后的KD模型用于预测剩余非锚中的细胞类型。

ATAC的另外两种特征空间

对于scRNA-seq的表达矩阵,特征是基因,但scATAC-seq的表达矩阵特征定义不止是基因(或者上面说的基因评分),还有peaks,和genome-wide fixed-size bins。

首先介绍peaks空间,在scATAC-seq数据中,表达矩阵的特征是基因组上的开放峰(open chromatin peaks)。开放峰是指基因组上具有染色质开放性的DNA区域,通常与基因的调控相关。在scATAC-seq数据中,对于每个细胞,我们可以通过比较其基因组上的开放峰来获得细胞类型和状态的信息。因此,scATAC-seq数据中的表达矩阵特征可以被看作是基因组上开放峰的集合,而不是RNA模态中基因的集合。每个细胞的开放峰矩阵的值表示该细胞中该开放峰的可及性或开放程度。与scRNA-seq类似,scATAC-seq数据的分析也可以使用一些单细胞分析工具,如Seurat等。

另外考虑genome-wide fixed-size bins空间,ATAC表达矩阵中的genome-wide fixed-size bins是指对基因组进行固定大小的分割(分箱,bin),将每个bin作为特征进行分析。在分析过程中,ATAC-seq数据中的每个细胞都会被分配到一系列bin上,而每个bin则代表了基因组的一个小片段。在每个bin上可以计算每个细胞中reads的数量,从而将每个细胞映射到一个基因组宽度固定的特征向量中。因此,genome-wide fixed-size bins作为特征的含义是将基因组分割为固定大小的区域,并将每个区域中的ATAC-seq信号作为特征,用于单细胞ATAC-seq数据的分析。


在ATAC-seq数据中,每个bin上细胞中reads的数量可以表示为该细胞中在对应基因组位置的染色质开放度。开放的染色质区域通常与活跃的基因表达有关,因此这些数量可以用于研究细胞类型和状态之间的差异。同时,每个bin上reads的数量也可以用于计算peaks;

peaks空间可以看作是size不固定的genome-wide fixed-size bins空间,它们的特征都是表示染色质开放程度


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/17051.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

html5地理位置信息介绍, 百度地图使用

文章目录 1. HTML5中地理信息API1.1 Geolocation 接口 2. 在vue中使用百度地图3. 在react中使用百度地图 1. HTML5中地理信息API HTML5 的地理位置 API 可以让你获取用户的地理位置信息,并将其用于许多不同的应用场景,例如: 在地图上显示用…

钴基双金属氧化物储能材料的高效制备和电化学应用

一、引言 钴金属氧化物作为一类典型的储能材料,既可以用于锂离子电池负极材料,又可以用于超级电容器电极材料,因而备受关注 。在作为锂离子电池负极材料时,具有较高的理论比容量,但充放电体积变化较大、材料导电性较差…

爬虫为什么需要ip

爬虫需要使用爬虫ip主要是为了解决以下问题: 1、反爬虫机制:许多网站会设置反爬虫机制来防止爬虫程序的访问,例如限制IP地址的访问频率、检测访问来源等。使用爬虫ip可以绕过这些限制,使得爬虫程序更难被检测到。 2、访问限制&a…

浅拷贝和深拷贝

浅拷贝: 定义:浅拷贝(Shallow Copy)是一种简单的对象复制方式,将一个对象的数据成员直接复制给另一个对象(通常是通过默认的复制构造函数或赋值运算符实现),这些数据成员可以是基本…

JavaScript:字符串

文章目录 字符串344. 反转字符串reverse() 方法(打基础的时候,不要太迷恋库函数)代码及思路 541. 反转字符串 IIJavaScript String split() 方法JavaScript Array join() 方法代码分析见注释 剑指 Offer 05. 替换空格思路注意:上面…

网络基础学习:什么是网络与网络发展史

什么是网络与网络发展史 什么是网络?什么是网络发展史?分组交换技术TCP/IP技术Web技术ARPANET(1969年)Internet(1983年)万维网(1990年)移动互联网(2007年)物联…

KDGK-F断路器机械特性测试仪

一、产品概述 KDGK-F 断路器机械特性测试仪可用于各电压等级的真空、六氟化硫、少油、多油等电力系统高压开关的机械特性参数测试与测量。测量数据稳定,抗干扰性强,可在500KV等级及以下电站做实验,接线方便,操作简单,是…

第14章 项目采购管理

文章目录 采购管理包括如下几个过程14.2 编制采购计划 462编制采购计划的输出1)采购管理计划2)采购工作说明书3)采购文件 14.2.3 工作说明书(SOW) 14.3 实施采购 47414.3.2 实施采购的方法和技术 476(1&…

No.054<软考>《(高项)备考大全》【冲刺8】《软考之 119个工具 (6)》

《软考之 119个工具 (6)》 99.应急应对策略:100.风险在评估:101.风险审计:102.偏差和趋势分析:103.技术绩效测量:104.自制或外购分析:105.市场调研:106.投标人会议:107.建议书评价技术:108.独立核算:109.广告:110.采购谈判:111.合同变更控制系统:112.采购…

ArduPilot之GPS Glitch问题M8N模块配置

ArduPilot之GPS Glitch问题&M8N模块配置 1. 源由2. 现象3. 视频分析3.1 配置(不理想)3.2 配置优化3.3 优化配置短时间3D LockGlitch3.4 优化配置长时间3D DGPS Lock3.5 使用尽量多的卫星系统3.5.1 配置一3.5.2 配置二 3.6 同一时间段(M8N…

3.3 泰勒公式例题分析

例1 写出函数f(x)带有拉格朗日余项的n阶麦克劳林公式 我的答案: 一、信息 1.f(x)的表达式 2.目标求这个f(x)的n阶麦克劳林公式 二、分析 条件1:告诉我f(x)的表达式为我后续带入公式做准备 条件2:告诉我用什么公式和此次求解的方向 三…

平面设计师都在用的设计素材网站,免费下载~

很多新手设计师不知道去哪里找高清、免费的设计素材,今天我就给大家推荐5个设计素材网站,免费下载,赶紧收藏起来把! 1、菜鸟图库 https://www.sucai999.com/?vNTYwNDUx 菜鸟图库是我推荐过很多次的网站,主要是站内素…

普通2本,去过字节外包,到现在年薪25W+的测试开发,我的2年转行心酸经历...

个人简介 我是一个普通二本大学机械专业毕业,17年毕业,19年转行,目前做IT行业的软件测试已经有3年多,职位是高级测试工程师,坐标上海… 我想现在我也有一点资格谈论关于转行这个话题;希望你在决定转行之前…

unity-VRTK-simulator开发学习日记2(抛物线 导包|使用|调用方法)

导包 使用抛物线 1.层级目录下添加抛物线曲线 曲线上面那个是直线 2.将跟踪控制器 给到抛物线的“跟随资源” (选择哪只手射出射线) 3.激活按键 找到模拟手柄按键 找到simulator的交互的几个按键(ButtonOne为例) value&#x…

从4k到42k,软件测试工程师的涨薪史,给我看哭了

清明节一过,盲猜大家已经无心上班,在数着日子准备过五一,但一想到银行卡里的余额……瞬间心情就不美丽了。 最近,2023年高校毕业生就业调查显示,本科毕业月平均起薪为5825元。调查一出,便有很多同学表示自己…

第六章 Iptables与Firewalld防火墙

第六章 Iptables与Firewalld防火墙 一、Iptables 1、策略与规则链 (1)、防火墙策略规则的设置 一种是“通”即放行,另一种是“堵”即阻止。 当防火墙的默认策略为拒绝时(堵),就要设置允许规则通&#x…

[论文笔记] In Search of an Understandable Consensus Algorithm (Extended Version)

In Search of an Understandable Consensus Algorithm (Extended Version) 寻找可理解的共识算法 (扩展版) [Extended Paper] [Original Paper] ATC’14 (Original) 摘要 Raft 是一个用于管理复制日志的共识算法. Raft 更易于理解, 且为构建实际的系统提供了更好的基础. Raf…

Redis 基础

0. Redis 基础 如果对 Redis 还不了解的同学可以先看一下这篇 Redis 基础文章 ,这里面介绍了 Redis 是什么,以及怎么用 1. Redis 管道 我们通常使用 Redis 的方式是,发送命令,命令排队,Redis 执行,然后返…

基于SpringBoot3从零配置MybatisPlus

基于SpringBoot3从零配置MybatisPlus记录 文章目录 1.环境2.表数据准备3. 配置pom配置yml 配置MapperScan 3.问题总结问题1: Property sqlSessionFactory or sqlSessionTemplate are required问题2:org.apache.ibatis.binding.BindingException: Invalid bound stat…

ETL到底是什么?

各位数据的朋友,大家好,我是老周道数据,和你一起,用常人思维数据分析,通过数据讲故事。 前段时间和大家聊了一个话题,就是为什么要用构建数据仓库,而不是直连数据源的方式开发报表?通…