scButterfly:单细胞跨模态翻译

技术限制导致了高噪声的多模态数据。尽管已经提出了计算方法来跨模态翻译单细胞数据,但是这些方法的泛化性仍然受到制约。scButterfly是一种基于双重对齐变分自编码器和数据增强方案的多功能单细胞跨模态翻译方法。通过对多个数据集进行全面的实验,证明了scButterfly在保留细胞异质性、同时翻译不同上下文的数据集以及揭示特定细胞类型的生物学见解方面优于基线方法。此外,scButterfly还可以推广到未配对数据训练、扰动-响应分析,连续翻译等。

来自:scButterfly: a versatile single-cell crossmodality translation method via dualaligned variational autoencoders

目录

  • 方法概述
  • 结果
    • 保持细胞异质性的同时跨模态翻译
    • scButterfly有效地翻译了新环境的数据并揭示了生物学的见解
    • scButterfly可以推广到非配对数据训练和扰动分析

方法概述

fig1
上图为模型概述,以转录组和染色质图谱之间的翻译为例说明。

a. scButterfly使用相应的常规策略预处理每种模态的数据,以模态特定的方式预训练编码器和解码器,并基于预训练参数对配对的多模态数据进行训练。

b. 基本的scButterfly模型(scButterfly-B)包括两个编码器,用于将预处理的数据投影到模态特定的潜在空间;一个翻译器,用于在不同模态之间进行翻译,并利用潜在空间中的多变量高斯分布在每个模态内进行映射;两个模态特定的判别器,用于区分翻译前后的潜在细胞嵌入,并实现对抗训练;以及两个解码器,用于使用翻译器翻译或映射的嵌入重建每个模态的原始高维细胞表示。作者为编码器引入了一种掩码策略,以减轻dropout事件的噪音影响,并修剪染色质图谱的编码器和解码器的染色体间连接,以减轻计算负担,并专注于染色体内的生物模式。

c. scButterfly的数据增强策略,适用于训练集有细胞类型标签的情景。作者通过随机配对同一类型细胞的转录组图谱和染色质图谱生成样本,得到的变体称为scButterfly-T(Type)。

d. scButterfly的数据增强策略,适用于训练集没有注释的更通用情景。作者进行综合分析以对训练集中的细胞进行聚类,并通过根据聚类标签随机配对生成样本,得到的变体称为scButterfly-C(Cluster)。

结果

保持细胞异质性的同时跨模态翻译

首先使用骨髓单核细胞的广泛配对RNA和ATAC-seq数据(称为BMMC数据集)作为概念验证,展示scButterfly的有效性。BMMC数据集作为一个综合的多模态基准数据集,包含来自4个site和10个不同供体的13个batch中的超过69,000个细胞。作者进行了五折交叉验证实验,通过将所有细胞随机分成五折,并迭代地使用训练模型将每折中的细胞染色质图谱翻译为转录组图谱,反之亦然。为了测试翻译后的图谱是否包含生物学上可解释的细胞异质性,作者通过各种下游分析任务(即降维、细胞聚类、差异表达和可及性分析等)评估了翻译性能。作者将scButterfly的性能与默认设置的BABEL、Polarbear和JAMIE进行了比较。以第一个测试fold为例,scButterfly从ATAC图谱翻译的RNA图谱可以有效地剖析细胞异质性,如t-SNE可视化所示(图2a)。具体来说,scButterfly的所有三种变体,包括基本模型(scButterfly-B),以及基于综合聚类(scButterfly-C)或训练集中的细胞类型标签(scButterfly-T)的数据增强模型,都能够区分红细胞生成的阶段,即前红细胞、正红细胞和红细胞(用红框标出),而BABEL和Polarbear这两种转录组和染色质图谱之间翻译的最新方法未能表征这三种重要的细胞类型。需要注意的是,JAMIE在BMMC数据集上由于超过了GPU内存限制(48GB,NVIDIA RTX A6000)而遇到了错误。
fig2
此外,注意到,scButterfly的所有三种变体都成功识别了CD14+单核细胞和CD16+单核细胞(用蓝框标出),这些在原始scATAC-seq数据中几乎难以剖析,表明scButterfly在将测试数据从一种模态翻译到另一种模态时,能够充分利用训练集中多模态的信息。

同样,scButterfly从RNA图谱翻译的ATAC图谱也很好地保留了细胞异质性(图2a)。例如,使用scButterfly预测的ATAC图谱,我们可以有效地捕捉到过渡性B细胞、淋巴前体、初始CD20+B细胞和B1 B细胞(用紫框标出),而BABEL预测的ATAC图谱甚至原始染色质图谱都几乎难以区分B1 B细胞和初始CD20+B细胞,Polarbear在这种情况下表现出不足的翻译能力。总体而言,scButterfly翻译的图谱能够熟练地表征细胞间的差异,并有潜力减少原始模态中的噪音,促进细胞类型的识别。

为了定量展示scButterfly在跨模态翻译中的优势,作者进一步基于翻译图谱的降维结果进行细胞聚类,并按照现有参考文献建议的调整互信息(AMI)、调整兰德指数(ARI)、同质性得分(HOM)和归一化互信息(NMI)评估翻译性能。交叉验证实验中每折的聚类性能再次表明,scButterfly在跨模态翻译中显著优于基线方法,同时保留了细胞异质性(补充图1、2-细胞配对数据上训练)。

此外,作者收集了六个附加数据集,这些数据集中包含了配对的RNA和ATAC数据,包括使用SNARE-seq4技术从成年小鼠大脑皮层获取的MCC数据集、使用SHARE-seq2技术从成年小鼠大脑获取的MB数据集、使用10x-Multiome技术分析的外周血单个核细胞(PBMC)数据集、使用sci-CAR3技术从成年小鼠肾脏获取的MK数据集、使用scCAT-seq5技术从多个细胞系分析的CL数据集以及使用SHARE-seq2技术从成年小鼠背部皮肤获取的MDS数据集,以进一步全面评估scButterfly的性能(补充图3)。如图2b和补充图4所示,scButterfly-B在跨模态翻译的两个方向上都比基线方法表现更好,并且有效地表征了细胞异质性,特别是在从转录组到表观基因组的翻译中。


重点:本小节关注的应该是图2b,这是评估模态翻译的benchmark


scButterfly有效地翻译了新环境的数据并揭示了生物学的见解

考虑到待翻译的谱系可能来自于与训练集不同的生物背景,并包含新颖的细胞类型,作者进一步评估了各方法在跨模态翻译新颖细胞类型时的性能。具体做法是,通过细胞类型随机将细胞数据分成三折,进行交叉验证实验。也就是说,测试集中的细胞类型与训练集中的细胞类型之间没有交集。作者使用了四个单批次数据集(MB、MCC、MK和PBMC)进行评估。正如图3a所示,在这种具有挑战性的样本外翻译中,与常规交叉验证实验(图2b)相比,所有方法的整体性能均大幅下降,这符合预期,因为大多数机器学习方法的共同限制是:测试样本如果与训练集偏离过大,往往表现出较差的预测性能。即便如此,对于新颖细胞类型的跨模态翻译,scButterfly的三种变体在从ATAC谱系推断RNA表达或反方向翻译方面均优于其他方法(图3a),这表明scButterfly能够有效识别不同生物背景下细胞之间的复杂关系,而不仅仅是简单记忆训练中见过的类似细胞。
fig3_1
鉴于批次效应的技术变化可能构成跨模态翻译的障碍,作者接下来考虑了一个更普遍的挑战。作者使用了三个多批次数据集(BMMC、CL 和 MDS),通过随机将细胞按批次分组,进行了四倍交叉验证。具体而言,在来自一个批次(MDS 和 CL 数据集)或site(BMMC 数据集)的数据上进行翻译,同时在其余批次或site上训练模型,以确保训练和测试数据集包含完全不同的批次。如图 3b,scButterfly 的性能优于基线方法。

需要注意的是,JAMIE 在 BMMC 数据集上再次遇到了内存错误。此外,结果再次说明了利用数据增强来帮助预测跨模态概况的整体效用。以 BMMC 数据集中的第一个测试折为例,scButterfly 不仅可以保留数据中微妙的细胞类型进行转换,还可以利用不同模态之间学到的生物关系来减轻噪声的影响,并确定在翻译前通过原始数据很难区分的细胞类型(图 3c)。例如,利用从染色质翻译的转录组,scButterfly 的三个变体成功区分了红细胞生成的阶段(用红色方框标记),并确定了通过原始 scATAC-seq 数据很难分离的 CD14+ 单核细胞和 CD16+ 单核细胞(用蓝色方框标记),而 BABEL 和 Polarbear 仅适度地分离了这些细胞类型,再次表明了 scButterfly 在这种跨模态翻译场景中的优势。

有趣的是,可以注意到 scButterfly-C 预测的 RNA 具有识别细胞亚型并提供对已识别的细胞亚群功能洞见的潜力。具体来说,在 MDS 数据集上,按批次进行了四倍交叉验证,并以第一个测试折中的细胞为例进行了说明,该折仅来自单个批次。预测的RNA将基底细胞分为两组,而使用原始RNA概况在 t-SNE 可视化中解剖basal细胞是困难的(见图3d)。然后,作者在预测的RNA概况上使用默认分辨率执行 Leiden 聚类,并根据聚类结果和表达模式确定了两个基底细胞亚组(预测的基底1和2),并且在这两个亚组之间及预测的RNA的两个亚组之间有56.850%的细胞一一对应(见图3e)。
fig3_2

scButterfly可以推广到非配对数据训练和扰动分析

大部分跨模态翻译方法都假设每种模态的训练样本是充分和完整的。然而,在普遍的应用中,这种假设并不总是成立,对于不在同一细胞中进行联合分析的不成对数据的对角线分析被认为比配对数据的分析更具挑战性。

作者收集了八个不配对的转录组和染色质数据集,包括从成年人肾脏中提取的UP_HK数据集,从小鼠主要运动皮层中提取的UP_MPMC数据集,以及从不同人类胎儿器官中提取的六个数据集(UP_eye、UP_muscle、UP_pancreas、UP_spleen、UP_stomach、UP_thymus)。作者进行了五倍交叉验证,以测试scButterfly对不配对数据的普适性。具体来说,通过随机将一个细胞的RNA谱与训练集中同一细胞类型的另一个细胞的ATAC谱进行配对构建成对的训练样本。

对于多批次数据集,作者直接将来自不同批次的数据进行配对,而不进行批次校正,并通过用伪配对样本训练方法来获得BABEL-T、Polarbear-T、JAMIE-T和scButterfly-T的模型。注意,除了UP_HK数据集外,JAMIE在所有数据集上都遇到了GPU内存错误。如图4f所示,无论是预测的转录组谱还是预测的染色质谱,scButterfly都实现了显著更高的细胞簇聚类表现。
fig4f
接下来,作者测试scButterfly是否可以推广到跨器官翻译。作者采用整个不配对的UP_stomach数据集作为训练集,使用与上述相同的训练策略,并分别在整个UP_pancreas和UP_spleen数据集上评估性能。如图4g所示,与上述器官内部的五倍交叉验证的性能相比,跨器官翻译的性能表现出明显的劣势,这可以归因于不同器官之间生物学背景的显著变化。尽管如此,可以注意到scButterfly再次在这个极具挑战性的任务中始终表现优异,进一步强调了scButterfly在跨器官翻译中的潜力和普适性。
fig4g
作者进一步研究了 scButterfly 在单细胞扰动-响应预测方面的潜力。扰动响应筛选能够探索对不同扰动的分子和表型响应,阐明控制生物过程的基本机制。尽管如此,获取受扰动的细胞在许多情况下往往是一个重大挑战。

因此,扰动响应的生成建模可以扩展计算机实验的能力。由于细胞通常在测量过程中被破坏,这会导致生成包含受扰动和不受扰动的细胞的非配对分布,因此单细胞扰动响应预测任务需要非配对数据训练。作者使用了 scGen 和 scPreGAN(两种最先进的方法)使用的 PT_PBMC 数据集作为概念证明,以证明 scButterfly 在扰动分析中的有效性。PT_PBMC数据集包括七种细胞类型的对照和干扰素β刺激的人外周血单核细胞。作者将对照和刺激细胞的转录组谱视为两种模态,并提出一种基于最优传输的策略来匹配两组细胞以生成配对训练样本,因为这两种模态通常表现出显著的生物学差异,而这些差异在前述非配对的单细胞多组学数据中是不存在的。具体而言,作者利用最优传输通过最小化每种细胞类型的对照和刺激细胞之间的距离来获得最优耦合矩阵,为每个对照细胞选择权重最大的刺激细胞,最终将这两个细胞匹配为配对训练样本。
fig4h

根据现有研究,作者评估了挑战性的样本外预测性能,该预测使用一个细胞类型的数据进行测试,并使用其余细胞类型的数据进行训练,类似于前述的对新细胞类型的跨模态翻译。作者采用了现有研究中普遍使用的两个指标来评估性能。如图4h所示,对照数据和真实刺激数据之间的前100个(真实)差异表达基因(DEGs)与控制数据和scButterfly预测的刺激数据之间的前100个(预测)DEGs之间的共同DEGs的数量明显超过了最先进方法的数量。此外,作者随机采样了80%的测试数据,并进行了100次替换,并计算了预测和真实刺激数据之间前100个(真实)DEGs的基因表达均值的平方皮尔逊相关系数(R2)。结果表明,由scButterfly-B预测的转录组谱与不同细胞类型的真实情况具有良好的相关性(每种细胞类型的平均R2一致超过0.85),scButterfly-B实现了整体最佳性能(图4h),阐明了scButterfly在单细胞干扰性研究中的潜在潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/672945.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

YOLOv8改进(一)-- 轻量化模型ShuffleNetV2

文章目录 1、前言2、ShuffleNetV2代码实现2.1、创建ShuffleNet类2.2、修改tasks.py2.3、创建shufflenetv2.yaml文件2.4、跑通示例 3、碰到的问题4、目标检测系列文章 1、前言 移动端设备也需要既准确又快的小模型。为了满足这些需求,一些轻量级的CNN网络如MobileNe…

低代码设计中的组织结构的作用与模式

一、组织结构的作用 在低代码设计中,组织结构是系统运作的基石,它定义了系统中的关键元素,包括人员、部门、角色,以及一人多部门、一人多部门多角色的复杂关系。这种定义不仅为系统提供了清晰的运行框架,还确保了系统…

Python 入门教程详细版全集(两周速成)

一、初始Python 打开CMD(命令提示符)程序,输入Python并回车。然后,在里面输入代码回车即可立即执行。 Tip1:找不到“命令提示符”程序在哪里? 使用快捷键:win r;打开运行框,输入cmd后回车即可…

TH方程学习(4)

一、背景介绍 在本节将会对TH方程打包成一个函数,通过输入目标星的轨道要素,追踪星在目标星VVLH坐标系下的相对位置和速度,以及预报的时间,得到预报时刻追踪星在VVLH坐标系下的位置和速度,以及整个状态转移矩阵。 合并…

创建__init__()方法

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在创建类后,可以手动创建一个__init__()方法。该方法是一个特殊的方法,类似Java语言中的构造方法。每当创建一个类的新实例时…

Java学习笔记 集合的使用

在实际的项目中开发过程中,会有很多的对象,如何高效、方便的管理这些对象,是影响程序性能与可维护性的重要环节。在Java语言中为这个问题提供了一套完美的解决方案,也就是接下来要介绍的集合框架。 1.1 集合框架的结构 从Collect…

【IC验证】一文速通多通道数据整型器(MCDF)

目录 01 README 02 MCDF设计结构 2.1 功能描述 2.2 设计结构 2.3 接口与时序 2.3.1 系统信号接口 2.3.2 通道从端接口 2.3.3 整形器接口 2.3.4 控制寄存器接口 2.3.4.1 接口时序图 2.3.4.2 各数据位信息 03 验证框图 3.1 reg_pkg 3.1.1 reg_trans 3.1.2 reg_driv…

[work] AI算法八股总结

一、深度学习面试宝典 amusi/Deep-Learning-Interview-Book: 深度学习面试宝典(含数学、机器学习、深度学习、计算机视觉、自然语言处理和SLAM等方向) (github.com)https://github.com/amusi/Deep-Learning-Interview-Book 深度学习八股https://github…

ChatTTS:开源最强文本转真人语音工具

目录 1.前言 2.详细介绍 2.1 什么是ChatTTS 2.2 项目地址: 2.3 应用特点: 3.如何安装和使用 3.1.谷歌colab 3.1.1.点击链接 3.1.2 进行保存 3.1.3 按照流程依次点击运行 3.1.4 填写自己需要转的文字 3.2 本地运行 3.2.1 下载或克隆项目源码到本地 3.2.2 …

JAVA多线程与IO流知识总结

文章目录 IO流体系字节流FileOutputStreamFileInputStreamtry-catch处理 字符流FileReaderFIleWriter原理分析 使用场景字节缓冲流BufferedInputStreamBufferedOutputStream 字符缓冲流BufferedReaderBufferedWriter 转换流InputStreamReaderOutputStreamWriter 序列化流Object…

SQL刷题笔记day8——SQL进阶——表与索引操作

目录 1 创建一张新表 2 修改表 3 删除表 4 创建索引 5 删除索引 1 创建一张新表 我的答案 create table if not exists user_info_vip (id int(11) primary key auto_increment Comment自增ID, # 有了主键就不用写not nul了 uid int(11) unique not null Comment用户ID, …

MMPose-RTMO推理详解及部署实现(下)

目录 前言一、RTMO推理(Python)1. RTMO预测2. RTMO预处理3. RTMO后处理4. RTMO推理 二、RTMO推理(C)1. ONNX导出2. RTMO预处理3. RTMO后处理4. RTMO推理 三、RTMO部署1. 源码下载2. 环境配置2.1 配置CMakeLists.txt2.2 配置Makefile 3. ONNX导出4. engine生成5. 源码修改6. 运行…

Git 恢复已删除的branch

六一节晚上改了点code, 做完之后commit, 然后误删了这个branch, 并且新建了branch. 那么怎样恢复已删除的branch呢? 网上查询一番,找到了答案: 1. git reflog 找到被删的branch中最后一笔commit, 记录它的SHA1。 怎么看SHA1是被删除的bra…

Mac修改Mysql8.0密码

转载请标明出处:http://blog.csdn.net/donkor_/article/details/139392605 文章目录 前言修改密码Step1:修改my.conf文件Step2:添加配置skip-grant-tablesStep3:重启mysql服务Step4:进入mysqlStep5:刷新权限Step6:修改密码Step7:再次刷新权限Step8:删除/注释 skip-…

本地安装AI大模型

使用ollmam安装llmama3等模型 1.打开ollmam下载对应系统的软件,安装即可 官网:Ollama, 安装直接点就就行了,没有其他操作 2.安装模型 在官网找到对于的模型下载命令 记录命令:ollama run llama3 打开一个cmd窗口,输…

opencv-python(三)

马赛克 face img[162:428,297:527] # 人脸坐标区域face face[::10,::10] # 每10个中取出一个像素,马赛克face np.repeat(face, 10, axis0) # 行方向重复10次face np.repeat(face, 10, axis1) # 列方向重复10次img[162:428,297:527] face[:266,:230] # 填充&a…

54. 螺旋矩阵【rust题解】

题目 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 示例 1 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2,3,6,9,8,7,4,5] 示例 2 输入:matrix [[1,2,3,4],[5,6,…

贴片和直插型IRM红外遥控接收头引脚定义和规格参数及使用注意事项

红外遥控接收头使用注意事项 引脚定义存在不同 红外遥控接收头大量使用在家用电器的遥控中,属于价廉物美的一种光电接收器件,批量价格约0.3元左右。 多数遥控接收头的引脚定义是OUT,GND,VCC,另有引脚定义不同为OUT,VCC,GND,记住…

基于STM32的水库预警系统的Proteus仿真

文章目录 一、水库预警系统1.题目要求2.思路2.1 OLED显示汉字2.2 水质传感器等等2.3 步进电机2.4 驱动水泵 3.仿真图3.1 未仿真时3.2 开始仿真,OLED开始显示3.3 提高水位,开启阀门和预警3.4 通过按键增大水位阈值,取消报警 4.仿真程序4.1 程序…

车联网安全入门——ICSim模拟器使用

文章目录 车联网安全入门——ISCim模拟器使用介绍主要特点:使用场景: 安装使用捕获can流量candumpcansnifferwiresharkSavvyCAN主要特点:使用场景: 重放can报文cansendSavvyCAN 总结 车联网安全入门——ISCim模拟器使用 &#x1…