众所周知,细胞是生命体的最小组成单位,人体内含有 40-60 万亿个细胞,构成了我们生长、发育的基础,在单细胞层面开展研究对于精确理解细胞的生长发育以及疾病的诊断与治疗至关重要。
近年来,单细胞测序技术异军突起,成为分子生物学研究的热点,业界围绕疾病、发育等临床和基础研究问题,已经产生了大量的单细胞测序数据。然而,来源于不同组学组合、不同测序技术、不同测序样本的海量数据就像地板上的马赛克瓷砖一样分散、多样。如何整合如此庞大、杂乱的数据并开展生物医学研究,是全球科学家共同面临的难题。
为了攻克这一挑战,近期,军事医学研究院应晓敏团队和伯晓晨团队在 Nature Biotechnology 期刊发表了题为「Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS」的研究论文。该研究提出了一种用于单细胞多组学 (single-cell multimodal omics,scMulti-omics) 数据马赛克式整合(即不同数据集仅共享部分检测模态)及知识迁移的计算工具 MIDAS, 基于自监督学习 (self-supervised learning) 和信息论方法 (information-theoretic approaches) 首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校正等整合功能,为构建大规模多组学细胞图谱、实现大规模单细胞多组学分析与知识迁移提供了重要的原创技术。
研究亮点:
-
自主研发了基于生成式人工智能的新算法 MIDAS
-
首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校正等整合功能
-
新算法对于揭示细胞的功能和分子调控机制、研究疾病的发生发展过程具有重要意义
论文地址:
https://www.nature.com/articles/s41587-023-02040-y
关注公众号,后台回复「单细胞」获取完整 PDF
数据集:多种数据集,多维评估性能
本研究为了从各个维度比较 MIDAS 模型的优势,构建了多个数据集。
首先,为了将 MIDAS 与最先进的方法进行比较, 本研究评估了 MIDAS 在具有完整模态的三模态集成(马赛克集成的简化形式)中的性能,研究团队将这个任务命名为「矩形集成」(rectangular integration)。团队使用两个已发布的单细胞三峰人类 PBMC 数据集 (DOGMA-seq 和 TEA-seq),同时测量每个细胞的 RNA、ADT 和 ATAC,从而构建了dogma-full 和 teadog-full 数据集。
注:PBMC 全称为 peripheral blood mononuclear cell,即外周血单个核细胞,常用于免疫学领域的科研活动。
其次,为了评估 MIDAS 在镶嵌集成方面的性能, 研究团队在之前生成的矩形数据集的基础上,进一步构建了 14 个不完整数据集,每个镶嵌数据集都是通过从全模态数据集中删除多个模态批处理块来生成的。
第三,为了研究 MIDAS 的知识转移能力, 研究团队将图集数据集重新划分为用于图集构建的参考 (reference) 数据集,以及查询 (query) 数据集。研究团队通过从图集中删除 DOGMA-seq,得到了一个名为 atlas-no_dogma 的参考数据集。
第四,为了研究 MIDAS 在具有连续细胞状态变化的单细胞数据集中的应用, 研究团队通过组合从公开的 scRNA-seq (single-cell RNA-sequencing) 获得的 3 个不同样本 (ICA、ASAP 和 CITE) 构建了人类 BMMC 镶嵌数据集。
模型架构:深度生成模型 MIDAS
MIDAS 是一种深度生成模型,表示不完整单细胞多模态数据的联合分布,其中包含了转座酶可接近染色质 (ATAC)、RNA 和抗体衍生标签 (ADT) 的测量。
MIDAS 功能简介
具体而言,MIDAS 假设每个细胞的多模态测量是通过两个与模态无关且解耦的潜在变量(生物状态和技术噪声),基于深度神经网络生成的。其输入包括由不同单细胞样本(batches,批次)组成的马赛克特征-细胞计数矩阵,以及表示细胞批次 ID 的向量。 这些单细胞样本可能来自不同的实验,或者通过应用不同的测序技术(例如 scRNA-seq、CITE-seq、ASAP-seq 和 TEA-seq)生成,因此可能具有不同的技术噪声、模态和特征。
MIDAS 的算法
MIDAS 的输出包括生物状态和技术噪声矩阵,以及估算和批量校正的计数矩阵,从其中对输入数据中缺失的模态和特征进行插值并消除批次效应 (batch effects)。 这些输出可用于下游分析,例如聚类、细胞类型划分和轨迹推断。
MIDAS 基于变分自动编码器 ( variational autoencoder, VAE) 的架构,具有模块化的编码器网络及解码器网络,前者能够处理马赛克输入数据并推断潜在变量,后者能够使用潜在变量启动观察数据的生成过程。MIDAS 使用自监督学习来在潜在空间中对齐不同的模态,改善下游任务中的跨模态推断,例如插值和翻译。同时还应用信息论法来解耦生物状态和技术噪声,进一步实现批次校正。
研究人员将这些元素结合到本研究的优化目标中,通过随机梯度变分贝叶斯 (stochastic gradient variational Bayes, SGVB) 实现了 MIDAS 的可扩展学习和推断,这也使得单细胞多模态数据的大规模马赛克式集成和图谱构建成为可能。此外,为了将构建的图谱中的知识转移至具有不同模态组合的查询数据集,研究人员分别开发了转移学习和相互参考映射方案,用于模型参数和细胞标签的转移。
研究结果:MIDAS 多功能且高效
研究结果表明:MIDAS 是一种强大、多功能且高效的单细胞多模态集成工具。
在消除批次效应和保存生物信号方面——研究团队将 MIDAS 的性能与近期发表的 9 种方法进行了比较。
结果表明,MIDAS 理想地消除了批次效应,并且在 dogma-full 和 teadog-full 数据集上保留了细胞类型信息,而其他方法的性能则略逊一筹。 例如,BBKNN+average、MOFA+、PCA+WNN、Scanorama-embed+WNN 和 Scanorama-feat+WNN 没有很好地混合不同批次,PCA+WNN 和 Scanorama-feat+WNN 产生的细胞簇与细胞类型很大程度上不一致。
使用MIDAS在矩形集成任务上获得的评估和下游分析结果
在批次对齐方面——MIDAS 能够很好地对齐不同批次的细胞,并将它们与细胞类型标签一致地分组, 而其他方法则不能很好地混合不同批次的细胞,并且产生的细胞簇与细胞类型在很大程度上不一致。scIB 基准测试表明,MIDAS 在不同的镶嵌任务上都有稳定的性能,并且其总体得分远高于其他方法。
MIDAS 在马赛克集成任务上性能的定性和定量评估得分
在知识迁移能力方面——研究人员将每个查询数据集与参考数据集对齐,并通过 k-nearest neighbors (kNN) 算法转移细胞类型标签。将生物状态进行映射并可视化后可以看到,不同查询数据集的互参映射结果一致,并与通过 dogma-full 数据集获得的图谱整合结果高度一致。MIDAS 实现了稳健且准确的标签传输,从而避免了从头集成和下游分析的需求。因此,MIDAS 可用于将图集级知识转移到各种形式的用户数据集,而无需昂贵的从头训练成本或复杂的下游分析。
MIDAS对知识转移任务的定性和定量评估
总而言之,通过对单细胞镶嵌数据生成过程进行建模,MIDAS 可以精确地从输入中分离出生物状态和技术噪音,并稳健地调整模态以支持多源和异构集成分析。MIDAS 在执行各种马赛克积分任务时提供准确、稳健的结果,并且优于其他方法。
此外,MIDAS 高效、灵活地将知识从参考数据集转移到查询数据集,从而可以方便地处理新的多组学数据。凭借卓越的降维和批量校正性能,MIDAS 支持准确的下游生物分析。除了能够对镶嵌数据进行聚类和细胞类型识别之外,MIDAS 还可以协助对具有连续状态的细胞进行伪时间分析,这在没有 RNA 组学数据可用时尤其有价值。当在不同组织之间转移知识时,MIDAS 能够对齐异构数据集并识别细胞类型,甚至能够识别新类型。
单细胞多组学分析持续发展
就像从一粒沙子中可以看到世界,科学家也能从小小的细胞内看到多重宇宙,或者更准确地说,叫做「多个组学」。
人们通过一系列不同的技术来研究单个细胞的基因组、转录组、表观基因组及其他特征,尽管各项技术本身就能带来丰富的信息,但它们的组合分析(也就是多组学分析)能提供一幅更完整的图像。目前,在单细胞多组学的推动下,细胞生物学和转化研究取得了重大进展,不过,数据整合与分析仍然是许多科学家面临的挑战。
基于此,除了上文提及的应晓敏团队和伯晓晨团队,还有更多研究团队和公司前赴后继,试图探索更高效、简单的数据处理方式。
比如,10x Genomics 公司的 Chromium 单细胞平台等分析方法不断扩展,让人们能够以不同组合评估多个细胞特征, 包括全转录组基因表达、蛋白表达、全长配对 TCR 和 BCR 测序、抗原特异性以及开放染色质分析等。其中的Cell Ranger 方案采用一组免费且易用的分析流程来分析 Chromium 单细胞数据,能够处理原始数据并开展比对,对基因进行计数。此外,Cell Ranger 还可以与云分析平台整合,对数据进行监控、管理和处理。
再比如,2022 年 5 月 2 日,北京大学/昌平实验室高歌课题组于 Nature Biotechnology 发表题为「Multi-omics single-cell data integration and regulatory inference with graph-linked embedding」的研究论文, 提出了基于图耦联策略的深度学习方法 GLUE,首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。
这些生物信息学工具和软件的不断发展将帮助研究人员解读复杂的多组学数据集,助力细胞生物学发展,对于揭示细胞的功能和分子调控机制、研究疾病的发生发展过程具有重要意义,最终实现「造福于民」。
参考资料:
1.https://www.chinagut.cn/articles/ss/02bc1e86e3734acebff57395d6e044a6
2.https://m.ebiotrade.com/newsf/2023-10/20231023151001602.htm
3.https://news.bioon.com/article/e49a810955a1.html
4.https://m.thepaper.cn/newsDetail_forward_26137031