自主研发!军事医学研究院团队提出 MIDAS,可用于单细胞多组学数据马赛克整合

众所周知,细胞是生命体的最小组成单位,人体内含有 40-60 万亿个细胞,构成了我们生长、发育的基础,在单细胞层面开展研究对于精确理解细胞的生长发育以及疾病的诊断与治疗至关重要。

近年来,单细胞测序技术异军突起,成为分子生物学研究的热点,业界围绕疾病、发育等临床和基础研究问题,已经产生了大量的单细胞测序数据。然而,来源于不同组学组合、不同测序技术、不同测序样本的海量数据就像地板上的马赛克瓷砖一样分散、多样。如何整合如此庞大、杂乱的数据并开展生物医学研究,是全球科学家共同面临的难题。

为了攻克这一挑战,近期,军事医学研究院应晓敏团队和伯晓晨团队在 Nature Biotechnology 期刊发表了题为「Mosaic integration and knowledge transfer of single-cell multimodal data with MIDAS」的研究论文。该研究提出了一种用于单细胞多组学 (single-cell multimodal omics,scMulti-omics) 数据马赛克式整合(即不同数据集仅共享部分检测模态)及知识迁移的计算工具 MIDAS, 基于自监督学习 (self-supervised learning) 和信息论方法 (information-theoretic approaches) 首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校正等整合功能,为构建大规模多组学细胞图谱、实现大规模单细胞多组学分析与知识迁移提供了重要的原创技术。

研究亮点:

  • 自主研发了基于生成式人工智能的新算法 MIDAS

  • 首次实现了通用的单细胞多组学马赛克数据的模态对齐、数据补全、批次校正等整合功能

  • 新算法对于揭示细胞的功能和分子调控机制、研究疾病的发生发展过程具有重要意义

图片


论文地址:
https://www.nature.com/articles/s41587-023-02040-y

关注公众号,后台回复「单细胞」获取完整 PDF

数据集:多种数据集,多维评估性能

本研究为了从各个维度比较 MIDAS 模型的优势,构建了多个数据集。

首先,为了将 MIDAS 与最先进的方法进行比较, 本研究评估了 MIDAS 在具有完整模态的三模态集成(马赛克集成的简化形式)中的性能,研究团队将这个任务命名为「矩形集成」(rectangular integration)。团队使用两个已发布的单细胞三峰人类 PBMC 数据集 (DOGMA-seq 和 TEA-seq),同时测量每个细胞的 RNA、ADT 和 ATAC,从而构建了dogma-full 和 teadog-full 数据集。

注:PBMC 全称为 peripheral blood mononuclear cell,即外周血单个核细胞,常用于免疫学领域的科研活动。

其次,为了评估 MIDAS 在镶嵌集成方面的性能, 研究团队在之前生成的矩形数据集的基础上,进一步构建了 14 个不完整数据集,每个镶嵌数据集都是通过从全模态数据集中删除多个模态批处理块来生成的。

第三,为了研究 MIDAS 的知识转移能力, 研究团队将图集数据集重新划分为用于图集构建的参考 (reference) 数据集,以及查询 (query) 数据集。研究团队通过从图集中删除 DOGMA-seq,得到了一个名为 atlas-no_dogma 的参考数据集。

第四,为了研究 MIDAS 在具有连续细胞状态变化的单细胞数据集中的应用, 研究团队通过组合从公开的 scRNA-seq (single-cell RNA-sequencing) 获得的 3 个不同样本 (ICA、ASAP 和 CITE) 构建了人类 BMMC 镶嵌数据集。

模型架构:深度生成模型 MIDAS

MIDAS 是一种深度生成模型,表示不完整单细胞多模态数据的联合分布,其中包含了转座酶可接近染色质 (ATAC)、RNA 和抗体衍生标签 (ADT) 的测量。

图片

MIDAS 功能简介

具体而言,MIDAS 假设每个细胞的多模态测量是通过两个与模态无关且解耦的潜在变量(生物状态和技术噪声),基于深度神经网络生成的。其输入包括由不同单细胞样本(batches,批次)组成的马赛克特征-细胞计数矩阵,以及表示细胞批次 ID 的向量。 这些单细胞样本可能来自不同的实验,或者通过应用不同的测序技术(例如 scRNA-seq、CITE-seq、ASAP-seq 和 TEA-seq)生成,因此可能具有不同的技术噪声、模态和特征。

图片

MIDAS 的算法

MIDAS 的输出包括生物状态和技术噪声矩阵,以及估算和批量校正的计数矩阵,从其中对输入数据中缺失的模态和特征进行插值并消除批次效应 (batch effects)。 这些输出可用于下游分析,例如聚类、细胞类型划分和轨迹推断。

MIDAS 基于变分自动编码器 ( variational autoencoder, VAE) 的架构,具有模块化的编码器网络及解码器网络,前者能够处理马赛克输入数据并推断潜在变量,后者能够使用潜在变量启动观察数据的生成过程。MIDAS 使用自监督学习来在潜在空间中对齐不同的模态,改善下游任务中的跨模态推断,例如插值和翻译。同时还应用信息论法来解耦生物状态和技术噪声,进一步实现批次校正。

研究人员将这些元素结合到本研究的优化目标中,通过随机梯度变分贝叶斯 (stochastic gradient variational Bayes, SGVB) 实现了 MIDAS 的可扩展学习和推断,这也使得单细胞多模态数据的大规模马赛克式集成和图谱构建成为可能。此外,为了将构建的图谱中的知识转移至具有不同模态组合的查询数据集,研究人员分别开发了转移学习和相互参考映射方案,用于模型参数和细胞标签的转移。

研究结果:MIDAS 多功能且高效

研究结果表明:MIDAS 是一种强大、多功能且高效的单细胞多模态集成工具。

在消除批次效应和保存生物信号方面——研究团队将 MIDAS 的性能与近期发表的 9 种方法进行了比较。

结果表明,MIDAS 理想地消除了批次效应,并且在 dogma-full 和 teadog-full 数据集上保留了细胞类型信息,而其他方法的性能则略逊一筹。 例如,BBKNN+average、MOFA+、PCA+WNN、Scanorama-embed+WNN 和 Scanorama-feat+WNN 没有很好地混合不同批次,PCA+WNN 和 Scanorama-feat+WNN 产生的细胞簇与细胞类型很大程度上不一致。

图片

使用MIDAS在矩形集成任务上获得的评估和下游分析结果

在批次对齐方面——MIDAS 能够很好地对齐不同批次的细胞,并将它们与细胞类型标签一致地分组, 而其他方法则不能很好地混合不同批次的细胞,并且产生的细胞簇与细胞类型在很大程度上不一致。scIB 基准测试表明,MIDAS 在不同的镶嵌任务上都有稳定的性能,并且其总体得分远高于其他方法。

图片

MIDAS 在马赛克集成任务上性能的定性和定量评估得分

在知识迁移能力方面——研究人员将每个查询数据集与参考数据集对齐,并通过 k-nearest neighbors (kNN) 算法转移细胞类型标签。将生物状态进行映射并可视化后可以看到,不同查询数据集的互参映射结果一致,并与通过 dogma-full 数据集获得的图谱整合结果高度一致。MIDAS 实现了稳健且准确的标签传输,从而避免了从头集成和下游分析的需求。因此,MIDAS 可用于将图集级知识转移到各种形式的用户数据集,而无需昂贵的从头训练成本或复杂的下游分析。

图片

MIDAS对知识转移任务的定性和定量评估

总而言之,通过对单细胞镶嵌数据生成过程进行建模,MIDAS 可以精确地从输入中分离出生物状态和技术噪音,并稳健地调整模态以支持多源和异构集成分析。MIDAS 在执行各种马赛克积分任务时提供准确、稳健的结果,并且优于其他方法。

此外,MIDAS 高效、灵活地将知识从参考数据集转移到查询数据集,从而可以方便地处理新的多组学数据。凭借卓越的降维和批量校正性能,MIDAS 支持准确的下游生物分析。除了能够对镶嵌数据进行聚类和细胞类型识别之外,MIDAS 还可以协助对具有连续状态的细胞进行伪时间分析,这在没有 RNA 组学数据可用时尤其有价值。当在不同组织之间转移知识时,MIDAS 能够对齐异构数据集并识别细胞类型,甚至能够识别新类型。

单细胞多组学分析持续发展

就像从一粒沙子中可以看到世界,科学家也能从小小的细胞内看到多重宇宙,或者更准确地说,叫做「多个组学」。

人们通过一系列不同的技术来研究单个细胞的基因组、转录组、表观基因组及其他特征,尽管各项技术本身就能带来丰富的信息,但它们的组合分析(也就是多组学分析)能提供一幅更完整的图像。目前,在单细胞多组学的推动下,细胞生物学和转化研究取得了重大进展,不过,数据整合与分析仍然是许多科学家面临的挑战。

基于此,除了上文提及的应晓敏团队和伯晓晨团队,还有更多研究团队和公司前赴后继,试图探索更高效、简单的数据处理方式。

比如,10x Genomics 公司的 Chromium 单细胞平台等分析方法不断扩展,让人们能够以不同组合评估多个细胞特征, 包括全转录组基因表达、蛋白表达、全长配对 TCR 和 BCR 测序、抗原特异性以及开放染色质分析等。其中的Cell Ranger 方案采用一组免费且易用的分析流程来分析 Chromium 单细胞数据,能够处理原始数据并开展比对,对基因进行计数。此外,Cell Ranger 还可以与云分析平台整合,对数据进行监控、管理和处理。

再比如,2022 年 5 月 2 日,北京大学/昌平实验室高歌课题组于 Nature Biotechnology 发表题为「Multi-omics single-cell data integration and regulatory inference with graph-linked embedding」的研究论文, 提出了基于图耦联策略的深度学习方法 GLUE,首次实现了对百万级单细胞多组学数据的无监督精准整合与调控推断。

这些生物信息学工具和软件的不断发展将帮助研究人员解读复杂的多组学数据集,助力细胞生物学发展,对于揭示细胞的功能和分子调控机制、研究疾病的发生发展过程具有重要意义,最终实现「造福于民」。

参考资料:
1.https://www.chinagut.cn/articles/ss/02bc1e86e3734acebff57395d6e044a6
2.https://m.ebiotrade.com/newsf/2023-10/20231023151001602.htm
3.https://news.bioon.com/article/e49a810955a1.html
4.https://m.thepaper.cn/newsDetail_forward_26137031

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/419059.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

请问如何用busctl命令列出会话总线?

在fedora39中启动ipmid时,如果不带输入参数,根据ipmid中的代码,此时注册的是系统总线,可以通过以下命令看到这条总线: $ busctl list | grep xyz xyz.openbmc_project.Ipmi.Host 199524 try2.out logic…

【菜鸟入门!】Matlab零基础快速入门教程

数学建模竞赛中,编程软件是必不可缺少的,比如大家都熟知的MATLAB多数同学们都会经常用到,今天给大家介绍一些MATLAB的基本元素,希望帮助大家更好的掌握编写基本的函数! 变量和数组 MATLAB 程序的基本数据单元是数组。一…

企业微信变更主体怎么改?

企业微信变更主体有什么作用?做过企业运营的小伙伴都知道,很多时候经常会遇到现有的企业需要注销,切换成新的企业进行经营的情况,但是原来企业申请的企业微信上面却积累了很多客户,肯定不能直接丢弃,所以这…

Linux 模拟实现shell【简单实现】

shell的模拟实现 我们知道shell是一个永不退出的程序,所以他应该是一个死循环,并且shell为了防止影响到自己,我们在命令行上输入的所有命令都是由shell的子进程来执行的,所以它应该要有创建子进程的相关函数,当然也会…

MySQL Strict Mode is not set for database connection ‘default‘

在使用 DJango 框架执行迁移文件的命令时,可以看到出现如下警告: (ll_env) D:\workspace\workspace-mengll\learning-log>python manage.py migrate System check identified some issues: WARNINGS: ?: (mysql.W002) MySQL Strict Mode is not set …

springboot232青年公寓服务平台

青年公寓服务平台的设计与实现 摘 要 传统信息的管理大部分依赖于管理人员的手工登记与管理,然而,随着近些年信息技术的迅猛发展,让许多比较老套的信息管理模式进行了更新迭代,房屋信息因为其管理内容繁杂,管理数量繁…

android Service 与 activity 通信 并不断传数据

注:这只是个Demo 以下载为案例,实现开启下载,暂停下载,下载进度不断发送给activity class DownloadService : Service() {override fun onBind(intent: Intent?): IBinder? {return MyBinder()}inner class MyBinder : Binder…

IDEA中的Structure模块使用详解

IDEA中的Structure模块使用详解 类方法的展示 从左往右介绍: 1、最开头的 m 标识是表示为方法,如出现 f 标识则表示为属性; 2、m后面跟着的是方法或者属性的访问修饰符: #红色关闭的锁表示为private; #圆圈表示不带…

postman切换成黑色主题

postman安装以后默认是白色背景,如果想要切换成黑色的,大家可以按照下图箭头指示来操作。 1打开设置 2在Themes页面选择黑色主题

VR危险环境模拟介绍|VR虚拟现实设备

VR危险环境模拟是指利用虚拟现实技术来模拟和展现各种危险环境,以便训练人员应对紧急情况、提高安全意识和应急反应能力。这种模拟可以涉及到工业、医疗、紧急救援等多个领域,旨在帮助人们在真实环境中面对危险时能够做出正确的应对和决策。 VR危险环境…

LeetCode # 206. 反转链表

206. 反转链表 题目 给你单链表的头节点 head ,请你反转链表,并返回反转后的链表。 示例 1: 输入:head [1,2,3,4,5] 输出:[5,4,3,2,1] 示例 2: 输入:head [1,2] 输出:[2,1] 示例…

深度学习 精选笔记(2)自动求导与概率

学习参考: 动手学深度学习2.0Deep-Learning-with-TensorFlow-bookpytorchlightning ①如有冒犯、请联系侵删。 ②已写完的笔记文章会不定时一直修订修改(删、改、增),以达到集多方教程的精华于一文的目的。 ③非常推荐上面(学习参考&#x…

国际数字影像产业园迎来多家企业,数字产业再添“生力军”!

龙年开年,树莓集团总部国际数字影像产业园迎来12家企业,为成都数字产业再添强军。初春2月,也为园区冲刺首季度“开门红”按下“快进键”。 一、正式落地 期待企业更大规模发展 紫荆国际教育集团成立四川东方紫荆教育咨询有限公司&#xff0c…

FCU2601嵌入式控制单元获得开普「电磁兼容检验证书」

近日,飞凌嵌入式专为锂电池储能行业设计的FCU2601嵌入式控制单元获得了开普电磁兼容检验证书,此次性能检验项目包括高频干扰检验、静电放电干扰检验、辐射电磁场干扰检验、快速瞬变脉冲群干扰检验、浪涌干扰检验、工频磁场干扰检验、阻尼振荡磁场干扰检验…

1688以图搜图API接口|c#爬虫-1688官网自动以图搜图

1688item_search_img 拍立淘 背景 在1688有个功能,就是上传图片,就可以找到类似的商品。如下 网址 :https://www.1688.com/ 这时候,我们可以使用程序来代替,大批量的完成图片上传功能。 实现思路 1、找到图片上传…

VR虚拟现实技术应用到猪抗原体检测的好处

利用VR虚拟仿真技术开展猪瘟检测实验教学确保生猪产业健康发展 为了有效提高猪场猪瘟防控意识和检测技术,避免生猪养殖业遭受猪瘟危害,基于VR虚拟仿真技术开展猪瘟检测实验教学数据能大大推动基层畜牧养殖业持续稳步发展保驾护航。 一、提高实验效率 VR虚…

Git安装的一些步骤解说(小白好奇心严重版本)

Use bundled OpenSSH 安装 Git 时,您面临的选择是使用 Git 自带的 SSH 客户端(bundled OpenSSH)还是使用系统上已安装的外部 SSH 客户端(external OpenSSH)。以下是两个选项的一些考虑因素: 使用 Git 自带的…

回溯是怎么回事(算法村第十八关青铜挑战)

组合 77. 组合 - 力扣(LeetCode) 给定两个整数 n 和 k,返回范围 [1, n] 中所有可能的 k 个数的组合。 你可以按 任何顺序 返回答案。 示例 1: 输入:n 4, k 2 输出: [[2,4],[3,4],[2,3],[1,2],[1,3],…

ssm274办公自动化管理系统

** 🍅点赞收藏关注 → 私信领取本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅** 一 、设计说明 1.1课题背…

IDEA开发环境的安装与编写第一个程序

1.下载 IDEA(全称IntelliJ IDEA)是用于Java程序开发的集成环境(也可用于其他语言),它在业界被公认是最好的Java开发工具之一,尤其在智能代码助手、代码自动提示、重构、J2EE支持、Ant、JUnit、CVS整合、代…