肿瘤微环境中单细胞的泛癌分类

scRNA-seq可以揭示肿瘤微环境 (TME) 内细胞异质性的宝贵见解,scATOMIC是一种用于恶性和非恶性细胞的注释工具。在 300,000 个癌症、免疫和基质细胞上训练了 scATOMIC,为 19 种常见癌症定义了一个泛癌症参考,scATOMIC优于当前的分类方法。在 225 个肿瘤活检样本上广泛确认了 scATOMIC 的准确性,这些样本涵盖了 350,000 多个癌症和各种 TME 细胞。最后,展示了 scATOMIC 的实际意义,它可以准确地将乳腺癌子集划分为临床相关的亚型,并预测转移性癌症中肿瘤的原发性。

来自:Pan-cancer classification of single cells in the tumour microenvironment, Nature Communications, 2023

目录

  • 背景概述
    • scATOMIC
  • 跨内部和外部数据集的性能评估和验证
  • scATOMIC 注释可提高肿瘤活检的细胞分辨率
  • 扩展核心 scATOMIC 层次结构以用于新应用
  • scATOMIC 可识别转移性癌症的肿瘤起源

背景概述

肿瘤微环境 (TME) 非常复杂。TME 内的各种免疫细胞和基质细胞与癌细胞相互作用,调节血管生成、肿瘤增殖、侵袭和转移等过程。scRNA-seq特别适合解构复杂系统,因为它们为样本中的每个细胞提供转录组信息,从而能够研究反映不同细胞类型及其功能状态的细微变化。

细胞类型注释可以说是从 scRNA-seq 实验中获得生物学见解的最关键步骤,可以手动执行或使用自动分类器。鉴于手动注释的繁琐,人们开始转向使用自动方法,最近对可用 scRNA 工具的普查描述了 100 多个分类器。到目前为止,大多数自动分类器都专注于对血液或来自其他特殊组织的细胞亚群进行分类,因此在解读不同人类癌症的复杂 TME 方面能力有限。事实上,使用单细胞转录组学预测癌症类型并区分癌症和相关正常组织细胞,同时对大量免疫细胞和基质进行分类,并不是一项简单的任务。在 TME 的背景下,细胞类型预测受到两个挑战:

  • 同一组织的癌症之间高度患者间肿瘤细胞异质性
  • 相关但不同的特殊免疫细胞之间低转录组变异。

目前,scRNA-seq 数据中恶性细胞的识别标准依赖于拷贝数变异 (CNV) 推断。然而,这些方法无法提供有关癌症起源组织的明确信息。此外,CNV 推断需要存在遗传不稳定的细胞,如果测序样本中缺少大量独特的正常细胞参考,其准确性可能会受到影响。仅依靠推断的 CNV 的存在来注释恶性细胞可能会导致假阴性细胞。因此,scRNA-seq 分析肿瘤生态系统的一个限制是,没有通用方法可以有效、详细地分类非恶性 TME 细胞类型和亚型以及癌细胞。

显然,一种自动的Pan-cancer分类方案应该捕获更多正常细胞亚型和临床相关的癌症亚型,有望更好地了解癌症个体发生和各种肿瘤组织与其微环境的分子相互作用。在这项工作中,作者展示了scATOMIC,这是一种全面的Pan-cancer TME 细胞类型分类器。

scATOMIC

大量公开的单细胞转录组数据集将使我们能够开发出一种高度准确和全面的癌症、血液和基质细胞分类器。为了定义一个泛癌参考,作者查询了癌症患者数据,并增加了两个额外的综合数据源,其中包含转录组独立的细胞身份识别。这些包括:

  • 代表 19 种常见癌症类型的癌细胞系的 scRNA-seq 和多种外周血细胞的 CITE-seq 数据集(蛋白质组学和转录组学)。
  • 基质细胞的 scRNA-seq 是从多个肿瘤和正常组织来源收集的。

总体而言,scATOMIC 的训练参考数据集包含 301,662 个细胞。

获得一组准确的判别性特征对于成功分类至关重要。尽管如此,与非恶性细胞类型有关的显著差异表达基因 (DEG) 通常在功能上不同的其他相关细胞中表达(补充图1)。另一方面,恶性细胞之间的患者间异质性已被反复观察到,不同患者形成独特的簇(补充图 2)。为了改进细胞身份预测,作者开发了RHC-REP。为了开发这种方法,作者构建了一个泛癌症 TME 细胞层次结构,其中每个父节点代表一组相关细胞,每个终端节点代表一个感兴趣的单细胞类。总体而言,作者训练了 24 个随机森林模型,对应于父节点的总数(图1a)。对于每个模型,作者选择了 DEG,将每种细胞类型与嵌套在同一父级中的所有其他终端类区分开来。然后,RHC-REP 将优先考虑对所查询的细胞类型具有最高特异性的特征(图1b)。

fig1

  • 补充图1:相关非恶性细胞类型之间的共享转录程序。在 UMAP 上可视化 CD8+ T 细胞、CD4+ T 细胞和自然杀伤细胞。颜色为 a.细胞类型、b.细胞亚型、c.IL7R 表达和 d.GZMB 表达。IL7R 表达水平将 CD4+ T 细胞与 NK 细胞区分开来,但并非与所有 CD8+ 细胞区分开来。在 CD4+ 和 CD8+ 幼稚细胞中均观察到高 IL7R 表达。同样,GZMB 表达水平将 NK 细胞与 CD4+ T 细胞区分开来,但并非与所有 CD8 细胞区分开来。在具有细胞毒功能的 NK 和 CD8 细胞中均观察到高 GZMB 表达。

fig2

  • 补充图2:17 个肺癌活检样本的UMAP表明患者特异性恶性细胞具有高度异质性。相比之下,非恶性细胞的转录组异质性较小。

fig1ab

  • 图1a 泛癌肿瘤微环境的层次结构。泛癌肿瘤微环境中的细胞层次结构被组织成流程图,细胞类型分辨率不断提高。父节点代表广泛的分类分支,终端节点代表感兴趣的专门细胞类别。
  • 图1b 为每个父节点 (n = 24) 训练分类分支。收集显着区分一种细胞类型与所有其他细胞类型的基因。保留对每个终端类别具有更高特异性的差异表达基因 (DEG)。在过滤的、文库大小标准化计数矩阵上训练随机森林分类器,以得出一个模型,该模型提供与父节点内为每个终端类别投票的树比例相对应的预测分数。热图顶部的颜色表示不同的细胞类型。

在每个分类任务中,每个细胞都会收到一个预测分数 (PS) 向量,该向量对应于父节点中每个终端类别的树投票百分比(图 1c)。然后,该细胞乘以 PS 矩阵用于计算中间组分数 (IGS),随后将细胞链接到层次结构中的下一个父节点(图 1d)。在每个分类任务中,从模型中查询的所有细胞获得的 IGS 分布用于自动定义预测阈值。然后,每个细胞由其下一个相关模型查询,该模型由一组更具辨别力的特征和更少的潜在终端类别定义(图 1e)。未通过 IGS 阈值的细胞将被赋予其先前的父分类,并被禁止进一步进行子分类。

fig1c

  • 图1c 来自查询肿瘤活检的基因表达计数矩阵被输入到第一个 scATOMIC 分类分支模型中,输出逐个细胞的预测分数矩阵。

fig1d

  • 图1d 分别将所有血液和非血液细胞亚型的预测分数 (PS) 相加,以得出将单个细胞与其某个指定父节点类别相关联的中间组分数 (IGS) 分布。

fig1e

  • 图1e 细胞在其下一个父节点的对应模型中被迭代询问,直到获得最终分类。如果细胞的 IGS 低于置信度截止值,则会发生广泛分类。在此示例中,细胞 10 被细分,直到得出最终 B 细胞指定。

鉴于在癌症生物样本中可以找到与癌症组织来源相同的非恶性细胞(例如,肺活检中的正常肺泡细胞),作者在 scATOMIC 中嵌入了癌症特征评分和细胞分化模块。使用已建立的转录程序评分方法,在通过 scATOMIC 预测的癌症类型注释的细胞中评估癌症类型特异性上调和下调程序(图 1f)。即在RF分类出的cancer cell上用现有评分方法再细分一次,去除非恶性细胞

fig1f

  • 图1f:通过对大量 RNA-seq 衍生的区分基因表达程序进行评分来区分癌症和组织特异性非恶性细胞。scATOMIC 自动将群体 2 注释为癌细胞,将群体 1 注释为非恶性细胞。

跨内部和外部数据集的性能评估和验证

为了评估 scATOMIC 的性能,作者首先使用训练参考数据集进行了5 fold交叉验证,同时保持5 fold中细胞类型的比例相等。scATOMIC 在所有测试的细胞类型中实现了从 0.90 到 0.99 的 F1 分数,这意味着在泛癌 TME 环境中对细胞广度进行分类的准确性很高。进一步使用外部黑色素瘤数据集测试了 scATOMIC 的性能,再次发现 F1 分数没有显著差异。

接下来,目标是对 scATOMIC 性能进行全面的外部、独立于训练的验证。为了构建具有高置信度细胞注释的验证数据集,作者从原发性肿瘤活检和血液样本中挖掘了公开可用的 scRNA-seq 数据。总体而言,用于验证的精选集包含来自 225 个原发性活检的 228,460 个癌症、82,976 个基质和 46,090 个血细胞,这些活检涵盖 13 种癌症类型。重要的是,这些ground truth集包括由 CNV 支持的癌细胞,以及通过 CITE-seq 由细胞表面蛋白标记支持的具有转录组独立身份的免疫细胞。与从内部验证获得的结果类似,在这个独立验证过程中,scATOMIC 的中位 F1 得分为 0.99。

scATOMIC 注释可提高肿瘤活检的细胞分辨率

为了进一步证明 scATOMIC 在注释多细胞 TME 方面的优势,作者分析了几个数据集,包括肺癌的 scRNA-seq。该数据集的原始注释由作者使用 SingleR 及其默认参考结合细胞类型特征和典型marker基因确定。scATOMIC 分辨了 NK 细胞和 T 细胞,并将后者进一步细分为细粒度亚型,包括 T 调节细胞、幼稚 CD4 + T 细胞、CD4 + T 滤泡辅助细胞、效应/记忆 CD4+、效应/记忆 CD8 + T 细胞和耗竭 CD8 + T 细胞(图 4a)。
fig4a

  • 图4a:桑基图将原始细胞类型注释与更高分辨率的 scATOMIC 注释进行比较。scATOMIC 将肺癌细胞与正常肺组织细胞区分开来。此外,scATOMIC 可识别血细胞的亚型。

在其他近期不同癌症类型的数据集中也观察到 TME 细胞类型的细胞分辨率增加,包括膀胱癌、乳腺癌、肝癌、卵巢癌、前列腺癌 和皮肤癌(图 4b-g)。总的来说,这项分析证明了 scATOMIC 的核心分层算法能够高分辨率解析细胞身份、标记细粒度 T 细胞状态、识别稀有细胞类型、避免错误地对未知细胞进行分类以及确定癌症类型。
fig4b-g

  • 图4b-g:scATOMIC 可识别常见癌症的癌细胞,并在其他细胞类型中提供相对更高的分辨率。

扩展核心 scATOMIC 层次结构以用于新应用

通过利用 RHC-REP,可以轻松部署新的 scRNA-seq 数据来训练层次结构任何终端分支的扩展。作者提出扩展乳腺癌分类节点将提供利用模块化的示例(图 5a)。

两个相当大的 scRNA-seq 乳腺癌图谱用于训练和独立测试分类模型,该模型将乳腺癌细胞分解为主要的 ER+、HER2+ 和三阴性乳腺癌 (TN) 组织学亚型。作者将 scATOMIC 应用于训练独立的验证数据集,该数据集包含 38 个涵盖 ER+、HER2+ 和 TN 乳腺癌的肿瘤,以及 2 个 HER2+/ER+ 双阳性肿瘤,由于缺乏数据,scATOMIC 乳腺模式的当前参考中未包含该类。免疫染色确定 scATOMIC 对 38 例独立于训练的乳腺癌活检样本中的 37 例进行了正确的亚型分析 (图 5b)。在两例 HER2 + /ER + 双阳性样本中,scATOMIC 分配了 HER2 + 和 ER + 细胞的混合注释 (图 5b)。
fig5a

  • 图5a:scATOMIC 核心层次中的晚期乳腺癌细胞节点得到扩展,将乳腺癌细分为主要的 ER+、HER2+ 和三阴性组织学亚型。

fig5b

  • 图5b:在外部队列中验证 scATOMIC 预测。饼图反映了根据 scATOMIC 分类的肿瘤内乳腺亚型异质性,针对每个报告的组织学亚型。具有相似细胞注释分布的患者样本一起显示在单个饼图中。

观察到不同程度的肿瘤细胞,其中 6 个活检样本(15%)预测的正常乳腺癌细胞多于癌细胞。在另一个报告为 ERlow 的肿瘤中(即免疫染色显示 ER+ 癌细胞 <10%),scATOMIC 鉴定出 8% ER+ 乳腺癌细胞(图 5c)。值得注意的是,scATOMIC 将这些 ER+ 细胞鉴定为恶性,与组织学报告一致,但 CNV 反映出的是蓝色的ER+与灰色的normal一致,从而误解亚型分类的判断(图 5d)。此示例突出显示了癌细胞的一个独特亚群,如果严格依赖 CNV 推断,这些亚群可能会被误解为正常组织,因此建议采用综合方法以获得最佳结果。总体而言,这些数据展示了 scATOMIC 的实用和模块化框架,可进一步将原发性肿瘤类别细分为其临床相关亚型

fig5c

  • 图5c:来自 ER low 肿瘤(患者:ER-AH0319)的乳腺细胞在 UMAP 上可视化并按 scATOMIC 预测着色。
  • 图5d:ER-low 肿瘤细胞的推断拷贝数变异 (CNV) 谱。红色代表推断的增益,而蓝色代表推断的基因组区域损失。y 轴根据 scATOMIC 预测着色。

scATOMIC 可识别转移性癌症的肿瘤起源

鉴于现有的单细胞注释工具并非旨在提供有关癌细胞起源组织的信息,作者应用 scATOMIC 预测肿瘤起源。作者整理了来自不同解剖部位的乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的 62 个转移性活检样本数据集。在 62 个样本中的 52 个(83.9%)中,scATOMIC 正确预测了原发组织(图 6),这些细胞可能经历了与转移相关的转录变化。在 1 个肾脏和 2 个肺样本(另外 4.9%)中,scATOMIC 未给出终端分类,但将预测重点放在正确的中间类别上。在 2 个通量较低的黑色素瘤 scRNA-seq 中,仅报告了 5 个和 6 个癌细胞,但 scATOMIC 没有发现任何癌细胞。作者认为这些是错误的预测。在其余 5 个收到错误终端分类的样本中,有 4 个的预测癌症类型和报告的原发性癌症属于同一直接父节点的相关癌症。例如,混合浆液性/透明细胞卵巢癌被预测为子宫内膜癌。总体而言,这些结果表明,使用单细胞转录组学准确检测转移性癌症的起源组织是可行的,并且 scATOMIC 可以帮助识别人类肿瘤中的癌症原发部位。
fig6

  • 图6:scATOMIC 应用于 62 例乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的转移性肿瘤。转移部位包括脑、肺、胃肠道、肝、肾上腺、淋巴结、腹部和腹腔。每对点代表真正的肿瘤起源和预测的起源。水平连接线代表正确预测,而对角线代表错误预测。真正的肿瘤起源按报告的癌症亚型着色。圆点代表可信注释,而三角点代表低可信注释。多色点代表接受中间 scATOMIC 注释的肿瘤。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/925671.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenCV_Code_LOG

孔洞填充 void fillHole(const Mat srcBw, Mat &dstBw) {Size m_Size srcBw.size();Mat TempMat::zeros(m_Size.height2,m_Size.width2,srcBw.type());//延展图像srcBw.copyTo(Temp(Range(1, m_Size.height 1), Range(1, m_Size.width 1)));cv::floodFill(Temp, Point(…

C语言数据结构——详细讲解《队列》

C语言数据结构——详细讲解《队列》 前言一、队列的概念二、队列的操作&#xff08;一&#xff09;定义队列结构&#xff08;二&#xff09;初始化队列&#xff08;三&#xff09;入队列操作&#xff08;四&#xff09;出队列操作&#xff08;五&#xff09;获取队头元素&#…

【模块一】kubernetes容器编排进阶业务容器化案例

Kubernetes 实战案例 Kubernetes实战案例-规划(基于nerdctl buildkitdcontainerd构建容器镜像) 业务容器化优势&#xff1a; ① 提高资源利用率、节约部署IT成本。 ② 提高部署效率&#xff0c;基于kubernetes实现微服务的快速部署与交付、容器的批量调度与秒级启动。 ③…

政安晨【零基础玩转各类开源AI项目】探索Cursor-AI Coder的应用实例

目录 Cusor的主要特点 Cusor实操 政安晨的个人主页&#xff1a;政安晨 欢迎 &#x1f44d;点赞✍评论⭐收藏 希望政安晨的博客能够对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff01; Cursor 是 Visual Studio Code 的一个分支。这使我们能够…

Android 12.0 DocumentsUI文件管理器首次进入默认显示内部存储文件功能实现

1.前言 在12.0的系统rom定制化开发中,在关于文件管理器的某些功能中,在首次进入文件管理器的时候默认进入下载 文件夹,点击菜单选择内部存储的时候,会显示内部存储的内容,客户开发需要要求默认显示内部存储的文件 接下来分析下功能的实现 如图: 2.DocumentsUI文件管理器首…

9.机器学习--SVM支持向量机

支持向量机&#xff08;Support Vector Machine&#xff0c;SVM&#xff09;是一种二分类监督学习模型。支持向量机最早在 1964 年被提出&#xff0c;1995年前后理论成熟并开始被大量应用与人像识别、文本分类等问题中。它的基本模型是定义在特征空间上的间隔最大的线性分类器&…

数据结构---链表

1. 简介 链表&#xff08;Linked List&#xff09;是一种常见的线性数据结构&#xff0c;它由一系列节点组成&#xff0c;每个节点包含数据部分和指向下一个节点的指针&#xff08;或引用&#xff09;。链表的一个主要优点是能够高效地插入和删除元素&#xff0c;尤其是在数组…

“移门缓冲支架:为家庭安全加码”

在智能家居日益普及的今天&#xff0c;科技不仅改变了我们的生活方式&#xff0c;也提升了家居的安全。移门缓冲支架作为一项结合了现代技术的小型装置&#xff0c;正逐渐成为提升家庭安全的重要配件。它通过吸收门关闭时的冲击力、减缓关门速度以及减少噪音等多重功能&#xf…

vscode、android studio、vim 国产AI编程插件Fitten Code

文章目录 Fitten Code简介vim安装Fitten Code插件Android Studio安装Fitten Code插件Fitten Code功能相关文章 Fitten Code简介 Fitten Code是由非十大模型驱动的AI编程助手&#xff0c;它可以自动生成代码&#xff0c;提升开发效率&#xff0c;帮您调试Bug&#xff0c;节省您…

一个月速成python+OpenCV图像处理

OpenCV是一个广受欢迎且极为流行的计算机视觉库&#xff0c;它因其强大的功能、灵活性和开源特性而在开发者和研究者中备受青睐。 学习OpenCV主要就是学习里面的计算机视觉算法。要学习这些算法的原理&#xff0c;知道它们适用于哪些场景&#xff0c;然后通过Python编写代码来…

深度学习2:从零开始掌握PyTorch:数据操作不再是难题

文章目录 一、导读二、张量的定义与基本操作三、广播机制四、索引与切片五、内存管理六、与其他Python对象的转换本文是经过严格查阅相关权威文献和资料,形成的专业的可靠的内容。全文数据都有据可依,可回溯。特别申明:数据和资料已获得授权。本文内容,不涉及任何偏颇观点,…

win10系统安装docker-desktop

1、开启Hyper-v ———————————————— Hyper-V 是微软提供的一种虚拟化技术&#xff0c;它允许你在同一台物理计算机上运行多个独立的操作系统实例。这种技术主要用于开发、测试、以及服务器虚拟化等领域。 —————————————————————— &#…

如何使用谷歌浏览器访问被屏蔽的网站

在互联网浏览过程中&#xff0c;我们有时会遇到一些网站被屏蔽的情况&#xff0c;这可能是因为地域限制、网络审查或其他原因。对于使用谷歌浏览器的用户来说&#xff0c;有几种方法可以尝试访问这些被屏蔽的网站。本文将详细介绍如何使用谷歌浏览器访问被屏蔽的网站。&#xf…

Next.js -服务端组件如何渲染

#题引&#xff1a;我认为跟着官方文档学习不会走歪路 服务器组件渲染到客户端发生了什么&#xff1f; 请求到达服务器 用户在浏览器中请求一个页面。 Next.js 服务器接收到这个请求&#xff0c;并根据路由找到相应的页面组件。服务器组件的渲染 Next.js 识别出请求的页面包含…

数据结构与算法——N叉树(自学笔记)

本文参考 N 叉树 - LeetBook - 力扣&#xff08;LeetCode&#xff09;全球极客挚爱的技术成长平台 遍历 前序遍历&#xff1a;A->B->C->E->F->D->G后序遍历&#xff1a;B->E->F->C->G->D->A层序遍历&#xff1a;A->B->C->D->…

SpringSecurity6

1.快速入门 2.SpringSecurity底层原理 使用的是委托过滤器,委托过滤器实际上就是 sevlet 过滤器 将自己放入Sevlet环境下 然后里面是一个 过滤器链代理 代理类下又是一个代理过滤器链的集合, 对于不同请求可以有不同的过滤器链, springsecurity有个默认的过滤器链 Defau…

芯片测试-RF中的S参数,return loss, VSWR,反射系数,插入损耗,隔离度等

RF中的S参数&#xff0c;return loss, VSWR&#xff0c;反射系数&#xff0c;插入损耗&#xff0c;隔离度 &#x1f4a2;S参数&#x1f4a2;&#x1f4a2;S11与return loss&#xff0c;VSWR&#xff0c;反射系数&#x1f4a2;&#x1f4a2;S21&#xff0c;插入损耗和增益&#…

前端页面或弹窗在线预览文件的N种方式

需求&#xff1a;后端返回给前端一个地址后&#xff0c;在前端页面上或则在弹框中显示在线的文档、表格、图片、pdf、video等等&#xff0c;嵌入到前端页面 方式一&#xff1a; 使用vue-office 地址&#xff1a;vue-office简介 | vue-office 个人感觉这个插件是最好用的&#x…

剪映自动批量替换视频、图片素材教程,视频批量复刻、混剪裂变等功能介绍

一、三种批量替换模式的区别 二、混剪裂变替换素材 三、分区混剪裂变替换素材 四、按组精确替换素材 五、绿色按钮教程 &#xff08;一&#xff09;如何附加音频和srt字幕 &#xff08;二&#xff09;如何替换固定文本的内容和样式 &#xff08;三&#xff09;如何附加…

【天地图】HTML页面实现车辆轨迹、起始点标记和轨迹打点的完整功能

目录 一、功能演示 二、完整代码 三、参考文档 一、功能演示 运行以后完整的效果如下&#xff1a; 点击开始&#xff0c;小车会沿着轨迹进行移动&#xff0c;点击轨迹点会显示经纬度和时间&#xff1a; 二、完整代码 废话不多说&#xff0c;直接给完整代码&#xff0c;替换…