scRNA-seq可以揭示肿瘤微环境 (TME) 内细胞异质性的宝贵见解,scATOMIC是一种用于恶性和非恶性细胞的注释工具。在 300,000 个癌症、免疫和基质细胞上训练了 scATOMIC,为 19 种常见癌症定义了一个泛癌症参考,scATOMIC优于当前的分类方法。在 225 个肿瘤活检样本上广泛确认了 scATOMIC 的准确性,这些样本涵盖了 350,000 多个癌症和各种 TME 细胞。最后,展示了 scATOMIC 的实际意义,它可以准确地将乳腺癌子集划分为临床相关的亚型,并预测转移性癌症中肿瘤的原发性。
来自:Pan-cancer classification of single cells in the tumour microenvironment, Nature Communications, 2023
目录
- 背景概述
- scATOMIC
- 跨内部和外部数据集的性能评估和验证
- scATOMIC 注释可提高肿瘤活检的细胞分辨率
- 扩展核心 scATOMIC 层次结构以用于新应用
- scATOMIC 可识别转移性癌症的肿瘤起源
背景概述
肿瘤微环境 (TME) 非常复杂。TME 内的各种免疫细胞和基质细胞与癌细胞相互作用,调节血管生成、肿瘤增殖、侵袭和转移等过程。scRNA-seq特别适合解构复杂系统,因为它们为样本中的每个细胞提供转录组信息,从而能够研究反映不同细胞类型及其功能状态的细微变化。
细胞类型注释可以说是从 scRNA-seq 实验中获得生物学见解的最关键步骤,可以手动执行或使用自动分类器。鉴于手动注释的繁琐,人们开始转向使用自动方法,最近对可用 scRNA 工具的普查描述了 100 多个分类器。到目前为止,大多数自动分类器都专注于对血液或来自其他特殊组织的细胞亚群进行分类,因此在解读不同人类癌症的复杂 TME 方面能力有限。事实上,使用单细胞转录组学预测癌症类型并区分癌症和相关正常组织细胞,同时对大量免疫细胞和基质进行分类,并不是一项简单的任务。在 TME 的背景下,细胞类型预测受到两个挑战:
- 同一组织的癌症之间高度患者间肿瘤细胞异质性
- 相关但不同的特殊免疫细胞之间低转录组变异。
目前,scRNA-seq 数据中恶性细胞的识别标准依赖于拷贝数变异 (CNV) 推断。然而,这些方法无法提供有关癌症起源组织的明确信息。此外,CNV 推断需要存在遗传不稳定的细胞,如果测序样本中缺少大量独特的正常细胞参考,其准确性可能会受到影响。仅依靠推断的 CNV 的存在来注释恶性细胞可能会导致假阴性细胞。因此,scRNA-seq 分析肿瘤生态系统的一个限制是,没有通用方法可以有效、详细地分类非恶性 TME 细胞类型和亚型以及癌细胞。
显然,一种自动的Pan-cancer分类方案应该捕获更多正常细胞亚型和临床相关的癌症亚型,有望更好地了解癌症个体发生和各种肿瘤组织与其微环境的分子相互作用。在这项工作中,作者展示了scATOMIC,这是一种全面的Pan-cancer TME 细胞类型分类器。
scATOMIC
大量公开的单细胞转录组数据集将使我们能够开发出一种高度准确和全面的癌症、血液和基质细胞分类器。为了定义一个泛癌参考,作者查询了癌症患者数据,并增加了两个额外的综合数据源,其中包含转录组独立的细胞身份识别。这些包括:
- 代表 19 种常见癌症类型的癌细胞系的 scRNA-seq 和多种外周血细胞的 CITE-seq 数据集(蛋白质组学和转录组学)。
- 基质细胞的 scRNA-seq 是从多个肿瘤和正常组织来源收集的。
总体而言,scATOMIC 的训练参考数据集包含 301,662 个细胞。
获得一组准确的判别性特征对于成功分类至关重要。尽管如此,与非恶性细胞类型有关的显著差异表达基因 (DEG) 通常在功能上不同的其他相关细胞中表达(补充图1)。另一方面,恶性细胞之间的患者间异质性已被反复观察到,不同患者形成独特的簇(补充图 2)。为了改进细胞身份预测,作者开发了RHC-REP。为了开发这种方法,作者构建了一个泛癌症 TME 细胞层次结构,其中每个父节点代表一组相关细胞,每个终端节点代表一个感兴趣的单细胞类。总体而言,作者训练了 24 个随机森林模型,对应于父节点的总数(图1a)。对于每个模型,作者选择了 DEG,将每种细胞类型与嵌套在同一父级中的所有其他终端类区分开来。然后,RHC-REP 将优先考虑对所查询的细胞类型具有最高特异性的特征(图1b)。
- 补充图1:相关非恶性细胞类型之间的共享转录程序。在 UMAP 上可视化 CD8+ T 细胞、CD4+ T 细胞和自然杀伤细胞。颜色为 a.细胞类型、b.细胞亚型、c.IL7R 表达和 d.GZMB 表达。IL7R 表达水平将 CD4+ T 细胞与 NK 细胞区分开来,但并非与所有 CD8+ 细胞区分开来。在 CD4+ 和 CD8+ 幼稚细胞中均观察到高 IL7R 表达。同样,GZMB 表达水平将 NK 细胞与 CD4+ T 细胞区分开来,但并非与所有 CD8 细胞区分开来。在具有细胞毒功能的 NK 和 CD8 细胞中均观察到高 GZMB 表达。
- 补充图2:17 个肺癌活检样本的UMAP表明患者特异性恶性细胞具有高度异质性。相比之下,非恶性细胞的转录组异质性较小。
- 图1a 泛癌肿瘤微环境的层次结构。泛癌肿瘤微环境中的细胞层次结构被组织成流程图,细胞类型分辨率不断提高。父节点代表广泛的分类分支,终端节点代表感兴趣的专门细胞类别。
- 图1b 为每个父节点 (n = 24) 训练分类分支。收集显着区分一种细胞类型与所有其他细胞类型的基因。保留对每个终端类别具有更高特异性的差异表达基因 (DEG)。在过滤的、文库大小标准化计数矩阵上训练随机森林分类器,以得出一个模型,该模型提供与父节点内为每个终端类别投票的树比例相对应的预测分数。热图顶部的颜色表示不同的细胞类型。
在每个分类任务中,每个细胞都会收到一个预测分数 (PS) 向量,该向量对应于父节点中每个终端类别的树投票百分比(图 1c)。然后,该细胞乘以 PS 矩阵用于计算中间组分数 (IGS),随后将细胞链接到层次结构中的下一个父节点(图 1d)。在每个分类任务中,从模型中查询的所有细胞获得的 IGS 分布用于自动定义预测阈值。然后,每个细胞由其下一个相关模型查询,该模型由一组更具辨别力的特征和更少的潜在终端类别定义(图 1e)。未通过 IGS 阈值的细胞将被赋予其先前的父分类,并被禁止进一步进行子分类。
- 图1c 来自查询肿瘤活检的基因表达计数矩阵被输入到第一个 scATOMIC 分类分支模型中,输出逐个细胞的预测分数矩阵。
- 图1d 分别将所有血液和非血液细胞亚型的预测分数 (PS) 相加,以得出将单个细胞与其某个指定父节点类别相关联的中间组分数 (IGS) 分布。
- 图1e 细胞在其下一个父节点的对应模型中被迭代询问,直到获得最终分类。如果细胞的 IGS 低于置信度截止值,则会发生广泛分类。在此示例中,细胞 10 被细分,直到得出最终 B 细胞指定。
鉴于在癌症生物样本中可以找到与癌症组织来源相同的非恶性细胞(例如,肺活检中的正常肺泡细胞),作者在 scATOMIC 中嵌入了癌症特征评分和细胞分化模块。使用已建立的转录程序评分方法,在通过 scATOMIC 预测的癌症类型注释的细胞中评估癌症类型特异性上调和下调程序(图 1f)。即在RF分类出的cancer cell上用现有评分方法再细分一次,去除非恶性细胞。
- 图1f:通过对大量 RNA-seq 衍生的区分基因表达程序进行评分来区分癌症和组织特异性非恶性细胞。scATOMIC 自动将群体 2 注释为癌细胞,将群体 1 注释为非恶性细胞。
跨内部和外部数据集的性能评估和验证
为了评估 scATOMIC 的性能,作者首先使用训练参考数据集进行了5 fold交叉验证,同时保持5 fold中细胞类型的比例相等。scATOMIC 在所有测试的细胞类型中实现了从 0.90 到 0.99 的 F1 分数,这意味着在泛癌 TME 环境中对细胞广度进行分类的准确性很高。进一步使用外部黑色素瘤数据集测试了 scATOMIC 的性能,再次发现 F1 分数没有显著差异。
接下来,目标是对 scATOMIC 性能进行全面的外部、独立于训练的验证。为了构建具有高置信度细胞注释的验证数据集,作者从原发性肿瘤活检和血液样本中挖掘了公开可用的 scRNA-seq 数据。总体而言,用于验证的精选集包含来自 225 个原发性活检的 228,460 个癌症、82,976 个基质和 46,090 个血细胞,这些活检涵盖 13 种癌症类型。重要的是,这些ground truth集包括由 CNV 支持的癌细胞,以及通过 CITE-seq 由细胞表面蛋白标记支持的具有转录组独立身份的免疫细胞。与从内部验证获得的结果类似,在这个独立验证过程中,scATOMIC 的中位 F1 得分为 0.99。
scATOMIC 注释可提高肿瘤活检的细胞分辨率
为了进一步证明 scATOMIC 在注释多细胞 TME 方面的优势,作者分析了几个数据集,包括肺癌的 scRNA-seq。该数据集的原始注释由作者使用 SingleR 及其默认参考结合细胞类型特征和典型marker基因确定。scATOMIC 分辨了 NK 细胞和 T 细胞,并将后者进一步细分为细粒度亚型,包括 T 调节细胞、幼稚 CD4 + T 细胞、CD4 + T 滤泡辅助细胞、效应/记忆 CD4+、效应/记忆 CD8 + T 细胞和耗竭 CD8 + T 细胞(图 4a)。
- 图4a:桑基图将原始细胞类型注释与更高分辨率的 scATOMIC 注释进行比较。scATOMIC 将肺癌细胞与正常肺组织细胞区分开来。此外,scATOMIC 可识别血细胞的亚型。
在其他近期不同癌症类型的数据集中也观察到 TME 细胞类型的细胞分辨率增加,包括膀胱癌、乳腺癌、肝癌、卵巢癌、前列腺癌 和皮肤癌(图 4b-g)。总的来说,这项分析证明了 scATOMIC 的核心分层算法能够高分辨率解析细胞身份、标记细粒度 T 细胞状态、识别稀有细胞类型、避免错误地对未知细胞进行分类以及确定癌症类型。
- 图4b-g:scATOMIC 可识别常见癌症的癌细胞,并在其他细胞类型中提供相对更高的分辨率。
扩展核心 scATOMIC 层次结构以用于新应用
通过利用 RHC-REP,可以轻松部署新的 scRNA-seq 数据来训练层次结构任何终端分支的扩展。作者提出扩展乳腺癌分类节点将提供利用模块化的示例(图 5a)。
两个相当大的 scRNA-seq 乳腺癌图谱用于训练和独立测试分类模型,该模型将乳腺癌细胞分解为主要的 ER+、HER2+ 和三阴性乳腺癌 (TN) 组织学亚型。作者将 scATOMIC 应用于训练独立的验证数据集,该数据集包含 38 个涵盖 ER+、HER2+ 和 TN 乳腺癌的肿瘤,以及 2 个 HER2+/ER+ 双阳性肿瘤,由于缺乏数据,scATOMIC 乳腺模式的当前参考中未包含该类。免疫染色确定 scATOMIC 对 38 例独立于训练的乳腺癌活检样本中的 37 例进行了正确的亚型分析 (图 5b)。在两例 HER2 + /ER + 双阳性样本中,scATOMIC 分配了 HER2 + 和 ER + 细胞的混合注释 (图 5b)。
- 图5a:scATOMIC 核心层次中的晚期乳腺癌细胞节点得到扩展,将乳腺癌细分为主要的 ER+、HER2+ 和三阴性组织学亚型。
- 图5b:在外部队列中验证 scATOMIC 预测。饼图反映了根据 scATOMIC 分类的肿瘤内乳腺亚型异质性,针对每个报告的组织学亚型。具有相似细胞注释分布的患者样本一起显示在单个饼图中。
观察到不同程度的肿瘤细胞,其中 6 个活检样本(15%)预测的正常乳腺癌细胞多于癌细胞。在另一个报告为 ERlow 的肿瘤中(即免疫染色显示 ER+ 癌细胞 <10%),scATOMIC 鉴定出 8% ER+ 乳腺癌细胞(图 5c)。值得注意的是,scATOMIC 将这些 ER+ 细胞鉴定为恶性,与组织学报告一致,但 CNV 反映出的是蓝色的ER+与灰色的normal一致,从而误解亚型分类的判断(图 5d)。此示例突出显示了癌细胞的一个独特亚群,如果严格依赖 CNV 推断,这些亚群可能会被误解为正常组织,因此建议采用综合方法以获得最佳结果。总体而言,这些数据展示了 scATOMIC 的实用和模块化框架,可进一步将原发性肿瘤类别细分为其临床相关亚型。
- 图5c:来自 ER low 肿瘤(患者:ER-AH0319)的乳腺细胞在 UMAP 上可视化并按 scATOMIC 预测着色。
- 图5d:ER-low 肿瘤细胞的推断拷贝数变异 (CNV) 谱。红色代表推断的增益,而蓝色代表推断的基因组区域损失。y 轴根据 scATOMIC 预测着色。
scATOMIC 可识别转移性癌症的肿瘤起源
鉴于现有的单细胞注释工具并非旨在提供有关癌细胞起源组织的信息,作者应用 scATOMIC 预测肿瘤起源。作者整理了来自不同解剖部位的乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的 62 个转移性活检样本数据集。在 62 个样本中的 52 个(83.9%)中,scATOMIC 正确预测了原发组织(图 6),这些细胞可能经历了与转移相关的转录变化。在 1 个肾脏和 2 个肺样本(另外 4.9%)中,scATOMIC 未给出终端分类,但将预测重点放在正确的中间类别上。在 2 个通量较低的黑色素瘤 scRNA-seq 中,仅报告了 5 个和 6 个癌细胞,但 scATOMIC 没有发现任何癌细胞。作者认为这些是错误的预测。在其余 5 个收到错误终端分类的样本中,有 4 个的预测癌症类型和报告的原发性癌症属于同一直接父节点的相关癌症。例如,混合浆液性/透明细胞卵巢癌被预测为子宫内膜癌。总体而言,这些结果表明,使用单细胞转录组学准确检测转移性癌症的起源组织是可行的,并且 scATOMIC 可以帮助识别人类肿瘤中的癌症原发部位。
- 图6:scATOMIC 应用于 62 例乳腺癌、肾癌、肺癌、卵巢癌和皮肤癌的转移性肿瘤。转移部位包括脑、肺、胃肠道、肝、肾上腺、淋巴结、腹部和腹腔。每对点代表真正的肿瘤起源和预测的起源。水平连接线代表正确预测,而对角线代表错误预测。真正的肿瘤起源按报告的癌症亚型着色。圆点代表可信注释,而三角点代表低可信注释。多色点代表接受中间 scATOMIC 注释的肿瘤。