文献阅读：使用 CellChat 推理和分析细胞-细胞通信

文献介绍

「文献题目」 Inference and analysis of cell-cell communication using CellChat
「研究团队」 聂青（加利福尼亚大学欧文分校）
「发表时间」 2021-02-17
「发表期刊」 Nature Communications
「影响因子」 16.6
「DOI」 10.1038/s41467-021-21246-9

摘要

理解细胞间的全局通信需要细胞间信号链接的准确表示，并对这些链接进行有效的系统级分析。作者建立了一个配体、受体及其辅助因子之间的相互作用的数据库，准确地代表已知的异聚分子复合物。然后，作者开发了 CellChat，这是一种能够从 scRNA-seq 数据中定量推断和分析细胞间通信网络的工具。CellChat 使用网络分析和模式识别方法预测细胞的主要信号输入和输出，以及这些细胞和信号如何协调功能。通过多种学习和定量对比，CellChat 对信号通路进行了分类，并在不同的数据集上描述了保守的和特定的通路。将 CellChat 技术应用于小鼠和人类皮肤数据集，显示了它提取复杂信号模式的能力。多功能和易于使用的工具包 CellChat 和一个基于网络的浏览器（http://www.cellchat.org/）将帮助发现新的细胞间通信，并在不同的组织中建立细胞-细胞通信图谱。

研究结果

1. CellChat 概述

CellChat 需要用户输入细胞的基因表达数据，并通过将基因表达与信号配体、受体及其辅助因子之间相互作用的先验知识相结合来模拟细胞间通讯的概率（Fig. 1a）。为了建立细胞间通信，CellChat 可以在 label-based 和 label-free 模式下运行（Fig. 1b）。在 label-based 模式下，CellChat 需要用户分配的细胞标签作为输入。在 label-free 模式下，CellChat 需要用户以数据低维表示形式输入，例如主成分分析或扩散图。对于后者，CellChat 通过基于低维空间或拟时序轨迹空间中的细胞间距离构建共享邻居图来自动对细胞进行分组。接收输入数据后，CellChat 通过以下三个模块对细胞间通信进行建模：

a. 配体-受体相互作用数据库的概述。CellChatDB 考虑了已知的配体-受体复合物的组成，包括配体和受体的多聚复合物，以及几种辅助因子类型：可溶性激动剂、拮抗剂、共刺激和共抑制膜结合受体。CellChatDB 包含 2021 种已验证的 L-R 对，包括 60% 的分泌相互作用（secreting interactions）。此外，有 48% 的相互作用涉及异质分子复合物。
b. 单细胞数据输入与预处理。CellChat 将细胞的基因表达数据和细胞注释的 meta 信息（也可以运行无标签模式）作为输入，预处理会先在每个类群细胞中鉴定过表达的基因。
c. 细胞通讯模型计算：CellChat 对通信概率进行建模，并识别重要通信。① 交叉引用配体-受体相互作用数据库；②使用质量作用定律（law of mass action）定量细胞通讯概率；③ 推断统计学和生物学上显著的细胞通信。
d. 细胞通讯结果可视化提供了三种模式：层次图（hierarchy plot），圈图 (Circle plot)，气泡图（bubble plot）。
e. 细胞通讯模式分析。CellChat 通过图论、模式识别和流形学习等方法对网络进行定量测量，从而更好地解释细胞间通信网络。使用网络中心性分析识别细胞的信号角色，发现主要的细胞通讯模式，信号通路拓扑和功能相似性的分类。除了分析单个数据集，CellChat 还可以跨不同条件识别共享的和特定于上下文的信号，如不同的发育阶段和生物条件。

交叉引用配体-受体相互作用数据库。信号分子及其相互作用的指定角色的准确性对于预测具有生物学意义的细胞间通讯至关重要。我们手动策划了一个文献支持的信号分子相互作用数据库，称为 CellChatDB，该数据库考虑了配体-受体复合物的已知组成，包括多聚体配体和受体的复合物，以及几种辅助因子：可溶性激动剂（soluble agonists）、拮抗剂（antagonists）、共刺激剂（co-stimulatory）和共抑制（co-inhibitory）膜结合受体（Fig. 1a, Supplementary Fig. 1a, Supplementary Note 1）。CellChatDB 整合了来自 KEGG 通路数据库的信号分子相互作用信息，该数据库是由专家策展人根据现有文献手工绘制的信号通路图谱集合。它还包括最近实验研究的信息。CellChatDB 包含 2,021 个经过验证的分子相互作用，包括 60% 的旁分泌/自分泌（paracrine/autocrine）信号相互作用、21% 的细胞外基质（ECM）-受体相互作用和 19% 的细胞-细胞接触相互作用。48% 的相互作用涉及异聚分子复合物，25% 的相互作用是作者根据最近的文献策划的（Fig. 1a）。此外，根据文献，每个相互作用被手动分类为 229 个功能相关的信号通路之一。

细胞间通信的推理和可视化。为了预测重要的通信，CellChat 识别了每个 cell group 差异性过度表达的配体和受体（Fig. 1b）。为了量化由这些信号基因介导的两个细胞群之间的通信，CellChat 将每次相互作用与概率值相关联。后者通过质量作用定律建模，该定律基于一个 cell group 配体的平均表达值和另一个 cell group 受体的平均表达值及其辅助因子。根据随机排列细胞组标签的统计测试来识别显着的相互作用，然后重新计算相互作用概率（Fig. 1c）。细胞间通信网络是由相互作用的细胞群之间的重要连接组成的加权有向图。CellChat 还提供了一种信息丰富且直观的可视化方法，称为 hierarchical plot，以突出感兴趣的 cell groups 之间的自分泌和旁分泌信号传导通信。该层次图概述了每个信号传导途径或配体-受体对的推断细胞间通信网络，由两个部分组成：左侧部分显示针对某些感兴趣的细胞群的自分泌和旁分泌信号传导，右侧部分显示自分泌和旁分泌信号传导到数据集中的其余细胞组。此外，CellChat 还实现了其他几种可视化方式，包括 circle plot 和 bubble plot（Fig. 1d）。

细胞间通讯的定量分析。为了便于解释复杂的细胞间通信网络，CellChat 通过从图论、模式识别和流形学习中抽象的方法来定量测量网络。CellChat 以无人监督的方式执行各种分析（Fig. 1e）。首先，它可以确定主要信号 sources 和 targets，以及给定信号网络内的 调节者（mediators） 和 影响者（influencers） 使用网络分析中的中心性度量，例如 out-degree、in-degree、betweenness、information metrics。其次，它可以利用模式识别方法预测特定细胞类型的关键传入（incoming）和传出（outgoing）信号，以及不同细胞类型之间的协调反应。传出模式（Outgoing patterns） 揭示了发送细胞（即作为信号源的细胞）如何相互协调，以及它们如何与某些信号通路协调以驱动通信。传入模式（Incoming patterns） 显示了目标细胞（即作为信号接收器的细胞）如何相互协调，以及它们如何与某些信号通路协调以响应传入信号。第三，它可以通过定义相似性度量并从功能和拓扑角度进行多种学习来对信号通路进行分组。第四，它可以通过跨数据集的多个网络的联合流形学习来描绘保守的和特定于上下文的信号通路。总体而言，这些功能使 CellChat 能够以一种易于解释的方式对复杂的细胞间通信进行解卷积，并从 scRNA-seq 数据中预测具有生物学意义的发现。

2. CellChat 识别通信模式并预测研究不足的途径的功能

作者通过将 CellChat 的功能应用于最近发布的几个来自胚胎发育和成人伤口愈合阶段的小鼠皮肤 scRNA-seq 数据集来展示 CellChat 的功能。皮肤的选择取决于之前在皮肤形态发生和再生方面的专业知识、其复杂的细胞组成以及皮肤中许多信号通路的作用已得到证实的事实，这使得基于文献的有意义的解释成为 CellChat 预测的一部分。首先，作者对第 12 天的小鼠皮肤伤口组织的 scRNA-seq 数据集进行 CellChat 分析。该数据集包含 21,898 个细胞，分为 25 个细胞组，包括 9 个成纤维细胞 (FIB) 、5 个髓细胞 (MYL) 和 6 个内皮细胞 (ENDO) 组，以及其他几种细胞类型，如 T 细胞 (TC) 、B 细胞(BC) 、树突状细胞 (DC) 和淋巴内皮细胞 (LYME) （Supplementary Fig. 2a–h）。

CellChat 在 25 个细胞组中检测到 60 个重要的配体-受体对，这些配体-受体对进一步分为 25 条信号通路，包括 TGFβ、non-canonical WNT (ncWNT)、TNF、SPP1、PTN、PDGF、CXCL、CCL 和 MIF 通路。对推断的 TGFβ 信号网络的网络中心性分析发现，几种骨髓细胞群是作用于成纤维细胞的 TGFβ 配体的最重要来源（Fig. 2a, b）。值得注意的是，一种骨髓细胞群 MYL-A 也是主要 mediator，表明它作为细胞间通讯的看门人 (gatekeeper) 的作用。这些发现与骨髓细胞在皮肤伤口愈合过程中引发炎症以及通过 TGFβ 信号传导驱动皮肤成纤维细胞激活中所发挥的已知关键作用一致。重要的是，CellChat 还预测，某些内皮细胞群以及一些成纤维细胞群（两者都是 TGFβ 配体的已知来源）对伤口中骨髓主导的 TGFβ 信号产生有显着贡献。这表明皮肤伤口中的 TGFβ 信号网络非常复杂且高度冗余，有多个配体源针对大部分伤口成纤维细胞。有趣的是，CellChat 显示伤口细胞之间的大多数 TGFβ 相互作用都是旁分泌的，只有一种成纤维细胞和一种骨髓细胞群表现出显着的自分泌信号（Fig. 2b）。值得注意的是，在所有已知的配体-受体对中，伤口 TGFβ 信号传导以 Tgfb1 配体及其多聚体 Tgfbr1/Tgfbr2 受体为主（Fig. 2c）。与 TGFβ 相比，CellChat 对推断的 ncWNT 信号网络的分析揭示了其非常独特的非冗余结构，仅具有一种配体 (Wnt5a) 和一组成纤维细胞 (FIB-D)，主要驱动 fibroblast-to-fibroblast、fibroblast-to-endothelial 以及较小程度上影响 fibroblast-to-myeloid 信号传导（Fig. 2d–f）。FIB-D 细胞高度表达 Crabp1，并且富含细胞周期基因（Supplementary Fig. 2d），这可能代表上伤口真皮中 Crabp1 阳性细胞的活跃循环子集。网络中心性分析证实 FIB-D 是控制通信的重要影响因素（Fig. 2e）。重要的是，最近报道了成纤维细胞中 WNT5A 表达的升高及其在疤痕形成中的作用。

a. Hierarchical plot 显示了推断出的 TGFβ 信号的细胞间通信网络。左图和右图分别突出了对 fibroblast 状态和其他 non-fibroblast 皮肤细胞状态的自分泌和旁分泌信号。实圆和开圆分别代表 source 和 target。圆的大小与每个细胞组中的细胞数量成正比，边的宽度表示通信概率。边的颜色与信号 source 相一致。
b. 热图基于计算出的 TGFβ 信号网络的四个网络中心性度量，显示了每个细胞组的相对重要性。
c. 伤口 TGFβ 信号通路主要由 Tgfb1 配体及其多聚体 Tgfbr1/Tgfbr2 受体所主导。
d-f. 推断出的 ncWNT 信号网络。与 TGFβ 相比，ncWNT 信号网络只有一个配体（Wnt5a），只有一群 fibroblasts（FIB-D）主要驱动 fibroblast-to-fibroblast，fibroblast-to-endothelial，fibroblast-to-myeloid signaling。
g. 推断出的分泌细胞的传出通信模式，显示了推断出的潜在模式与细胞群之间的对应关系，以及信号通路。细胞流的厚度表明了细胞群或信号通路对每个潜在模式的贡献。传出通信模式揭示了大部分输出的 fibroblast signaling 以 pattern #4 为特征，它代表多种途径，包括但不限于 ncWNT、SPP1、MK 和 PROS。所有输出的 myeloid cell signaling 通路均以模式#2为特征，代表 TGFβ、TNF、CSF、IL1 和 RANKL等通路。
h. 推断出的目标细胞的传入通信模式。传入的 fibroblast signaling 通路由两种 patterns #1 和 #3 主导，其中包括 TGFβ、ncWNT、PDGF、TNF、MK和PTN等信号通路。大多数进入的 myeloid cell signaling 通路以 pattern #4 为特征，由脑脊液和 CXCL 通路驱动。
i. 根据其功能相似性将信号通路投射到二维图像上。每个点代表一个信号通路的通信网络。点的大小与整体通信概率成正比。不同的颜色代表不同的信号通路组。
j. 两种不同的相似度度量被用来量化推断网络之间的相似性。这些例子显示了具有相似的主要 sources/targets 的功能相似性，以及具有相似的网络拓扑的结构相似性。
k. 根据其结构的相似性将信号通路投射到二维图像上。

除了探索各个通路的详细通讯之外，一个重要的问题是多个细胞群和信号通路如何协调发挥作用。为了解决这个问题，CellChat 采用基于非负矩阵分解的模式识别方法来识别全局通信模式，以及不同细胞组中的关键信号。该分析的输出是一组所谓的通信模式，它们在传出信号（即，将细胞视为发送者）或传入信号（即，将细胞视为接收者）的背景下将细胞群与信号通路连接起来。该分析的应用揭示了传出信号的五种模式（Fig. 2g）和传入信号的五种模式（Fig. 2h）。例如，该输出揭示了大部分传出成纤维细胞信号传导的特征为 pattern #4，它代表多种途径，包括但不限于 ncWNT、SPP1、MK 和 PROS（Fig. 2g）。所有传出的骨髓细胞信号传导均以 pattern #2 为特征，代表 TGFβ、TNF、CSF、IL1 和 RANKL 等途径。另一方面，靶细胞的通讯模式（Fig. 2h）显示传入的成纤维细胞信号传导由两种 patterns #1 和 #3 主导，其中包括 TGFβ 和 ncWNT 等信号传导途径，以及 PDGF、TNF、MK 、PTN 等。大多数传入骨髓细胞信号传导的特征是 pattern #4，由 CSF 和 CXCL 通路驱动。值得注意的是，Schwann 细胞的传入和传出信号与伤口成纤维细胞具有相同的 pattern #1（Fig. 2g-h）。这些结果表明：（1）同一组织中的两种不同细胞类型可以依赖很大程度上重叠的信号网络； (2) 某些细胞类型，例如成纤维细胞，同时激活多种信号传导模式和途径，而其他细胞类型，例如骨髓细胞或 B 细胞，依赖于更少且更同质的通信模式。此外，交叉参考传出和传入信号模式还可以快速了解给定细胞类型的自分泌作用与旁分泌作用途径。例如，伤口成纤维细胞之间的主要自分泌作用途径是 MK、SEMA3、PROS 和 ncWNT，主要的旁分泌作用骨髓至成纤维细胞途径是 TGFβ 和 TNF（Fig. 2g-h）。

此外，CellChat 能够量化所有重要信号通路之间的相似性，然后根据它们的细胞通信网络相似性对它们进行分组。可以根据功能或结构相似性进行分组。应用功能相似性分组确定了四组通路（Fig. 2i）。Group #1 以炎症途径（例如 TGFβ、TNF、IL、CCL）为主，主要代表从骨髓细胞和内皮细胞到成纤维细胞的旁分泌信号传导。Group #2 包括 ncWNT、EGF、GAS 和 PROS 通路，主要代表伤口成纤维细胞之间的自分泌信号传导。Group #3 包括 CXCL 和 APELIN 通路，代表来自内皮细胞的信号传导，而 group #4 包括 MK、PTN 和 SPP1 通路，代表混杂信号传导（即具有高连接性的信号传导），并且以来自成纤维细胞群和骨髓细胞的某些特定信号为主。通过识别与其他途径组合在一起的研究不足的途径（其作用众所周知），这种 CellChat 分析可以预测前者的假定功能。与基于功能相似性的分组不同，基于功能相似性的分组非常重视发送者和接收者细胞组之间的相似性，基于结构相似性的分组主要由信号网络拓扑的相似性驱动（Fig. 2j）。结构相似性分组还确定了四组信号通路（Fig. 2k）。Group #1 代表具有很少发送者和大量接收者的路径，例如 ncWNT；group #2 代表具有大量发送者和接收者的路径，例如 TGFβ 和 PTN；group #3 代表具有大量发送者和少量接收者的路径，例如 CCL 和 IL1；group #4 代表发送者和接收者很少的路径，例如 PROS、IL2 和 CXCL。因此，基于结构相似性的分组揭示了发送细胞和接收细胞如何利用给定信号通路的一般模式。总的来说，CellChat 可以识别给定 scRNA-seq 数据集中细胞间通讯的关键特征，并预测人们知之甚少的信号通路的假定功能。

3. CellChat 揭示了连续的细胞谱系相关信号事件

除了离散细胞状态之外，CellChat 框架还可以应用于沿着拟时序轨迹的连续细胞状态。作者使用胚胎日 E14.5 小鼠皮肤的 scRNA-seq 数据证明了这一实用性，此时真皮（dermal）和表皮（epidermal）细胞谱系都经历快速特化，并在发育中的毛囊内产生新的细胞类型。首先，作者使用扩散图（diffusion map）方法推断了真皮和表皮胚胎皮肤细胞的拟时序轨迹（Fig. 3a-b; Supplementary Fig. 3a–d）。真皮细胞轨迹（Dermal trajectory）的一端包含 Sox2-high 毛囊真皮凝聚 (DC) 细胞，被分为七组，其中包括五种成纤维细胞状态（FIB-A、FIB-B、FIB-C、FIB-D、FIB-E）和两个 DC 状态（DC-A 和 DC-B）。这些轨迹组的线性序列概括了胚胎皮肤成纤维细胞谱系规范过程的连续阶段（Fig. 3a）。胚胎表皮细胞轨迹（Epidermal trajectory）从基底（basal）表皮细胞开始，向 Edar-high 上皮基板（placode）细胞或向 Krt1-high 和 Lor-high 基底上层（suprabasal）表皮细胞进展。总的来说，表皮谱系规范事件由两个基底轨迹组、一个基板轨迹组和三个基底上层轨迹组代表（Fig. 3b）。

Fig.3 CellChat 在胚胎皮肤发育过程中沿拟时序轨迹的连续细胞状态中的应用

a. 左图：扩散映射将 dermal skin cells 投影到低维空间中，并展示了从 fibroblasts 到 DC (dermal condensate) cells 的真皮分化。根据它们在该空间中的位置，将细胞分组。右图：密度图显示每个类群中所选标记基因表达的分布。
b. 扩散图显示 epidermal trajectory 和相关标记基因表达的分布。
c. Hierarchical plot 显示 WNT 信号通路中，dermal 和 epidermal 的相互作用。左右部分分别显示自分泌和旁分泌信号传导到 dermal trajectory 和 epidermal trajectory。圆的大小与每个细胞组中的细胞数量成正比，边缘宽度表示通信概率。
d. 小提琴图显示了参与所推断的 WNT 信号网络的信号基因的表达分布。
e. 通过 ncWNT 信号通路产生的 dermal 和 epidermal 的相互作用。
f. 推断的 ncWNT 信号网络中涉及的信号基因的表达分布。
g. alluvial plot 显示的分泌细胞的输出信号模式，显示了推断的潜在模式与细胞群之间的对应关系，以及信号通路。流的厚度表明了细胞群或信号通路对每个潜在模式的贡献。每个模式的高度与其相关的细胞群或信号通路的数量成正比。输出模式揭示了发送细胞如何相互协调，以及它们如何与某些信号通路协调来驱动通信。
h. 靶细胞的输入信号模式。传入模式显示了目标细胞如何相互协调，以及它们如何与特定的信号通路协调，以响应传入信号。

作者应用 CellChat 来研究沿着这些连续细胞谱系状态的真皮-表皮（dermal-epidermal）通讯。预测了 22 条信号通路内的 88 种重要的配体-受体相互作用，包括 WNT、ncWNT、TGFβ、PDGF、NGF、FGF 和 SEMA3。先前的研究表明，胚胎皮肤中 DC 细胞的特化需要激活经典 WNT 信号传导。事实上，CellChat 推断的经典 WNT 信号网络表明表皮细胞是主要配体来源，它既以表皮细胞群之间的自分泌方式发挥作用，又以旁分泌方式从表皮细胞到真皮细胞发挥作用（Fig. 3c）。值得注意的是，两个 WNT 配体-受体对，即 Wnt6–Fzd10/Lrp6 和 Wnt6–Fzd2/Lrp6 是该通信网络的主要贡献者（Fig. 3d and Supplementary Fig. 4a），这与之前的报告一致，即 Wnt6 是胚胎小鼠皮肤中表达最高的典型 WNT 配体。ncWNT 通路的信号通讯网络与典型的 WNT 通路有很大不同。晚期成纤维细胞状态 FIB-E 是主要的 ncWNT 来源，以自分泌和旁分泌方式发出信号（Fig. 3e），Wnt5a-Fzd2 和 Wnt5-Fzd10 配体-受体对驱动信号传导（Fig. 3f and Supplementary Fig. 4b–c）。这些结果表明经典 WNT 和 ncWNT 通路在皮肤形态发生中的不同作用。在另一个例子中，作者分析了 FGF 信号网络（Supplementary Fig. 4d–h），发现它与 ncWNT 信号网络相似，具有额外的上皮基板衍生的 Fgf20 信号（Supplementary Fig. 4e and h）。这与基板衍生的 FGF20 信号在毛囊形态发生中的已知作用一致。在 TGFβ 途径的另一个独特例子中，上皮基板细胞和较小程度上的早期 DC-A 细胞是真皮细胞 TGFβ 配体的驱动来源（Supplementary Fig. 4i–k）。这些发现与 TGFβ 信号在早期毛囊形态发生中的已知作用一致。

然后，作者运行 CellChat 模式识别模块来揭示皮肤形态发生过程中的关键顺序信号事件。为了预测顺序信号事件，作者将通信模式分析与推断的拟时序细胞事件结合起来。真皮和表皮轨迹分析可能揭示了不同细胞类型的拟时序顺序，而通信模式分析则确定了某些细胞类型发送或接收的强信号。在信号传导的输出端，作者预测 FGF 和 GALECTIN 信号首先由 FIB-A 细胞分泌（Fig. 3g）。FIB-B 和 FIB-C 细胞随后协调 GAS 信号传导的产生。接下来，FIB-D 和 FIB-E 成纤维细胞与基底上表皮细胞协调分泌多种配体，用于 ncWNT、EGF、IGF、CXCL 和 SEMA3 等途径；而 DC-A 和上皮基板细胞共同分泌 TGFβ 途径的配体。同时，基底表皮细胞主要驱动 WNT、PDGF、NGF 和 VISFATIN 信号通路。另一方面，在信号传导的输入端，成纤维细胞由 patterns #1 和 #2 驱动，涉及 FGF、PDGF、SEMA3、TGFβ、IGF 和 GALECTIN 等途径（Fig. 3h）。DC 和上皮基板细胞由 pattern #4 驱动，其中包括 HH 和 CXCL 信号传导；基底表皮细胞由 pattern #3 途径主导——WNT、ncWNT 和 EGF；而基底上表皮细胞是 pattern #5 中 GRN（颗粒蛋白）信号传导的主要目标。总之，CellChat 分析忠实地恢复了许多在胚胎皮肤和毛囊形态发生中具有明确作用的信号事件，并系统地预测了沿着真皮和表皮细胞谱系轨迹的许多其他信号模式。

4. CellChat 预测空间共定位细胞群之间的关键信号传导事件

为了进一步证明 CellChat 的预测性质，作者研究了 E14.5 dermal condensate (DC) 和 epithelial placode 细胞之间的信号通讯，因为这些细胞在胚胎毛囊形成的初始阶段在空间上共定位并主动相互发送信号（Fig. 4a）。确定了三种 DC 状态 — pre-DC、DC1 和 DC2，以及一种 placode 状态（Supplementary Fig. 3e–f）。CellChat 对这四种细胞状态的分析确定 placode 细胞是主要的通讯 "hub"，它分别通过 44 个和 19 个配体-受体对分泌和接收信号（Fig. 4b）。DC 状态有显着的双向正向和反向信号，表明沿 DC-DC1-DC2 细胞谱系轨迹的细胞状态转变受到高度调控。具体来说，FGF 通路在所有四种状态之间表现出丰富的信号相互作用，其中 FGF 配体主要由 pre-DC 和 DC2 状态分泌（Fig. 4c）。Fgf10 是促进真皮 FGF 信号传导的主要配体（Supplementary Fig. 5a），它是已知的 DC 特征基因。Epithelial placode cells 以自分泌和旁分泌方式明显分泌 Fgf20 至所有三种 DC 状态（Supplementary Fig. 5a），这与基板衍生的 FGF20 信号在毛囊形态发生中的已知作用一致。对于早期毛囊形态发生中的另一个主要信号通路 - 经典 WNT，epithelial placode cells 是配体的主要来源（Fig. 4c），主要表达自分泌 Wnt3 和 Wnt6。CellChat 还预测，这种占主导地位的上皮自分泌 WNT 信号传导会得到少量 DC 衍生的 Wnt9a 旁分泌信号传导的补充（Supplementary Fig. 5b-d）。与典型的 WNT 相比，推断的 ncWNT 信号网络显示 DC 细胞仅表达一种配体 Wnt5a，该配体驱动旁分泌 DC 到基板和自分泌 DC 到 DC 信号传导（Supplementary Fig. 5e）。这一结果暗示了经典 WNT 和 ncWNT 通路在毛囊形态发生中的不同作用。

a. 在 E14.5 时，hair follicle (HF) 发育过程中的 placode, pre-DC, DC1 and DC2 cells 的空间图。DC: dermal condensate。
b. 任何一对细胞群之间显著配体-受体对的数量。边的宽度与配体-受体对的指示数量成正比。
c. 推断出的 FGF 和 WNT 信号网络。圆的大小与每个细胞组中的细胞数量成正比，边的宽度表示通信概率。
d. 所有重要的配体-受体对，有助于信号从 placode 发送到三种 DC 状态。点的颜色和大小代表计算出的通信概率和 p 值。p 值由 one-sided permutation test 计算得出。
e. 分泌细胞的输出通信模式，显示了所推断的潜在模式与细胞群之间的对应关系，以及信号通路。
f. 目标细胞的输入通信模式。
g. 推断的 Pros1-Axl 信号网络，以及 Pros1 配体、Axl 受体和细胞迁移标记物 Thy1 的 scRNA-seq 表达分布。边的宽度表示通信的概率。
h. RNAscope 数据（n =4 个独立实验）显示 E14.5 胚胎小鼠皮肤中 Edn3（红色）、Axl（绿色）和 Thy1（白色）转录本的空间分布。Epithelial placode 和 dermal condensate (DC) 用虚线进行注释和概述。右下角的实心白色弯曲箭头标记了 CellChat 预测的 Pros1-Axl 信号。DAPI（蓝绿色）染色核。 i. 推断的 Edn3-Ednrb 信号网络，以及黑素细胞标记物 Dct、Edn3 配体及其受体 Ednrb 的 scRNA-seq 表达分布。DC: dermal condensate; MELA: melanocytes。
j. RNAscope 数据（n = 4 个独立实验）显示了 E14.5 胚胎小鼠皮肤早期发育毛囊中 Dct（绿色）、Edn3（红色）和 Ednrb（白色）转录本的空间分布。箭头表示可能的黑素细胞数量。右上角的实心白色弯曲箭头标记了皮肤空间内预测的 Edn3-Ednrb 信号。

通过系统地研究预测的 placode-to-DC 信号，作者发现了 21 个配体受体对，涉及 DC 特化过程中的 WNT、TGFβ、SEMA3、PTN、PDGF、MK 和 FGF 信号通路（Fig. 4d）。模式识别分析进一步表明，pre-DC 状态和 DC2 状态共同协调 ncWNT、FGF、IGF、EDN 和 SEMA3 通路的传出信号（pattern #1 in Fig. 4e）。DC1 主要驱动 PROS 信号传导（pattern #3），而 epithelial placode cells 则驱动传出 WNT、TGFβ、PDGF、MK、PTN 和 PTH 信号传导（pattern #2, Supplementary Fig. 5f）。在信号传导结束时，pre-DC 细胞对 SEMA3 和 PTH 信号传导做出反应（pattern #3 in Fig. 4f）； DC1 和 DC2 细胞响应 TGFβ、PDGF、EDN 和 PROS 信号传导（pattern #1），epithelial placode cells 响应 WNT、ncWNT、IGF、MK 和 PTN 信号传导（pattern #2, Supplementary Fig. 5f）。

CellChat 揭示，在 E14.5，DC 细胞对自分泌 PROS 信号产生反应（Fig. 4g）。Pros1 是该通路的配体，通过受体酪氨酸激酶 Axl 发出信号。通过 Axl 的信号传导与赋予细胞在不同生物背景下具有迁移特性有关，包括 EMT 介导的癌症侵袭，并且最近显示定向迁移对于毛囊形态发生时正常 DC 的形成至关重要。作者通过 RNAscope 技术检查了 CellChat 对 DC 细胞中活性 PROS 信号传导的预测，其中 Edn3 作为 DC 标记，Axl 和 Thy1 (Cd90) 作为细胞迁移标记和 EMT 过程。正如 scRNA-seq 所预期的那样，Axl 表达与 Edn3 和 Thy1 表达共定位，集中在 DC 中，其他地方的水平显着较低（Fig. 4h）。该 RNAscope 结果与 DC 中自分泌 PROS 信号传导的可能性一致，可能是通过 Pros1-Axl 信号传导驱动的。

在 E14.5 的早期毛囊形成过程中，melanoblasts（黑色素细胞前体细胞）从真皮迁移到毛基板，然后分化为黑色素细胞。然而，黑素细胞迁移至基板的机制仍不完全清楚。因此，作者进一步研究了 placodes、DC 细胞和 melanocyte 细胞（包括三个黑素细胞亚群：MELA-A、MELA-B 和 MELA-C；see "Methods" section and Supplementary Fig. 3g）之间的细胞间通讯。CellChat 揭示黑素细胞通过以前未被识别的 EDN 信号对 DC 细胞产生强烈反应（Fig. 4i）。Edn3 是 EDN 通路的配体，可调节黑素细胞迁移。因此，CellChat 预测表明 DC 细胞诱导 melanocytes 的早期定向迁移。为了通过实验检验这一预测，作者使用 RNAscope 技术绘制了 Dct 表达的空间图谱，Dct 标记了 E14.5 胚胎小鼠皮肤中的晚期黑素细胞前体、Edn3 配体及其受体 Ednrb。正如预期的那样，Dct+ melanocytes（即 MELA-C 亚群）定位于上皮基板内及其周围。它们还表达 Ednrb。反过来，Edn3 在 DC 细胞（preDC、DC1 和 DC2 亚群）中特异性富集，而 Ednrb 也在部分 DC 细胞（可能是 DC2 亚群）中富集。DC 内分散的 Ednrb+/Edn3neg/Dctneg 细胞可能是未分化的 melanoblasts（即 MELA-A/B 亚群）（Fig. 4j）。这种空间 Edn3、Ednrb、Dct 共表达模式与 scRNA-seq 数据高度一致（Fig. 4i）。因此，作者的 RNAscope 结果证实了 CellChat 对从 DC 细胞到黑素细胞的 Edn3-Ednrb 信号传导的预测，这意味着 DC 细胞在诱导黑素细胞早期定向迁移到基板中的作用。它还显示了 DC 中潜在的自分泌 Edn3-Ednrb 信号传导。

5. 联合学习时间进程 scRNA-seq 数据以揭示动态通信模式

接下来，作者演示如何应用 CellChat 来研究同一组织中细胞间通讯的时间变化（Fig. 5a）。为此，作者对 E13.5 和 E14.5 的两个胚胎小鼠皮肤 scRNA-seq 数据集进行了组合分析。E13.5 和 E14.5 数据集的无监督聚类确定了 E13.5 和 E14.5 的 11 个皮肤细胞群以及 E14.5 特有的另外两个群（即 dermal DC 和 pericytes）（Supplementary Fig. 3a–d）。

a. embryonic skin 在 E13.5 和 E14.5 的细胞组成示意图。不同的细胞群体按颜色编码匹配。FIB-A: fibroblast type A; FIB-B: fibroblast type B; FIB-P: proliferative fibroblasts. MYL: myeloid cell; ENDO: endothelial cell; MELA: melanocytes;。
b. 将来自 E13.5 和 E14.5 的信号通路联合投影并聚类到共享的二位流形中，根据它们的功能相似性进行分类。圈形和正方形符号分别代表来自 E13.5 和 E14.5 的信号网络。每个点或正方形表示一个信号通路的通讯网络，大小与总通讯概率成比例。不同颜色代表不同组信号途径。
c. 每个路径组的放大视图。
d. 根据它们在共享二位流形中两两欧几里得距离对重叠信号途径进行排名。
e. 推断出在 E13.5 时 WNT 信号网络左右部分显示向真皮层和表皮层自分泌及旁分泌传导方式，圈大小与每个细胞群中的细胞数量成比例，边宽度表示通讯概率。
f. 每个配体-受体对于 E13.5 整体 WNT 信号网络的相对贡献。
g. E13.5 时 WNT 信号基因表达分布。
h. 推断出在 E14.5 时的 WNT 信号网络。
i. 每个配体-受体对于 E14.5 的相对贡献。
j. E14.5 时 WNT 信号基因表达分布。
k. 所有显著性信号途径根据它们在推断网络中信息流总量差异进行排名。红色标记为富集于 E13.5，黑色标记为同样富集于 E13.5 和 E14.5，绿色标记为更富集于 E14.5。
l. 点图显示了分泌细胞在 E13.5 和 E14.5 之间传出信号模式的比较。点大小与从模式识别分析计算得到的贡献得分成正比。更高的贡献得分意味着该信号通路在相应细胞群中更加丰富。

作者分别推断了上述两个数据集的细胞间通信，然后根据推断的通信网络的功能相似性，通过联合流形学习和分类对它们进行了分析。功能相似性分析需要两个数据集之间具有相同的细胞群组成。因此，对于此类分析，作者仅使用 E13.5 和 E14.5 数据集之间的 11 个常见细胞群。结果，与来自两个数据集的推断网络相关的信号通路被映射到共享的二维流形上并聚类成组。作者确定了四个通路组（Fig. 5b-c）。Groups #1 和 #3 以生长因子通路为主，如 PDGF、NGF、FGF、EGF 和 ANGPTL，而 groups #2 和 #5 则主要包含炎症相关通路，如 CCL、IL2、IL4、OSM、LIFR、VISFATIN。正如预期的那样，来自 E13.5 和 E14.5 的大多数相同信号通路被分组在一起，例如 CCL、CSF、ANGPTL、PDGF、VEGF、ncWNT 和 MK，表明这些通路对于这两个时期的皮肤形态发生都是至关重要的点，并且可能不会严格调节 E14.5 的新发育事件，例如毛囊形态发生或真皮成熟。然而，WNT 和 KIT 信号传导被分为不同的组，这与 WNT 信号传导在皮肤形态发生中的深刻和多方面的作用一致。通过计算共享二维流形中任意一对共享信号通路之间的欧几里德距离，作者观察到 WNT 和 KIT 存在较大距离，而 RANKL、IL2、FGF、GALECTIN、EGF、TGFβ 和 NGF 则存在较小程度的距离途径（Fig. 5d, Supplementary Fig. 6a-d）。作者专门研究了 WNT 通信在一天的皮肤发育过程中如何变化（Fig. 5e-j）。在两个胚胎时间点，基底表皮细胞是 WNT 配体的主要来源，成纤维细胞的贡献也较小。然而，与 E13.5 相比，当仅基底表皮细胞是 WNT 靶标时，E14.5 成纤维细胞获得了 WNT 反应性。此外，黑素细胞成为 WNT 信号传导的新次要来源，有助于推动 WNT 通信网络复杂性的整体增加。总的来说，联合流形学习能够识别经历胚胎阶段依赖性变化的信号通路。

接下来，作者比较了 E13.5 和 E14.5 时间点之间每个信号通路的信息流。给定信号路径的信息流由推断网络中所有细胞组对之间的通信概率之和定义。作者发现一些通路，包括 ANGPTL、APELIN、CSF、FGF、RANKL 和 TGFβ 在时间点之间保持相似的流量（black in Fig. 5k）。作者认为这些途径在两个时间点的皮肤发育中同样重要。相比之下，与 E13.5 相比，其他通路在 E14.5 处的信息流显着改变：（i）关闭（NT，TWEAK），（ii）减少（例如PTN，MK），（iii）打开（ TNF)，或 (iv) 增加（例如 WNT、GALECTIN、KIT、IGF、VEGF）。

此外，作者使用模式识别分析研究了所有重要通路中传出信号的详细变化（Fig. 5l）。作者发现皮肤成纤维细胞改变了 E13.5 和 E14.5 之间的主要和次要传出通讯模式。在 E13.5，早期成纤维细胞状态 FIB-A 主导传出信号。在一天的时间内，晚期成纤维细胞状态 FIB-B 和 FIB-P 的次要信号转变成主要信号，包括 ANGPTL、IGF、VEGF、KIT、SEMA3 通路（Supplementary Fig. 6a-h）。这表明配体表达水平和模式的平衡变化。另一方面，内皮细胞 (ENDO)、黑素细胞 (MELA) 和皮肤驻留髓样细胞 (MYL) 保持其传出信号模式。在表皮中观察到复杂的传出信号动力学。E14.5 的基底表皮细胞维持 NGF、PDGF、VISFATIN 和 WNT 的分泌信号传导模式，但关闭包括 KIT 和神经营养蛋白 (NT) 的信号传导，并打开包括 VEGF、PTN 和 LIFR 的信号传导。另一方面，棘状表皮细胞明显地重新设计了它们的传出信号。它们关闭或减少四种途径，例如 PDGF（Supplementary Fig. 6e and 6g），打开 SEMA3 途径，并维持三种途径 —— IGF、MK 和 PTN（Supplementary Fig. 6f and 6h）。棘细胞信号传导的显着变化与已知的表皮分层事件一致，该事件发生在小鼠 E13.5 和 E14.5 之间的过渡期。总而言之，CellChat 对联合 scRNA-seq 数据集的分析能够对跨生物时代（例如胚胎发育时间尺度）的细胞间通讯模式进行多方面评估。

6. 联合学习不同 scRNA-seq 数据集之间保守的和特定情景的通信模式

作者还使用 CellChat 比较了两个 scRNA-seq 数据集之间的细胞间通讯模式，一个来自胚胎 E13.5 皮肤，另一个来自成人第 12 天伤口皮肤（Fig. 6a）。虽然代表来自同一物种（小鼠）的相同组织（皮肤）并包含一些相同的主要细胞类型（例如成纤维细胞），但这两个数据集来自截然不同的生物背景——胚胎形态发生与伤口诱导修复。因此，本案例研究提供了一个发现信号逻辑和信号保护原理的机会。首先，作者根据拓扑相似性对推断的通信网络进行联合流形学习和分类（由于细胞类型组成差异很大，因此无法执行功能相似性）。作者确定了四个信号通路组（Fig. 6b-c）。有趣的是，没有一个组对于给定的数据集来说是唯一的，这表明整个通信范围都在两种皮肤状态中得到体现。然而，存在特定于数据集的富集，特别是在 groups #1 和 # 4 中，它们以胚胎皮肤的信号网络为主（分别为 14 组中的 8 组和 9 组中的 6 组）。另外两组 #2 和 #3 几乎均等地由通信网络贡献，并且包含来自两种皮肤状态的多个重叠路径。通过计算共享二维空间中任意一对共享信号通路之间的欧几里德距离，作者观察到 IGF、PDGF、CSF、PROS 和 CCL 等信号通路之间存在较大距离（Supplementary Fig. 7a-b），表明这些路径表现出显着不同的通信网络架构。然而，其他信号通路显示出相对较小的距离，包括 ANGPTL、RANKL、TGFb、SEMA3、IL2、PTN、ncWNT、MK、EGF、APELN 和 EDN（Supplementary Fig. 7c），它们也分组在一起（Fig. 6c–d)。这表明两种皮肤状态下这些重叠路径具有相似的通信网络架构。仔细观察 MK (Midkine) 通路（Fig. 6e–f）显示其高信号冗余（即多个信号源）和高靶点混杂性（即所有细胞群都可以作为 MK 靶点）。后一个发现表明某些途径具有高度保守的信号传导结构（即高度冗余），这在很大程度上独立于组织的特定细胞组成。

a. 细胞组成的示意图，显示了在 E13.5 期间的胚胎形态发生和在第 12 天创伤诱导修复期间皮肤的不同细胞群。不同的细胞群按颜色编码。
b. 将来自 E13.5 和创伤信号通路联合投影并聚类到共享二维流形上，根据推断网络结构相似性进行分类。圆形和正方形符号分别代表来自 E13.5 和创伤的信号网络。每个圆或正方形表示一个信号通路的通讯网络。圆或正方形大小与该信号网络总通讯概率成比例。不同颜色代表不同组信号途径。
c. 放大每个路径组视图。
d. 基于它们在共享二维流型中成对欧几里得距离重叠排名较高距离更大意味着差异更大，在 E13.5 和创伤之间重叠的信号途径被排名列出，并且根据它们在 MK 信号途径中推断出来。
e-f. Hierarchical plot 显示了 E13.5 和创伤时期 MK 信号通路之间推断出来细胞间通信网络。圈的大小与每个细胞组中的细胞数量成比例，边宽度表示通讯概率。
g. 所有重要信号途径都基于 E13.5 和创伤之间推断网络中整体信息流的差异进行排名。信号网络的总体信息流通过总结该网络中所有通讯概率来计算。红色着色的顶部信号途径在 E13.5 中更丰富，绿色底部着色的则在创伤期间更丰富。

作者还比较了两个皮肤数据集的信息流（即总体通信概率）。有趣的是，34 条途径中有 19 条在胚胎皮肤和成人皮肤伤口中都高度活跃，尽管水平不同（Fig. 6g）。这些可能代表皮肤功能所需的核心信号通路，独立于生物时间尺度的特定点（即胚胎与成人）。九种途径仅在胚胎皮肤中活跃。其中包括皮肤形态发生的重要途径，如 FGF 和 WNT。四种途径在受伤皮肤中特别活跃，包括已知的伤口诱导皮肤修复调节因子 SPP1（骨桥蛋白）、MIF（巨噬细胞迁移抑制因子）和 IL1。总而言之，这种 CellChat 方法允许系统级分类和发现信号通信网络架构原理。

7. 联合学习正常和患病的人类皮肤，以发现响应疾病的主要信号变化

由于 CellChatDB 还包括人类精心设计的配体-受体相互作用，因此作者接下来使用 CellChat 使用最近发布的人类皮肤 scRNA-seq 数据集来检测特应性皮炎 (AD) 患者的所谓病变（diseased）和非病变（normal）皮肤之间的信号变化（Fig. 7a）。最初的研究表明，病变皮肤富含从炎症成纤维细胞到炎症免疫细胞（包括树突状细胞（DC）和 T 细胞（TC））的趋化因子信号（包括 CCL19）。使用免疫荧光染色对此进行了验证。因此，作者使用 CellChat 来研究成纤维细胞（四个亚群：APOE + FIB、FBN1 + FIB、COL11A + FIB 和 Inflam.FIB）、DCs（四个亚群：cDC1、cDC2、LC 和 Inflam.DC）和 TCs（四个亚群：TC、Inflam.TC、CD40LG + TC 和 NKT）之间的细胞间通讯（Supplementary Fig. 8a–e）。

a. scRNA-seq 在特应性皮炎患者的非损伤（NL，正常）和损伤（LS，疾病）人体皮肤细胞上的示意图。
b. 将来自 NL 和 LS 皮肤的信号通路联合投影和聚类到共享二维流形中，根据推断网络的功能相似性。圆形和方形符号分别代表来自 NL 和 LS 的信号网络。每个点或正方形表示一个信号通路的通讯网络。点或正方形大小与通讯概率成比例。不同颜色代表不同组信号途径。
c. 基于推断网络中 NL 和 LS 之间整体信息流差异对显著信号途径进行排名。一个信号网络的总信息流通过汇总该网络中所有通讯概率计算得出。顶部用红色标记的信号途径富集于 NL 皮肤中，而绿色标记的则富集于 LS 皮肤中。
d. 比较了 NL 和 LS 皮肤之间显著的配体-受体对，这有助于信号传递 from Inflam.FIB (i.e., inflammatory fibroblasts) to dendritic cells (DC) and T cells (TC) including cDC1, cDC2, LS, Inflam.DC, TC, Inflam.TC, CD40LG + TC, and NKT subpopulations。突出显示了先前使用免疫荧光染色验证的 CCL19-CCR7 信号通路。点的颜色反映通讯概率，点的大小表示计算得出的 p 值。空白处表示通讯概率为零。p 值是用 one-sided permutation test 计算得出的。
e. Ligand CCL19 及其受体 CCR7 在 NL（红色）和 LS（绿色）皮肤中表达分布情况。
f. 层次聚类图显示了 CCL19-CCR7 信号传递在 LS 皮肤中推断到细胞间交流网络，左右两部分分别展示自分泌和旁分泌信号传递至成纤维细胞和免疫细胞，圆的大小与每个细胞组中的细胞数量成比例，边的宽度代表通讯概率。请注意，CellChat 预测 NL 皮肤中没有显着的 CCL19-CCR7 信号传递。

作者分别推断非病变（NL）和病变（LS）皮肤的细胞间通信网络，然后将它们联合映射到共享的二维流形上，并根据功能相似性将它们聚类成组。作者确定了四个通路组（Fig. 7b）。几乎所有来自 NL 和 LS 的相同信号通路都被分组在一起，例如 VEGF、GAS、LIGHT、CD40 和 MIF，表明这些通路对于非病变和病变皮肤都是必需的，并且可能对疾病发病机制没有重要影响。通过比较非病灶和病灶皮肤之间的整体通讯概率，作者发现 16 条信号通路中有 11 条在病灶皮肤中高度活跃，其中包括 9 条涉及炎症和免疫反应的通路，如CXCL、LIGHT、GLAECTIN、COMPLMENT、MIF、 CSF、IL4、CCL 和 TNF（Fig. 7c）。四种途径在病变皮肤中特别活跃，包括已知的炎症信号 CSF、IL4、CCL 和 TNF，表明这些途径可能对疾病进展发挥重要作用。针对 CCL 信号传导，CellChat 确定配体-受体对 CCL19-CCR7 是最重要的信号传导，有助于从 Inflam.FIB 到 Inflam.DC 的通讯（Fig. 7d–f）。这与报道的实验结果一致。与非病变皮肤相比，配体 MIF 及其多亚基受体 CD74/CD44 被发现是病变皮肤中从 Inflam.FIB 到 Inflam.TC 的主要信号传导（Fig. 7d and Supplementary Fig. 9a–c）。总之，CellChat 使用人类病变和非病变皮肤的例子进行联合分析，能够发现可能驱动疾病发病机制的主要信号变化。

8. 与其他细胞间通讯推理工具的比较

作者使用 CellChat 分析的相同四个小鼠皮肤数据集，将 CellChat 与其他三种推断细胞间通信的工具（SingleCellSignalR、iTALK 和 CellPhoneDB）进行了比较。目前现有的工具，例如 SingleCellSignalR 和 iTALK，通常仅使用一种配体/一种受体基因对，很大程度上忽略了多种受体的影响。作者计算了由上述事实引起的误报交互的百分比。假阳性相互作用被定义为与这些工具部分识别的多亚基的相互作用。作者发现 SingleCellSignalR 和 iTALK 识别的假阳性相互作用的平均率分别为 10.6% 和 14.3%（Supplementary Fig. 10），这表明准确表示已知配体-受体相互作用的重要性。值得注意的是，未能检测到与多亚基相互作用也可能是由于未使用 scRNA-seq 捕获的受体多亚基表达低所致。

作者还比较了 CellChat 与 CellPhoneDB 的性能，后者考虑了多亚基配体-受体复合物。作者推断，如果任何给定方法的预测与不止一种其他方法的预测有更显着的重叠，则可以认为该方法更准确。作者发现，在所有四个 scRNA-seq 数据集中，CellChat 预测与 SingleCellSignalR 和 iTALK 预测有更多重叠的交互（Supplementary Fig. 11a）。 CellChat 和 CellPhoneDB 共享约 50% 的预测交互（Supplementary Fig. 11a）。为了评估推断通信对输入数据的敏感性，作者对每个数据集中细胞总数的 90%、80% 或 70% 进行二次采样，然后计算真阳性率 (TPR)、假阳性率 (FPR)和准确度（ACC），通过将子采样数据集与原始数据集进行比较。与 CellPhoneDB 相比，CellChat 产生了略高的 TPR、更低的 FPR 和更高的 ACC（Supplementary Fig. 11b）。CellChat 和 CellPhoneDB 对于二次采样都相对稳健，这可能是因为这两种方法都基于细胞簇推断细胞间通信。在分析快速增长的 scRNA-seq 数据量时，子采样方面的这种鲁棒性非常有用。

接下来，作者以 E14.5 胚胎小鼠皮肤中的四个空间共定位细胞群为例，比较了由 CellChat、CellPhoneDB、iTALK 和 SingleCellSignalR 推断的细胞间通信网络（Fig. 4）。作者比较了 CellChat 和其他方法之间任意两个细胞亚群的推断显着配体-受体 (L-R) 对。这里只保留 iTALK 和 SingleCellSignalR 推断的前 10% 的 L-R 对（最重要），以确保 L-R 对的数量与 CellChat 的相当。通过上述四种方法推断的两个细胞亚群之间的 L-R 对的平均数量分别为 12、37、14 和 12（Supplementary Table 1）。作者发现 CellChat 与 CellPhoneDB 共享的 L-R 对多于与 iTALK 共享的 L-R 对，这可能是因为 CellChat 和 CellPhoneDB 都考虑多亚基复合物并使用统计方法确定重要的 L-R 对。SingleCellSignalR 与其他三种方法共享的 L-R 对很少，这表明量化和排序 L-R 相互作用的逻辑可能不同。此外，CellChat 和 CellPhoneDB 之间的大多数共享 L-R 对均被 CellPhoneDB 独立列为顶级对（Supplementary Data 1）。该结果表明，虽然 CellChat 推断的 L-R 对比 CellPhoneDB 少，但它捕获了最强（也可能是最重要）的 L-R 相互作用。

作者还系统地评估了不同的方法，基于这样的假设：空间相邻的细胞类型应该比空间遥远的细胞具有更强的细胞间通讯。作者研究了 E14.5 小鼠胚胎皮肤中四种空间共定位细胞群的细胞间通讯，包括 Placodes、pre-DC、DC1 和 DC2（Fig. 4）。作者现在添加了七种可能在空间上与上述四种细胞群不相邻的细胞类型 - FIB（成纤维细胞）、MELA（黑素细胞）、Spinous（棘上皮细胞）、MYL（骨髓细胞）、Immune（其他免疫细胞）、ENDO （内皮细胞）和肌肉。然后，计算了推断的相互作用的数量，以及每种细胞类型与四个空间共域细胞群之间的相互作用概率或分数的总和。作者发现，无论是在相互作用数量还是相互作用概率方面，CellChat 始终捕捉到空间相邻细胞中比远处细胞更强的相互作用（Supplementary Fig. 12a-b）。 CellPhoneDB 在区分空间相邻的小区和远处的小区方面也表现良好。对于 FIB、MELA、MYL 和 ENDO，与空间遥远的细胞相比，iTALK 未能捕获空间相邻细胞中更强的相互作用。SingleCellSignalR 对于 FIB 和 ENDO 也失败了。通过一起考虑所有七种细胞类型，作者发现 CellChat 和 CellPhoneDB 都可以显着区分空间相邻的细胞和远处的细胞，而 iTALK 和 SingleCellSignalR 预测空间相邻的细胞比远处的细胞有更强的相互作用，没有统计学上的显着差异（Supplementary Fig. 12c）。由于 CellPhoneDB 比 CellChat 推断出更多的交互，因此我们测试了 CellPhoneDB 预测的顶级交互是否也可以区分空间上相邻的细胞和远处的细胞。对于 CellPhoneDB 预测的前 10%、前 20% 和前 30% 相互作用，空间相邻和远处细胞之间的差异并不像 CellChat 那样显着（Supplementary Fig. 13a-b），这表明 CellChat 在捕获更强的相互作用方面表现更好。互动。总之，作者的分析表明，尽管 CellChat 产生的交互较少，但它在预测更强的交互方面表现良好。

Supplementary Table 2 总结了 CellChat 的独特特征和功能及其与其他相关工具的比较。首先，CellChatDB 数据库不仅包含配体-受体复合物的多亚基结构，还包含可溶性和膜结合的刺激和抑制辅助因子，领先比其他工具使用的数据库更全面。作者还定量地展示了 CellChatDB 与其他现有类似数据库（包括 CellTalkDB、CellPhoneDB、iTALK、SingleCellSignalR、Ramilowski2015、NicheNet 和 ICELLNET）相比的差异和优势。与上述数据库相比，CellChatDB 为社区研究具有生物学意义的细胞间通讯提供了重要资源（Supplementary Fig. 1b and Supplementary Note 1）。其次，CellChat 允许用户输入数据的低维表示，这在分析沿伪时间轨迹的连续状态时特别有用。第三，CellChat 可以从推断的通信中提取更高阶的信息，用于识别主要信号源、目标和重要介质，以及预测不同细胞类型之间的协调反应。第四，CellChat 可以根据信号通路通信模式的相似性对信号通路进行分组，以识别具有相似架构和可能功能的信号通路。最后，CellChat 可以通过同时对多个通信网络进行多种学习来揭示保守的与特定上下文的通信模式。

讨论

在这项工作中，作者报告了一个信号配体-受体相互作用的数据库，该数据库考虑了配体-受体复合物的多聚结构以及可溶性和膜结合的刺激和抑制辅助因子对核心相互作用的额外影响。通过基于同行评审文献的系统手动管理，配体-受体对也被分类为功能相关的信号通路。全面概括已知的分子相互作用对于从 scRNA-seq 数据中开发对细胞间通讯具有生物学意义的理解至关重要。例如，通过 BMP、IL、Interferon、TGFβ 途径进行的信号传导需要存在不止一种膜结合受体亚基。此外，许多途径，例如 BMP 和 WNT，都受到其辅助因子的显着调节，无论是正向还是负向调节。CellChatDB 是第一个手动策划的考虑多聚体结构的小鼠信号相互作用数据库。尽管用户可以使用 biomaRt 等可用工具将人类基因映射到小鼠直系同源物，但在小鼠中发现了一些分子相互作用，但在人类中没有，反之亦然，并且这些分子相互作用通常在这种映射过程中丢失。CellChatDB 还通过首先自动映射到人类直向同源物，然后手动添加人类特有的相互作用来提供人类的信号传导相互作用。

在研究细胞间通讯时整合所有已知的分子相互作用需要新的建模框架。为此，作者推导出了一个基于大规模行动的模型，用于量化给定配体与其同源受体之间的通信概率。作者通过考虑每组细胞在所有测序细胞中的比例来建模两个细胞组之间的信号通信概率。这很重要，因为丰富的细胞群往往比稀有的细胞群发出更强的信号。随着人类细胞图谱中未排序的单细胞转录组数据集数量的不断增加，具有这种考虑的工具可能会有很高的需求。对于有兴趣分析分选富集的单细胞的用户，提供了一个选项，可以在推断细胞间通信时消除群体大小的潜在伪影。此外，CellChat 通过亚基的几何平均值来估计配体的水平。由于单个细胞中 mRNA 含量较低，scRNA-seq 数据中经常发生丢失事件，导致亚基表达可能为零。然而，丢失不太可能影响 CellChat 预测的强信号，因为丢失通常发生在低表达的基因上。

CellChat R 软件包是一个多功能且易于使用的工具包，用于根据任何给定的 scRNA-seq 数据推断、分析和可视化细胞间通信。它提供了多种图形输出，以方便不同的后期分析任务。特别值得注意的是作者定制的层次图，它提供了一种直观的方式来可视化给定通路的信号传导的复杂细节，包括：(i) 源和目标细胞群的清晰视图，(ii) 易于识别的方向性和概率信号传导，以及（iii）旁分泌与自分泌信号传导联系。作者通过将 CellChat 应用于寻找连续的细胞谱系相关信号事件、空间共定位细胞群之间的通信、时间进程 scRNA-seq 数据的时间变化以及来自不同生物背景的数据集之间的保守且特定于上下文的通信来展示 CellChat 的多样化功能。

作者还构建了一个用户友好的基于网络的 CellChat Explorer (http://www.cellchat.org/) ，其中包含两个主要组件：(a) 配体-受体相互作用浏览器，它可以轻松探索作者的配体-受体相互作用数据库 CellChatDB，以及 (b) 细胞间通信 Atlas Explorer，它可以轻松探索细胞间通信。对于任何已由 CellChat R 软件包处理的给定 scRNA-seq 数据集，可以将预测结果托管在服务器上，从而轻松探索和比较细胞间通信。虽然目前细胞-细胞通讯图谱仅托管本研究中分析的皮肤 scRNA-seq 数据集，但作者预计它会快速增长，成为社区驱动的网络门户，用于单细胞广泛组织中的细胞-细胞通讯解决。

CellChat 的成功在于利用基于质量作用的模型来整合所有已知的分子相互作用，包括具有多亚基结构的配体和受体之间的核心相互作用，以及辅因子的额外调节。虽然配体-受体相互作用和质量作用定律发生在蛋白质水平，但 mRNA 水平通常用于近似蛋白质水平。更高水平的分子细节（例如单个细胞中的蛋白质水平）可以进一步提高 CellChat 和相关工具的建模准确性。由于目前捕获单细胞蛋白质组信息的技术困难，配体-受体相互作用的全面建模仍然具有挑战性。在质量作用模型中确定一组具有生物学意义的参数仍然具有挑战性，特别是考虑到不同对的配体和受体通常具有不同的解离常数（即希尔函数中的参数 Kh）和不同的协同程度（即参数希尔函数中的 n）。尽管这些参数在当前的模型中缺乏明确的生物学联系，但希尔函数可以被视为配体-受体相互作用的非线性近似。通过计算使用参数 Kh 和 n 的不同选择推断的相互作用之间的杰卡德相似度，作者注意到，对于所有四个测试数据集，CellChat 推断的配体-受体相互作用对于某些范围内的参数相对稳健（Supplementary Fig. 14）。

CellChat 通信模式分析可以揭示不同细胞类型之间的协调反应。不同的细胞类型可能同时激活相同的细胞类型无关的信号传导模式或不同的细胞类型特异性信号传导模式。在恢复协调响应时，不同数量的模式提供不同的分辨率（Supplementary Note 2; Supplementary Fig. 15）。该分析可能有助于推导出一般的细胞间通信原理。

细胞聚类是使用 CellChat 和其他工具（例如 CellPhoneDB、iTALK 和 SingleCellSignalR）进行细胞间通信分析的先决条件。虽然不同数量的细胞簇可能自然地影响推断的配体-受体相互作用，但对于固定的簇数，使用不同方法或参数的聚类结果不太可能对推断的配体-受体相互作用产生重大影响。这是因为 CellChat 的细胞间通讯是在簇水平上推断的，仅取决于每个细胞簇中平均基因表达的估计。作者使用具有四个空间共定位细胞亚群的 E14.5 小鼠胚胎皮肤数据集示例演示了这两点（Supplementary Note 2; Supplementary Fig. 16）。一般来说，在进行细胞间通讯分析之前，需要仔细进行细胞聚类，以便捕获具有生物学意义的细胞群。

推断的配体-受体对的数量显然取决于计算每个细胞组的平均基因表达的方法。在这里，作者通过计算每个细胞组的平均基因表达量，使用不同的方法系统地探索了推断的配体-受体对，包括平均值（即简单地计算平均基因表达量）、5%截断平均值（即通过丢弃来计算平均基因表达量）数据两端各 5%）、10% 截断平均值、三均值（即 CellChat 中使用的方法）和中位数。对于四个研究数据集，使用 trimean 计算平均基因表达时，与 10% 的截断平均值相比，丢弃的配体-受体对大约多了 15%（Supplementary Fig. 17）。与其他细胞间通讯工具（例如使用 10% 截断平均值的 CellPhoneDB）相比，CellChat 产生的配体-受体相互作用较少。然而，正如对空间相邻亚群的比较研究（Supplementary Fig. 13a, b）所示，CellChat 在预测更强的相互作用方面表现良好。

尽管作者发现 CellChat 的预测可以在很大程度上概括已知的生物学，但由于缺乏基本事实，对预测的细胞间通信网络的系统评估具有挑战性。在这里，作者采用三种策略来比较不同计算方法的性能。首先，作者推断更准确的方法将与其他方法有更大比例的重叠预测。然而，这种假设有以下两个局限性：（1）无论准确性如何，相似的方法往往会产生相似的结果； (2) 每种方法中使用的不同配体-受体数据库可能有助于预测相互作用的多样性。其次，作者全面比较了特定数据集上任意两个细胞亚群的推断相互作用。发现 CellChat 和其他方法之间的共享交互被包括 CellPhoneDB 在内的其他方法独立地列为顶级对。第三，作者推断空间相邻的细胞类型应该比空间遥远的细胞具有更强的细胞间通讯。CellChat 在区分空间相邻和遥远的细胞方面表现得更好，无论是在交互数量还是交互强度方面。总之，作者的分析表明，尽管 CellChat 产生的交互作用比其他方法少，但它在预测更强的交互作用方面表现良好，这有助于缩小交互作用范围以进行进一步的实验验证。其他类型的单细胞数据，例如蛋白质组学和空间转录组学（如果可用）对于未来研究中的基准测试和优化这些细胞间通讯方法也很有帮助且很重要。

空间分辨转录组学技术的最新进展为探索组织中细胞的空间组织提供了机会。空间信息与 scRNA-seq 数据的整合可能会为细胞串扰提供新的见解。当前版本的 CellChat 提供了一种易于使用的工具，用于对传统的、非空间解析的 scRNA-seq 数据进行细胞间通讯分析。虽然它还有待测试，但我们相信它可以相对容易地调整，例如通过引入细胞间信号传导的空间限制，以在空间解析的转录组数据集上构建细胞间通信网络。随着单细胞多组学数据变得越来越普遍，我们预计像 CellChat 这样能够执行系统级分析的方法将成为有用的假设生成工具，其预测能力将超越分类能力细胞群并建立它们的谱系关系，这目前主导着单细胞基因组学研究。

「结束」