Nat Med 病理AI系列｜人工智能在肝病临床试验中的应用·顶刊精析·24-11-06

小罗碎碎念

今天分析Nature Medicine病理AI系列的第6篇文章——《AI-based automation of enrollment criteria and endpoint assessment in clinical trials in liver diseases》。

Nat Med病理AI系列推文总结

这篇文章介绍了一种基于人工智能的测量工具AIM-MASH，它能够提高非酒精性脂肪性肝炎（MASH）临床试验中组织学评分的准确性和可重复性。

作者角色	作者姓名	单位名称（中文）
第一作者	Janani S. Iyer	PathAI, Boston, MA, USA.
第一作者	Dinkar Juyal	PathAI, Boston, MA, USA.
第一作者	Quang Le	PathAI, Boston, MA, USA.
第一作者	Zahil Shanis	PathAI, Boston, MA, USA.
通讯作者	Andrew H. Beck	PathAI, Boston, MA, USA.
通讯作者	Ilan Wapinski	PathAI, Boston, MA, USA.

注意，PathAI 是一家位于美国马萨诸塞州波士顿的公司，专注于使用人工智能技术进行病理学研究和诊断。

文章的主要内容如下：

研究背景：非酒精性脂肪性肝炎（MASH，以前称为非酒精性脂肪性肝炎）的临床试验需要对组织学评分进行评估，以确定纳入标准和终点。然而，对组织学评分的解释差异影响了临床试验的结果。
AIM-MASH工具的开发：研究者开发了一种基于人工智能的测量（AIM）工具，用于MASH组织学评分（AIM-MASH）。这个工具在预测MASH临床研究网络（CRN）坏死炎症等级和纤维化阶段方面具有可重复性，并且与病理专家的共识评分一致。
AIM-MASH的性能：AIM-MASH在连续评分关键组织学特征方面与病理专家的平均评分和非侵入性生物标志物强相关，并且能够预测3期和4期纤维化患者无进展生存期。
在ATLAS试验中的回顾性分析：在ATLAS试验（NCT03449446）中，接受研究治疗的患者的纤维化连续变化与安慰剂相比更大，这表明AIM-MASH可能有助于病理学家在MASH临床试验中进行组织学审查，减少评估者间差异，提供更敏感和可重复的患者反应度量。
MASH的流行病学和治疗：MASH是导致肝硬化和肝细胞癌的常见原因，也是美国女性和老年人肝脏移植的最常见指征。最近，resmetirom是第一个获得监管批准用于治疗MASH的治疗方法。
组织学终点的挑战：尽管组织学终点在MASH临床试验中被接受，但评分系统的敏感性有限，以及手动评估组织学终点的变异性可能导致治疗反应的不完全测量、临床试验失败、难以确定适当的研究人群以及研究参与者的无意包含或排除。
AIM-MASH的临床应用：AIM-MASH在评估临床试验的纳入标准和终点方面显示出与平均病理学家相比的一致性，并且在预测治疗反应方面显示出潜在的应用价值。
连续评分系统：作为对MASH CRN序数量表评分的替代方案，研究者开发了一种连续评分系统，可以检测序数量表范围内的组织学变化。
结论：AIM-MASH通过AI衍生的MASH CRN序数量表评分和基于AI的定性和定量度量，一致地预测MASH的组织学生物标志物的位置、范围和严重程度，有助于病理学家在MASH临床试验中进行评估。

文章强调了AI在提高病理评估的准确性和可重复性方面的潜力，并探讨了其在临床试验中的潜在应用。

一、模型部署流程

在正式分析模型之前，我需要先解释一个概念——“Trichrome”。

Trichrome这个词通常指的是一种染色技术，称为三色染色（Trichrome staining），这是一种用于组织学和病理学中的染色方法，用于在显微镜下对组织切片进行染色，以便更清晰地区分不同的组织结构和成分。

三色染色通过使用三种不同的染料对组织切片进行染色，每种染料针对不同的组织成分，从而能够突出显示特定的组织特征。

在三色染色中，常用的染料包括：

伊红（Eosin）：通常用于染色细胞质和胶原纤维，使其呈现粉红色或红色。
亮绿（Light Green）：用于染色肌肉或其他蛋白质丰富的区域，使其呈现绿色。
甲基蓝（Methyl Blue）：用于染色细胞核，使其呈现蓝色。

通过这种染色方法，病理学家可以更容易地区分和识别组织中的纤维化、炎症、细胞损伤和其他病变。在非酒精性脂肪性肝炎（MASH）等肝脏疾病的研究中，三色染色特别有用，因为它可以帮助识别和评估肝纤维化的程度，这对于疾病的诊断和治疗反应的评估至关重要。

1-1：整体框架

首先是两种模态的输入——HE染色以及三色染色的图像，随后通过基于CNN的模型去除背景（检测伪影并删除），完成该步骤以后，再通过基于CNN的模型完成图像的分割，最终得到WSI对应的像素级预测结果。

下一步将完成基于AI的MASH CRN评分——使用GNN模型对每个组织学特征（例如，纤维化或脂肪变性）的CNN像素级预测进行聚类，并根据聚类空间组织预测得分。为了纠正病理学家的偏见，GNN模型被指定为“混合效应”模型，学习偏差，并使用仅基于无偏估计的预测来部署GNN。

GNN模型提取的特征可以纠正病理学家中存在的偏差，随后可以产生患者级别的MASH CRN MAS成分得分和纤维化阶段的预测。

1-2：CNN和GNN模型的训练与预测

这张图片展示了一个基于卷积神经网络（CNN）的病理图像分析流程，分为训练和推断两个阶段。

CNN，卷积神经网络；GNN，图神经网络；AIM，基于智能的测量；MASH，代谢功能障碍相关脂肪性肝炎。

训练阶段（Training）：
- 注释（Annotation）：首先，病理图像被标注了不同的病变类型，包括门脉炎症（Portal Inflammation）、界面肝炎（Interface Hepatitis）和淋巴细胞（Lymphocytes）。这些标注是由专家进行的。
- CNN：标注后的图像被输入到卷积神经网络中。CNN通过处理这些图像，学习识别不同的病理特征和病变类型。网络的层次结构包括多个卷积层、池化层和全连接层，逐步提取和提炼图像中的特征。
推断阶段（Inference）：
- CNN：在训练好的CNN模型基础上，新的病理图像被输入到同样的CNN中进行预测。
- 预测（Prediction）：CNN根据学到的特征和模式，对新的图像进行预测，标识出图像中存在的病变类型。

整个流程展示了从标注数据到模型训练，再到实际应用进行疾病预测的过程，体现了深度学习在病理图像分析中的重要应用。

图神经网络（Graph Neural Network, GNN）及其预测过程

输入（Input）：
- 推理后的WSI
聚类（Clustering）：
- 对输入数据进行聚类分析，将数据分成不同的簇或区域，每个区域用不同的颜色表示。
节点表示（Node Representation）：
- 将聚类后的每个区域抽象成图中的节点，并为每个节点生成相应的表示向量，这些向量捕捉了节点的特征信息。
邻接矩阵（Adjacency Matrix）：
- 构建图的邻接矩阵，矩阵中的元素表示节点之间的连接关系。这个矩阵描述了图中节点是如何相互关联的。
图神经网络（GNN）：
- 使用图神经网络对图进行处理，学习节点和图的结构特征，进行信息的传递和更新。
相关预测（Relevant Predictions）：
- 最终，GNN输出相关的预测结果，例如图中显示的与医疗相关的预测（如药物注射等）。

这个流程图展示了从原始数据到最终预测的整个处理过程，体现了图神经网络在处理复杂图形数据中的应用。

二、H&E染色的分析流程

流程图分为几个主要部分：

H&E WSI输入：整个流程的起点是H&E WSI图像。
Artifact Detection CNN（伪影检测CNN）：这个模块用于检测图像中的伪影。
H&E Tissue Detection CNN（H&E组织检测CNN）：这个模块用于检测图像中的组织区域。
Mask Tissue Outputs（掩膜组织输出）：这是前两个CNN模块的输出，包含伪影和背景区域的掩膜信息。
H&E GNN（H&E图神经网络）：这个模块包含多个子模块，用于不同组织的分析：
- Steatosis GNN（脂肪变性GNN）：用于评估脂肪变性的程度，输出脂肪变性等级（Steatosis Grade）。
- Ballooning GNN（气球样变GNN）：用于评估气球样变的程度，输出气球样变等级（Ballooning Grade）。
- Lobular Inflammation GNN（小叶炎症GNN）：用于评估小叶炎症的程度，输出小叶炎症等级（Lobular Inflammation Grade）。
MAS Components（MAS组件）：这个模块汇总了各个组织的等级信息，包括脂肪变性等级、气球样变等级和小叶炎症等级。
输出：整个流程的最终输出包括伪影和背景区域掩膜，以及各个组织的等级信息。

这个流程图展示了一个复杂的病理图像分析系统，通过多个CNN和GNN模块的协同工作，实现对H&E WSI中不同组织特征的检测和评估。

三、三色染色的分析流程

这张图展示了一个三色染色推断管道（Trichrome Inference Pipeline）的流程图。

该流程图的主要组成部分和步骤如下：

TC WSI：三色全切片影像（Total Slide Imaging）。
Artifact Detection CNN：这个卷积神经网络（CNN）用于检测图像中的伪影（Artifact）。
Tissue Detection：这个模块负责检测组织区域。
Trichrome Fibrosis Detection CNN：这个CNN专门用于检测三色染色中的纤维化情况。
Trichrome Pathological Fibrosis Detection CNN：这个CNN用于检测病理性的纤维化。
Mask Tissue Outputs: Artifact & Background Areas：这个模块根据前面各个CNN的输出，生成掩膜，标记出伪影和背景区域。
Trichrome GNN Model：这个图神经网络（GNN）模型用于进一步处理掩膜后的数据。
CRN Fibrosis Stage：这是最终阶段，基于GNN模型的输出，确定纤维化的阶段。

整个流程从输入的TC WSI开始，通过一系列CNN模型进行检测和分析，最终通过GNN模型和CRN Fibrosis Stage模块得出纤维化的阶段和伪影、背景区域的掩膜。

四、分割模型的分析流程

这个流程图展示了一个循环的过程，确保模型在每一步都经过严格的检查和修正，最终达到高质量的模型。

Training, Validation & Test Sets：这是第一步，准备训练、验证和测试数据集。
Annotation Collection (Primary/Correction)：进行注释收集，主要是初步注释或修正。
QC Annotation：质量检查注释，确保注释的准确性和一致性。
Model Development and Overlay：模型开发和叠加，开发模型并进行必要的叠加操作。
QC Overlay：质量检查叠加，进一步确保模型的质量。
Development Validation：开发验证，对模型在开发阶段的性能进行评估。
Collect Corrections?：决定是否收集纠正，根据验证结果决定是否需要进行额外的修正。

五、基于AI的MAS成分和纤维化的检测与评分

MASH算法可以在一系列MASH疾病严重性的WSIs上检测组织病理学特征。a, 代表性的H&E染色切片显示AI叠加层突出显示了脂肪变性、小叶炎症和气球样变的区域。比例尺，0.2毫米。b, 代表每个MASH CRN纤维化阶段的MT染色切片显示AI生成的叠加层突出显示了活检上存在的纤维化区域。比例尺，0.5毫米。

根据测试集中的病理学家共识评分和AI，展示了对应于MAS<4（总数n=148）和MAS≥4（总数n=483）的代表性病例。插图是一个放大的区域，显示了三种MAS成分的存在。

代表性的H&E染色切片显示AI叠加层突出显示了脂肪变性、小叶炎症和气球样变的区域

H&E染色切片：
- 左上角：MAS（肝脏炎症活动度）小于4的切片，显示了一些组织的结构，但炎症细胞较少。
- 右上角：MAS大于或等于4的切片，显示了更明显的组织变化，包括更多的炎症细胞和其他病理特征。
AI覆盖图：
- 这些图展示了AI算法对切片中不同病理特征的分类和标记。
- 不同颜色代表不同的病理特征：
  - 绿色：小叶炎症（Lobular inflammation）
  - 蓝色：气球样变（Ballooning）
  - 黄色：脂肪变性（Steatosis）
放大视图：
- 红色虚线框内的放大视图进一步展示了这些病理特征的细节。
- 可以看到大量的脂肪滴（黄色）、气球样变细胞（可能呈现为不同颜色）以及炎症细胞的分布。

总体来看，这张图片通过H&E染色和AI分类标记，展示了不同炎症活动度下肝组织的病理变化，帮助研究者更好地理解和分析肝脏疾病的严重程度和病理特征。

根据测试集中的病理学家共识评分和AI，展示了对应于MASH CRN纤维化阶段F1（总数n=159）、F2（总数n=146）、F3（总数n=278）和F4（总数n=23）的代表性病例。这些AI生成的叠加层允许对模型性能进行定性审查。

代表每个MASH CRN纤维化阶段的MT染色切片显示AI生成的叠加层突出显示了活检上存在的纤维化区域。

图像细节：
- 每个切片都显示了组织的纵向结构，可以观察到不同切片中纤维化的程度不同。
- 从F1到F4，纤维化程度逐渐增加，F4切片中黄色区域明显增多，表明纤维化程度较高。
AI overlay：
- 底部的“AI overlay”部分显示了AI识别的纤维化区域，这些区域用黄色标记出来，帮助研究者更直观地看到纤维化的分布和程度。
总体观察：
- 随着切片编号的增加，组织中的纤维化程度逐渐加重。

六、模型性能评估

下面的表格内容涉及不同组织学特征（Histologic feature）与几种一致性评估指标之间的关系。

Histologic feature	AIM-MASH versus consensus	Mean pathologist versus consensus	Mean pairwise pathologist agreement	Inter-reader concordance (n=446)
Lobular inflammation	0.67(0.64-0.71)	0.64(0.62-0.67)	0.58(0.55-0.60)	0.46(0.34-0.58)
Ballooning	0.70(0.66-0.73)	0.66(0.63-0.69)	0.61(0.59-0.64)	0.54(0.44-0.65)
Steatosis	0.74(0.71-0.77)	0.69(0.66-0.72)	0.62(0.60-0.65)	0.77(0.69-0.84)
Fibrosis	0.62(0.58-0.65)	0.59(0.57-0.62)	0.54(0.51-0.56)	0.75(0.67-0.82)

具体列包括：

Histologic feature（组织学特征）：列出了四种组织学特征，分别是小叶炎症（Lobular inflammation）、气球样变（Ballooning）、脂肪变性（Steatosis）和纤维化（Fibrosis）。
AIM-MASH versus consensus（AIM-MASH与共识的一致性）：这一列显示了AIM-MASH方法与共识之间的一致性比率，范围用置信区间表示。
Mean pathologist versus consensus（平均病理学家与共识的一致性）：这一列显示了平均每个病理学家与共识之间的一致性比率，范围也用置信区间表示。
Mean pairwise pathologist agreement（平均配对病理学家协议）：这一列显示了病理学家之间平均的一致性协议，范围用置信区间表示。
Inter-reader concordance (n=446)（读者间一致性，n=446）：这一列显示了446名读者之间的一致性，范围用置信区间表示。