HECTOR：一种新型多模态深度学习模型用于预测子宫内膜癌复发风险

小罗碎碎念

这篇文章是关于一项名为HECTOR（histopathology-based endometrial cancer tailored outcome risk）的研究，它是一个基于多模态深度学习的预测模型，用于预测子宫内膜癌（EC）的复发风险。

作者角色	作者姓名	单位名称	单位翻译
第一作者	Sarah Volinsky-Fremond	Department of Pathology, Leiden University Medical Center	莱顿大学医学中心病理系
通讯作者	Tjalling Bosse	Department of Radiation Oncology, Leiden University Medical Center	莱顿大学医学中心放射肿瘤科
通讯作者	Viktor H. Koelzer	Institute of Medical Genetics and Pathology, University Hospital Basel	巴塞尔大学医院医学遗传学和病理学研究所

HECTOR通过分析苏木精-伊红染色的全切片图像（WSI）和肿瘤分期来预测患者的复发风险。该研究包括了来自八个EC队列的2,072名患者，包括PORTEC-1/-2/-3随机试验。

HECTOR模型在内部测试集（n=353）和两个外部测试集（n=160和n=151）上展示了较高的C指数（分别为0.789、0.828和0.815），超过了当前的黄金标准。

HECTOR还通过Kaplan-Meier分析识别了不同预后的患者群体，其10年远处无复发概率分别为97.0%、77.7%和58.1%。此外，HECTOR在预测辅助化疗效果方面也优于当前的方法。

研究还探讨了HECTOR风险组与一些治疗潜力的形态学和基因组特征的相关性。HECTOR通过改进当前的黄金标准，可能有助于在EC中实现个性化治疗。

文章还讨论了HECTOR的设计和性能，包括其两步深度学习模型，第一步是自监督的肿瘤图像表示学习，第二步是远处复发预测任务。HECTOR使用了多种架构和技术，如视觉变换器、多模态三臂架构、注意力机制和多实例学习等。

此外，研究还比较了HECTOR与当前基于临床病理风险因素和分子EC分类的预测标准的效能。HECTOR在多变量分析中显示出独立的预后价值，并且能够识别出对辅助化疗有反应的患者群体。

最后，文章讨论了HECTOR的潜在临床应用，包括其在预测化疗效果、个体化治疗决策以及可能的生物标志物发现方面的潜力。尽管HECTOR在当前形式下尚未在前瞻性临床试验中得到验证，但其结果表明，HECTOR有潜力成为一个有效的工具，用于预测EC患者的远处复发风险，并可能改善全球系统治疗建议和治疗降级。

一、绪论

子宫内膜癌（EC）在高收入国家是最常见的一种妇科恶性肿瘤，其发病率正在上升1。

尽管大多数局限性疾病的女性可以通过手术治愈，但仍有10–20%的患者会发展为远处复发，这通常是无法治愈的2。辅助化疗可以降低这种风险，但代价是毒性增加3,4。

因此，当前指南建议根据临床病理风险因素（例如，组织学亚型、分级、淋巴血管间隙侵犯（LVSI）、国际妇产科联合会（FIGO）肿瘤分期）以及可用的分子分类来决定是否进行辅助治疗。

分子分类可识别出预后良好（由POLE突变（POLEmut）定义）和预后不良（由p53异常（p53abn）定义）的患者，以及预后中等（由错配修复缺陷（MMRd）或无特定分子特征（NSMP）定义）的患者5–8。

最近有努力尝试结合临床病理和分子因素9，然而在实际操作中，由于结合越来越多因素的复杂性、组织病理学因素评估中的高观察者间变异性以及分子检测的成本和周转时间，挑战依然存在。

此外，组织学切片中含有大量具有预后潜力的视觉信息10，这些信息仅部分被病理学家在分级和肿瘤组织分型中捕获。深度学习（DL）模型，包括使用数字化苏木精-伊红（H&E）染色的肿瘤切片的模型，在预测分子改变11–13、细胞组成14和预后15–21方面显示出巨大潜力，其表现优于基于标准病理学家评估的方法。

特别是最新一代的自监督学习和全切片图像（WSI）预测DL模型，它们使用基于注意力的网络22、图15,19或（视觉）变换器23,24，以提供更细粒度和可解释的图像表示。此外，用于预后预测的多模态DL模型有望超越仅依赖H&E WSI提供的形态学信息的单模态方法16,21。

作者之前开发了一个基于图像的DL模型（im4MEC），用于准确预测EC的分子分类，并显示基于图像的分子类别可以预测预后11。其他研究已对EC的二分类复发25进行了分类，或使用单/多模态DL模型预测EC的总生存期15,16,19,21（一致性指数（C-indices）为0.629–0.687），但这些研究依赖于更详细的肿瘤分析，如多重免疫荧光染色25或结合H&E WSI与基因组学和/或转录组学数据16，这些方法目前尚无法在临床实践中实现。因此，迫切需要一种方法，能够从常规临床诊断生成的输入数据中预测EC的远处复发。

在本研究中，作者报告了HECTOR（图1）的开发和评估——这是一个多模态DL模型，用于预测术后EC女性的远处复发，模型基于H&E WSI和解剖学分期，并在包括三个大型随机试验在内的八个EC队列中进行评估3,26–31。

图1提供了HECTOR模型的概述，分为两个主要部分：

a部分：

展示了从子宫内膜癌（EC）的苏木精-伊红染色全切片图像（H&E WSI）中分割出来的组织，这些组织被分割成180微米大小的小块（patches）。
使用多阶段视觉变换器（vision transformer），通过自监督学习的方式，从1,862名患者的WSI中随机抽取样本进行训练，这些患者不包括内部和外部测试集中的患者。
从最后八个变换器模块中提取了小块级别的特征。

b部分：

HECTOR模型接受H&E WSI和根据FIGO 2009分类的解剖学分期I-III作为输入。
提取的小块级别特征在空间和语义上被平均处理。
这些小块特征被输入到一个基于注意力机制的多重实例学习模型和一个冻结了所有层的im4MEC深度学习模型中，后者可以从H&E WSI中预测出分子类别，如imPOLEmut、imMMRd、imNSMP或imp53abn。
同时，解剖学分期和基于图像的分子类别都通过嵌入层（Embedding layers）进行处理。
在这三个嵌入结果上应用基于门控的注意力机制，然后通过Kronecker积进行融合。
使用负对数（likelihood loss）来预测不同时间点上的无远处复发概率函数。
风险评分被定义为综合预测概率。

在这段描述中，MLP指的是多层感知器，FC指的是全连接层，这些都是神经网络中的常见术语。HECTOR模型通过结合组织学图像特征、分子分类和解剖学分期信息，来预测患者的复发风险。

二、结果

2-1：EC队列

HECTOR是一个两步骤的深度学习（DL）模型，第一步包括自监督的肿瘤图像表征学习，第二步是远处复发预测任务（图. 1）。

为了训练和验证HECTOR的远处复发预测任务，作者收集并整理了包含肿瘤的子宫切除标本的H&E染色全切片图像（WSIs）和全面的临床病理学数据集，以及2,072名FIGO 2009 I–III期EC患者的分子和临床远处复发数据，这些数据来自八个队列，包括PORTEC-1、-2和-3随机试验3,26–30（扩展数据图. 1；研究CONSORT图示于补充图. 1和2以及补充表. 1和2）。

其中，两个基于人口的队列被留作两个外部测试集：格罗宁根大学医学中心（UMCG）治疗的患者（n = 160）和莱顿大学医学中心（LUMC）治疗的患者（n = 151），其中LUMC外部测试集还模拟了每个患者最多三个肿瘤块的诊断场景。其余患者被随机分配到20%的内部测试集（n = 353）和80%的训练集（n = 1,408），其中进行了五折交叉验证。

训练集、内部测试集、UMCG外部测试集和LUMC外部测试的中位随访时间分别为7.8、8.4、5.3和2.9年，在此期间，分别有246（17.5%）、62（17.6%）、14（8.8%）和24（15.9%）的患者出现远处复发。重要的是，接受化疗的患者，主要是PORTEC-3随机试验的实验治疗臂（n = 225），因这种治疗影响远处复发风险3,4而被排除在训练之外（扩展数据图. 1）。然而，这些PORTEC-3患者被用于HECTOR对辅助化疗益处的下游分析。

为了训练HECTOR的自监督学习步骤（这需要一个没有结果数据的大图像数据集），作者用TCGA-UCEC32（癌症基因组图谱子宫体子宫内膜癌）的一个额外队列丰富了训练集，以及由于诊断时癌症转移（FIGO 2009，IV期）或缺失结果而排除在远处复发任务之外的WSIs（n = 1,862；方法）。

总的来说，包括两个训练步骤和下游分析，本研究包含了2,751名患者的肿瘤数据。

2-2：HECTOR设计与性能

为了设计HECTOR并获取最高C指数33的最优DL模型以预测远处复发，作者在五折交叉验证上进行了消融研究（补充表. 3）。

HECTOR的第一步包括一个用于斑块级别的自监督表征学习的视觉变换器（图. 1a）。HECTOR的第二步是一个多模态的三臂架构，用于预测无远处复发的概率（图. 1b）。

三臂架构融合了来自肿瘤包含的子宫部分的H&E染色WSI的预后信息、由im4MEC直接从H&E WSI预测的基于图像的分子类别，以及基于FIGO 2009系统的三层次解剖学分期（其中I期表示肿瘤局限于子宫，II期表示宫颈扩展，III期表示超出，包括阴道、附件、盆腔和淋巴结）34。

为此，作者结合了基于注意力的多重实例学习和嵌入层，将离散风险因素（基于图像的分子类别和解剖学分期）映射到更高维的连续向量空间，每个因素的重要性由基于门控的注意力控制16,35。消融研究（补充表. 3）还包括多任务学习36，第二个训练目标预测基于图像的分子类别而不是冻结的im4MEC，或者用集成斑块空间信息的DL模型替换基于注意力的多重实例学习，如变换器23和基于注意力的图神经网络15。

这两种架构在此任务上并未超越基于注意力的多重实例学习。更多细节在方法中提供，HECTOR配置的总结在补充表. 4和5中给出。

HECTOR在五折交叉验证上展示了一个平均C指数为0.795（95%置信区间（CI）：0.768–0.822）。值得注意的是，将im4MEC预测的基于图像的分子类别臂添加到H&E WSI（分别称为两臂或单臂模型）将性能从0.775（95% CI：0.748–0.802）提升到0.782（95% CI：0.759–0.805），而无需额外的输入数据。

添加解剖学分期（基于FIGO 2009的三层次I、II或III期）进一步将C指数提高到0.795（95% CI：0.768–0.822），得到HECTOR的最终架构（图. 2a）。累积接收者操作特性曲线（ROC）下的面积37和积分Brier评分38在补充表. 6中报告。作者还观察到，与依赖H&E WSI的模型相比，HECTOR在关注较少区域的同时忽略了H&E WSI的大部分区域（扩展数据图. 2）。

在未见的内部测试集上，HECTOR获得了0.789的C指数，在UMCG外部测试集上获得了0.828的C指数。LUMC外部测试集的表现见“多个WSIs下的表现”。

为了帮助临床解释，作者首先根据训练集中的连续风险评分的四分位数定义了HECTOR风险组别的分类。

由于训练集中这两个组别的临床结果非常相似（Kaplan–Meier分析的无远处复发概率分别为98.1%和95.8%），作者将前两个四分位数合并简化，并将其应用于内部和外部测试集。

其次，作者使用Cox比例风险（CPH）模型计算了HECTOR的 hazard ratio（HR），使用连续和分类的HECTOR风险评分作为独立变量，远处复发的时间作为依赖变量。

HECTOR作为一个连续变量在训练测试集（HR = 5.06；95% CI：4.35–5.89；P = 9.00 × 10−99）、内部测试集（HR = 2.69；95% CI：2.07–3.49；P = 1.31 × 10−13）和UMCG外部测试集（HR = 5.84；95% CI：3.06–11.14；P = 8.37 × 10−8）中显示了强大的预后价值。

在内部测试集上，HECTOR低（n = 175）、中（n = 82）和高（n = 96）风险组的10年无远处复发概率分别为97.0%（95% CI：0.930–0.988）、77.7%（95% CI：0.670–0.854）和58.1%（95% CI：0.469–0.677），相应地对数秩P值为1.78 × 10−10（图. 2d）。

在内部测试集中，使用HECTOR低风险组作为参考，HECTOR中和高风险组的相应HR分别为15.63（95% CI：6.58–37.13；P = 4.81 × 10−10）和7.67（95% CI：3.06–19.22；P = 1.37 × 10−5）。

在UMCG外部测试集中，观察到类似的分层，HECTOR低（n = 102）、中（n = 44）和高（n = 14）风险组的5年无远处复发概率分别为93.9%（95% CI：0.859–0.974）、91.4%（95% CI：0.756–0.972）和19.0%（95% CI：0.0097–0.553），相应地对数秩P值为5.56 × 10−10（补充图. 4）。

UMCG外部测试集中HECTOR中风险组的相应HR为2.26（95% CI：0.61–8.42；P = 0.225），高风险组为20.42（95% CI：5.92–70.50；P = 2.00 × 10−6）。

2-3：与当前预后黄金标准的比较

作者将基于深度学习（DL）的风险评分（即单臂、双臂和HECTOR模型）与当前子宫内膜癌（EC）预后标准进行了比较，这些标准包括临床病理学风险因素和分子EC分类，并在五折交叉验证中进行了分析（图. 2a）。

为此，作者首先根据所需输入类型比较了C指数：

(1) 一个仅包含病理学家使用H&E图像定义的变量的“基础”Cox比例风险（CPH）模型（组织学亚型、分级和淋巴血管间隙侵犯（LVSI））；

(2) 基础模型加上解剖学分期；

(3) 基础模型加上解剖学分期和分子EC分类。

在五折交叉验证中，基于H&E的输入数据，单臂和双臂模型的判别能力优于基础CPH模型（C指数=0.681；95% CI：0.624–0.738）。HECTOR模型的判别能力优于使用相同输入的基础CPH模型加上解剖学分期（C指数=0.716；95% CI：0.672–0.761），并且与基础CPH模型加上解剖学分期和分子EC分类（C指数=0.762；95% CI：0.732–0.791）相当，后者需要测序、免疫组化（IHC）和专家病理学。

作者进一步将HECTOR的预后价值与当前临床病理学和分子风险因素进行了多变量分析，使用HECTOR连续风险评分作为独立变量。在将已知风险因素（组织学亚型、分级、LVSI、FIGO 2009 I–III期、年龄、分子类别）组合为一个风险评分（称为CLINICAL风险评分）的多变量模型中，HECTOR保留了预后价值（HECTOR HR=4.62；95% CI：3.72–5.73；P=5.02×10−44），而CLINICAL风险评分无统计学意义（HR=1.08；95% CI：0.90–1.30；P=0.402）（图. 2b）。

包括风险因素作为单独变量的类似多变量分析显示，HECTOR具有独立的预后价值（HR=5.26；95% CI：4.21–6.56；P=2.30×10−48），只有FIGO 2009 III期疾病保留了统计学意义（HR=1.50；95% CI：1.05–2.14；P=0.026）（图. 2c）。

其他已知风险因素在包含HECTOR风险评分后不再具有预后价值，这表明这些因素已被HECTOR捕获。例如，来自真实测序和IHC的POLEmut和p53abn分子类别——HR=0.66（95% CI：0.26–1.69；P=0.384）和HR=0.90（95% CI：0.61–1.34；P=0.616）——以及组织学因素如LVSI（HR：1.05；95% CI：0.77–1.42，P=0.776）对于远处复发的预测不再具有附加的预后价值。

鉴于当前预后黄金标准将p53abn EC分类为高风险肿瘤，将MMRd和NSMP分类为具有异质结果的中间风险肿瘤，作者在训练集和内部测试集中验证了HECTOR在MMRd、NSMP和p53abn分子类别中细化预后的能力。

特别是，HECTOR低风险组在整个数据集中识别出大约5.3%（300个中的16个）的p53abn EC病例具有极好的预后（补充图. 5）。沿着这些思路，作者估计了HECTOR和ESGO-ESTRO-ESP 2021指南5（结合临床病理学和分子因素）之间风险分类显著不同的患者数量（补充图. 6）。

在基于指南的中至高风险肿瘤患者中（且无远处复发报告），48.2%（1,146个中的552个）的患者被预测为HECTOR低风险，而在仅高风险肿瘤中，16.9%（366个中的62个）被预测为HECTOR低风险。在基于指南的低至中高风险肿瘤中，11.2%（1,170个中的131个）的患者被预测为HECTOR高风险，而在仅低风险肿瘤中，这一比例为4.9%（287个中的14个）。

2-4：多张全切片图像（WSIs）下的表现

为了评估HECTOR在第二个真实世界外部测试集中的预后价值和鲁棒性，作者利用了LUMC队列中大多数病例具有来自同一患者不同组织块的多个含肿瘤H&E WSIs的事实（121个病例中有3张WSIs，21个病例有2张，9个病例有1张；图. 2e）。

这使作者能够在诊断设置中验证HECTOR的外部性能，并随后测试对H&E WSI选择的鲁棒性。最初的评估使用从每个患者的单张WSI随机选择100次得出的HECTOR评分，结果显示在LUMC外部测试集上预测远处复发的平均C指数为0.802（95% CI：0.799–0.804）（图. 2f）。

通过添加更多WSIs（取每个患者WSIs的HECTOR风险评分的平均值或中位数），HECTOR的性能和风险分层略有提高，C指数分别为0.810（95% CI：0.808–0.811，最多2张WSIs/患者）和0.813或0.815（最多3张WSIs/患者）（图. 2f）。

还测试了一种不同的方法，将WSIs合并为单一输入图像包，得出的C指数为0.805。使用每个患者HECTOR风险评分的中值，5年无远处复发概率在HECTOR低风险（n=70）为98.4%（95% CI：0.891–0.998），中风险（n=44）为74.8%（95% CI：0.534–0.874），高风险（n=37）为52.6%（95% CI：0.323–0.694；对数秩P=1.00×10−6）（图. 2g和补充图. 7）。

相应的HR（对于连续的HECTOR风险评分）为3.73（95% CI：2.34–5.96；P=3.17×10−8），（对于高风险与中间风险的分类）为34.51（95% CI：4.52–263.39；P=6.37×10−4）对比15.08（95% CI：1.91–119.16；P=0.010）。

此外，HECTOR在LUMC外部测试集的患者分层表现也扩展到了总生存期（5年概率分别为低风险88.4%（95% CI：0.769–0.944），中风险69.9%（95% CI：0.468–0.845）和高风险47.0%（95% CI：0.289–0.633）；补充图. 8）。

由于肿瘤内异质性导致的潜在混杂似乎很小，因为142个具有超过1张WSIs的病例中有85例在WSIs上具有一致的HECTOR风险组预测，只有3个具有3张WSIs的病例对于每张WSI有不同的预测HECTOR风险组（补充图. 9–12和补充说明p16）。

2-5：与预后因素和输入贡献的关联

深度学习（DL）预后模型可能提供关于决定临床结局的相关或特征信息。

对内部测试集的初步分析通过多元线性回归（图. 3a,b）揭示，较低的HECTOR风险评分与子宫内膜样癌（EEC）组织学亚型、1级和POLE突变型EC的既定有利风险因素相关，而较高的HECTOR风险评分与不利因素相关，包括非EEC组织学亚型、3级、FIGO III期、LVSI、p53abn EC、雌激素受体阴性以及L1细胞粘附分子（L1CAM）阳性（补充表. 7–9和补充图. 13）。MMRd EC、2级和FIGO 2009 II期在风险评分轴上分布，无统计学意义。

为了更深入的可解释性，作者评估了H&E WSI、im4MEC和解剖学阶段对预测的影响，即每个模态是否减少了（负贡献）或增加了（正贡献）发展远处复发的HECTOR风险评分。

作者使用H&E WSIs的归一化积分梯度（IG）值，以及固定im4MEC或FIGO解剖学阶段相同情况下预测风险评分的差异。H&E WSIs主要具有正贡献，其值与HECTOR风险评分线性增加（图. 3c和补充图. 14）。

作者还注意到，对于3级EEC或非EEC组织学亚型和LVSI的贡献幅度较高（图. 3d）。

这两个观察结果可能表明，H&E WSIs捕获的不利形态学特征是风险评分预测的强驱动因素。

使用基于图像的分子类别和FIGO 2009 I–III期的使用与EC领域的专业知识一致，其中imPOLEmut和imMMRd主要降低而imp53abn强烈增加HECTOR风险评分，前提是预测准确（图. 3e，补充表. 8和补充图. 15），更高的解剖学阶段增加了HECTOR风险评分（图. 3f和补充图. 16）。

这些分析使作者能够剖析内部测试集中6例被预测为HECTOR低风险但实际发生远处复发的患者的数据（补充表. 10和补充图. 17）。

实验测试中，将基于图像的分子类别替换为真实的分子类别，显示在这些实例中im4MEC的误分类对HECTOR风险组没有影响。由专家妇科病理学家审查的单张WSI输入揭示，至少在两个病例中，WSIs缺少病理报告中报告的不利视觉特征（大量的LVSI或高级别肿瘤区域）。

作者还注意到三个被预测为HECTOR高风险的病例具有POLE突变。尽管同样的实验确认，基于图像的分子类别在这些实例的HECTOR预测中几乎没有影响，但这三个病例都显著地具有FIGO 2009 II或III期疾病（补充表. 11）。

2-6：形态学特征与预后风险的相关性

为了识别可能被HECTOR使用的预后形态学特征，作者从H&E全切片图像（WSIs）中提取了对风险评分影响最大的前5%区域（降低和增加风险），并由一位专家妇科病理学家在内部测试集中进行了审查（图. 4a 和补充图. 18–22）。

在HECTOR低风险组中，降低风险评分的形态学特征被识别为平滑的腔面边界、炎症性间质和上皮内淋巴细胞、上皮内中性粒细胞以及无肿瘤的致密正常子宫肌层。在HECTOR高风险组中，增加风险评分的形态学特征包括粗糙的腔面肿瘤表面（也称为钉状突起）、淋巴血管间隙侵犯（LVSI）、实性肿瘤生长伴显著核异型、纤维组织反应性增生和有丝分裂象的存在（图. 4a）。

在HECTOR低风险组中，作者观察到了一些相对较少见的但对风险评分有正向贡献的形态学特征，如模仿钉状突起的表面变化、模仿LVSI的退缩性人工假象、模仿纤维组织反应性增生的松散肌层伴水肿以及散在高级别核异型的实性肿瘤生长（扩展数据图. 3a）。

使用基于深度学习（DL）的图像分析工具对有丝分裂活性、炎症细胞密度和肿瘤细胞核的大小进行了量化（图. 4b 和方法）。

在降低风险评分的前5%区域中发现了更多的炎症细胞，这种效应在HECTOR低风险组中更为显著（P = 0.011）。在HECTOR高风险组的前5%区域中发现了更高的有丝分裂密度和更大的肿瘤细胞核（两者P < 0.001）。这些结果在不同的基于图像的分子类别和FIGO 2009 I–III期中保持一致，并且在筛选含有肿瘤细胞的区域时也是如此（补充图. 23–25 和补充图. 26）。

在定量空间分析中，作者计算了前5%区域与肿瘤和侵袭边界区域的重叠（扩展数据图. 3b）。后者显示，增加风险评分的区域更多地来自肿瘤区域而非侵袭边界区域。在降低风险评分的区域中，肿瘤和侵袭边界区域的贡献几乎相同，特别是在HECTOR低风险组中。

2-7：基因组改变、免疫和转录特征

为了全面分析HECTOR风险评分的分子相关性，作者分析了TCGA-UCEC数据集（n = 381，FIGO I–III期子宫内膜癌）（图. 5 和补充图. 27）。

在HECTOR低风险组中，ARID1A、CTCF、CTNNB1、FGFR2、KRAS和PTEN的编码驱动突变富集（所有P < 0.005），而PPP2R1A和TP53突变在HECTOR高风险组中更为常见（分别为P = 2.19 × 10−3 和 P = 2.81 × 10−7）（图. 5a 和补充表. 12）。

利用转录组数据，作者进行了CIBERSORT定义的淋巴细胞群体的多元线性回归分析（图. 5b）。

结果显示，HECTOR评分的增加与记忆B细胞（P = 0.008）、活化树突细胞（P < 0.001）和静息肥大细胞（P = 0.029）呈正相关，与CD8+ T细胞（P < 0.001）、滤泡辅助T细胞（P < 0.001）、调节性T细胞（P < 0.001）和自然杀伤（NK）细胞活化（P = 0.049）呈负相关。

值得注意的是，这些关联独立于子宫内膜癌分子类别和肿瘤突变负荷（TMB）（补充表. 13）。进一步的转录组分析（图. 5c，补充图. 27c 和补充表. 15）确认，淋巴细胞群体的变化反映在典型免疫细胞标志物的差异表达上，包括CD1C、BTLA和CD40LG（在HECTOR低风险病例中富集）。

HECTOR高风险肿瘤还表现出与子宫内膜癌预后不良相关的基因上调，包括L1CAM和CLDN6，而HECTOR低风险病例则表现出与激素信号相关的基因上调（C1orf64和OVGP1）。

三、讨论

HECTOR是一个深度学习（DL）模型，在2,072名I–III期子宫内膜癌（EC）患者中进行了训练和验证，这些患者具有长期随访数据。该模型仅使用子宫切除标本的H&E染色肿瘤切片和解剖学分期来预测术后远处复发风险。

在三个未见测试集中，HECTOR对于远处复发结果的C指数分别为0.789、0.828和0.815。其性能与临床上实施的其他癌症类型预后DL工具相当（例如，结直肠癌复发的C指数为0.714和0.744，前列腺癌10年远处复发的AUC为0.78），并且优于分子预后检测，如OncotypeDX（乳腺癌10年远处复发的C指数为0.641）。

值得注意的是，HECTOR在预测远处复发风险方面，表现优于当前结合病理学和分子分析的诊断黄金标准，并且在PORTEC-3随机试验中也被发现能够预测辅助化疗的益处。

待前瞻性验证后，作者的结果表明HECTOR可能是一个高效的工具，用于个性化预测接受手术的EC女性患者的预后，同时缩短周转时间并降低检测成本。HECTOR还可能促进发现生物标志物，以改善靶向治疗决策。

HECTOR的性能归功于一种新的多模态、整合性、三臂架构，该架构利用了H&E WSI、基于图像的分子类别（来自im4MEC）和解剖学分期的预后信息。这种多模态架构胜过了仅使用H&E信息的替代DL模型，证实了其他研究的结果。

有趣的是，将im4MEC模型嵌入HECTOR中提升了性能，这与其他研究中整合拷贝数变异或转录组学并未改善EC总生存预测的情况形成对比。

作者证明了像解剖学阶段这样的分类临床风险因素的预后价值可以通过DL模型端到端学习，以提高预测准确性。HECTOR朝着整合患者级成像、基于图像的分子和临床洞察迈进，这可能会为其他仅基于图像开发单模态DL模型的研究提供借鉴。

作者对模型可解释性和风险评分相关性的初步调查为提高作者对EC和其他癌症类型生物学的理解提供了良好的前景。

例如，HECTOR低风险评分与免疫细胞浸润的相关性与显示免疫浸润EC预后较好的数据一致，尽管目前尚不清楚HECTOR是否直接从H&E WSIs中量化了如T细胞这样的淋巴细胞亚型。HECTOR高风险EC中CLDN6的上调与这一指标作为远处复发预测因子的研究一致。联合HECTOR高风险和CLDN6上调的病例可能作为嵌合抗原受体T细胞治疗的靶点。

尽管在结直肠癌中已知致密结缔组织反应预示不良预后，但作者目前研究中描述的这种关联在EC中尚未见报道。这究竟是否代表L1CAM过表达的形态学读出目前尚不清楚。作者还确认了EC中已知的不良组织病理学风险因素与较高的HECTOR风险评分相符。

因此，作者预计HECTOR超越标准组织病理学的原因可能是由每个因素的非线性组合以及WSIs中视觉信息的非分类处理驱动的。

HECTOR的设计对于临床实施扩展具有很大潜力，因为它基于两种广泛可用且成本效益高的诊断常规输入构建：一张H&E染色的肿瘤切片，作者使用了基于图像的而非真正的分子类别，以及诊断时肿瘤扩展的高级临床信息（是否达到宫颈或超出子宫但不包括远处），这独立于不断演变的FIGO分期系统。

在适当的前瞻性临床试验设置中验证后，HECTOR可能具有巨大的潜力，用于在辅助治疗环境中将EC女性患者的远处复发风险从低到高进行个体化分流。随后，临床医生的诊疗决策可以据此指导，因为HECTOR低风险预测可能提供减少辅助治疗或鼓励对预测为HECTOR高风险的患者推荐辅助系统性治疗（如化疗或临床试验中的靶向治疗）的手段。

HECTOR高风险内的治疗指导可以由选择性靶向分子检测如MMRd甚至基于DL的分子预测支持，后者具有良好的准确性。尽管作者的数据支持HECTOR可能减少EC女性的过度和不足治疗，但它也节省了在分子检测和专家病理学家评审困难或不可行的资源有限环境中的挑战和费用。

作者推测，HECTOR的未来技术改进可能是对其输入的扩展，包括连续数字化的H&E染色的子宫切除切片，随后进行三维重建，常规进行的IHC染色的WSIs，术前放射学图像或编码患者级临床信息的临床报告。此外，利用组织学图像（宫颈、卵巢和/或淋巴结切片）的DL评估解剖学阶段可以使HECTOR独立于病理学评审。

作者的研究具有几个优势。

作者的总队列包括2,751名患者，包括3个随机试验，这使得这是迄今为止EC中进行的最大的基于DL的预后研究之一。作者最先进的多模态DL方法使作者能够利用超出H&E图像本身的多个因素的信息。专家病理学审查和分子分析使作者能够将作者的方法与EC风险分层的当前黄金标准进行基准测试。

作者研究的局限性在于，作者目前基于多重实例学习的模型没有意识到区域之间的空间关系，并且没有设计用于利用多个WSIs之间的信息，这两者都可能提高性能；尽管在这一点上，上下文感知架构并未在此任务中发现性能提升。

此外，形态学、分子和解剖学阶段之间的复杂交互可能通过尝试其他早期到晚期融合技术或使用预训练任务学习更一般化的形态-分子表征来进一步优化。研究中有一些患者未进行手术分期淋巴结清扫，这可能在解剖学阶段输入中引入了一些噪声，并可能解释了多变量分析中晚期疾病阶段III的残余预后价值。

鉴于POLE突变型EC很少转移，作者承认HECTOR在这些罕见情况下可能高估了风险。此外，并非所有在H&E区域观察到的形态学相关性（例如结构变化）都在本研究中进行了量化，这是因为缺乏可用于训练DL基础的、特定于EC图像分析工具的标记数据集。

重要的是，HECTOR的性能需要在外部未选队列（比作者检查的欧洲血统队列更多样化）和前瞻性试验中进行进一步验证。因此，前瞻性验证首先将在PORTEC-4a试验中进行。此外，随着EC治疗格局的迅速发展，HECTOR高风险患者最合适的辅助系统性治疗需要持续验证或（前瞻性）在其他随机试验中探索。

总结而言，HECTOR的验证和扩展可能有助于推进对接受初次手术的I–III期EC女性患者的精准医疗，从而在全球范围内改善系统性治疗推荐和治疗降级。

四、方法

4-1：队列

作者使用了来自三个随机试验和六个临床队列的甲醛固定石蜡包埋（FFPE）肿瘤材料和子宫内膜癌（EC）患者的临床病理数据。作者包括了女性性别的研究对象，不考虑性别认同。

PORTEC-1试验从1990年至1997年招募了714名早期阶段中风险EC女性，在初次手术后，随机分配接受骨盆外照射放疗或无辅助治疗26。

PORTEC-2试验从2000年至2006年随机分配了427名早期阶段、高中风险的EC女性接受外照射放疗或阴道近距离治疗27。

PORTEC-3随机试验从2006年至2013年包括了660名I–III期高风险EC女性，随机分配接受单独的骨盆外照射放疗或结合同期和辅助化疗的外照射放疗3。

回顾性TransPORTEC研究包括了来自5个机构（荷兰的LUMC和UMCG、英国的伦敦大学学院和曼彻斯特的圣玛丽医院、法国维勒朱夫的居里研究所）的116名高风险EC肿瘤国际患者，纳入标准与PORTEC-3相同28。

MST的前瞻性队列包括了257名I–III期高风险EC患者，纳入标准与PORTEC-3相同，这些患者在1987年至2015年间在荷兰恩斯赫德MST接受治疗29。

丹麦队列由451名高级别EC患者组成，这些患者前瞻性地登记在丹麦妇科癌症数据库中30。

UMCG队列是一个基于人群的队列，包括1984年至2004年间在UMCG治疗的278名患者，随访数据收集至201031。

LUMC队列是一个回顾性收集的基于人群的队列，包括222名在2012年至2021年间在LUMC诊断和治疗的患者。最后，从cBioPortal65,66下载了529名患者的公开可用TCGA-UCEC队列32。

4-2：数据集

根据肿瘤材料的可用性，每个患者包括一张代表性的子宫切除标本的H&E染色切片（补充图. 1和2，补充表. 1、2和14）。对于LUMC队列，作者收集了每个EC病例来自不同FFPE肿瘤组织块的三个诊断性H&E染色肿瘤切片。

H&E切片使用两种扫描仪3Dhistech P250（分辨率0.19 µm每像素）和3Dhistech P1000（分辨率0.24 µm每像素）在×40放大倍数下扫描。本文中提供的任何图像都是未经处理的扫描。所有WSIs都由作者的专家病理学家进行了定性审查，之后排除了无肿瘤、组织质量差和扫描失焦的病例，最终得到2,560个至少每个病例有一个WSI的病例（CONSORT图表在补充图. 1和2中）。

在本研究中，根据以下标准，一些病例被排除在HECTOR的监督训练之外：

(1)缺少远处复发随访数据

(2)FIGO 2009 IV期34，因为他们在诊断时已经远处复发

(3)接受辅助化疗，因为这可能降低了远处复发的风险3,4。

根据FIGO 2009分类34，分类解剖阶段I、II和III被定义。因此，它代表了一个局限于子宫内的肿瘤（I期），一个扩散到宫颈间质的肿瘤（II期）或在一个诊断时扩散到阴道、附件、盆腔和淋巴结的肿瘤（III期）。辅助设置中的远处复发定义为盆腔外的任何复发。

因此，远处复发包括腹部转移和主动脉旁淋巴结转移。远处复发的起始时间定义为随机化（对于PORTEC-1、-2和-3）或初次手术的日期（MST、TransPORTEC研究、丹麦、UMCG和LUMC队列），结束时间为转移诊断的日期，或者在无转移患者中的最后随访或死亡日期。

作者还强调，在收集临床队列时，辅助化疗并不是标准治疗方案，而且绝大多数接受辅助化疗的患者来自PORTEC-3随机试验（n=225）。

根据上述标准，2,072例病例被纳入监督式训练-测试分割：

584例来自PORTEC-1（参考文献26）
395例来自PORTEC-2（参考文献27）
217例来自PORTEC-3（参考文献3）
67例来自TransPORTEC研究（参考文献28）
226例来自MST队列（参考文献29）
272例来自丹麦队列（参考文献30）
160例来自UMCG队列（参考文献31）
151例来自LUMC队列

然后，作者保留了一个内部测试集和两个外部测试集，都代表了一个未筛选的人群。内部测试集是通过以时间间隔和审查状态分层的方式，从监督式训练集中随机抽取20%得到的（n=353，其中116例来自PORTEC-1，100例来自PORTEC-2，43例来自PORTEC-3，13例来自TransPORTEC研究，35例来自MST队列，46例来自丹麦队列；中位随访时间为8.45年，发生62个事件）。

第一个外部测试集是UMCG队列（n=160患者；中位随访时间为5.32年，发生14个事件）。第二个外部测试集是LUMC队列（n=151患者：121例有3张WSIs，21例有2张WSIs，9例有1张WSIs；中位随访时间为2.90年，发生24个事件）。

最后，剩余的1,408张WSIs被用于HECTOR的监督式训练（468张来自PORTEC-1，295张来自PORTEC-2，174张来自PORTEC-3，54张来自TransPORTEC研究，191张来自MST队列，226张来自丹麦队列；中位随访时间为7.77年，发生246个事件）。

此外，HECTOR风险评分也在之前排除的PORTEC-3随机试验中接受化疗治疗的病例（n=225）以及TCGA-UCEC中I–III期的患者（n=381）上进行了预测。

对于自监督学习，作者仅使用了已经为监督式训练保留的1,408张WSIs，因此严格限制为不包括内部和外部测试集的病例。

此外，自监督学习训练通过包括任何疾病阶段的病例进行了丰富，这些病例的治疗或远处复发结果数据未知（n=454，其中31例来自TransPORTEC研究，5例来自MST队列，16例来自丹麦队列，402例来自TCGA-UCEC），结果是1,862例用于自监督学习。

4-3：性能评估

超参数优化和模型比较（包括自监督学习中用于斑块表征学习的架构选择）是在监督式下游任务上进行的，该任务由C指数指标指导（使用tau=10年和scikit-survival Python包（v.0.17.2））。

为此，对保留用于监督式训练的1,408张WSIs执行了五折交叉验证例程。根据五个折叠中的最高平均C指数，选择了表现最佳的架构和超参数。最终的模型，称为HECTOR，然后在整个训练集上重新训练，并在内部测试集和两个外部测试集（UMCG和LUMC）上进行评估。此外，还计算了累积AUC37和Brier分数38。

鉴于LUMC外部测试集每个病例包含多达三张WSIs，而内部测试集和UMCG外部测试集每个病例只有一张，作者进行了多次实验以随机抽样的方式推导出患者级别的风险评分。

首先，作者随机为每个病例选择一张WSI，并重复此实验100次，得到平均C指数和置信区间。其次，当可用时，随机为每个病例选择多达两张WSIs，然后平均每名患者的两个风险评分，并重复100次。第三，选择外部测试集中所有可用的WSIs，每个病例最多三张，计算两个或三个风险评分的平均值和中位数。

在另一个实验中，作者将每个患者的WSIs合并，将所有可用WSIs的斑块特征合并成一个特征袋。

4-4：WSI预处理

WSI分割使用Otsu阈值法。非重叠斑块提取以180µm进行，并将斑块大小调整为256×256像素²。平均而言，此过程每个WSI生成了10,185个斑块。

4-5：基于视觉变换器的斑块表征学习

作者遵循自监督学习的进展，采用了基于视觉变换器的深度学习模型，这些模型能够在多个分辨率上学习细粒度的、斑块级别的表征。

为此，作者训练了EsVIT60，并将其与CtransPath67进行了比较，后者是在组织病理学领域训练的替代模型（补充表3）。作者修改了EsVIT最初提出的四阶段Swin68变换器架构，以捕获细胞和区域级别的组织信息，并适应作者的计算资源。

第一阶段将斑块大小加倍至8像素，以减少序列长度并增加视野，捕捉细胞视图。在阶段2至4，作者保持了两个因子的特征图合并率，并将输入图像大小调整为256×256像素²，而不是224×224像素²，以避免在阶段4出现不可分割的斑块大小。

最后，阶段3中堆叠的变换器数量从六个减少到四个，其余保持为两个。第一个嵌入维数保持不变，为96，每个阶段的注意力头数量也保持不变，即3、6、12和24（补充表4）。从1,862张WSIs中随机提取多达2,000个180µm调整为256×256像素²的斑块，创建了包含3,702,447个斑块的数据集。

之后，使用3个Nvidia RTX 8000 GPUs（图形处理单元）以128的批量大小训练修改后的EsVIT，共100个周期，窗口大小为14，以鼓励学习斑块之间的长期依赖关系。为了提高性能，作者还使用了视图和区域级别的预测DINO（无标签的自我蒸馏）头，没有权重归一化和在第一个周期冻结的层，以及默认的输出维度为65,536（参考文献60）。

作者遵循EsVIT作者的建议，通过将动量教师增加到0.9996和以0.04的初始教师温度开始，来使用较小的批量大小。教师温度在训练中途从0.04调整为0.02，以进一步降低损失。作者使用AdamW和默认参数进行优化，默认的学习率优化程序（线性预热十个周期，然后使用余弦调度器降至1×10^-6）和权重衰减（余弦调度器从0.04到0.4）。

数据增强与原始出版物60中完全相同。训练完成后，从每个阶段的堆叠变换器的注意力头中提取斑块级别的特征。对于作者的下游任务，作者观察到通过提取最后8个块而不是出版物60中提到的默认最后4个块，可以改善性能，从而产生大小为3,456的特征向量（补充表3）。

4-6：多模态深度学习预后模型

为了构建远处复发预测任务的多模态模型，首先进行了消融研究，仅使用H&E WSI模态（称为基于H&E的单臂模型），然后整合了基于H&E预测的图像衍生分子类别（称为双臂模型）和分类阶段（因此称为HECTOR）。本节描述了HECTOR，补充表5总结了架构和训练参数，而“消融研究”部分提供了关于一些训练实验和架构选择的进一步细节。

基于H&E的单臂模型以EsVIT60提取的3,456大小的斑块级特征袋作为输入，其中每个袋中的斑块数量不同。为了针对时间至事件数据训练，考虑到基于注意力的多实例学习（AttentionMIL）模型的批量大小为1，将时间尺度离散化为四个区间，基于未删失患者的四分位数分布，并使用-log(似然损失)。

在AttentionMIL模型中，作者报告了通过添加另一个WSI预处理步骤而略微提高了性能。具体来说，通过使用L2范数阈值为三个斑块和余弦相似度为0.8的平均高度相关、相邻的斑块级特征，WSI的形态学信息在空间和语义上被压缩。

这一步骤将平均特征袋从10,185个斑块减少到1,723个，每个斑块大小为180µm（补充表3）。每个平均斑块级特征通过3个全连接层逐渐压缩至512。注意力模块在降至256之前的潜在特征上计算注意力分数，从而得到大小为512的切片级嵌入。

为了利用分子类别（此处为基于图像的，从H&E预测的im4MEC11衍生）的已知预后价值以及分类（FIGO 2009）阶段I、II和III变量的预后价值，并且考虑到AttentionMIL模型从斑块计算H&E切片级嵌入，作者尝试了中间至晚期融合，以在H&E切片级嵌入中整合切片级、基于图像的分子类别和患者级别的解剖学阶段信息。

作者提出了一种首先使用可学习嵌入层将每个分类风险因素编码到更高维向量空间的方法，嵌入层大小为16，随后是Elu激活函数和一个大小为8的全连接层。接下来，应用基于双线性乘积的基于门控的注意力机制，对不同模态的嵌入进行权重，以根据参考文献16衡量每个模态的重要性。

为了捕捉所有交互并保留单模态嵌入，一个被附加到注意力加权的嵌入中，然后使用Kronecker积进行融合。值得注意的是，为了将基于图像的分子类别作为HECTOR的输入模态，作者在专门为此研究设计的训练集上重新训练了im4MEC模型。这样做是为了避免因为用于训练原始im4MEC模型的一些病例在此研究的验证中作为测试而造成的信息泄露。

最终的多模态嵌入通过使用两个大小分别为256和128的全连接层进一步减少，然后是具有离散时间区间数量作为输出大小的全连接层的生存分类头。架构中的每个全连接层后面都跟着一个dropout率为0.25和ReLU激活函数。HECTOR训练了24个周期，初始学习率为 $3×10^{-5}$ ，在第2、5和15个周期时衰减因子为10。使用了Adam优化器，默认参数和权重衰减为1×10^-5。HECTOR也是通过改编开源仓库的部分内容来开发的，参考文献为11、16、21。

4-7：消融研究

为了首先找出预测远处复发的最优架构（单臂模型），本研究采用了三种最新的全玻片图像（WSI）分类架构：AttentionMIL22、遵循参考文献15的图注意力网络（Graph Attention Network），以及遵循参考文献23的变换器架构。这些架构均从其开放获取的仓库中进行了适应性修改。它们均使用EsVIT提取的相同特征袋进行训练，批次大小为1，并采用相同的离散生存损失（-log(似然损失)）。

研究发现，在预后任务中，AttentionMIL架构相较于图注意力网络和变换器架构，具有更高的C指数，同时计算复杂度远低于后者（补充表3），这与参考文献15针对TCGA-UCEC的发现相一致。

为了结合im4MEC从H&E WSIS预测的基于图像的分子类别，本研究进行了以下实验：

1）迁移学习，其中AttentionMIL主干网络针对分子类别进行了预训练，随后针对预后任务进行了微调；

2）多任务学习，其中增加了一个训练目标，用于预测基于图像的分子类别以及预后；

3）融合来自冻结im4MEC模型（从中间层或最终预测的类别类中提取）的基于图像的分子类别，随后通过嵌入层和注意力门。

在实验2中，实现了第二个分类头，使用生存损失（-log(似然损失)）和交叉熵分类损失的加权和进行训练。权重因子被视为超参数，并采用五折交叉验证进行优化。实验3，即包含通过嵌入层和注意力门预测的类别类，得到了最高的平均C指数（补充表3）。

关于融合分期类别的实验，值得注意的是，使用扩展的FIGO 2009分类法或简化的三分类法（I、II和III类）进行训练，随后通过嵌入层和注意力门，后者实现了最高的C指数（补充表3）。

4-8：与临床病理数据的关联分析

作者使用HECTOR连续风险评分作为因变量，临床病理数据作为回归变量，进行了多次单线性回归分析。统计测试为双尾，以P值<0.050作为统计显著性标准。回归系数和确切P值已在补充表7中报告。

4-9：输入贡献

采用IG方法63测量WSI的贡献，并识别WSI中对预测风险函数重要的补丁。鉴于离散的时间间隔，IG分数在四个神经元目标上进行了平均。IG的基线代表从白色补丁中提取的补丁级特征。所有IG分数均在患者之间进行标准化，介于-1和+1之间，同时保持符号和IG分数为零，并进一步平均以获得WSI级别的IG分数。朝向1的正IG值意味着它对提高风险评分有正面贡献，而负值则意味着它有助于降低风险评分。代表性补丁的选择由一位专家病理学家在顶部5%的补丁中一次性完成，分别增加和降低每个病例的风险评分。

通过im4MEC预测的基于图像的分子类别和FIGO分期的贡献是通过将分期和基于图像的分子类别值固定为作者选择的“参考组”值，然后计算预测风险评分的差异来计算的。与IG方法类似，正或负差异意味着对风险评分的正或负贡献。

4-10：细胞级组成

作为HECTOR可解释性部分，为了量化对风险评分有高贡献的提取补丁的视觉特征，作者首先使用细胞分割和分类的Hover-Net14深度学习模型获取炎症细胞计数，针对EC特异性WSIs11进行了再训练。然后，使用针对本研究目的在EC组织上进行了微调的泛癌深度学习检测器64检测有丝分裂。

微调是通过在PORTEC数据集中的10个WSIs上内部注释额外的数据点来扩展原始训练集69，以覆盖EC组织学类型的变异性。区域级炎症和有丝分裂活动密度定义为绝对计数除以平方毫米面积，并进一步平均到区域数量以获得患者级密度值。

肿瘤细胞核的大小以mm²报告，并按患者平均。HECTOR风险评分与患者级视觉特征的量之间的统计关联在感兴趣的区域（即具有负面或正面贡献的区域）内通过线性回归进行测试。统计测试为双尾，以P值<0.050作为统计显著性标准。

线性回归的系数和确切P值如下：

炎症密度在负面区域的系数为-0.0109（95% CI：-0.019至-0.002），P=0.011；
有丝分裂密度在正面区域的系数为0.0447（95% CI：0.033–0.057），P=1.96×10^-12；
肿瘤细胞核面积在正面区域的系数为377.916（95% CI：297.677–458.155），P=3.10×10^-19。

五、结果分析

根据Kaplan-Meier方法进行了远处无复发生存概率的分析，并采用双尾对数秩和检验，以P < 0.050作为统计显著性标准。HECTOR风险组的截止值是通过仅训练集中的HECTOR风险分数分布的 quantiles（25%，50%和75%）来定义的。

在训练集中，前两个组（<25%和25%-50%）在预后上没有显著差异，因此被合并为一个命名为HECTOR低风险组的组别。因此，作者将HECTOR低风险组定义为训练集中风险评分低于中位风险评分值的病例，HECTOR中风险组定义为风险评分在训练集中的中位数和第三四分位数之间的病例，HECTOR高风险组定义为风险评分高于训练集第三四分位数值的病例。这些相同的截止值应用于未见的内部、UMCG和LUMC外部测试集，以及TCGA-UCEC和PORTEC-3。

为了比较深度学习模型与已建立的临床病理风险因素的绩效，作者在子宫内膜癌（EC）中拟合了临床病理风险因素的CPH模型，并计算了相应的C指数。

首先，作者使用了可以在组织学切片上视觉分配的风险因素：组织学亚型、分级和LVSI。然后作者加入了FIGO 2009分期I-III变量。最后，作者包括了EC的分子类别（POLEmut，MMRd，NSMP和p53abn）。

为了在五折交叉验证和内部测试集中保持一致性，缺失的分子类别（交叉验证中1,408例中的115例，内部测试集中353例中的38例）使用均值替换进行填补。

为了估计HECTOR相对于临床病理风险因素的预后价值，作者使用CPH计算了HRs，其中包含了完整的临床病理和分子风险因素病例（n = 1,254）。首先，作者在多变量分析中将HECTOR风险评分校正为所有临床病理风险因素合并为一个风险评分。

为此，作者首先在这些临床病理风险因素上拟合了CPH模型。然后，通过CPH系数和变量的线性组合计算出称为“临床”的风险评分。在第二次分析中，作者在多变量分析中校正了HECTOR的连续风险评分，包括组织学亚型、分级、LVSI、分期、分子类别以及L1CAM和年龄作为连续数据。

组织学亚型分类变量处理为EEC的3级与参考组低级别EEC和非EEC与EEC参考组。分子类别的参考组为NSMP，FIGO 2009分期变量的参考组为I期。

所有统计测试均为双尾，以P值<0.050作为统计显著性标准。

5-1：基因组学和转录组学相关性分析

为了分析HECTOR风险组中驱动突变的频率，作者从参考文献70中使用MC3 MAF（突变注释格式）数据提取了基因组特征。从cBioPortal门户65,66下载了EC中前19个癌基因的突变状态，并使用OncoKB71进行了注释。使用双尾χ2检验对HECTOR风险组之间癌基因突变比例进行了统计比较，以P < 0.050作为显著。补充表12中报告了确切P值和样本量。

HECTOR连续风险评分与每个免疫细胞亚群之间的关联是通过将免疫细胞亚群的比例（以肿瘤整体的比例计算）的对数2转换作为独立变量进行线性回归来完成的。此外，作者还通过将分子类别和TMB作为额外的独立变量进行了关联测试。双尾P值<0.050被认为具有统计学意义。补充表13中报告了回归系数和确切P值。

从firebrowse.org下载了TCGA-UCEC的mRNA测序（mRNA-seq）和临床数据。使用DESeq2（参考文献72）（v.1.40.1）评估了HECTOR高风险与HECTOR低风险病例之间差异表达的基因。使用Benjamini-Hochberg错误发现率（FDR）调整后的似然比检验P值<0.050的基因被接受（补充表15）。

5-2：辅助化疗效果分析

作者对PORTEC-3（参考文献3）治疗臂中接受同步和辅助化疗的患者（n = 225）预测了HECTOR风险评分，这些患者之前被排除在训练和任何测试集之外。

分析了辅助化疗与外照射放疗单独使用对外照射放疗的影响：

1）通过治疗臂分层分析HECTOR风险组的远处无复发生存概率，并使用Kaplan-Meier方法和双尾对数秩和检验测量组别治疗效应；

2）计算HECTOR连续风险评分与治疗二进制变量之间交互项的统计显著性；

3）计算HECTOR高风险组与治疗二进制变量之间交互项的统计显著性（对HECTOR中风险组进行了校正，并使用HECTOR低风险组作为参考组）。

为了测量交互项的统计显著性，该交互项定义为HECTOR风险评分（连续或分类）乘以治疗二进制变量，进行了多变量Cox回归分析。类似的分析也用于测试组织学亚型（浆液性）与化疗治疗二进制变量之间的交互作用（对EEC和透明细胞组织学亚型进行了校正），以及FIGO 2009分期III（对I-II期进行了校正）和p53abn（对MMRd, NSMP作为参考组，以及为了达到收敛而移除的POLEmut肿瘤进行了校正）。

所有统计测试均为双尾，以P值<0.050作为统计显著性标准。

六、软件和包

EsVIT和HECTOR分别使用Pytorch（v.1.8.1和v.1.10.0）实现。IG使用Captum Python包（v.0.6.0）实现，指标如C指数使用scikit-survival Python包（v.0.17.2）计算。

CPH模型和Kaplan-Meier方法使用Lifelines Python包（v.0.27.1），χ2检验使用Scipy Python包（v.1.5.2），箱型图可视化使用altair Python包（v.4.2.0）以及线性回归使用statsmodels Python包（v.0.13.5）。

差异表达基因的分析使用DESeq2（v.1.40.1）72和R v.4.3.0（2023-04-21 ucrt）。额外的图像处理包包括Openslide Python包（v.1.1.2），OpenCV（v.4.3.0.36）和Pillow（v.7.2.0）。注释使用QuPath（v.0.4.1）完成。

七、数据可用性

本研究过程中生成或分析的原发性肿瘤材料和数据集由于隐私法律的限制，不对外公开。

PORTEC-1、PORTEC-2、PORTEC-3、MST以及TransPORTEC研究的数据和肿瘤材料由PORTEC研究小组和国际TransPORTEC联盟持有。丹麦队列的数据和肿瘤材料由本文的共同作者G.Ø.持有。UMCG队列的数据和肿瘤材料由本文的共同作者H.W.N.和M.d.B.持有，LUMC的数据和肿瘤材料由本文的共同作者N.H.和T.B.持有。所有数据和材料的共享请求应在本文发表之日起15年内向通讯作者提出，并需附上科学研究提案。

根据具体的研究提案，TransPORTEC联盟（PORTEC-3和TransPORTEC研究）或PORTEC研究小组（PORTEC-1、PORTEC-2和MST）或共同作者G.Ø.、H.W.N.和M.d.B.、N.H.和T.B.将决定何时、持续多久、出于哪些特定目的以及在哪些条件下可以提供所请求的数据，前提是需获得伦理同意

。数据访问请求将在3个月内处理。TCGA-UCEC的图像、突变状态和临床数据可通过癌症基因组学的cBioPortal（参考文献65,66）公开获取，网址为https://www.cbioportal.org/study/clinicalData?id=ucec_tcga_pan_can_atlas_2018。TCGA-UCEC的mRNA-seq数据可从http://firebrowse.org/?cohort=UCEC下载。