非平衡数据处理过程中可以尝试的三个额外措施
非平衡数据集是医学数据集中常见的一种数据形式,指的是二分类结局变量中一种类别的数量远于另一类别的数量的情形,比如以远处转移或者死亡作为结局变量,远处转移或者死亡类别的数量往往远小于对照的数量。
非平衡数据是需要单独处理的一类问题,否则会造成模型效能的下降。通常非平衡数据处理过程中的需要对训练数据集进行重采样,比如采用上采样、下采样或者混合采样等多种方法以使结局变量中类别的数量实现平衡。另外,评价模型效能的时候采用常见的ROC曲线下面积会高估模型的效能,所以会搭配PR曲线来进一步评估模型的表现。以上措施被认为是处理非平衡数据集必须要采用的两个措施。
下面所说的几个措施是笔者在处理非平衡数分析过程中的几点尝试,供大家参考。
- 尝试进行模型局部评价。PR曲线分析之外,还可以进行局部评价来评估非平衡数据集构建模型的效能[1],结合现在流行的决策曲线(DCA)分析,DCA分析可以选定阈值区间,然后在这个阈值区间内进行模型的局部评价来区分模型的优劣。
- 尝试进行概率校正。不平衡数据集往往会在校准度方面表现差,通过保序回归(isotonic regression)的方法可以矫正模型的预测的概率,从而实现对模型校准度的改善。保序回归起初是用在随机森林等树形模型上,也可以用来改善逻辑回归模型的校准度。
- 尝试使用堆叠聚合模型(stacking ensemble model)。堆叠聚合模型(逻辑回归+随机森林)在轻微提高ROC曲线下面积的同时会明显改善校准度,其效果甚至会优于保序回归的方法。
归根结底都是为了模型有一个良好的区分度和校准度,遇到非平衡数据集可以进行以上的尝试,相信一定有某个措施适合你。
参考文献:
Carrington AM, Fieguth PW, Qazi H, Holzinger A, Chen HH, Mayr F, Manuel DG. A new concordant partial AUC and partial c statistic for imbalanced data in the evaluation of machine learning algorithms. BMC Med Inform Decis Mak. 2020 Jan 6;20(1):4. doi: 10.1186/s12911-019-1014-6. PMID: 31906931; PMCID: PMC6945414.