基本概念
什么是一个任务的度量标准。对于目标检测任务来说,它的首要目标是确定目标的位置并判别出目标类别。这里已医学图像为例,我们需要计算出血液红细胞(RBC)、白细胞(WBC)和血小板的数量。为了实现这一功能,我们选择EfficientDet和yolov4这两个检测模型进行实验对比。
两个算法模型都能成功预测图片中出现的细胞,并且每个bbox都标注一个类别,每个类别还有相应的置信度。
如何评价哪个模型更好?
直观感觉,如果有一些具体度量指标来评价模型的好坏就很好。在介绍mAP之前,首先介绍PR曲线的相关概念
PR曲线(Precision-Recall Curve)
精确率(Precision)表示预测为正样本中真正是正样本的比率,召回率(Recall)表示实际正样本中真正是正样本的比率。通常这两个指标会有些矛盾之处,如果想要精确率高,召回率就低。反之亦然。
通常研究人员采用F1指标,结合精确度和召回率选择最优的F1值。另外,还包括AUC(Area Under the Curve)曲线下的面积。还有一个PR曲线度量标准是平均精度AP(Average Precision),而这个AP值和今天的主题最为密切。它的计算方式是在每个阈值下求精度的平均值。
mAP@0.5:mean Average PrecisionIoU=0.5)
将IoU设为0.5时(大于设定阈值才认为预测正确),计算每一类所有图片的AP,然后所有类别求平均,即mAP
mAP@.5:.95 (mAP@[.5:.95])
表示在不同IoU阈值(从0.5到0.95,步长0.05)(0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95)上的平均mAP。