https://zhuanlan.zhihu.com/p/479060683
https://blog.csdn.net/fyfugoyfa/article/details/136414958
Confusion Matrix,是一个用来衡量模型好坏的统计量,其中Accuracy,Precision,F1 score,Recall,ROC曲线和AUC都可以从该表中得出
简易Confusion Matrix就是猫狗(猫为正类),两个类别,可以用下面的表格表示。
类型 | 描述 | 数值 |
---|---|---|
True Positive (TP) | 预测正确,实际为正类;对应(猫,猫) | 100 |
True Negative (TN) | 预测正确,实际为负类;对应(狗,狗) | 10 |
False Positive (FP) | 预测错误,实际为正类;对应(猫,狗) | 12 |
False Negative (FN) | 预测错误,实际为负类;对应(狗,猫) | 8 |
True Positive Rate (TPR) Sensitivity, Recall | 真正类率,灵敏度;TP/(TP + FN) | 0.91 |
False Positive Rate (FPR) | 假正类率;FP/(FP+TN) | 0.55 |
True Negative Rate (TNR) Specificity | 真负类率;TN/(TN+FP) | 0.45 |
Precision | 精确率;TP/(TP+FP) | 0.89 |
Accuracy | 准确率;(TP+TN)/(TP+TN+FN+FP) | 0.85 |
F1 | 2 * Precision*Recall / (Precision + Recall) | 0.90 |
Top-1 and Top-5 Accuracy
Top-1 : 这里是指在多分类问题中,一般认为argmax 最后概率最大(Top-1)的下标为我们模型的预测类别,如果预测类别和我们的实际类别一样,那么判断为正确,Accuracy的分子加1。
Top-5: 这里是指在多分类问题中(No of class > 5),一般认为argmax 最后概率最大的前五(Top-5)的下标中包含我们模型的预测类别,那么判断为正确,Accuracy的分子加1。
Top-N同理,所以Top-N >= Top-K, if N >= K
平衡准确率(Balanced Accuracy)
处理不平衡的数据集时(某些类别的样本数量远多于其他类别)在这种情况下,传统的准确率可能会产生误导,因为模型可能会倾向于预测数量较多的类别,从而得到较高的准确率,但对于数量较少的类别,其预测性能可能很差。
平衡准确率是对所有类别的准确率的平均,它对每个类别的重视程度是一样的,无论这个类别的样本数量多少。因此,它可以更好地反映模型在各个类别上的性能,特别是在处理不平衡数据集时。
加权 F1 值
F1 值是精确率(Precision)和召回率(Recall)的调和平均数,它同时考虑了模型的精确率和召回率。加权 F1 值则是对每个类别的 F1 值进行加权平均,权重通常是每个类别的样本数量。因此,加权 F1 值可以反映出模型在各个类别上的性能,并且对样本数量多的类别给予更高的权重。