经验误差与泛化误差
过拟合是核心问题。
过拟合是无法避免的,只能尽量去缓解。
每个算法都要思考,是怎么缓解过拟合的?缓解方法什么情况下会失效?
模型选择
评估方法
留出法
为什么不能太小?
因为Mx要用来逼近M100的结果
为什么不能太大?
剩下的数据要用来逼近err100
留出法的一个很大的问题是:就算进行100次随机划分,仍然有的数据没有被训练过,有的没有被测试过。
交叉验证法
可以解决留出法存在的问题。
随机划分10次,称为10次10折交叉验证。
自助法
参数选择
不能直接用测试集调整模型的参数。
性能度量
P-R曲线
将所有的测试样本按照为正例的概率从高到低排序,纵坐标为查准率,横坐标为查全率绘制曲线。
一般,如果A的曲线将B完全包裹住,那么我们认为A优于B。
BEP
P-R曲线的平衡点。
ROC曲线
和P-R曲线类似,不过横坐标换为了假正例,纵坐标换为真正例。
真正例
=
T
P
T
P
+
F
N
真正例=\frac{TP}{TP+FN}
真正例=TP+FNTP
假正例
=
F
P
T
N
+
F
P
假正例=\frac{FP}{TN+FP}
假正例=TN+FPFP
AUC
ROC曲线下的面积
代价敏感错误率
混淆矩阵的FP、FN含有权重。
代价曲线
绘制:将ROC曲线上的每一点(TPR,FPR)都计算出FNR,绘制一个(0,FPR)到(1,FNR)的线段,线段下的面积即代表了该条件下的期望总体代价,取所有线段的下界面积即可。
比较检验