参考一文带您了解交叉验证(Cross-Validation):数据科学家必须掌握的7种交叉验证技术
参考如何在机器学习中使用交叉验证(实例)
1 交叉验证
1.1 交叉验证的本质
针对中小型数据集常用的一种用于观察模型稳定性的方法——交叉验证。
交叉验证是用来观察模型的稳定性的一种方法,我们将数据划分为n份,依次使用其中一份作为测试集,其他n-1份作为训练集,多次计算模型的精确性来评估模型的平均准确程度。训练集和测试集的划分会干扰模型的结果,因此用交叉验证n次的结果求出的平均值,是对模型效果的一个更好的度量。
本质:将数据集进行多次划分,一部分做为训练集来训练模型,另一部分做为测试集,以此多次计算,最终评价模型效果。
1.2 为什么要使用交叉验证
(1)交叉验证可以用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,在一定程度上减小过拟合。
(2)可以从有限的数据中获取尽可能多的有效信息。
(3)在数据量较少时,更方便找到适合的模型参数。