【机器学习-05】模型的评估与选择

在前面【机器学习-01】机器学习基本概念与建模流程的文章中我们已经知道了机器学习的一些基本概念和模型构建的流程,本章我们将介绍模型训练出来后如何对模型进行评估和选择等

1、 误差与过拟合

学习器对样本的实际预测结果与真实值之间的差异,我们称之为误差(error)。这个误差在训练集上表现出来的是训练误差(training error),也称为经验误差(empirical error);而在测试集上则是测试误差(test error)。而当我们希望学习器在新样本上也能有良好表现时,需要关注的是其泛化误差(generalization error),即学习器在所有新样本上的误差。

在学习过程中,存在两种可能的问题。一种是学习器对训练集的学习过于深入,以至于把训练样本中的某些特殊性质也当作了普遍规律,这种情况我们称之为过拟合(overfitting)。另一种则是学习器的学习能力不足,连训练集的基本特征都没有完全掌握,这种情况我们称之为欠拟合(underfitting)。

在过拟合的情况下,虽然训练误差很小,但测试误差却可能很大,因为学习器过于依赖训练样本的特殊性质,而无法很好地泛化到新样本。而在欠拟合的情况下,由于学习器连训练集的基本特征都没有学好,因此无论是训练误差还是测试误差都会比较大。

虽然欠拟合问题相对容易解决,例如通过增加迭代次数等方法,但过拟合问题却是机器学习领域面临的一大挑战。目前,我们还没有找到一种完美的解决方案来完全避免过拟合的发生。因此,在机器学习的实践中,我们需要时刻警惕过拟合的可能性,并采取相应的措施来尽可能减少其影响。

2 、评估方法

在现实应用中,我们面临着多种算法的选择,如何确定哪个算法最适合我们的任务呢?我们的目标是找到泛化误差最小的学习器,因为泛化误差可以反映模型在新样本上的性能。但问题是,泛化误差是无法直接获得的,因为它涉及到模型在未知数据上的表现。

为了解决这个问题,我们通常会采用一个与训练集相互独立的“测试集”来评估学习器对新样本的判别能力。我们将测试集上的“测试误差”作为“泛化误差”的一个近似值。这里的关键是,测试集应该尽可能不与训练集重叠,以保证评估的公正性和准确性。

举个例子来说明这个道理:假设老师出了10道练习题供学生们练习,但如果考试的时候还是用这同样的10道题,那么有些学生可能只会做这10道题却能得高分。这样的成绩显然不能真实反映学生的水平。同样地,如果我们用与训练集相同的样本进行测试,那么得到的评估结果就会过于乐观,无法真实反映模型的泛化能力。因此,我们需要一个独立的测试集来评估模型,就像考试需要独立于练习题的试题一样。这样才能更准确地评估模型的性能,选择出最适合我们任务的学习算法。

3、 训练集与测试集的划分方法

如上所述,为了使用“测试集”的“测试误差”来近似“泛化误差”,我们需要对初始数据集进行科学的划分,从而得到相互独立的“训练集”和“测试集”。下面,我们将介绍几种常用的数据集划分方法,这些方法都有助于我们更加准确地评估模型的性能。

3.1 留出法(hold-out)

我们将数据集D分割为两个互不重叠的集合:训练集S和测试集T。这两个集合应满足D=S∪T且S∩T=∅,确保它们之间没有交集。常见的划分比例是,大约2/3到4/5的样本用于训练,而剩下的样本则用于测试。在此过程中,我们要特别注意保持训练集和测试集中数据分布的一致性,避免由于分布差异而引入不必要的偏差。一种常用的做法是采用分层抽样方法。然而,由于划分的随机性,单次划分的结果可能不够稳定。因此,通常我们会进行多次随机划分,并重复实验以获取平均值,从而得到更可靠和稳定的结果。

3.2 交叉验证法

我们将数据集D分割为k个大小相等且互不重叠的子集,确保它们的并集仍为D,且任意两个子集之间无交集。为了保持数据分布的一致性,我们采用分层抽样的策略进行子集的划分。交叉验证法的核心思想在于:每次从k个子集中选择k-1个作为训练集,而剩下的那个子集则作为测试集。这样的划分方式共有k种,因此我们可以进行k次独立的训练和测试。最终,我们将这k次测试的结果取平均值,以得到一个更为稳定和可靠的评估结果。这种方法通常被称为“k折交叉验证”,其中k最常见的取值为10。在下图中,我们给出了10折交叉验证的直观示意图,以便更好地理解这一过程。

在这里插入图片描述

与留出法相似,K折交叉验证在划分数据集D为K个子集时也存在随机性。因此,为了提高评估的稳定性,我们通常会进行p次K折交叉验证,这被称为p次k折交叉验证。一个常见的做法是进行10次10折交叉验证,即总共进行100次独立的训练/测试过程。特别地,当我们将数据集D划分为K个子集,且每个子集中仅包含一个样本时,这种方法被称为“留一法”。尽管留一法的评估结果通常更为准确,但由于其计算成本巨大,对计算机资源的消耗也相当显著。

3.3 自助法

我们的目标是评估使用完整数据集D训练出的模型性能。然而,在留出法和交叉验证法中,由于需要保留部分样本作为测试集,实际用于训练的样本规模会小于D,这可能导致因训练样本大小差异而产生的估计偏差。留一法虽然在一定程度上减少了这种影响,但其计算成本过高。为了解决这个问题,我们引入了“自助法”。

自助法的核心思路是这样的:从包含m个样本的数据集D中,我们反复执行以下步骤m次:每次随机挑选一个样本,将其复制到新的数据集D’中,然后将该样本放回原数据集D。这样,经过m次操作后,我们得到了一个同样包含m个样本的数据集D’。值得注意的是,由于样本在每次挑选后都会被放回,因此同一个样本可能在D’中出现多次,也可能一次都不出现。经过计算,我们可以得知在m次采样过程中,某个样本始终不被选中的概率随着m的增大而趋近于一个特定的值。

lim ⁡ m → ∞ ( 1 − 1 m ) m ⟶ 1 e ≈ 0.368 { \lim_{m\to\infty} \left( 1-\frac{1}{m} \right)^m \longrightarrow\frac{1}{e}\approx0.368 } mlim(1m1)me10.368

通过自助采样法,我们可以从初始样本集D中构建一个新的数据集D’,同时保留那些未出现在D’中的样本作为测试集。由于自助采样的随机性,大约36.8%的初始样本将不会出现在D’中,因此这些未被选中的样本可以构成测试集D-D’。自助法在数据集较小,难以有效划分训练集和测试集时尤为实用。然而,需要注意的是,由于自助法是通过随机抽样来构建数据集的,这可能会改变原始数据集的分布,从而引入一定的估计偏差。因此,在初始数据集足够大且易于划分时,留出法和交叉验证法通常更为常用。

4、 调参

学习算法中往往存在需要设定的参数(parameter) ,这些参数的取值对于模型性能的影响至关重要,我们通常称之为“调参”(parameter tuning)。由于很多参数的取值范围可能非常广泛,完全遍历所有可能取值是不现实的。因此,一种常见的做法是为每个参数设定一个合理的取值范围和步长,这样我们就可以在有限的时间内进行有效的参数调整。

例如,假设我们有一个算法包含三个参数,每个参数只考虑五个候选值。那么,对于每一组训练/测试集,我们就需要评估5^3=125个不同的模型。由此可见,找到一个合适的参数组合对于算法研究人员来说是多么的重要和令人欣喜。

最后,当我们的模型和参数调整都完成后,为了确保模型能够达到最佳的学习效果,我们需要用初始数据集D重新训练模型。这意味着,之前用于评估的测试集也将被用于训练,以进一步增强模型的性能。这就像我们在高中时期,每次考试结束后,都会认真复习试卷上的题目,即使有些题目是之前没见过的,这样也能让我们更好地掌握知识,从而更加自信地面对接下来的学习。

5、 性能度量

性能度量(performance measure)是评估模型泛化能力的关键指标,用于比较不同模型的优劣。在对比不同模型时,采用不同的性能度量方法可能会导致不同的评判结果。本节将重点介绍分类模型的性能度量,除了5.1之外的内容,都将围绕这一主题展开。

5.1 最常见的性能度量

在回归任务中,也就是预测连续数值的问题中,我们通常采用“均方误差”(mean squared error)作为主要的性能度量标准。许多经典的算法都将MSE作为评价函数,想必大家对此都不陌生。

E ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) − y i ) 2 E(f;D)=\frac{1}{m}\sum ^ m_{i=1}(f(x_i)-y_i)^2 E(f;D)=m1i=1m(f(xi)yi)2

在分类任务中,也就是预测离散值的问题中,我们最常用的评价指标是错误率和精度。错误率指的是分类错误的样本数占总样本数的比例,而精度则是分类正确的样本数占总样本数的比例。显然,错误率和精度之间存在互补关系,即错误率与精度之和等于1。

E ( f ; D ) = 1 m ∑ i = 1 m ∥ ( f ( x i ) ≠ y i ) E(f;D)=\frac{1}{m}\sum ^ m_{i=1}\parallel(f(x_i) \neq y_i) E(f;D)=m1i=1m(f(xi)=yi)

5.2 查准率/查全率/F1

虽然错误率和精度是分类任务中常用的性能度量方式,但它们并不适用于所有场景。例如,在推荐系统中,我们更关注推送的内容是否真正符合用户的兴趣(即查准率),以及我们是否成功推送了所有用户可能感兴趣的内容(即查全率)。因此,对于这类问题,使用查准率和查全率作为评价指标更为合适。在二分类问题中,我们可以通过构建分类结果的混淆矩阵来明确定义查准率和查全率。
在这里插入图片描述

查准率P与查全率R分别定义为:
P = T P T P + F P P = \frac{TP}{TP+FP} P=TP+FPTP
R = T P T P + F N R = \frac{TP}{TP+FN} R=TP+FNTP

初次接触时,FN和FP的概念确实容易混淆。按照常规思维,我们可能会将FN误解为“False预测为Negative”,即错误地预测为错误的情况,但这样的理解实际上颠倒了FN和TN的意义。后来,我找到了一张非常详细的图解,它清晰地解释了这些概念。
正如天下没有免费的午餐,查准率和查全率是一对矛盾的度量。例如,如果我们希望推送的内容能够完全吸引用户的兴趣,那么可能只会选择那些我们非常确定的内容进行推送,这样就会遗漏一些用户可能也感兴趣的内容,导致查全率降低。相反,如果我们希望确保所有用户感兴趣的内容都能被推送,那么可能需要推送更多的内容,甚至包括那些不那么确定的内容,这样做虽然提高了查全率,但也会导致查准率下降,因为推送中包含了更多用户不感兴趣的内容。

为了更直观地描述查准率和查全率之间的变化关系,我们引入了“P-R曲线”。这条曲线是根据学习器的预测结果对测试样本进行排序后绘制的。我们首先将最有可能是“正例”的样本放在前面,最不可能是“正例”的样本放在后面。然后,按照这个顺序逐个将样本作为“正例”进行预测,并计算每次预测后的查准率(P值)和查全率(R值)。通过这种方式,我们可以得到一条描述查准率和查全率之间关系的曲线,从而更全面地评估学习器的性能。如下图所示:

在这里插入图片描述

那么,如何评估P-R曲线呢?如果学习器A的P-R曲线完全被学习器B的曲线所包围,那么我们可以断定B的性能要优于A。然而,当A和B的曲线出现交叉时,判断性能优劣就变得复杂了。通常,我们会比较两个曲线下的面积,面积较大的学习器性能更优。不过,由于计算曲线下的面积往往比较困难,因此我们引入了“平衡点”(Break-Event Point,简称BEP)的概念。平衡点即查准率与查全率相等时的取值,平衡点越高,说明学习器的性能越好。

在实际应用中,查准率(P)和查全率(R)有时会出现相互矛盾的情况,这就需要我们综合考虑这两个指标。为此,最常用的方法是计算F-Measure,也称为F-Score。F-Measure实际上是P和R的加权调和平均值,通过这一指标,我们可以更全面地评估学习器的性能。F-Measure是P和R的加权调和平均,即:

1 F β = 1 β 2 . ( 1 P + β 2 R ) \frac{1}{F_\beta}=\frac{1}{\beta^2}.(\frac{1}{P}+\frac{\beta^2}{R}) Fβ1=β21.(P1+Rβ2)

特别地,当β=1时,也就是常见的F1度量,是P和R的调和平均,当F1较高时,模型的性能越好。

1 F β = 1 β 2 . ( 1 P + β 2 R ) \frac{1}{F_\beta}=\frac{1}{\beta^2}.(\frac{1}{P}+\frac{\beta^2}{R}) Fβ1=β21.(P1+Rβ2)

F 1 = 2 ∗ P ∗ R P + R = 2 ∗ T P 样本总数 + T P − T N F1=\frac{2*P*R}{P+R}=\frac{2*TP}{样本总数+TP-TN} F1=P+R2PR=样本总数+TPTN2TP

当我们面对多个二分类混淆矩阵时,例如在多次训练或不同数据集上训练得到的结果,我们需要一种方法来估算全局性能。常用的方法有宏观和微观两种。宏观方法首先计算每个混淆矩阵的P值和R值,然后求得平均P值(macro-P)和平均R值(macro-R),最后基于这些平均值计算Fβ或F1。而微观方法则是先计算出所有混淆矩阵的TP、FP、TN、FN的平均值,然后再基于这些平均值计算P、R,并最终求得Fβ或F1。两种方法从不同的角度综合了多个混淆矩阵的信息,以得到全局的性能评估。

m a c r o − P = 1 n ∑ i = 1 m P i macro-P=\frac{1}{n}\sum ^ m_{i=1}P_i macroP=n1i=1mPi
m a c r o − R = 1 n ∑ i = 1 m R i macro-R=\frac{1}{n}\sum ^ m_{i=1}R_i macroR=n1i=1mRi
m a c r o − F 1 = 2 ∗ m a c r o − P ∗ m a c r o − R m a c r o − P + m a c r o − R macro-F1=\frac{2*macro-P*macro-R}{macro-P + macro-R} macroF1=macroP+macroR2macroPmacroR

5.3 ROC与AUC

如前所述,学习器对测试样本的预测结果通常以实值或概率形式给出。当我们设定一个阈值时,预测值大于这个阈值的样本被判断为正例,小于阈值的则判断为负例。因此,这个实值的准确性直接决定了学习器的泛化能力。若我们将这些实值进行排序,排序的质量则反映了学习器的性能水平。ROC曲线正是基于这一思路来评估学习器的泛化性能。与P-R曲线类似,ROC曲线也是按照预测值的排序顺序,逐一将样本视为正例进行预测。但不同之处在于,ROC曲线以“真正例率”(TPR)作为横轴,以“假正例率”(FPR)作为纵轴。ROC曲线更侧重于研究基于测试样本预测值的排序效果,从而评估学习器的性能。

AUC是ROC曲线下的面积

简单分析图像,可以得知:当FN=0时,TN也必须0,反之也成立,我们可以画一个队列,试着使用不同的截断点(即阈值)去分割队列,来分析曲线的形状,(0,0)表示将所有的样本预测为负例,(1,1)则表示将所有的样本预测为正例,(0,1)表示正例全部出现在负例之前的理想情况,(1,0)则表示负例全部出现在正例之前的最差情况。限于篇幅,这里不再论述。

现实中的任务通常都是有限个测试样本,因此只能绘制出近似ROC曲线。绘制方法:首先根据测试样本的评估值对测试样本排序,接着按照以下规则进行绘制。

同样地,进行模型的性能比较时,若一个学习器A的ROC曲线被另一个学习器B的ROC曲线完全包住,则称B的性能优于A。若A和B的曲线发生了交叉,则谁的曲线下的面积大,谁的性能更优。ROC曲线下的面积定义为AUC(Area Uder ROC Curve),不同于P-R的是,这里的AUC是可估算的,即AOC曲线下每一个小矩形的面积之和。易知:AUC越大,证明排序的质量越好,AUC为1时,证明所有正例排在了负例的前面,AUC为0时,所有的负例排在了正例的前面。

6、比较检验

在比较学习器泛化性能的过程中,统计假设检验(hypothesis test)为学习器性能比较提供了重要依据,即若A在某测试集上的性能优于B,那A学习器比B好的把握有多大。 为方便论述,本篇中都是以“错误率”作为性能度量的标准。

6.1 假设检验

“假设”指的是对样本总体的分布或已知分布中某个参数值的一种猜想,例如:假设总体服从泊松分布,或假设正态总体的期望u=u0。回到本篇中,我们可以通过测试获得测试错误率,但直观上测试错误率和泛化错误率相差不会太远,因此可以通过测试错误率来推测泛化错误率的分布,这就是一种假设检验。
在这里插入图片描述
在这里插入图片描述

7、 偏差与方差

偏差-方差分解是解释学习器泛化性能的重要工具。在学习算法中,偏差指的是预测的期望值与真实值的偏差,方差则是每一次预测值与预测值得期望之间的差均方。实际上,偏差体现了学习器预测的准确度,而方差体现了学习器预测的稳定性。通过对泛化误差的进行分解,可以得到:

期望泛化误差=方差+偏差
偏差刻画学习器的拟合能力
方差体现学习器的稳定性
易知:方差和偏差具有矛盾性,这就是常说的偏差-方差窘境(bias-variance dilamma),随着训练程度的提升,期望预测值与真实值之间的差异越来越小,即偏差越来越小,但是另一方面,随着训练程度加大,学习算法对数据集的波动越来越敏感,方差值越来越大。换句话说:在欠拟合时,偏差主导泛化误差,而训练到一定程度后,偏差越来越小,方差主导了泛化误差。因此训练也不要贪杯,适度辄止。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/468511.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

最新2024年阿里云服务器地域和可用区全球分布表

2024年最新阿里云服务器地域分布表,地域指数据中心所在的地理区域,通常按照数据中心所在的城市划分,例如华北2(北京)地域表示数据中心所在的城市是北京。阿里云地域分为四部分即中国、亚太其他国家、欧洲与美洲和中东&…

spring 没完没了

start 轻量级开源的j2ee框架,容器框架 装javabean aop ioc 定义一个starter的jar包,写一个configuration配置类,将bean定义其中,在starter包的meta-inf/spring.factories中写入配置类,springboot会按约定加载该配置类 …

3D模型优化服务+三维可视化+数字孪生+元宇宙=眸瑞科技

眸瑞科技:老子云平台AMRT3D数字孪生引擎 老子云概述 老子云3D可视化快速开发平台,集云压缩、云烘焙、云存储云展示于一体,使3D模型资源自动输出至移动端PC端、Web端,能在多设备、全平台进行展示和交互,是全球领先、自…

【Flask开发实战】防火墙配置文件解析(二)之shell读取内容

一、前言 上一篇文章中,介绍了防火墙配置文件包含的基本元素和格式样式,并模拟了几组有代表性的规则内容,作为基础测试数据。在拿到基础测试数据后,关于我们最终想解析成的数据是什么样式的,其实不难看出,…

gitlab仓库使用流程(开发)

1.1.GitLab代码提交流程: 1.1.1准备阶段: 确保已经安装了Git,并且配置了正确的用户名和邮箱地址。 在本地创建一个新的文件夹,用于存放即将开发的代码。 1.1.2.拉取代码: 使用git clone命令从GitLab上拉取项目代码…

day05vue学习

day05 一、学习目标 1.自定义指令 基本语法(全局、局部注册)指令的值v-loading的指令封装 2.插槽 默认插槽具名插槽作用域插槽 3.综合案例:商品列表 MyTag组件封装MyTable组件封装 4.路由入门 单页应用程序路由VueRouter的基本使用 …

学习网络编程No.14【数据链路层ARP理解】

引言: 北京时间:2024/3/14/9:20,简单聊一聊我的日常。昨天晚上十点左右更新完新的一篇文章,回到宿舍简简单单花了个两首歌的时间洗了个澡,然后为了保持形象吹了个头发,哈哈哈!当然对比以前的我…

[Labtools 27-1429] XML parser encountered a problem in file

平台:Vivado2108.3 最近在使用vivado的debug过程中发现,编译好工程后打开open hardware manager出现如下错误。 [Labtools 27-1429] XML parser encountered a problem in file E:/githome/xxxx/hw_1/hw.xml at line 1 : XML character encoding not su…

关系数据库标准语言SQL

1.SQL概述 1.1基本表(Base table) 实际存储在数据库中的表SQL中一个关系就对应一个基本表基本表可以有若干个索引基本表的集合组成关系模式,即全局概念模式(数据的整体逻辑结构) 1.2 存储文件 存储文件和相关索引组…

蓝桥杯刷题总结(Python组)

1、蛇形矩阵 解题思路:每次赋值后都对方向进行改变,一般上下左右就是(-1,0),(0,1),(1,0),(0&…

21.环形链表

给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,评测系统内部使用整数 pos 来表示链表尾连接到链表中的位置(…

【sql】深入理解 mysql的EXISTS 语法

相关文章: 【sql】深入理解 mysql的EXISTS 语法 【sql】初识 where EXISTS 1. 使用格式如下: select * from a where exists ( 任何子查询 ) 代码根据颜色分成两段,前面的是主查询,后面红色的是子查询,先主后子&…

Linux(Ubuntu)下安装paddleocr详细教程

PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力开发者训练出更好的模型,并应用落地。 1、 Ubuntu安装教程: 首先安装paddlepaddle:pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple 一般此项不会报错…

交叉注意力融合时空特征的TCN-Transformer并行预测模型

独家 | 高创新预测模型 往期精彩内容: 时序预测:LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较-CSDN博客 风速预测(一)数据集介绍和预处理-CSDN博客 风速预测(二)基于Pytorch的EMD-LSTM模型-CSDN博…

IDEA上的Scala环境搭建

Scala环境搭建 一、搭建Scala开发环境 安装Scala编译器 安装scala-2.12.10.msi(详见【我的资源】) 检查scala安装情况 在dos窗口输入scala,检查是否能够进入编译器。进行简单的scala命令计算 在IDEA中进行scala编码 File - Settings - …

智能风暴:如何码垛协作机器人正在重塑日用品生产?

在日用品行业中,码垛工作一直是一项劳动强度大、重复性高的工作。如今,随着科技的发展,码垛协作机器人的出现,正在给这一行业带来革命性的改变。 以往,工人们在炎热或寒冷的环境下,搬运、堆叠着各种日用品&…

redis-黑马点评-商户查询缓存

缓存:cache public Result queryById(Long id) {//根据id在redis中查询数据String s redisTemplate.opsForValue().get(CACHE_SHOP_KEY id);//判断是否存在if (!StrUtil.isBlank(s)) {//将字符串转为bean//存在,直接返回Shop shop JSONUtil.toBean(s, …

零基础如何学习Web 安全,如何让普通人快速入门网络安全?、

前言 网络安全现在是朝阳行业,缺口是很大。不过网络安全行业就是需要技术很多的人达不到企业要求才导致人才缺口大 初级的现在有很多的运维人员转网络安全,初级也会慢慢的卷起来,但是岗位多不用怕,以后各大厂也都会要网络安全人…

【linux】CentOS查看系统信息

一、查看版本号 在CentOS中,可以通过多种方法来查看版本号。以下是几种常用的方法: 使用cat命令查看/etc/centos-release文件: CentOS的版本信息存储在/etc/centos-release文件中。可以使用cat命令来显示该文件的内容,从而获得C…

传输大咖15|如何在 PC 客户端中集成镭速高速传输插件?

引言 在当前信息爆炸的时代,快速、安全、稳定地传输数据对于企业的日常运营至关重要。然而,传统的 FTP/HTTP 传输方式存在着传输速度慢、易受网络延时、丢包等问题。而镭速高速传输插件可以帮助企业轻松实现快速、安全的文件传输。本文将详细介绍如何在…