机器学习模型验证——以数据为中心的方法

构建机器学习模型时,人们往往将激情和精力集中于收集数据和训练模型,对测试模型和验证结果往往缺少应有的关注。正确的验证技术有助于估计无偏见的广义模型的性能,并更好地理解模型训练的效果。您需要确保机器学习模型经过准确的训练,能输出正确的数据,在部署到现实场景中时,它还能做出准确的预测。经过适当验证的模型足够可靠,能够适应现实世界中的各种新场景。 不幸的是,没有任何一种验证技术可以适用于所有的机器学习模型。选择正确的验证方法需要理解组数据和时间索引数据。 本文将介绍主要的机器学习模型验证方法,并说明测试和验证机器学习模型结果重要的原因。  

模型验证的重要性

验证机器学习模型的结果旨在确保数据的正确性和准确性。通过验证可以在小问题变成大问题之前发现问题,是实现任何机器学习模型的关键一环。

安全性

模型验证的一个最关键方面是寻找安全漏洞。训练数据和机器学习模型数据都很有价值,对于私有数据或敏感数据的情况尤其如此。机器学习模型可能会意外泄漏数据,这意味着验证技术应该能检查数据泄漏的漏洞。 在将训练数据输入机器学习模型之前,采取严格的安全措施也很重要。例如,可以对数据进行匿名或化名处理。

可靠性

验证机器学习模型对于检查模型的可靠性也很重要。您需要了解模型,了解它的优缺点。了解模型有助于解释和查找稍后输出中的错误。了解模型的行为还能帮助您注意到可能发生的任何偏差和偏见。

避免偏见

虽然机器学习技术已彻底改变计算世界,但它的好坏取决于它的创造者。这意味着许多机器学习模型内置了偏见。算法可能存在偏见和/或训练数据也可能存在偏见。 知道如何在机器学习模型中寻找偏见以及如何修正偏见,是模型验证的一个重要方面,这将使机器学习的世界变得更美好、更公平。

预防概念偏差

概念偏差是指允许机器学习模型退化,允许其预测的结果与预期的结果不同的情况。概念偏差会发生,而模型偏差的方式却不可预测。偏差无益于机器学习模型,因为这会使输出数据的用处不大。 虽然最初的机器学习模型验证不会发现概念偏差,但通过适当的维护和定期测试就能做到。概念偏差会随着时间的推移而发生,但这完全可以通过日常维护加以预防。  

正确的数据和正确的人员

如果您正在构建机器学习模型,或是有意在公司中应用AI技术,则至关重要的是,使用正确的训练数据和正确的人员验证和维护模型。如果不验证模型,也不实施持续维护,机器学习模型可能会退化。

持续监控

没有一种机器学习模型是完美的,它们也不会一直保持完美。机器学习模型需要持续监控和调整,以确保输出准确、相关的信息。 虽然机器学习在经过训练后基本上是自主的,但验证和监控却需要人机协同。人工定期维护和检查机器学习模型非常重要。这项工作可以定期进行,也可以实时进行。  

模型验证技术

有许多不同的模型验证技术,正确方法的选择将取决于数据以及要通过机器学习模型实现的目标。以下是最常见的模型验证技术。

训练和测试拆分或保留

最基本的验证技术类型是训练和测试拆分。验证技术的重点是查看机器学习模型对以前从未见过的数据的反应。所有验证方法均基于训练和测试拆分,但略有不同。 使用这种基本的验证方法,可以将数据分成两组:训练数据和测试数据。需要保留测试数据,在测试模型之前,不要向机器学习模型公开它们。大多数人按三七比例分割数据,70%的数据用于训练模型。

再带入

在再带入验证方法中,所有数据均被用作训练数据。然后,将机器学习模型输出的错误率与训练数据集的实际值进行比较。该方法易于实现,它有助于快速找到数据中的漏洞。

K折交叉验证

K折交叉验证与测试拆分验证类似,不同之处在于前者将数据拆分为两个以上的组。在这种验证方法中,“K”被用作占位符,表示要拆分成的数据组的数量。 例如,可以将数据分成10个组。一组被排除在训练数据之外。然后,使用训练数据之外的数据组验证机器学习模型。接着,进行交叉验证。作为训练数据使用的9个数据组也分别被用于测试机器学习模型。每次测试和分数均可提供有关机器学习模型中有效性的新信息。

随机子抽样

随机子抽样的功能与训练和测试验证模型方法相同。关键的区别在于,前者将随机抽取数据的子样本,然后形成测试集。所有其他未在随机子样本中选择的数据均作为训练数据。

自助抽样

自助抽样也是一种机器学习模型验证技术,它使用放回抽样方法。这种验证方法对于估计总体数量最为有用。 使用自助抽样验证方法时,将从整个数据集中抽取一个小样本。这个小样本中将包括平均值或其他有意义的统计数据。需要替换数据,纳入计算的新统计数据,然后再次运行模型。

嵌套交叉验证

验证技术大多数都是为了评估结果的误差。嵌套交叉验证技术用于评估机器学习模型的超参数。用这种方法测试超参数可以防止过度拟合。 要使用这种模型,需要将两个K折交叉验证循环相互嵌套。内环用于超参数整定,外环用于误差测试和准确性估计。  

选择正确的模型

以上列出的机器学习验证模型列表并不详尽,还有其他类型的测试模型和验证技术。每个模型功能各不相同,对数据和机器学习模型提供的见解也略有不同。验证方法往往也有正误。重要的是在选择时要评估不同的验证技术,为模型选择正确的验证技术,确保其不会出错。 选择正确的验证模型很不容易。您需要了解数据和机器学习模型,以确保能够获得所需的信息。在此环节,您不能草率,也不能跳过。选择正确的验证技术意味着要测试机器学习模型,知道它是安全、没有偏见的,并且能可靠地提供高质量的输出。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/204700.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

骨传导与入耳式耳机哪种音质好?骨传导与入耳式耳机有什么区别?

由于骨传导耳机和入耳式耳机的传声原理不同,入耳式耳机的音质要更好一些! 想要了解骨传导耳机和入耳式耳机哪种音质好,首先就要了解骨传导耳机和入耳式耳机的传声原理有什么区别? 一、骨传导耳机和入耳式耳机有什么区别 1、传声…

智慧垃圾分拣站:科技改变城市环境,创造更美好的未来

随着城市化进程的不断加快,垃圾处理问题日益凸显。为了更好地解决垃圾分类问题,越来越多的城市开始推广智慧垃圾分拣站,利用创新科技实现高效垃圾分类处理。 山海鲸使用三维建模技术,建立了一个智慧垃圾分拣站数字孪生模型&#x…

PHP在线日语学习平台

有需要请加文章底部Q哦 可远程调试 PHP在线日语学习平台 一 介绍 此日语学习平台基于原生PHP开发,数据库mysql。系统角色分为用户和管理员。(附带参考设计文档) 技术栈:phpmysqlphpstudyvscode 二 功能 学生 1 注册/登录/注销 2 个人中心 3 查看课程…

自己的邮箱名称出现在别人的此电脑的网络位置中

在公司别的同事告诉我,我的邮箱名字出现在他们的【此电脑】-【网络位置中】 如图: 当时吓我一跳,因为我总喜欢搞一些渗透的东西,我以为把自己暴漏了,然后疯狂的在网上找原因。 于是就搜到一位安暖的博主: …

发生这种情况 经常导致投资者的痛苦

在这个市场中,什么事会让人痛苦呢?有的投资者马上回答,因为亏损。说实话,如果经过刻意的练习,我们在一定程度上能克服亏损给人带来的痛感。但是有另一种情况也容易为投资者带来痛苦,下面我们就来讨论一下。…

单片机学习12——电容

电容的作用: 1)降压作用: 容抗: Xc 1/2fc 串联分压原理。2100Ω的容量,50Hz的频率,可以得到1.5uF。断电之后,需要串联一个1MΩ的电阻放电。 那是不是可以使用2100欧姆的电阻来代替电容呢&am…

Java高级技术(反射的作用与应用场景)

一,放射 二,案例 (1),题目 (2),反射类 (3),测试类

民安智库(第三方公众满意度调查):专业助力咖啡店客户满意度调查

近期,一家知名的咖啡店品牌面临着市场竞争加剧和服务质量提升的挑战。为了更好地了解客户需求和提升客户满意度,该咖啡店决定委托民安智库(第三方满意度测评)开展一次全面的客户满意度调查。 本次调查旨在了解客户对咖啡店服务的…

【10张图带你搞清楚生成树协议】

STP协议分类 BPDU,网桥协议数据单元 STP路径开销,以链路带宽为准,两个标准,现在主要以NEW为准 在网络刚开始运行的阶段,所有交换机都会从所有端口发送BPDU,大家都认为自己是root,随着B…

一键分发平台-账号设置

首页-账号管理 ●登录后点击箭头-账号设置 控制台-账号管理 ●进入控制台-个人中心-账号管理 ●账号管理-个人资料介绍 ●账号管理-修改密码 ●账号管理-通知设置 ●账号管理-上传设置 ●账号管理-账号设置 ●账号管理-登录日志

Cascader 级联选择器动态加载数据的回显

如果后端没有只返回第三级的id,而是同时把第三级的名字一起返回了,那么就可以通过下面的方法来实现 1.在级联选择器里面加上这句代码 placeholder"请选择" 2.注册一个字符串 pleasett:"" 3.赋值 如过后端返回的有第三级的选项名 直接进行赋…

从原理和公式出发:python实现One_Way_ANOVA

文章目录 目的:python实现one way ANOVA 单因素方差分析1. 代码流程2. python代码实现0 主要的函数1 加载数据2 查看数据统计结果3 数据处理及可视化4 方差分析4.1 模型拟合4.2 单因素方差分析 5 Post Hoc t-test组间比较分析6 根据定义自行分解计算对比调用函数的结…

特征选择的方法:包裹法之递归特征消除

1.递归特征消除法的基本原理 递归特征消除法是一种贪婪的优化算法,致力于通过反复创建模型的方式找到性能最佳的特征子集。 首先将筛选的K个特征作为初始特征子集,开展机器学习计算得到每个特征的重要性,利用交叉验证方法得到初始特征子集的…

JOSEF约瑟 大功率抗干扰继电器\NR0521\220VDC 导轨安装

NR系列大功率继电器 系列型号: NR0521B大功率继电器 NR0521A大功率继电器 NR0521型大功率继电器 用途 大功率继电器NR0521220VDC 导轨安装在电力工程实际应用中,为防止母线电压经过PT二次侧反馈至高压侧,需要在PT二次侧串接PT刀闸重动接…

ROM和RAM概念

一、存储器特性 1)易失性:掉电数据会丢失,通常指RAM; RAM分为SRAM、DRAM SRAM:静态RAM,只要上电数据就不会丢失; DRAM:动态RAM,需要每隔一段事件刷新数据,否…

Windows安装Kafka3.6,单机

Kafka版本:kafka_2.13-3.6.0 Windows10系统 安装与配置 下载 kafka_2.13-3.6.0.tgz 下载并解压Kafka 3.6.0的压缩包到你选择的目录。 Kafka3.6.0下载链接https://kafka.apache.org/downloads 说明:Kafka3.6内置了Zookeeper,使用内置的Zo…

数字孪生3D场景开发工具:弥补不足,开拓全新可能

随着数字化时代的来临,越来越多的企业和行业开始探索数字孪生技术的应用。数字孪生是指通过数字技术将现实世界中的物体、场景等复制到虚拟世界中,以实现实时监测、预测和优化。然而,在数字孪生的发展过程中,一些不足也逐渐浮现。…

11.28 C++作业

提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数 要求使用C风格字符串完成 #include <iostream>using namespace std;int main() {string str;cout << "请输入一个字符串&#xff1a;" <<…

LeetCode刷题---路径问题

顾得泉&#xff1a;个人主页 个人专栏&#xff1a;《Linux操作系统》 《C/C》 《LeedCode刷题》 键盘敲烂&#xff0c;年薪百万&#xff01; 一、不同路径 题目链接&#xff1a;不同路径 题目描述 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记…

C# WPF上位机开发(抽奖程序)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 每到年末或者是尾牙的时候&#xff0c;很多公司都会办一些年终的清楚活动&#xff0c;感谢员工过去一年辛苦的付出。这个时候&#xff0c;作为年会…