通过随机采样和数据增强来解决数据不平衡的问题

什么是类别不平衡

当每个类别的样本不平衡时,即在类别分布之间没有平衡比率时,会出现类别不平衡的问题。 这种失衡可能是轻微的,也可能是严重的。 取决于样本量,比率从1:2到1:10可以理解为轻微的不平衡,比率大于1:10可以理解为强烈的不平衡。 在这两种情况下,都必须使用特殊技术(例如欠采样,过采样,cost-sensitive代价敏感等)处理具有类不平衡问题的数据。 稍后,我们将用imblearn [1]介绍欠采样和过采样以及它们的实现。

准确率悖论

准确度这个指标看似很合理,但面对非均衡数据集时,这个指标会严重失真,甚至变得毫无意义。来看下面这个例子:数据集里有1000个数据点,其中990个为类别0,而剩下的10个为类别1,如图1所示。

       模型A对所有数据的预测都是类别0,因此这个模型其实并没有提供什么预测功能。但它的准确度却高达99%。模型B的预测效果其实很不错:对于类别1,10个数据里有9个预测正确;而对于类别0,990个数据里有900个预测正确,但它的准确度只有90.9%远低于模型A。

       这就是所谓的准确度悖论:面对非均衡数据集时,准确度这个评估指标会使模型严重偏向占比更多的类别,导致模型的预测功能失效。

精确率:

在模型A里,预测0的精确率为990/1000 = 0.99。预测1的精确率为0

在模型B里,预测0的精确率为900/901 =  0.9988901。预测1的精确率为9/90 = 0.1

解决办法-修改损失函数中不同类别的权重

非均衡数据集指的是在数据集中,不同类别的样本数量极不平衡。例如,在一个医疗数据集中,患病样本(类别1)可能远少于健康样本(类别0)。

为了解决这个问题,一种常见的方法是通过修改损失函数中的类别权重。具体来说,如果某个类别的样本较少,就增加这个类别的权重。这样做的目的是增加模型对于少数类别的关注,使得模型在学习时更加“重视”这些样本。权重通常设定为类别所占比例的倒数。例如,如果某类别只占总数据的10%,那么这个类别的权重可以设为10(即1/0.1)。

但是,这种方法可能会带来一些副作用。增加少数类别的权重,会使得模型倾向于将更多的样本预测为这个少数类别。例如,原本是类别0的样本,也可能被模型错误地判定为类别1。这种现象在机器学习中被称为模型的偏见,即模型因为权重调整而过度倾向于某一类别。

在文中提到的例子中,尽管权重调整带来了一些预测错误,但整体模型的表现(以AUC为标准)还是有所提升。AUC是一个评估模型整体性能的指标,较高的AUC值表明模型具有较好的分类能力。文中还提到,调整权重后,准确率(ACC)和AUC指标几乎相等,并在图形中重叠,这说明在这种情况下,AUC和准确率给出了相似的模型评估结果。

总之,这种通过调整类别权重的方法可以提升模型对少数类别的识别能力,但也可能带来预测偏见,需要在实际应用中仔细权衡。

本来在数据不平衡的情况下,模型预测一个样本呢,更可能预测为数量多的样本,这样改进以后,会少预测为数量多的样本,更多预测数量少的样本。

在模型训练过程中,模型尽可能会去减少损失。损失越大,模型会在下一轮调整预测结果,就是将本来预测为样本多的类别预测为样本少的类别。

每一个类的损失越大,模型讲会在训练中专门为了去预测这个类去更新相关参数,使得模型越来越倾向于预测这个类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/624487.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于UDP协议Python通信网络程序(服务器端+客户端)及通信协议在自动驾驶场景应用示例

一、UDP协议 UDP(用户数据报协议)是一种无连接的传输层协议,具有简单、高效的特点,适用于一些对数据可靠性要求不高的应用场景。UDP的主要特点包括无连接、不可靠和面向数据报。这意味着在发送数据之前不需要建立连接&#xff0c…

撤销 git add 操作(忽略被追踪的文件)

文章目录 引言I git rm命令来取消暂存【推荐】II 撤销特定文件的暂存状态2.1 git rese2.2 git restoresee also引言 应用场景: 修改.gitignoregitignore只能忽略那些原来没有被追踪的文件,如果某些文件已经被纳入了版本管理中,则修改.gitignore是无效的。那么解决方法就是先…

国产化开源鸿蒙系统智能终端RK3568主板在电子班牌项目的应用

国产化开源鸿蒙系统智能终端主板AIoT-3568A、人脸识别算法的的电子班牌方案可支持校园信息发布、人脸识别考勤、考场管理、查询互动等多项功能,助力学校在硬件上实现信息化、网络化、数字化,构建“学校、教师、学生”三个维度的智慧教育空间。 方案优势 …

微软推出的Microsoft Fabric 到底是什么?

近期,总有客户问小编,微软推出的 Microsoft Fabric 是什么?这个产品有什么特别之处呢?希望下面这篇文章能为大家解开一些疑惑。 微软Fabric是2023年5月推出的一个数据分析平台,它将关键数据管理和分析工作负载整合到一…

618值得入手的数码产品怎么选?2024 买过不后悔的数码好物分享

在数字时代的浪潮中,每一次的购物狂欢节都如同一场科技盛宴,让我们有机会接触到最前沿、最实用的数码产品,而“618”无疑是这场盛宴中最为引人瞩目的日子之一。面对琳琅满目的商品,如何选择那些真正值得入手的数码好物&#xff0c…

Java全局异常处理,@ControllerAdvice异常拦截原理解析【简单易懂】

https://www.bilibili.com/video/BV1sS411c7Mo 文章目录 一、全局异常处理器的类型1-1、实现方式一1-2、实现方式二 二、全局异常拦截点2-1、入口2-2、全局异常拦截器是如何注入到 DispatcherServlet 的 三、ControllerAdvice 如何解析、执行3-1、解析3-2、执行 四、其它4-1、设…

pdf怎么标注红色方框?五种PDF标注红色方框方法

pdf怎么标注红色方框?在当今数字化时代,PDF文档已成为我们日常工作和学习中不可或缺的一部分。然而,如何在海量的PDF文件中快速、准确地标注出重要信息,让内容更加醒目呢?今天,我将向大家介绍五种PDF标注红…

AI 图像生成-环境配置

一、python环境安装 Windows安装Python(图解) 二、CUDA安装 CUDA安装教程(超详细)-CSDN博客 三、Git安装 git安装教程(详细版本)-CSDN博客 四、启动器安装 这里安装的是秋叶aaaki的安装包 【AI绘画…

苹果cms:搜索功能的开关与设置

今天有个小伙伴问了个关于苹果cms搜索的问题:直接搜演员搜索不到影片信息(如下图) 1、我们拿演员王宝强为例:搜索王宝强后结果显示无相关视频 2、但是我们搜索王宝强主演的“大闹天竺”后却能得到关于王宝强的影片信息。这是为什…

【无重复字符的最长字串】

P. S.:以下代码均在VS2019环境下测试,不代表所有编译器均可通过。 P. S.:测试代码均未展示头文件stdio.h的声明,使用时请自行添加。 Problem: 3. 无重复字符的最长子串 文章目录 1、思路2、解题方法3、复杂度4、Code5、结语 1、思…

string容器-构造函数

基本概念 string本质上是一个类string类内部封装了很多成员方法,例如:查找find、拷贝copy,删除delete,替换replace,插入insertstring管理char*所分配的内存,不用担心复制越界和取值越界等,由类…

CentOS7中如何docker-compose

在 CentOS 7 上安装 docker-compose 需要几个步骤 步骤 1: 安装 Docker 首先,确保你已经安装了 Docker。如果没有安装,可以通过以下命令安装: sudo yum update -y sudo yum install -y yum-utils sudo yum-config-manager --add-repo http…

利用MMDetection进行模型微调和权重初始化

目录 模型微调修改第一处:更少的训练回合Epoch修改第二处:更小的学习率Learning Rate修改第三处:使用预训练模型 权重初始化init_cfg 的使用配置初始化器 本文基于 MMDetection官方文档,对模型微调和权重初始化进行第三方讲解。 …

漏桶算法:稳定处理大量突发流量的秘密武器!

漏桶算法的介绍 我们经常会遇到这样一种情况:数据包的发送速率不稳定,而网络的带宽有限。如果在短时间内有大量的数据包涌入,那么网络就会出现拥塞,数据包的丢失率就会增大。为了解决这个问题,人们提出了一种叫做“漏…

RockChip Android8.1 EthernetService分析

一:概述 本篇文章将围绕RK Android8.1 SDK对Ethernet做一次框架分析,包含Framework层和APP层。 当前版本SDK默认只支持一路Ethernet,熟悉Ethernet工作流程后通过修改最终会在系统Setting以太网中呈现多路选项(可以有多种实现方式),博主通过增加ListPreference实现的效果…

鸿蒙内核源码分析(特殊进程篇)

三个进程 鸿蒙有三个特殊的进程,创建顺序如下: 2号进程,KProcess,为内核态根进程.启动过程中创建.0号进程,KIdle为内核态第二个进程,它是通过KProcess fork 而来的.这有点难理解.1号进程,init&#xff0c…

Linux-远程登录

远程登录Linux服务器的两款小工具: 1、Xshell (可以远程登录到Linux终端控制台) 2、 Xftp (可以与Linux服务器互相传递文件) 家庭/学校免费 - NetSarang Website 下载地址 1、傻瓜式安装Xshell6 2、在Linux主机上查看 Linux主机的…

天府锋巢直播基地运营方——树莓集团:构建3+3+1运营体系

天府锋巢直播产业基地作为一座充满活力和创新精神的成都数字产业园区,自其诞生之初便承载着引领直播产业发展的使命。作为该基地的运营方,树莓集团以其前瞻性的视野和深厚的行业积淀,成功构建了331运营体系,为入驻企业提供全生命周…

MHD093C-058-PG1-AA具备哪些特点?

MHD093C-058-PG1-AA是一种高性能的伺服电机控制器。 该产品具备以下特点: 高精度与高性能:MHD093C-058-PG1-AA设计用于提供精确的运动控制和定位,适用于需要高精度定位和控制的场合。快速响应:采用先进的控制技术,确…

八字排盘软件-​无敌八字排盘软件

功能介绍 1.完全免费使用,即使用不需要付费且无任何限制。 2.同时推出手机版电脑版,两版本数据互通互用,即电脑版的数据可以备份到手机版上导入,手机版的数据也可以备份到电脑版上恢复导入,方便手机和电脑共用的朋友。…