论文笔记:从不平衡数据流中学习的综述: 分类、挑战、实证研究和可重复的实验框架

0 摘要

论文:A survey on learning from imbalanced data streams: taxonomy, challenges, empirical study, and reproducible experimental framework
发表:2023年发表在Machine Learning上。
源代码:https://github.com/canoalberto/imbalanced-streams

类不平衡给数据流分类带来了新的挑战。最近在文献中提出的许多算法使用各种数据驱动层面、算法层面和集成方法来解决这个问题。然而,在如何评估这些算法方面,缺乏标准化和商定的程序和基准。本文工作提出了一个标准化、详尽和全面的实验框架,以评估各种具有挑战性的不平衡数据流场景中的算法。实验研究在515个不平衡数据流上评估了24个最先进的数据流算法,在二分类和多分类场景下这些数据流结合了静态和动态类不平衡比率、实例级困难、概念漂移、真实世界和半合成数据集。这导致了一项大规模的实验研究,比较了数据流挖掘领域中最先进的分类器。我们讨论了这些场景中最先进的分类器的优点和缺点,并为最终用户提供了针对不平衡数据流选择最佳算法的一般建议。此外,我们还制定了该领域的开放挑战和未来方向。我们的实验框架是完全可复制的,并且很容易用新方法扩展。通过这种方式,我们提出了一种标准化的方法来在不平衡的数据流中进行实验,其他研究人员可以使用这种方法来对新提出的方法进行完整、可信和公平的评估。

1 引言

我们收集、整合、存储和分析大量数据的能力最近取得了进步,这给机器学习方法带来了新的挑战。传统的算法被设计为从静态数据集中发现知识。相反,当代数据源产生的信息具有数量和速度的特点。这样的场景被称为数据流(Gama, 2010; Bahri et al., 2021; Read and Žliobaitė, 2023),传统方法在处理这种数据流有所欠缺。

与从静态数据中学习相比,最大的挑战之一在于需要适应数据不断变化的本质,其中的概念是非平稳的,可能会随着时间而变化。这种现象被称为概念漂移(Krawczyk et al., 2017;Khamassi et al.,2018),并导致分类器的退化,因为在以前的概念上学习的知识可能对最近的实例不再有用。从概念漂移中恢复需要显式检测器或隐式适应机制的存在。

数据流挖掘的另一个重要挑战在于需要算法显示对类不平衡的鲁棒性(Krawczyk, 2016;Fernández et al.,2018a)。尽管经过近三十年的研究,处理倾斜的类分布仍然是机器学习的一个关键领域。这在流场景中变得更具挑战性,因为不平衡与概念漂移同时发生。不仅类的定义发生了变化,而且失衡比例也变得动态,类的角色也可能发生转换。假设固定数据属性的解决方案不能在这里应用,因为流可能在不同程度的不平衡和类之间的平衡期间振荡。

此外,不平衡的流可能有其他潜在的困难,如小样本量,边界和罕见的实例,类之间的重叠,或嘈杂的标签(Santos et al.,2022)。不平衡的数据流通常通过类重采样来处理(Korycki & Krawczyk, 2020;Bernardo等,2020b;Bernardo & Della Valle, 2021a),算法自适应机制(Loezer et al, 2020;Lu et al, 2020),或集成方法(Zyblewski et al, 2021;Cano & Krawczyk, 2022)。这个问题的动机是大量现实世界的问题,其中数据既存现流的特征又出现噪声的情况,例如Twitter流(Shah & Dunn, 2022)、欺诈检测(Bourdonnaye & Daniel, 2022)、滥用和仇恨言论检测(Marwa等人,2021)、物联网(Sudharsan等人,2021)或智能制造(Lee, 2018)。虽然有一些关于如何处理不平衡数据流的工作,但对于完全可复制、透明和有影响力的研究来说,没有一致认可的标准、基准或良好实践。

研究的目标。为二元和多类不平衡数据流创建一个标准化、详尽和信息丰富的实验框架,并对最先进的分类器进行广泛的比较。

动机。虽然文献中有许多针对漂移和不平衡数据流的算法,但缺乏关于如何全面评估这些算法的标准化程序和基准。现有的研究通常局限于算法和数据困难的选择,通常只考虑二分类数据,并且没有提供必须考虑不平衡数据流的哪些方面并将其转化为有意义的基准问题的见解。不平衡数据流需要一个统一和全面的评估框架,可以作为研究人员根据文献中相关方法评估他们新提出的算法的模板。此外,对最先进的方法进行深入的实验比较,可以获得有价值的见解,了解在不同条件下分类器和学习机制的工作原理。因此,我们提出了一个评估框架,并进行了大规模的实证研究,以获得深入了解的性能方法下的广泛和不同的一组数据困难。

概述和贡献。本文提出了一个完整的框架,用于对不平衡数据流的分类器进行基准测试和评估。我们总结现有的工作,并根据既定的分类法专门针对倾斜和流问题进行组织。我们提炼出该领域中出现的最关键和最具洞察力的问题,并用它们设计一组基准问题,以捕捉独特的学习困难和挑战。我们将这些基准编译成一个框架,该框架嵌入了各种度量、统计测试和可视化工具。最后,我们通过比较24种最先进的算法来展示我们的框架,这使我们能够选择表现最好的算法,发现它们在哪些特定领域表现出色,并为最终用户制定建议。本文的主要贡献总结如下:

  • 不平衡数据流的算法分类。我们根据已建立的分类法组织了目前最先进的方法,这些分类法总结了从不平衡数据流中学习的最新进展,并提供了最重要贡献的综述。
  • 全面和可重复的评估框架。我们提出了一个完整的整体框架,用于评估二分类和多分类不平衡数据流的分类器,该框架将度量标准、统计测试和可视化工具标准化,用于透明和可重复的研究。
  • 各种基准问题。我们制定了一组在我们的框架中使用的基准问题。我们捕获了不平衡数据流中存在的最重要和最具挑战性的问题,例如动态不平衡比率、实例级困难(边界、罕见和子概念)或类的数量。此外,我们还包括了现实世界和半合成的不平衡问题,总共产生了515个数据流基准测试。
  • 最先进分类器之间的比较。我们基于提出的框架和515个基准问题,对24种最先进的流挖掘算法进行了广泛、全面和可重复的比较研究。
  • 建议和公开挑战。基于详尽的实验研究结果,我们为最终用户制定了建议,以便了解性能最好的分类器的优点和缺点。此外,我们制定了从不平衡数据流中学习的公开挑战,这些挑战应该由研究人员在未来几年解决。

与大多数相关实验工作的比较。近年来,发表了几篇涉及类不平衡和数据流联合领域的大型实验研究的调查论文和著作。因此,重要的是要了解他们和这项工作之间的关键区别,以及我们的综述如何为这个主题提供以前的工作中没有涉及的新见解。Wang等人(2018)提出了几种现有技术的概述,包括漂移检测器和自适应分类器,并通过实验比较了它们的预测准确性。虽然是该领域的第一个专门研究,但它的局限性在于没有评估比较算法的计算复杂性,使用了非常小的数据集选择(7个基准),并且只调查了不平衡数据流的有限属性(没有触及实例级特征或多类问题)。Brzeziński等人(2021)提出了一项后续研究,重点关注不平衡流的数据级属性,如实例困难(边界和罕见实例)和子概念的存在。然而,这项研究已经完成对于有限数量的算法(5个分类器),并且只关注两类问题。

Bernardo等人(2021)提出了针对不平衡数据流的方法的实验比较。他们使用不同水平的不平衡比和三种漂移速度扩展了Brzeziński等人(2021)的基准。然而,他们的研究分析了有限数量的算法(11个分类器)和三个真实世界的数据集。Cano和Krawczyk(2022)对30种专注于集成方法的算法进行了大量比较,但其中21种是通用集成,而不是不平衡的特定分类器。

这四个工作只解决二分类不平衡数据流。本文扩展了以往所有研究的基准评估,提出了新的基准场景,扩展了真实数据集的数量,并对两类和多类不平衡数据流进行了评估。我们还将比较扩展到24个分类器,其中19个是专门为不平衡数据流设计的。表1总结了这些作品在实验评价上的主要差异。这使我们得出结论,虽然这些工作是重要的第一步,但需要对从不平衡数据流中学习进行统一,全面和整体的研究,这些研究可以用作研究人员评估其新提出的算法的模板。
在这里插入图片描述
本文组织如下。第2节提供了数据流的背景知识。第3节讨论了不平衡数据的主要挑战。第4节介绍了不平衡流的具体困难。第5节描述了处理不平衡流的集成方法。第6节介绍了实验设置和方法。第7节给出并分析了我们的研究结果。第8节总结了经验教训。第9节为最终用户选择不平衡数据流的最佳算法提出了建议。第10节讨论了开放的挑战和未来的方向。最后,第11节给出了结论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/87313.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【自用】无法通过ESP32创建HomeAssistant实体问题解决(MQTT对ESP32创建实体请求无应答)

一、问题描述 1.使用 MQTTX 测试客户端能够创建实体 当通过 MQTTX 发送注册实体请求的时候,实体能够在 MQTT 服务器中注册成功。 2.使用 ESP32 无法创建实体 在ESP32中通过 publish() 函数发送注册请求的时候,并不会报任何错误,但 MQTT 服…

uCharts 运行微信小程序时,图表放在scroll-view中点击后不能正确获取点击的currentIndex一直为-1

图表在APP和H5中的点击位置是正常的,在微信小程序中会出现点击位置不对且有部分地方点击不到,最终我的解决方法如下。 1.查看包裹图表的元素中有没有元素开启了定位,可以去除定位属性试一试。 2.为微信平台的图表添加 isScrollView="true"属性。 解决方案: 添加 …

写得了代码,焊得了板!嵌入式开发工程师必修之代码管理方案(中)

目录 2.2 分仓、权限与依赖问题 2.3 基于 Git 进行多仓管理 Git submodule Git subtree Script/CMake Git-Repo Conan 本文来自 武让 极狐GitLab 高级解决方案架构师 🌟 前一篇文章,作者介绍了嵌入式开发场景的代码管理特点与诉求,以及…

Redis下载与安装

文章目录 Redis简介下载,安装和配置(cmd)图形化工具 Redis 简介 下载,安装和配置(cmd) 开启redis服务 1.在解压出来的文件夹中打开cmd 2.输入 redis-server.exe redis.windows.conf即可开启服务 可以看到…

pgadmin4中的备份与恢复

一,postgresql 数据的备份与恢复 (一)数据库备份与恢复 1,备份 windows环境 1> dump 逻辑备份 1,用管理员身份打开power shell 2,切换到本机 postgresql 安装目录下的 bin 目录: PS C…

ui设计师简历自我评价(合集)

UI设计最新面试题及答案 1、说说你是怎么理解UI的? UI是最直观的把产品展示展现在用户面前的东西,是一个产品的脸面。人开始往往是先会先喜欢上美好的事物后,在去深究内在的东西的。 那么也就意味着一个产品的UI首先要做的好看,无论风格是…

Squaretest 1.8.3 安装激活

1. 插件下载 2. 离线安装 3. 插件激活

RedisDesktopManager 连接redis

redis查看是否启动成功 ps -ef | grep redis以上未启动成功 cd /usr/local/bin/ 切换根目录 sudo -i 开启服务端 ./redis-server /usr/local/redis/redis.conf 开启客户端 ./redis-cli

一款轻量级开发者工具,提高开发效率

Devkits Devkits 是一款轻量级桌面端应用,提供了一系列开发者工具,提高开发效率。 离线。类似的在线工具已经不少了,但是大多数都是在线的,网络不好的时候就很难用了。Devkits 提供了离线使用的功能,可以在没有网络的…

2023-8-23 合并集合

题目链接&#xff1a;合并集合 #include <iostream>using namespace std;const int N 100010;int n, m; int p[N];int find(int x) {if(p[x] ! x) p[x] find(p[x]);return p[x]; }int main() {cin >> n >> m;for(int i 1; i < n; i) p[i] i;while(m…

【Linux】临界资源和临界区

目录 一、临界资源 二、如何实现对临界资源的互斥访问 1、互斥量 2、信号量 3、临界区 三、临界区 四、进程进入临界区的调度原则 一、临界资源 概念&#xff1a;临界资源是一次仅允许一个进程使用的共享资源&#xff0c;如全局变量等。 二、如何实现对临界资源的互斥访问 …

Spring 自动装配机制详解

文章目录 一、手动装配二、自动装配1. XML 方式2. 注解方式 一、手动装配 首先知道 Spring 装配是干了件啥事&#xff1f;我的理解&#xff0c;它就是用来解决 bean 之间依赖关系的一个手段。 比如说我这里有一个 People 类和一个 Dog 类&#xff0c;People 依赖 Dog&#xff…

【Redis】Redis中的布隆过滤器

【Redis】Redis中的布隆过滤器 前言 在实际开发中&#xff0c;会遇到很多要判断一个元素是否在某个集合中的业务场景&#xff0c;类似于垃圾邮件的识别&#xff0c;恶意IP地址的访问&#xff0c;缓存穿透等情况。类似于缓存穿透这种情况&#xff0c;有许多的解决方法&#xf…

LDAP: error code 53 - unauthenticated bind (DN with no password) disallowed

这个错误提示显示Jenkins无法连接到LDAP服务器&#xff0c;原因是LDAP服务器不允许未认证的绑定&#xff08;DN与无密码&#xff09;。 但实际填写了DN

UITableView自定义TableHeader和TableFooter

UITableView自定义TableHeader和TableFooter 我猜你希望的效果是这样的 我猜你希望的效果是这样的 自定义页眉视图 让我们创建一个文件名 UITableViewHeaderFooterView 的 CustomerHeaderView 子类。 现在让我们创建视图的 Xib 文件并将其命名为 CustomHeaderView。 更改高度标…

Spark大数据分析与实战笔记(第一章 Scala语言基础-1)

文章目录 章节概要1.1 初识Scala1.1.1 Scala的概述1.1.2 Scala的下载安装1.1.3 在IDEA开发工具中下载安装Scala插件1.1.4 开发第一个Scala程序 章节概要 Spark是专为大规模数据处理而设计的快速通用的计算引擎&#xff0c;它是由Scala语言开发实现的&#xff0c;关于大数据技术…

Python数据分析实战-找出两个列表中的不同元素(附源码和实现效果)

实现功能 使用 Python 的集合操作来实现找出两个列表中的不同元素。将两个列表转化为集合类型&#xff0c;然后使用集合的操作来找出不同的元素。 实现代码 list1 [1, 2, 3, 4, 5] list2 [3, 4, 5, 6, 7]set1 set(list1) set2 set(list2)diff set1.symmetric_difference…

ssl卸载原理

SSL卸载&#xff0c;也称为SSL解密&#xff0c;是一种将SSL加密数据流卸成非加密的明文数据流的过程。SSL卸载通常在负载均衡器、代理服务器、WAF等设备中实现&#xff0c;可以提高传输效率和安全性。 SSL卸载的原理是将SSL数据流拦截下来&#xff0c;通过设备内置的证书进行解…

Ansible学习笔记(一)

1.什么是Ansible 官方网站&#xff1a;https://docs.ansible.com/ansible/latest/installation_guide/intro_installation.html Ansible是一个配置管理和配置工具&#xff0c;类似于Chef&#xff0c;Puppet或Salt。这是一款很简单也很容易入门的部署工具&#xff0c;它使用SS…

《基础教育论坛》期刊简介及投稿要求

《基础教育论坛》杂志是经国家新闻出版总署批准、国内外公开发行的综合性教育学术期刊。作者可通过&#xff0c;中华人民共和国新闻出版总署的网站进行出版许可及刊号的查询。 2009年&#xff0c;《基础教育论坛&#xff08;综合版&#xff09;》杂志创刊。 2012年&#xff0…