什么是主动学习(Active Learning)?定义,原理,以及主要方法

数据是训练任何机器学习模型的关键。但是,对于研究人工智能的企业和团队而言,数据仍是实现成功的最大障碍之一。首先,您需要大量数据来创建高性能模型。更重要的是,您需要标注准确的数据。虽然许多团队一开始都是手动标注数据集,但更多团队已逐渐实现数据标注的部分自动化,比如采用主动学习方法(Active Learning),以提高效率。

如果想要了解主动学习,您首先需要了解监督机器学习和无监督机器学习之间的区别。监督学习认为,我们需要为机器提供标注正确的数据,让机器从这些示例中学习如何正确标注数据。无监督学习则认为,要为机器提供未标注的、混乱的数据。机器可以自主识别数据的模式和结构。每种方法各有千秋;本文主要讨论主动学习所属的监督学习范畴。

主动学习方法

主动学习属于我们所说的“半监督学习”。完全监督学习方法会为模型提供完整的标注数据集,而半监督主动学习方法则仅为模型提供数据集的标注子集,认为在训练过程中,并非所有数据都是必需的、有价值的。主动学习过程涉及数据集中哪些数据需要优先标注。从本质上讲,模型可以主动选择想要学习的数据。

工作原理

在主动学习中,有三种典型场景。知名度最高的一种场景称为基于池的采样(Pool-based Sampling),它遵循以下五个步骤:

  1. 人员(在此过程中称为Oracle)标注数据集的一小部分,并将标注数据提供给模型。
  2. 模型(称为主动学习者)处理这些数据,并以一定的置信度预测未标注数据点的类别。
  3. 假设初始预测低于所需精度和置信度,则会使用采样技术确定下一个需要标注的数据子集。
  4. 人员标注选定的数据子集并将标注的数据子集发送回模型进行处理。
  5. 该过程将继续,直至模型的预测达到所需的置信度和精度水平。

另一个主动学习场景即基于流的选择采样(Stream-based Selective Sampling)。在此场景中,模型会接收到一个未标注的数据点,并且必须立即决定是否要标注该数据点。

在主动学习的第三种方法——成员查询合成(Membership Query Synthesis)场景中,模型构建自身的标注示例。

主动学习的采样方法

采样方法,也称为查询策略,是主动学习方法成功的关键。不佳的采样方法会导致不良的模型预测,从而在主动学习周期中进行更多的迭代。两种最常见的采样方法即不确定性采样(Uncertainty Sampling)和委员会投票选择(Query-By-Committee)。

不确定性采样 Uncertainty Sampling

顾名思义,不确定性采样优先标注模型最不确定的数据点。不确定性采样运用以下几种技术:

  • 最低置信度:该算法可以将预测从最低置信度到最高置信度排序。选择标注那些置信度最低的数据。
  • 最小分类间隔:算法会比较各数据点的最高概率类预测和次高概率类预测。优先标注分类间隔最紧密的数据点,因为模型最不确定这些数据的类别。
  • 熵方法:机器会通过一个方程确定类别预测中具有最高不确定性(也称为熵)的数据点。这些数据点会被优先标注。
委员会投票选择 Query-By-Committee

该方法使用多个基于同一数据集进行训练的模型,共同确定需要标注的其他数据点。模型间分歧最大的地方是要选择标注哪些数据点。

其他常见的采样方法还有预期影响和密度加权,尽管这些方法的使用频率不比上述几种方法。在任何情况下,所使用的采样方法都是影响模型达到标准性能之速度的重要决定因素。

您需要试验多种不同的方法,以达到最佳性能,因为没有一种方法对每个用例都最为有效。

何时选择主动学习方法

对一些组织而言,手动标注完整的数据集(如在监督学习方法下)需要花费高额成本和时间,这就是为什么一些团队正在转向半监督和无监督ML方法。在以下部分或所有情况下,最好采用主动学习方法:

  • AI解决方案需要迅速进入市场,并且手动标注数据可能会对项目构成风险。
  • 没有足够的资金聘请数据科学家或SME手动标注所有数据。
  • 没有足够的人员手动标注所有数据。
  • 具有大量未标注的数据。

与传统的监督学习相比,主动学习的成本更低,速度更快,但您仍需考虑构建有效模型所需的计算成本和迭代。如果操作正确,主动学习方法所构建的模型能够达到与传统方法所构建的模型同等的质量和精度。

对数据科学团队而言,主动学习技术起着关键作用。因为所选择的采样方法可以决定主动学习方法的整体有效性。在某些情况下,您可以寻求外援;例如,和第三方数据供应商建立合作伙伴关系,创建高效的主动学习流程。

AI主动学习的未来

主动学习是AI的未来吗?目前来看,主动学习方法可以代替完全监督学习方法。另外,主动学习方法可以用于超大型数据集,协助数据科学团队更智能、更高效地标注数据。数据是卓越AI的重要基础,但如果操作不当,数据也会成为AI的最大障碍。因此,高效的主动学习方法在当下备受青睐。

研究人员正在努力设计主动学习采样方法,以不断改进先前方法,并希望我们能够推广那些表现最好的方法。虽然还需要进一步研究(例如,仍然难以提前确定主动学习方法是否适用于某一特定数据集),但主动学习仍是人机协同过程中的有效方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/242101.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用 Taro 开发鸿蒙原生应用 —— 当 Taro 遇到纯血鸿蒙 | 京东云技术团队

纯血鸿蒙即将到来 在今年 8 月的「2023年华为开发者大会(HDC.Together)」上,华为正式官宣「鸿蒙Next」,这个更新的版本将移除所有的 AOSP 代码,彻底与 Android 切割,使其成为一个完全自主研发的操作系统&a…

JAVA实体类集合该如何去重?

JAVA实体类集合该如何去重? 最近在工作中经常遇到需要去重的需求,所以特意系统的来梳理一下 有目录,不迷路 JAVA实体类集合该如何去重?单元素去重方法一:利用Set去重方法二:利用java 8的stream写法&#xf…

预测性维护对制造企业设备管理的作用

制造企业设备管理和维护对于生产效率和成本控制至关重要。然而,传统的维护方法往往无法准确预测设备故障,导致生产中断和高额维修费用。为了应对这一挑战,越来越多的制造企业开始采用预测性维护技术。 预测性维护是通过传感器数据、机器学习和…

【教3妹学编程-算法题】消除相邻近似相等字符

插: 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 坚持不懈,越努力越幸运,大家一起学习鸭~~~ 3妹:好冷啊, 冻得瑟瑟发抖啦 2…

Python Paramiko库:SSH远程连接与文件传输实战指南

更多资料获取 📚 个人网站:ipengtao.com 在网络管理和系统运维中,SSH(Secure Shell)是一种广泛用于远程登录和文件传输的协议。Python中的Paramiko库为开发者提供了灵活、强大的SSH客户端和服务器功能。本文将深入探讨…

微服务实战系列之MQ

前言 从今天起,席卷北国的雪,持续了一整天,北京也不例外。这场意外的寒潮,把整个冬天渲染的格外cool。当然你可以在外面打雪仗、堆雪人、拉雪橇,也可以静坐屋内,来一场围炉煮茶的party。此刻,冬…

社会不教,精英不讲,坎儿还得自己过(揭秘人才成长规律)

推荐大家去看看天涯社区的精华帖子:《社会不教,精英不讲,坎儿还得自己过(揭秘人才成长规律)》 原出处天涯精华帖:《社会不教,精英不讲,坎儿还得自己过(揭秘人才成长规律&…

(企业 / 公司项目)微服务项目解决跨域问题:

前后端分离项目中前端出现了跨域的问题 在网关模块配置文件中添加 配置 application.properties # 允许请求来源(老版本叫allowedOrigin) spring.cloud.gateway.globalcors.cors-configurations.[/**].allowedOriginPatterns* # 允许携带的头信息 spri…

2023.12.12 关于 Java 反射详解

目录 基本概念 定义 用途 反射相关的类 反射基本原理 Class 类中的相关方法 常用获得类相关的方法 常用获得类中属性相关的方法 常用获得类中构造器相关的方法 常用获得类中方法相关的方法 实例理解 反射优缺点 基本概念 定义 Java 的反射(reflection&a…

java中的包

1.包的本质分析(原理) 包的本质 实际上就是创建不同的文件夹来保存类文件 2.一个文件中有两个类的i情况 package com.use;import com.xiaoqiang.Dog;public class Test {public static void main(String[] args) {Dog dog new Dog();System.out.println(dog); //com.xiaoqian…

达索系统SOLIDWORKS 2024 Visualize新功能

SOLIDWORKS Visualize(原名为 Bunkspeed)是一整套独立的软件工具,Visualize模块主要是用于对SOLIDWORKS设计出的产品图进行渲染、做动画,方便用户更好的展示、宣传产品;以最快速、最轻松的方式创建专业的照片级图像、动…

汽车差速器市场分析:预计2029年将达到218亿元

差速器是为了调整左右轮的转速差而装置的。在四轮驱动时,为了驱动四个车轮,必须将所有的车轮连接起来,如果将四个车轮机械连接在一起,汽车在曲线行驶的时候就不能以相同的速度旋转,为了能让汽车曲线行驶旋转速度基本一…

智能优化算法应用:基于生物地理学算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于生物地理学算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于生物地理学算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.生物地理学算法4.实验参数设定5.算法…

2023年12月14日 十二生肖 今日运势

小运播报:2023年12月14日,星期四,农历十一月初二 (癸卯年甲子月丙午日),法定工作日。 红榜生肖:羊、狗、虎 需要注意:牛、马、鼠 喜神方位:西南方 财神方位&#xff…

静态SOCKS5的未来发展趋势和新兴应用场景

随着网络技术的不断发展和进步,静态SOCKS5代理也在不断地完善和发展。未来,静态SOCKS5代理将会呈现以下发展趋势和新兴应用场景。 一、发展趋势 安全性更高:随着网络安全问题的日益突出,用户对代理服务器的安全性要求也越来越高…

2-分布式存储之glusterfs

任务背景 实现了远程的存储共享(NAS或SAN)后, 公司业务发展迅速, 存储空间还需要增大。使用NAS或SAN都不方便扩容,NAS可以增加新的挂载目录, SAN可以增加新的硬盘,但我们希望直接在原来挂载的业务目录上实现在线扩容,数据体量越来越大, 这个…

TypeScript中的基本类型

提示:TypeScript中的基本类型 文章目录 前言基本类型1.类型声明2.自动类型判断3.类型断言 前言 TypeScript (计算机编程语言)简称:TS,是 JavaScript 的超集。简单来说就是:JS 有的 TS 都有。JS写的代码在TS…

UDP分片与丢包,UDP真的比TCP高效吗?

一、UDP 报文格式 每个 UDP 报文分为 UDP 报头和 UDP 数据区两部分。报头由 4 个 16 位长(2 字节)字段组成,分别说明该报文的源端口、目的端口、报文长度和校验值。 UDP 报文格式如图所示。 UDP 报文中每个字段的含义如下: 源端…

linux下time与dd命令结合测试存储器速度

在Linux中,"time"和"dd"命令是两个独立的命令,它们可以结合使用来测量"dd"命令执行的时间。 下面是它们的简要说明: time命令: "time"命令用于测量命令执行的时间和资源使用情况。它可以…