主动学习如何解决数据标注的难题?主动学习和弱监督学习有何区别?

机器学习的成功与否取决于数据标注的质量和数量。利用主动学习的机器学习技术能加快模型训练的进度和减少数据获取的资金投入。依靠主动学习来得到有价值的数据,以便机器模型从中学习。如果一个模型被具有价值的数据加以训练,它将以较少的人工标注和更短的训练周期达到预期的性能。本文将介绍主动学习如何解决数据标注的难题和主动学习和弱监督学习的区别。

主动学习如何解决数据标注的难题?

  1. 缩短标注数据流程和降低标注成本
  2. 有效获得模型结果反馈
  3. 提高模型准确率

主动学习的方法是将数据标注的步骤呈现为学习算法和用户之间的交互过程,由算法来建议哪些数据值得被标注,而人工则对这些选定的样本进行标注。应用主动学习将加快标注进程、控制成本,获得理想的训练数据。相较于传统的标注方法,主动学习能够挑选有价值的数据进行标注,排除一些冗余数据、噪声数据的干扰,摒弃传统标注中对所有数据进行标注,加上模型从中的学习发现更具有价值的数据,减少标注量提高标注效率。下图简单描述了主动学习框架下的数据标注流程: 

主动学习框架下的数据标注流程

主动学习和弱监督学习有何区别?

两种学习类型均可产生高性能的模型,但它们在几个关键方面有明显的不同:

标签来源

不同学习类型所需的标签来源千差万别: 主动学习

  • 人工(通常是SME)标注数据集。
  • 假定这些标签准确。
  • 标签来自一个来源。

弱监督学习

  • 来源灵活,可来自任何地方。
  • 标签不一定非常准确或完整。
  • 必须使用多个数据源。

所需资源

投资用于每种学习类型的时间、金钱和人力配比不同: 主动学习

  • 利用SME进行标注成本高昂且可用性也有限。
  • 主动学习需要人工标注数据集中至少一部分数据。

弱监督学习

  • 标注功能可以在几秒钟内应用于数百万个数据点,从而节省大量标注时间。
  • 根据数据源的不同,投入在弱监督训练上的时间也会有差异,但通常都少于主动学习项目所需的时间。

过程迭代

虽然机器学习始终是个迭代过程,但弱监督学习和主动学习的迭代次数不同: 主动学习

  • 使用多个循环的人机协同迭代过程。
  • 标注数据后对模型进行训练。

弱监督学习

  • 在开始训练模型之前,已完全标注数据集。
  • 训练过程不会涉及任何人机协同。

两种方法的优点

尽管存在差异,但主动学习和弱监督学习仍与完全监督学习有所区别。它们的优势是节省了大量的标注时间,并可以通过限制SME的工作节省资金。弱监督学习所需的成本较高的数据量将远远少于监督学习所需的数据。同样,如果有一种使用主动学习的有效采样技术,则可以比传统方法使用更少的标注数据点来实现高质量的模型性能。 最重要的是,并不存在万能的机器学习方法。选择这种或那种学习方法,将取决于可用的时间、资金和人员分配;收集数据的计划和数据来源;以及特定使用场景。根据特定使用场景,不一定要选择主动学习和弱监督学习,它们并不总是相互排斥,具体取决于要使用的应用场景。在决策AI解决方案的过程中需要讲以上这些因素纳入考量标准。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/273965.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

istio 示例程序 bookinfo 快速部署

官网 文档位置 相关 yaml 资源下载 Bookinfo 应用分为四个单独的微服务: productpage:这个微服务会调用 details 和 reviews 两个微服务,用来生成页面details:这个微服务中包含了书籍的信息reviews:这个微服务中包含了…

【SpringCloud笔记】(11)消息驱动之Stream

Stream 技术背景 底层不同模块可能使用不同的消息中间件,这就导致技术的切换,微服务的维护及开发变得麻烦起来 概述 官网: https://spring.io/projects/spring-cloud-stream#overview https://cloud.spring.io/spring-cloud-static/spring…

springcloud微服务篇--6.网关Gateway

一、为什么需要网关? 网关功能: 身份认证和权限校验 服务路由、负载均衡 请求限流 在SpringCloud中网关的实现包括两种: gateway zuul Zuul是基于Servlet的实现,属于阻塞式编程。而SpringCloudGateway则是基于Spring5中提供的Web…

Java学习笔记(八)——面向对象编程(高级)

目录 一、类变量和类方法 (一)类变量/静态变量 类变量内存布局 类变量使用注意事项和细节 (二)类方法 类方法经典的使用场景 类方法使用注意事项和细节 二、理解main方法语法 三、代码块 代码块使用注意事项和细节 四、…

FQML_AXI_GPIO工程构建调试记录

FQML_AXI_GPIO工程构建调试记录 一、概述 此记录JFMQL15T开发板,实现ps通过axi接口控制pl 的EMIO接口led闪烁,添加EMIO PJTAG用于PS端调试,先创建vivado工程,最终生成bitstream,procise从vivado中导入工程&#xff0…

深度学习 | 基本循环神经网络

1、序列建模 1.1、序列数据 序列数据 —— 时间 不同时间上收集到的数据,描述现象随时间变化的情况。 序列数据 —— 文本 由一串有序的文本组成的序列,需要进行分词。 序列数据 —— 图像 有序图像组成的序列,后一帧图像可能会受前一帧的影响…

GA/T1400公安视图库在视频监控系统中对接及方案

公安视频图像信息应用系统系列标准,标号为GA/T 1400,现行版本为2017年版,由公安部发布。现较广泛地使用于平安城市安防监控系统、智慧城市安防监控系统、雪亮工程安防监控系统之中。 公安视频图像信息应用系统系列标准,共分为4个部…

java美容管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java Web美容管理系统是一套完善的java web信息管理系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为 TOMCAT7.0,Myeclipse8.5开发,数据库为Mysql5.0&…

电路设计(8)——计时器的multism仿真

1.功能设计 这是一个计时电路,在秒脉冲的驱动下,计时器开始累加,6个数码管分别显示计时的 时:分:秒。 仿真图如下所示: 左边的运放构成了振荡电路,可以产生脉冲波。这个脉冲波给计时电路提供基准…

金蝶云星空 多处反序列化RCE漏洞复现

0x01 产品简介 金蝶云星空是一款云端企业资源管理(ERP)软件,为企业提供财务管理、供应链管理以及业务流程管理等一体化解决方案。金蝶云星空聚焦多组织,多利润中心的大中型企业,以 “开放、标准、社交”三大特性为数字经济时代的企业提供开放的 ERP 云平台。服务涵盖:财…

关于“Python”的核心知识点整理大全44

目录 ​编辑 15.3.4 模拟多次随机漫步 rw_visual.py 注意 15.3.5 设置随机漫步图的样式 15.3.6 给点着色 rw_visual.py 15.3.7 重新绘制起点和终点 rw_visual.py 15.3.8 隐藏坐标轴 rw_visual.py 15.3.9 增加点数 rw_visual.py 15.3.10 调整尺寸以适合屏幕 rw_vi…

【Linux】生产者消费者模型(阻塞队列与环形队列)和POSIX信号量

文章目录 一、生产者消费者模型二、基于BlockingQueue的生产者消费者模型1.BlockQueue.hpp2.Task.hpp3.main.cc 三、POSIX信号量四、基于环形队列的生产消费模型1.RingQueue.hpp2.Task.hpp3.main.cc 一、生产者消费者模型 我们这里举一个例子,来解释生产者消费者模…

数据库的系统概述1

1.1 信息,数据,数据处理与数据管理 数据: 数据是描述事务的符号记录 信息: 信息是一种已经被加工为特定形式的数据,这种数据对接受者来说 是有意义的 数据管理: 利用计算机对收集的数据进行整理&#xff0…

redis cluster判断key属于那个分片。

一、判断阿里云 redis cluster,的key属于那个分片。 阿里云特有的命令info key 可以查看key属于那个slot,那个分片 命令行查看: xxxx:6379> info key xxxx_compressed_xxx slot:4941 node_index:9 xxxx:6379> cluster keyslot xxxx_…

详解结构体(包含结构体内存对齐,柔性数组,位段)【尊嘟很详细】

​ 结构体 结构体是一些值的集合,这些值称为成员变量,结构的成员可以是标量、数组、指针,甚至是其他结构体。 成员名可以与程序中其它变量同名,互不干扰。 结构体的定义 (struct结构名{}) struct books {int a;c…

最小覆盖子串(Java详解)

目录 一、题目描述 二、题解 一、题目描述 给定两个字符串 s 和 t 。返回 s 中包含 t 的所有字符的最短子字符串。如果 s 中不存在符合条件的子字符串,则返回空字符串 "" 。 如果 s 中存在多个符合条件的子字符串,返回任意一个。 注意&…

【IO】IO模型与零拷贝

前言: 正在运行的程序其实就是系统中的一个进程,操作系统会为每一个进程分配内存空间,而内存空间分为两部分,一部分是用户空间,这是用户进程访问的内存区域;另一部分是内核空间,是操作系统内核访…

详解Keras3.0 Layer API: LSTM layer

LSTM layer 用于实现长短时记忆网络,它的主要作用是对序列数据进行建模和预测。 遗忘门(Forget Gate):根据当前输入和上一个时间步的隐藏状态,计算遗忘门的值。遗忘门的作用是控制哪些信息应该被遗忘,哪些…

vue2、vue3状态管理之vuex、pinia

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、状态管理之vuex1.1 State调用:1.2 Mutation在vuex中定义:在组件中使用: 1.3 Action在vuex中定义:将上面的减…

Vue 自定义ip地址输入组件

实现效果&#xff1a; 组件代码 <template><div class"ip-input flex flex-space-between flex-center-cz"><input type"text" v-model"value1" maxlength"3" ref"ip1" :placeholder"placeholder"…