《面向机器学习的数据标注规程》摘录

说明:本文使用的标准是2019年的团体标准,最新的国家标准已在2023年发布。

3 术语和定义

3.2 标签 label

标识数据的特征、类别和属性等。

3.4 数据标注员 data labeler

对待标注数据进行整理、纠错标记批注等操作的工作人员。

【批注】按照定义,数据标注员包括标注员、审核员。

3.7 标注说明规则 annotation instruction

数据需求方用于明确标注任务和标注数据的书面陈述,包含执行标注任务所需的标注工具、任务描述、标注方法、正确示例、常见错误等内容。

【批注】在书面陈述中,任务描述可录入系统,正确示例、常见错误以文件方式提供。

3.8 标注方法 annotation method

定义数据标注员进行数据标注时的环境和规程,包含标注对象定义、所用标注工具和标注平台、标注格式、标注前的准备工作、标注后的处理工作等。

4 数据标注规程框架

在这里插入图片描述

数据标注规程框架见上图,包括:

a) 标注任务前期准备:
1)定义所需数据;
2)制定标注说明规则;
3)确定标注人力的供给方式;

b) 标注任务中:
1)标注任务的创建;
2)标注任务的分发;
3)标注任务的开展;
4)标注任务的回收;

c) 标注结果输出:
1)标注结果的质量检查和控制;
2)标注结果的输出格式;
3)标注数据的交付和验收。

5 数据标注规程

5.1 定义所需标注数据和预估数据量

数据标注前应完成以下五项准备工作:

a) 分析数据。明确机器学习和模型训练过程中所需的标注数据类型、量级、用途及应用场景等。

b) 整理数据。明确数据与标签文件存放的目录结构,在任务分配与回收时,应按指定的目录进行数据组织;

c) 明确命名规则。应明确数据与标签文件的命名方式,命名规则应避免数据更新迭代时的重名,便于数据追踪、标注追踪,且数据文件名与标签文件名应保持一致;

e) 标注数据定义与需求量。明确标注数据的定义并确定最终的需求量。

5.2 标注说明规则

5.2.1 标注说明规则职责分工

数据需求方应负责确保数据标注的规则符合该领域的业务和专业常识,并根据标注规则,检查所标注的数据是否满足数据需求方。

示例1:数据需求方即业务数据需求方,指需要利用人工智能技术解决实际业务问题的业务团队。

数据使用方应从机器学习算法角度,确保标注规则可满足机器学习模型的训练要求,并根据该标注规则,检查标注的数据支撑机器学习模型达到数据需求方期望的精度。

示例2:数据使用方指需要使用标注数据训练人工智能模型的研发团队。

数据需求方、数据使用方及数据标注团队应共同参与标注说明规则的制定、调整、迭代、执行的各个环节。数据标注团队应从实际标注角度出发,确保标注规则清晰、明确。

5.2.2 标注说明规则定义

标注说明规则应明确项目背景、意义及数据应用场景,包含项目标注工具、任务描述、标注方法、正确示例、常见错误等内容。
标注说明规则应有可变更性,该变更应由相关方评审同意后,再更新规则文档,且相关方应沿用制定规则时的基本原则及方法。

【批注】项目背景、意义及数据应用场景可录入系统,并提供修改功能。

5.2.3 标注说明规则内容

标注说明规则包括但不限于:
a) 项目背景:概述项目背景或数据标注需求产生的场景;
b) 版本信息:标注该说明的当前版本编号、发布日期、发布人、发布说明(发布原因或迭代原因)及历史迭代信息(历代版本编号、发布日期、发布人、发布说明等);
c) 任务描述:概述标注项目主要任务,包括标注项目关键信息、数据形式、标注平台、主要标注方法、期望交付时间、正确率要求等;
e) 标注方法:阐明数据需求方所需数据对象的标签定义,明确在协定标注平台上使用的标注组件、标签类型及全部操作。标注方法的衡量标准是以标注人员掌握标注方法后,能否立刻正确操作一次标注;
f) 正确示例:通过图片、图文、视频等的形式,示范正确的标注方法或成果,数据需求方应明确数据产出,标注方应明确标注认识,标注样例应覆盖特殊样本的标注示例;
g) 注意事项:标注方的错误预警具有警示作用,规则制定者在注意事项中应列出标注方应避免的错误、标注方法中应注意的细节及额外处理方式等;
h) 质量要求:数据标注规则应对项目的预期质量有合理的定量预估。质量审核应遵循质量要求。

【批注】以上对规则内容的说明可作为数据库字段的注释,系统提供标注说明规则的版本发布功能,任务描述中的期望交付时间、正确率要求可录入系统。系统提供标签定义功能。注意事项、质量要求可录入系统。

5.2.4 执行方法及注意事项

标注方按照给定规则标注时,发现存疑数据应及时记录。数据需求方应明确此类数据的记录规则、保存路径及后续处理方法等。采用多人标注或定期集中反馈等方法处理问题数据。
标注说明规则的细则应有可调整性

【参考】
存疑数据记录规则:difficult=1
存疑数据后续处理方法:系统提供存疑数据统计、存疑数据重新分配的功能。

5.2.5 标注说明中术语体系规范化

术语体系的规范化至少应满足:
a) 遵从国家法规和行业规范
b) 建立统一的标注术语字典,确保数据标注人员对术语和定义理解的一致性;

【参考】系统提供术语体系管理功能。

5.3 标注人力供给方式

标注人力模式可包括:内部自营标注、第三方标注、众包标注等。

5.4 标注工具和标注平台选择

标注工具应满足以下条件:
a) 易操作性: 标注工具应降低标注人员的操作难度, 提供交互方式的自有标注;
b) 规范性:标注工具的数据导出格式,应满足或可转换到格式要求
c) 高效性: 标注工具应保证标注任务的完成效率
标注平台包含标注工具全部功能、团队管理、任务分发、质量审核等环节的模块,且将所有标注环节工具化。 标注平台需保证保密数据的安全性
数据量相对较小、数据类型相对单一、标注周期较短时,宜选择标注工具进行标注。

5.5 标注任务创建、分发、开展和回收

5.5.1 标注任务创建

创建标注任务前,将待标注数据上传。上传的导入方式有两种:本地上传(适用于数据在本地设备上);云端上传。
标注数据上传成功后,当仅靠标注工具完成标注时,在创建任务的过程中,任务责任人要事先明确标注任务的目的以及标注规范等。
创建任务包括:
a) 明确任务基本信息:包含任务目的、任务需求(任务优先级,标注人员的能力要求级别等)、任务描述等;
b) 任务配置:根据不同的任务需求,添加与标注任务相关的标注标签;

【批注】任务目的、标注规范、任务优先级、标注人员的能力要求级别、任务描述、任务允许的标签可录入系统。

5.5.2 标注任务分发

根据任务发布者确定的参数及需求,将标注任务分发给标注人员。
标注任务发布者在发布数据时,应明确与标注任务相关的参数:
a) 参与标注人数;
c) 数据标注员每人每天工作量;
e) 任务结束时间点。
标注任务的分发对象包含标注人员和审核人员。标注任务分发给标注人员时,也应将任务分发给审核人。在标注过程中,同时进行标注审核工作。
分发时,按照任务具体信息和标注需求,分配给相应的数据标注员,实现数据标注任务的优化调度,提高数据标注的效率和质量。
注:不同标注人力的供给方式也会影响标注任务的分发形式。

【批注】参与标注人数、每人每天工作量、任务结束时间点可录入系统。

5.5.3 标注任务开展

标注任务中数据标注方法分为两种:全人工标注;半自动标注。
全人工标注方式主要依靠人力进行标注,其标注的数据较精准,当标注数据量较大时,会耗费较多人力。

5.5.4 标注任务回收

在项目协定的任务将要完成时,项目负责人需回收标注作业,且需保证已分配的任务能被完整交付。自营标注团队可直接向标注人员或标注小组负责人收取。回收环节中需注意个别情况和变化的出现,如果标注人员未能按时交付,则需由候补成员继续完成剩余任务,以保证标注任务进度。

【批注】系统提供任务分配的修改功能。

5.6 标注结果质量检查和控制

5.6.1 质量检查

质量检查能够确保数据标注结果有价值,符合数据需求方的特定应用目的。根据项目特性,质量检查方法可以归纳为以下几种,标注项目负责人需要根据场景需求及项目特点进行选择:
a) 逐条检查:即对整个标注项目所包含的所有标注子任务逐一核查并确认。适用于项目量级不大、人力资源充沛、时间节点不紧张、对标注数据结果的准确率要求极高的标注项目。这种方法覆盖的质量检查范围最全,同时也适用于任何形式的数据标注场景。该方法可确保标注数据输出的最高质量,尤其对于数据格式主观成分较多、应用场景较复杂的任务更有效;
b) 按比例抽查:即从全部标注数据中科学地抽取样本,对样本中的数据逐条检查,以此评判全部标注数据的质量。样本量的选择需符合统计学基本原理,足以代表全部标注数据。抽查审核时,项目负责人可指派较有经验的审核员完成,从而确保交付质量;
c) 抽样检验又可分为以下三种:
1 ) 简单抽样:以等概率抽取 n 件待检测样本的方法。
2 ) 系统抽样:每隔一定时间或一定编号进行检测,而每一次又是从一定时间间隔内生产出的产品或一段编号产品中随机抽取一个或几个样本的方法;
在质量检查过程中,需要设定质量检查间隔,防止由于一次性不合格数据积压过多而导致延误交付。还需要根据算法要求设定质量检查合格率,增加标注人员容错率。

holer:系统默认的质量检查方法为逐条检查;质量检查间隔可录入系统;系统提供抽样检验的功能;系统提供合格率统计功能。

5.6.3 质量检查与控制中合格标准的确认

在标注结果的质量检查和控制环节,需在抽查前建立并确认合格标准,并在相关环节贯彻实施。合格标准应具备可量化特性。

5.7 标注结果输出交付要求

5.7.1 图像类型的数据

图像类标注任务的数据结果为带有标签的数据,包含标签的具体内容,及此图像标签对应的图像空间位置(可选)。不同的标注任务和要求会产出不同的结果,但不影响定义数据格式及组成部分。
输出格式推荐使用易解析、易存储的数据格式,格式包括但不限于json或xml。标注文件应该包含标注详细的标签信息。每个独立的标签应包含以下的信息:
a) 标签 id:每个标签的独立编号;
b) 文件路径:待标注图像的名称或路径;
c) 置信度:各标签的置信度;
d) 每个标签中可能包含多个对象,对于每个对象需要定义:
1 ) 对象类型:比如 bounding_box 或者 key point;
2 ) 对象详情:为对象的空间信息、内容信息,或与其他对象的关系信息。

5.8 数据交付和验收

5.8.1 数据交付

数据交付时,标注团队需对最终提交的数据量进行说明。 交付的内容应包括:
a) 标注结果 (必选);
b) 交付和说明文档 (可选);
d) 原始数据 (可选,有时数据使用方可直接访问原始数据,则无需单独交付原始数据)。
交付的文件存储结构如下。
xx数据
├─data
│ .json
│ 原始文件
└─doc
说明:
data——数据文件夹;
doc——说明文档文件夹(可选);
.json——(或.xml等)标注结果文件,可以每一个label单存一个标注结果文件,或者是所有label的结果在一个标注文件中;
原始文件——为单条标注结果对应的原始文件,如图片、音频、文本、视频;

【批注】系统应提供两种文件存储结构供用户选择,一种是符合以上标准的结构,一种是行业常用的结构。用户还可选择是否包含原始文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/250999.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【话题】低代码123

目录 一、什么是低代码 二、低代码的优缺点 三、你认为低代码会替代传统编程吗? 四、有哪些低代码工具和框架 4.1 国外的平台 4.2 国内的平台 五、未来的软件研发 低代码,听着就过瘾的一个词。而且不是无代码,这说明,低代码…

GoogLeNet(pytorch)

亮点与创新: 1. 引入Inception基础结构 2. 引入PW维度变换卷积,启迪后续参数量的优化 3. 丢弃全连接层,使用平均池化层(大大减少模型参数) 4. 添加两个辅助分类器帮助训练(避免梯度消失,用于…

方舟无限ARX-5臂的奇异验证

事情起因是,某技术人员号称这款机械臂无奇异点,博主当场一个【黑人问号脸】。 既然是串联臂,大概很难做到无奇异点~ 为了反驳,博主建模简单分析了下,偏置参数随便写了个,具体验证程序见文末。 clear,clc,…

共同编辑文档功能实现(websocket)

目录 前言 websocket封装 wangeditor下载 共同编辑文档代码实现 HTML样式部分 JS部分 css部分 前言 功能:实现文档共同编辑功能,可以实时接收到其他人的信息 思路:先调用接口获取相应的数据进行渲染,然后通过webSocket建…

C#基础知识 - 基本语法篇

C#基础知识-基本语法篇 第2节 C#基本语法2.1 C#程序结构2.2 C# 结构解析2.3 命名空间及标识符、关键字2.3.1 别名的使用2.3.2 标识符2.3.3 C#关键字 更多C#基础知识详解请查看:C#基础知识 - 从入门到放弃 第2节 C#基本语法 2.1 C#程序结构 “Hello, World”程序历…

棋牌的电脑计时计费管理系统教程,棋牌灯控管理软件操作教程

一、前言 有的棋牌室在计时的时候,需要使用灯控管理,在开始计时的时候打开灯,在结账后关闭灯,也有的不需要用灯控,只用来计时。 下面以 佳易王棋牌计时计费管理系统软件为例说明: 软件试用版下载或技术支…

Java架构师系统架构高可用维度分析

目录 1 导语2 可用性介绍3 本地高可用-集群、分布式4 本地高可用-数据逻辑保护5 异地容灾-双活、两地三中心6 异地容灾-DRP规划&BCP业务连续性7 多活和妥协方案8 高可用流程9 总结想学习架构师构建流程请跳转:Java架构师系统架构设计 1 导语 Java架构师在进行系统架构设…

ELk(七)—部署Nginx

目录 部署Nginxfilebeat启动Nginx模块Module对nginx模块配置进行修改修改nginx-log.yml配置文件 部署Nginx 下面是nginx的安装脚本,里面的参数可以根据实际需要进行修改。 #!/bin/bash#新建一个文件夹用来存放下载的nginx源码包mkdir -p /opt/nginx cd /opt/nginx…

Android Studio 软件如何将系统自带的标题栏隐藏

目录 一、实现效果 二、开发环境 三、实现方法 ①首先创建一个新的项目 ②打开你需要隐藏标题栏的Activity ③我们看下正常的显示效果 ④然后在onCreate中进行代码编写 ⑤点击运行查询看效果 三、Android Studio 模板 一、实现效果 二、开发环境 三、实现方法 在Andro…

千帆竞渡,鸿蒙已过万重山

近期,华为宣布其自主研发的鸿蒙Next系统将不再兼容Android系统,而是完全独立运营。 也就是说,你的 Android APK 已经不能在 HarmonyOS NEXT 上运行,因为系统已经不存在 AOSP 代码,甚至没有 JVM。 此举意味着鸿蒙系统…

pytorch网络的增删改

本文介绍对加载的网络的层进行增删改, 以alexnet网络为例进行介绍。 1. 加载网络 import torchvision.models as models alexnet models.alexnet(weightsmodels.AlexNet_Weights.DEFAULT) print(alexnet)2. 删除网络 在做迁移学习的时候,我们通常是在分类网络的…

为uniDBGrid设置文字操作栏

为uniDBGrid设置文字操作栏,如下图的效果,用户点击审核,执行审核代码,点退回,执行退回代码: 对于Web应用界面,这是最常见的方式,那对于我等Delphi开发者来说,基于uniGUI该…

贝蒂详解<string.h>哦~(用法与实现)

目录 引言: (一)字符函数和字符串函数 1.简介 2.strlen()函数 2.1用法 2.2实例 2.3 实现strlen() (1)计数法 (2)递归法 (3) 指针-指针 2.4sizeof和strlen()的区别 3.s…

车规MCU应用场景及国产替代进展

目录 1.车规MCU应用场景 1.1 车身域 1.2 动力底盘域 1.3 座舱域和智驾域 1.4 网联域 2.国产替代进展 3.小结 前面一篇文章征途漫漫:汽车MCU的国产替代往事-CSDN博客对车规MCU国产替代的背景与一些往事进行了简单叙述,今天来聊聊车规MCU具体会在汽车哪些地方用…

金智融门户(统一身份认证)同步数据至钉钉通讯录

前言:因全面使用金智融门户和数据资产平台,二十几个信息系统已实现统一身份认证和数据同步,目前单位使用的钉钉尚未同步组织机构和用户信息,职工入职、离职、调岗时都需要手工在钉钉后台操作,一是操作繁琐,二是钉钉通讯录更新不及时或经常遗漏,带来管理问题。通过金智融…

基于JavaEE智能实时疫情监管服务平台设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

ES-模糊查询

模糊查询 1 wildcard 准备数据 POST demolike/_bulk {"index": {"_id": "1"} } {"text": "草莓熊是个大坏蛋" } {"index": {"_id": "2"} } {"text": "wolf 也是一个坏蛋&q…

网络安全项目实战(六)--报文检测

11. NTP应用协议报文解析 目标 了解NTP协议了解NTP包基本捕获方式了解NTP协议探测(解析)方法(简单方法) 11.1. 使用ntpdate同步网络时间 安装 $ sudo apt-get install ntpdate对时服务 查看时间 $ date #date可以查看当前系…

自然数分解 C语言xdoj64

输入说明 一个正整数 n&#xff0c;0<n<30 输出说明 输出n个连续奇数&#xff0c;数据之间用空格隔开&#xff0c;并换行 输入样例 4 输出样例 13 15 17 19 int main() {int n;scanf("%d",&n);if(n % 2 0){//n为偶数int in;//打印数字个数&#xff0c;做循…

《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

&#x1f4cb; 博主简介 &#x1f496; 作者简介&#xff1a;大家好&#xff0c;我是wux_labs。&#x1f61c; 热衷于各种主流技术&#xff0c;热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员&#xff08;PCTA&#xff09;、TiDB数据库专家&#xff08;PCTP…