LabelStudio数据标注详细方法

文章目录

  • 情感分析任务Label Studio使用指南
    • 1. label-studio 安装
    • 2. label-studio 项目创建
    • 3. 情感分析任务标注
      • 3.1 语句级情感分类任务
      • 3.2 属性级情感分析任务
        • 3.2.1 属性-情感极性-观点词抽取
        • (1)Span类型标签
        • (2)Relation类型标签
        • 3.2.2 属性-情感极性抽取
        • 3.2.3 属性-观点词抽取
        • 3.2.4 属性抽取
        • 3.2.4 观点词抽取
    • 4. 导出标注数据

情感分析任务Label Studio使用指南

1. label-studio 安装

官网:https://labelstud.io/

创建conda环境

conda create --name label-studio python=3.8 --channel https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/

进入环境

# 激活环境前先进入 base 环境
source activate
# 再进入创建的环境
conda activate label-studio

在终端(terminal)使用pip安装label-studio:

pip install label-studio==1.6.0 -i https://mirror.baidu.com/pypi/simple

安装完成后,运行以下命令行:

label-studio start

指定端口启动

label-studio start --port 17003

启动完成会提示

Initializing database..
Performing system checks...

[2023-09-04 07:25:43,641] [django::register_actions_from_dir::97] [INFO] No module named 'data_manager.actions.__pycache_'
[2023-09-04 07:25:43,641] [django::register_actions_from_dir::97] [INFO] No module named 'data_manager.actions.__pycache_'
System check identified no issues (1 silenced).
September 04, 2023 - 07:25:43
Django version 3.2.14, using settings 'label_studio.core.settings.label_studio'
Starting development server at http://0.0.0.0:8080/

在浏览器打开http://localhost:8080/,输入用户名和密码登录,开始使用label-studio进行标注。

打开后注册账号

这里我随便填的符合格式就行

image-20230904152722641

2. label-studio 项目创建

创建项目之前,需要先确定标注的任务类型以及需要标注哪些内容,然后点击创建(Create)开始创建一个新的项目,填写项目名称、描述。

image-20230904153314320

image-20230904153403576

如果数据已经准备好,可以在此进行导入数据。(这里导入数据,后面才能进行标注,或者创建完成之后导入也可以)

上传完成,点击Import

上传的文件,每行为一条数据

image-20230904154536140

接下来,根据需要标注的任务类型,选择适合的任务。

在本项目中,默认会包含两种类型的任务:语句级情感分类任务和属性级情感分析任务。由于这两者都属于自然语言处理(NLP)任务,因此可以点击 Natural Language Processing 选项,在该选项下面进行选择相应的子项任务。

  • 如果标注语句级情感分类任务,请选择Text Classification

image-20230904153631704

  • 如果标注属性级情感分析任务,比如属性-观点词-情感极性三元组的信息抽取,请选择Relation Extraction

image-20230904153714569

最后点击保存即可。

3. 情感分析任务标注

3.1 语句级情感分类任务

这里对应的任务类型为Text Classification,在标注之前,需要设定正向负向的标签,然后保存即可。

image-20230904153955320

设定好标签后,即可开始进行标注,选择正向或负向,最后点击提交,便标注好一条数据。

image-20230904154708170

image-20230904154752692

3.2 属性级情感分析任务

在本项目中,属性级的情感分析需要配置的标注任务类型为Relation Extraction,包括属性抽取、观点抽取、属性-观点抽取、属性-情感极性抽取、属性-情感极性-观点词三元组抽取等任务。其中属性-情感极-观点词(A-S-O)三元组抽取是最常见的任务之一,下面优先讲解该任务的标注规则。

3.2.1 属性-情感极性-观点词抽取

属性-情感极性-观点词(A-S-O)三元组抽取标注内容涉及两类标签:Span 类型标签和 Relation 类型标签。其中Span标签用于定位文本批评中属性、观点词和情感极性三类信息,Relation类型标签用于设置评价维度和观点词、情感倾向之间的关系。

(1)Span类型标签

这里需要定位属性、情感极性、观点词三类信息,在标注时,需要将属性和情感极性进行组合,形成复合标签。具体来讲,设定评价维度##正向用于定位情感倾向为正向的属性,评价维度##负向用于定位情感倾向为负向的属性。另外,利用标注标签观点词定位语句中的观点词。

img

(2)Relation类型标签

这里只涉及到1中Relation类型标签,即评价维度观点词的映射关系。这里可以设置一下两者关系的名称,即点击Code,然后配置关系名称(这里将两者关系设置为观点词),最后点击保存即可。

img

在设置好Span类型和Relation标签之后,便可以开始进行标注数据了。

iShot_2023-09-04_16.07.14

3.2.2 属性-情感极性抽取

如3.2.1所述,本项目中针对属性-情感极性(A-S)抽取任务,采用Span的形式进行标注。设定评价维度##正向用于定位情感倾向为正向的属性,评价维度##负向用于定位情感倾向为负向的属性。下图展示了关于属性-情感极性抽取任务的标注示例。

image-20230904161021159

同样导入刚刚导入的文本

img

3.2.3 属性-观点词抽取

针对属性-观点词(A-O)抽取任务,采用Relation的形式进行标注。这需要将属性对应标注标签设定为评价维度,观点词设定为观点词。下图展示了关于属性-观点词抽取任务的标注示例。

img

3.2.4 属性抽取

针对属性(A)抽取任务,采用Span的形式进行标注。 这需要将属性对应的标注标签设定为评价维度。下图展示了关于属性抽取任务的标注示例。

img

3.2.4 观点词抽取

针对观点词(O)抽取任务,采用Span的形式进行标注。 这需要将观点词对应的标注标签设定为观点词。下图展示了关于观点词抽取任务的标注示例。

img

4. 导出标注数据

image-20230904161714293

image-20230904161726040

iShot_2023-09-04_16.17.56

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/247424.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch: 基于【VGG16】处理MNIST数据集的图像分类任务【准确率98.9%+】

目录 引言在Conda虚拟环境下安装pytorch步骤一:利用代码自动下载mnist数据集步骤二:搭建基于VGG16的图像分类模型步骤三:训练模型步骤四:测试模型运行结果后续模型的优化和改进建议完整代码结束语 引言 在本博客中,小…

antd+vue:tree组件:父级节点禁止选择并不展示选择框——基础积累

antdvue:tree组件:父级节点禁止选择并不展示选择框——基础积累 1.判断哪些是父节点,给父节点添加disabled属性——this.permissionList是数据源2.通过css样式来处理disabled的父节点3.完整代码如下: 最近在写后台管理系统的时候,…

C语言—每日选择题—Day47

第一题 1. 以下逗号表达式的值为() (x 4 * 5, x * 5), x 25 A:25 B:20 C:100 D:45 答案及解析 D 本题考查的就是逗号表达式,逗号表达式是依次计算每个表达式,但是只输出最后一个表…

DRF从入门到精通一(DRF介绍、API接口、接口测试工具)

文章目录 DRF入门规范一、Web应用模式1.前后端混合开发模式2.前后端分离开发模式 二、API接口概念Json格式与XML格式的区别前端、前台、后端以及后台的区别 三、接口测试工具:Postman/Apifox DRF入门规范 DRF(django rest framework)是基于django的一个框架&#xf…

文心一言 VS 讯飞星火 VS chatgpt (157)-- 算法导论12.3 4题

四、用go语言,删除操作可交换吗?可交换的含义是,先删除 x 再删除 y 留下的结果树与先除 y 再删除 x 留下的结果树完全一样。如果是,说明为什么? 否则,给出一个反例。 文心一言: 在Go语言中,删除操作是不…

企业信息建设现状

信息化建设是传统计算机与互联网技术高速发展并融合的产物,现阶段已经成为引领产业创新的决定性技术手段。 随着信息化的不断发展与进步,各行各业都开始了信息化的建设与应用。信息化是未来发展的大趋势,企业运用信息技术可以大幅度提高员工效…

知识|基于混合模式的多余度飞控全数字仿真系统研究

*余度(Redundancy):一种确保安全的设计手段,使得出现两个及以上故障时,才会引起既定不希望发生的工作状态。 飞行控制软件主要完成飞行传感器数据处理、飞行姿态控制和余度管理任务,对保证飞机安全性和可靠…

leetCode算法—2.两数相加

1.给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都不会以 0…

干货:企业如何讲好品牌故事

品牌故事讲得好,不仅能够体现品牌特色还能向消费者传递品牌精神的重要工具,优秀的品牌故事能够促进产品销量,为品牌带来曝光率,今天媒介盒子就来和大家聊聊:如何讲好品牌故事。 一、 品类历史和故事 品牌虽然是新品牌…

基于单片机智能家具无线遥控控制系统设计

**单片机设计介绍,基于单片机智能家具无线遥控控制系统设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的智能家具无线遥控控制系统设计可以实现对家具(如灯具、窗帘、空调等)的…

【Python】解读a+=b 和 a=a+b是否一样?看完恍然大悟!

文章目录 前言一、可变对象和不可变对象总结 前言 在Python中,对于可变和不可变对象的行为差异是一个重要概念,特别是在涉及到和操作时。理解这一点对于编写高效且无误的代码至关重要。 一、可变对象和不可变对象 首先,让我们谈谈可变和不可…

JVM的内存分区以及垃圾收集

1.JVM的内存分区 1.1方法区 方法区(永久代)主要用来存储已在虚拟机加载的类的信息、常量、静态变量以及即时编译器编译后的代码信息。该区域是被线程共享的。 1.2虚拟机栈 虚拟机栈也就是我们平时说的栈内存,它是为java方法服务的。每个方法在执行的…

分析若依的文件上传处理逻辑

分析若依的文件上传处理逻辑 注:已经从若依框架完成拆分,此处单独分析一下人家精彩的封装,也来理解一下怎么做一个通用的上传接口!如有分析的,理解的不透彻的地方,大家多多包含,欢迎批评指正&am…

【C语言必学知识点五】指针

指针 导言一、指针与指针变量二、指针变量的创建和指针类型三、指针类型的意义3.1 指针 /- 整数3.2 指针解引用 四、野指针4.1 定义4.2 野指针的成因4.3 指针未初始化4.4 指针越界访问4.5 指针指向的空间被释放4.6 如何规避野指针 五、指针运算5.1指针-整数5.2 指针-指针5.2.1 …

B037-Mybatis基础

目录 为什么需要Mybatis?mybatis简介入门案例其余见代码查询流程增删改流程 - 变动数据要加事务去持久化抽取公共类 mapper接口开发规则概述代码 mapper.xml引入本地约束文件别名日志管理作用log4j的使用规范 井大括号与dollar大括号的区别 框架:半成品&…

Linux篇:信号

一、信号的概念: ①进程必须识别能够处理信号,信号没有产生,也要具备处理信号的能力---信号的处理能力属于进程内置功能的一部分 ②进程即便是没有收到信号,也能知道哪些信号该怎么处理。 ③当进程真的受到了一个具体的信号的时候…

Word公式居中+序号右对齐

Word公式居中序号右对齐 # 号制表位法表格法Mathtype法 # 号 制表位法 表格法 Mathtype法 参考1 参考2

力扣每日一题:2132. 用邮票贴满网格图(2023-12-14)

力扣每日一题 题目:2132. 用邮票贴满网格图 日期:2023-12-14 用时:38 m 32 s 思路:使用前缀和+差分,只是往常是一维,现在变二维了,原理差不多 时间:22ms 内存&#xff1…

certum ev ssl证书1180元一年,360浏览器显示公司名

Certum旗下的EV SSL证书是审核最严的数字证书,不仅对网站传输数据进行加密,还可以对网站身份进行验证,除此之外,它独有的绿色地址栏提升了网站的真实性,增强了客户对网站的信任感。今天就随SSL盾小编了解Certum旗下的E…

【Spring Boot】视图渲染技术之Freemarker

一、引言 1、什么是Freemarker FreeMarker是一款模板引擎,基于模板和要改变的数据,并用来生成输出文本(HTML网页、电子邮件、配置文件、源代码等)的通用工具。它不是面向最终用户的,而是一个Java类库,是一款…