【doccano】文本标注工具——属性级情感分析标注自己的业务数据

笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~

【doccano】文本标注工具——属性级情感分析标注自己的业务数据

  • 1.说明
  • 2.前提条件
  • 3.doccano创建项目
  • 4.添加数据集
  • 5.添加标签
  • 6.标注数据
  • 7.导出数据转换格式

1.说明

在这里插入图片描述

2.前提条件

确保doccano已经安装完成
可以参考文章:
【doccano】文本标注工具——安装运行教程

3.doccano创建项目

在这里插入图片描述
选择序列标注
在这里插入图片描述

在这里插入图片描述
在标注文本时允许标注的区间出现重叠
勾选allow overlapping spans

在文本中标注实体之间的关系
勾选use relation labeling
在这里插入图片描述

4.添加数据集

数据集格式为txt文本
每行一条评论
在这里插入图片描述
选择textline,导入
在这里插入图片描述
导入完成
在这里插入图片描述

5.添加标签

在这里插入图片描述
或者导入自定义标签

[
    {
        "text": "体验:1",
        "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "体验:-1",
       "background_color": "#FF0000",
        "text_color": "#ffffff"
    },
    {
        "text": "设计:1",
        "background_color": "#00FF00",
        "text_color": "#000000"
    },
    {
        "text": "设计:-1",
        "background_color": "#00FF00",
        "text_color": "#000000"
    },
    {
        "text": "电池:1",
        "background_color": "#0000FF",
        "text_color": "#ffffff"
    },
    {
        "text": "电池:-1",
        "background_color": "#0000FF",
        "text_color": "#ffffff"
    },
    {
        "text": "性能:1",
        "background_color": "#FFFF00",
        "text_color": "#000000"
    },
    {
        "text": "性能:-1",
        "background_color": "#FFFF00",
        "text_color": "#000000"
    },
    {
        "text": "摄像:1",
        "background_color": "#FF00FF",
        "text_color": "#ffffff"
    },
    {
        "text": "摄像:-1",
        "background_color": "#FF00FF",
        "text_color": "#ffffff"
    },
    {
        "text": "通信:1",
       "background_color": "#00FFFF",
        "text_color": "#000000"
    },
    {
        "text": "通信:-1",
       "background_color": "#00FFFF",
        "text_color": "#000000"
    },
]

在这里插入图片描述

6.标注数据

在这里插入图片描述

7.导出数据转换格式

导出标注数据为jsonl格式,改后缀名为json格式
在这里插入图片描述

转为txt格式

import json

# 读取JSON文件并处理每条数据
with open('admin.json', 'r', encoding='utf-8') as file:
    lines = file.readlines()
    for line in lines:
        data = json.loads(line)

        # 处理每条数据并写入txt文件
        id = data['id']
        text = data['text']
        label = data['label']

        with open('output.txt', 'a', encoding='utf-8') as output_file:
            for lbl in label:
                start = lbl[0]
                end = lbl[1]
                category = lbl[2].split(":")[0]   # 获取类别名称
                tag = lbl[2].split(":")[1]    # 获取类别标签
                output_file.write(f"{tag}\t{category}#{text[start:end]}\t{text}\n")

输出格式:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/208598.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch:对时间序列数据流进行降采样(downsampling)

降采样提供了一种通过以降低的粒度存储时间序列数据来减少时间序列数据占用的方法。 指标(metrics)解决方案收集大量随时间增长的时间序列数据。 随着数据老化,它与系统当前状态的相关性越来越小。 降采样过程将固定时间间隔内的文档汇总为单…

测试面试:不明白什么是质量保障

这是我面试经常问的一个问题,很多人并不明白其中的区别。 如上图,整体的质量体系架构图相对简单,主要包含三个部分:愿景(高质量交付-快、好)、能力(中间三层不同的能力)和…

kerberos详解

一、介绍 kerberos概述 Kerberos始于20世纪80年代早期麻省理工学院(MIT)的一个研究项目,是一个网络身份验证系统。Kerberos提供的完整定义是安全的、单点登录的、可信的第三方相互身份验证服务。 认证过程 相关概念 KDC(key D…

HTML5 的全局属性 hidden 和 display:none 的关系

目录 1,hidden 和 display:none 的关系2,其他隐藏元素的方式2.1,语意上的隐藏2.2,视觉上的隐藏 1,hidden 和 display:none 的关系 hidden - MDN 参考 一句话总结:hidden 是HTML5 新增的全局布尔属性&…

Python | 轻量ORM框架Peewee的基础使用(增删改查、自动创建模型类、事务装饰器)

文章目录 01 简介02 安装03 自动创建模型类04 基础使用4.1 查询4.2 新增4.3 更新4.4 删除 05 事务 01 简介 在使用python开发的过程中,有时需要一些简单的数据库操作,而Peewee正是理想的选择,它是一个小巧而灵活的 Python ORM(对…

Hdoop学习笔记(HDP)-Part.7 安装MySQL

七、安装MySQL mysql主从复制的原理: 1)master将数据改变记录到二进制日志(binary log)中,也即是配置文件log-bin指定的文件(这些记录叫做二进制日志事件,binary log events)&#…

(六)Tiki-taka算法(TTA)求解无人机三维路径规划研究(MATLAB)

一、无人机模型简介: 单个无人机三维路径规划问题及其建模_IT猿手的博客-CSDN博客 参考文献: [1]胡观凯,钟建华,李永正,黎万洪.基于IPSO-GA算法的无人机三维路径规划[J].现代电子技术,2023,46(07):115-120 二、Tiki-taka算法(TTA&#xf…

Windows环境 dockertopdesk 部署gitlab

1.在dockertopdesk里搜索 gitlab镜像 (pull)拉取镜像 2.运行镜像到容器 mkdir gitlab gitlab/etc gitlab/log gitlab/opt docker run -id -p 3000:80 -p 9922:22 -v /root/gitlab/etc:/etc/gitlab -v /root/gitlab/log:/var/log/gitlab -v /root/gitlab/opt:/var/opt/gitla…

IntelliJ IDEA 之初体验(上)

IntelliJ IDEA 是一款由 JetBrains 公司开发的强大的集成开发环境(IDE),专注于 Java 开发,同时支持多种其他编程语言。本文将详细介绍 IntelliJ IDEA 的安装过程以及一些常用的基本操作。 第一步:下载与安装 IntelliJ…

【LeetCode每日一题合集】2023.11.20-2023.11.26 (二叉树中的伪回文路径)

文章目录 53. 最大子数组和解法1——DP解法2——分治(维护区间、类似线段树的思想) 2216. 美化数组的最少删除数(贪心)2304. 网格中的最小路径代价1410. HTML 实体解析器(模拟)2824. 统计和小于目标的下标对…

k8s ingress 无法找到端点

文章目录 ingress rule无法找到端点这个注解是什么意思呢?为何不生效呢?端点无法更新?如何确认ingressclass呢?修复端点无法发现的问题多个ingress controller 架构 ingress rule无法找到端点 在vnnox-cn集群创建ingress&#xf…

IntelliJ IDEA创建springboot项目时不能选择java8的问题解决方案

最近博主也有创建springboot项目,发现了IntelliJ IDEA在通过Spring Initilizer初始化项目的时候已经没有java8版本的选项了。 基于这个问题,有了这篇文章的分享,希望能够帮助大家克服这个困难。 如图,现在创建springboot项目的时…

win10 修改任务栏颜色 “开始菜单、任务栏和操作中心” 是灰色无法点击,一共就两步,彻底解决有图有真相。

电脑恢复了一下出厂设置、然后任务栏修改要修改一下颜色,之前会后来忘记了,擦。 查了半天文档没用,最后找到官网才算是看到问题解决办法。 问题现象: 解决办法: 往上滑、找到这里 浅色改成深色、然后就可以了,就这么简单。 w…

Drift plus penalty 漂移加惩罚Part2——性能分析

文章目录 正文Performance analysisAverage penalty analysis 平均惩罚分析Average queue size analysis 平均队列大小分析Probability 1 convergenceApplication to queues with finite capacityTreatment of queueing systemsConvex functions of time averages Delay tradeo…

服务器数据恢复—服务器断电导致XenServer数据文件丢失的数据恢复案例

服务器数据恢复环境: 某品牌720服务器搭配该品牌某型号RAID卡,使用4块STAT硬盘组建了一组RAID10阵列。服务器上部署XenServer虚拟化平台,系统盘 数据盘两个虚拟机磁盘。虚拟机上安装的是Windows Server操作系统,作为Web服务器使用…

【算法刷题】Day9

文章目录 611. 有效三角形的个数题干:题解:代码: LCR 179. 查找总价格为目标值的两个商品题干:题解:代码: 1137. 第 N 个泰波那契数题干:原理:1、状态表示(dp表里面的值所…

如何让Win11的右键菜单恢复到Win10的样式

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言如何让Win11的右键菜单恢复到Win10的样式1. winr打开运行,输入cmd后回车2.输入命令并回车3.重启计算机 前言 提示:这里可以添加本文要记…

敌方坦克发射思路[java坦克大战]

1.在敌人坦克类,创建Vector用于保存Shot对象 2.当每创建一个敌人坦克对象,就给该敌人坦克对象初始化一个Shot对象(注意子弹初始位置以及必须在设置完敌人坦克初始方向),将该对象加入Vector后,立即启动shot发…

熬夜会秃头——beta冲刺Day7

这个作业属于哪个课程2301-计算机学院-软件工程社区-CSDN社区云这个作业要求在哪里团队作业—beta冲刺事后诸葛亮-CSDN社区这个作业的目标记录beta冲刺Day7团队名称熬夜会秃头团队置顶集合随笔链接熬夜会秃头——Beta冲刺置顶随笔-CSDN社区 一、团队成员会议总结 1、成员工作…

时序预测 | Python实现TCN时间卷积神经网络时间序列预测(多图,多指标)

时序预测 | Python实现TCN时间卷积神经网络时间序列预测(多图,多指标) 目录 时序预测 | Python实现TCN时间卷积神经网络时间序列预测(多图,多指标)预测效果基本介绍环境准备程序设计参考资料预测效果 基本介绍