Python移动未标注的图片数据集

Python移动未标注的图片数据集

  • 前言
  • 前提条件
  • 相关介绍
  • 实验环境
  • Python移动未标注的图片数据集
    • 情况一:有图,无标注文件
      • 代码实现
      • 输出结果
    • 情况二:有图,有标注文件,但标注信息为空
      • 代码实现
      • 输出结果
    • 情况一与情况二同时都考虑
      • 代码实现
      • 输出结果
    • 拓展:移动有标注文件却无对应图片的标注文件
      • 代码实现
      • 输出结果

在这里插入图片描述

前言

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

前提条件

  • 熟悉Python

相关介绍

  • Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
  • PyTorch 是一个深度学习框架,封装好了很多网络和深度学习相关的工具方便我们调用,而不用我们一个个去单独写了。它分为 CPU 和 GPU 版本,其他框架还有 TensorFlow、Caffe 等。PyTorch 是由 Facebook 人工智能研究院(FAIR)基于 Torch 推出的,它是一个基于 Python 的可续计算包,提供两个高级功能:1、具有强大的 GPU 加速的张量计算(如 NumPy);2、构建深度神经网络时的自动微分机制。
  • YOLOv5是一种单阶段目标检测算法,该算法在YOLOv4的基础上添加了一些新的改进思路,使其速度与精度都得到了极大的性能提升。它是一个在COCO数据集上预训练的物体检测架构和模型系列,代表了Ultralytics对未来视觉AI方法的开源研究,其中包含了经过数千小时的研究和开发而形成的经验教训和最佳实践。
  • Labelme是一款图像标注工具,由麻省理工(MIT)的计算机科学和人工智能实验室(CSAIL)研发。它是用Python和PyQT编写的,开源且免费。Labelme支持Windows、Linux和Mac等操作系统。
  • 这款工具提供了直观的图形界面,允许用户在图像上标注多种类型的目标,例如矩形框、多边形、线条等,甚至包括更复杂的形状。标注结果以JSON格式保存,便于后续处理和分析。这些标注信息可以用于目标检测、图像分割、图像分类等任务。
  • 总的来说,Labelme是一款强大且易用的图像标注工具,可以满足不同的图像处理需求。
  • Labelme标注json文件是一种用于存储标注信息的文件格式,它包含了以下几个主要的字段:
    • version: Labelme的版本号,例如"4.5.6"。
    • flags: 一些全局的标志,例如是否是分割任务,是否有多边形,等等。
    • shapes: 一个列表,每个元素是一个字典,表示一个标注对象。每个字典包含了以下几个字段:
      • label: 标注对象的类别名称,例如"dog"。
      • points: 一个列表,每个元素是一个坐标对,表示标注对象的边界点,例如[[10, 20], [30, 40]]。
      • group_id: 标注对象的分组编号,用于表示属于同一组的对象,例如1。
      • shape_type: 标注对象的形状类型,例如"polygon",“rectangle”,“circle”,等等。
      • flags: 一些针对该标注对象的标志,例如是否是难例,是否被遮挡,等等。
    • lineColor: 标注对象的边界线颜色,例如[0, 255, 0, 128]。
    • fillColor: 标注对象的填充颜色,例如[255, 0, 0, 128]。
    • imagePath: 图像文件的相对路径,例如"img_001.jpg"。
    • imageData: 图像文件的二进制数据,经过base64编码后的字符串,例如"iVBORw0KGgoAAAANSUhEUgAA…"。
    • imageHeight: 图像的高度,例如600。
    • imageWidth: 图像的宽度,例如800。

以下是一个Labelme标注json文件的示例:

{
  "version": "4.5.6",
  "flags": {},
  "shapes": [
    {
      "label": "dog",
      "points": [
        [
          121.0,
          233.0
        ],
        [
          223.0,
          232.0
        ],
        [
          246.0,
          334.0
        ],
        [
          121.0,
          337.0
        ]
      ],
      "group_id": null,
      "shape_type": "polygon",
      "flags": {}
    }
  ],
  "lineColor": [
    0,
    255,
    0,
    128
  ],
  "fillColor": [
    255,
    0,
    0,
    128
  ],
  "imagePath": "img_001.jpg",
  "imageData": "iVBORw0KGgoAAAANSUhEUgAA...",
  "imageHeight": 600,
  "imageWidth": 800
}

实验环境

  • Python 3.x (面向对象的高级语言)

Python移动未标注的图片数据集

情况一:有图,无标注文件

在这里插入图片描述

代码实现

import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for img_name in img_name_list:
        in_img_path = in_img_dir + img_name
        in_json_path = in_json_dir + img_name[:-4]+'.json'


        # 情况一:有图,无标注文件
        if not os.path.exists(in_json_path):
            move_img_no_json(in_img_path,output_dir)

输出结果

在这里插入图片描述

情况二:有图,有标注文件,但标注信息为空

在这里插入图片描述

{
  "version": "5.2.0.post4",
  "flags": {},
  "shapes": [],
  "imagePath": "flower.png",
  "imageData": null,
  "imageHeight": 394,
  "imageWidth": 850
}

代码实现

import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for img_name in img_name_list:
        in_img_path = in_img_dir + img_name
        in_json_path = in_json_dir + img_name[:-4]+'.json'

        if not os.path.exists(in_json_path):
            pass
        else:
            # 情况二:有图,有标注文件,但标注信息为空
            if is_null_info_in_json(in_json_path):
                move_img_and_json(in_img_path,in_json_path,output_dir)

输出结果

在这里插入图片描述

情况一与情况二同时都考虑

在这里插入图片描述

代码实现

import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for img_name in img_name_list:
        in_img_path = in_img_dir + img_name
        in_json_path = in_json_dir + img_name[:-4]+'.json'


        # 情况一:有图,无标注文件
        if not os.path.exists(in_json_path):
            move_img_no_json(in_img_path,output_dir)
        else:
            # 情况二:有图,有标注文件,但标注信息为空
            if is_null_info_in_json(in_json_path):
                move_img_and_json(in_img_path,in_json_path,output_dir)

输出结果

在这里插入图片描述

拓展:移动有标注文件却无对应图片的标注文件

在这里插入图片描述

代码实现

import os
import cv2
import json
import copy
import shutil

def is_null_info_in_json(in_json_path):
    '''
    判断json文件的标注信息是否为空
    '''

    with open(in_json_path,'r') as f:
        json_data = json.load(f)
    # print(json_data)

    # 以查询label信息为例,比如输出'label' == "49"的标注信息
    json_data_shape =  copy.deepcopy(json_data['shapes'])
    if json_data_shape == []:
        return True
    return False
        
def move_img_no_json(in_img_path,output_dir):
    '''
    情况一:有图,无标注文件,只移动图
    '''
    shutil.move(in_img_path,output_dir)

def move_img_and_json(in_img_path,in_json_path,output_dir):
    '''
    情况二:有图,有标注文件,但标注信息为空,既移动图,也移动json文件
    '''
    shutil.move(in_img_path,output_dir)
    shutil.move(in_json_path,output_dir)

def move_json_no_img(in_json_path,output_dir):
    '''
    移动有标注文件却无对应图片的标注文件
    '''
    shutil.move(in_json_path,output_dir)


if __name__=="__main__":
    in_img_dir = 'images/'
    in_json_dir = 'jsons/'

    output_dir = 'output/'
    if not os.path.exists(output_dir):
        os.mkdir(output_dir) 

    img_name_list = [i for i in os.listdir(in_img_dir) if i.endswith('.png')]
    # print(img_name_list)

    json_name_list = [i for i in os.listdir(in_json_dir) if i.endswith('.json')]
    # print(json_name_list)

    for json_name in json_name_list:
        in_img_path = in_img_dir + json_name[:-5] + '.png'
        in_json_path = in_json_dir + json_name


        # 移动有标注文件却无对应图片的标注文件
        if not os.path.exists(in_img_path):
            move_json_no_img(in_json_path,output_dir)

输出结果

在这里插入图片描述

  • 由于本人水平有限,难免出现错漏,敬请批评改正。
  • 更多精彩内容,可点击进入Python日常小操作专栏、OpenCV-Python小应用专栏、YOLO系列专栏、自然语言处理专栏或我的个人主页查看
  • YOLOv8 Ultralytics:使用Ultralytics框架训练RT-DETR实时目标检测模型
  • 基于DETR的人脸伪装检测
  • YOLOv7训练自己的数据集(口罩检测)
  • YOLOv8训练自己的数据集(足球检测)
  • YOLOv5:TensorRT加速YOLOv5模型推理
  • YOLOv5:IoU、GIoU、DIoU、CIoU、EIoU
  • 玩转Jetson Nano(五):TensorRT加速YOLOv5目标检测
  • YOLOv5:添加SE、CBAM、CoordAtt、ECA注意力机制
  • YOLOv5:yolov5s.yaml配置文件解读、增加小目标检测层
  • Python将COCO格式实例分割数据集转换为YOLO格式实例分割数据集
  • YOLOv5:使用7.0版本训练自己的实例分割模型(车辆、行人、路标、车道线等实例分割)
  • 使用Kaggle GPU资源免费体验Stable Diffusion开源项目

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/248215.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode 455 分发饼干

题意理解: 小孩的饭量: [1,2,7,10] 饼的大小: [1,3,5,7] 当饼的大小>小孩饭量时,小孩就能够吃饱。 求如何分配饼让更多的小孩子能够吃饱。 解题思路: 两种思路: 先把胃口小的孩子用较小的饼来喂饱—…

ida脚本环境开发配置idapythonidacpp三端环境(win,mac,linux)

ida脚本也有一段时间了,一直有个痛点是找不到比较好的方法热重载脚本来实时改动生效,导致开发效率老慢了。固总结下比较友好的环境搭配 使用ida热加载插件让你开发脚本更高效 github地址: GitHub - 0xeb/ida-qscripts: An IDA plugin to increase productivity when developi…

MATLAB 系统辨识 + PID 自动调参

MATLAB 系统辨识 PID 自动调参 Matlab R2021b下载安装详细教程Chapter1 MATLAB 系统辨识 PID 自动调参1. 导入数据2. 系统辨识3. PID 自动调参 Chapter2 MATLAB系统辨识Chapter3 【MATLAB】使用系统辨识工具箱(System Identification)建模Chapter4 matlab系统辨识工具箱及其反…

探索 Coinbase 二层链 Base 的潜力与风险

作者:lesleyfootprint.network 在不断变化的加密货币领域,Coinbase 已经确立了自己领先中心化交易所(CEX)的地位。然而,Coinbase 坚信去中心化是创造一个开放、全球范围内对每个人都可访问的加密经济的关键&#xff0…

Go map转json

今天分享的知识是 Go 接口。如果本文对你有帮助,不妨点个赞,如果你是 Go 语言初学者,不妨点个关注,一起成长一起进步,如果本文有错误的地方,欢迎指出! 但当有的场景,要返回哪些字段…

工作记录-------实现实时排行榜的各种方法---12.14

实时积分排行榜 需求 提供一个用户积分排行榜–为 实时总积分榜, 只取前 10 名 。所有用户都能够查看当前排行榜,以及查看自己的 实时总积分排名 设计实现 先看下数据库的结构,总共有 2 个表:用户表 和 用户积分表。 用户表存储了用户信息,以及用户的总积分(实时更新…

电商控制台前台整合优化

前台逻辑 显示商品菜单输入id,进入某个商品检测登录和注册 根据登录和注册的状态,订单或者是购物车都需要登录。 登录:生成订单(先生成订单表,再生成订单详情表) 开发直接购买,加入购物车, …

计算机毕业设计 基于SpringBoot的日常办公用品直售推荐系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

做性能测试必须掌握的基本概念和套路

经常听到人说,做个性能优化,吞吐量越高越好;或者做个性能测试,目标TPS是50000。可实际拿到这个信息,能够做性能测试吗?这个目标足够清晰吗?事实上,在我看来,未定义清晰 …

Ubuntu18.04.6下安装opencv库及OpenCV安装libjasper-dev依赖包错误

目录 01 解压安装包 02 安装cmake和依赖库 03 配置编译环境 01 解压安装包 创建一个名为Opencv的文件夹 mkdir opencv 将源码的压缩包复制到opencv目录下 将压缩包解压到opencv文件夹(指定一个文件夹) unzip opencv-3.4.11.zip -d opencv02 安装cm…

Web3.0:抗寻租的互联网平台经济

在数字世界的荒蛮时代,人类的数字大迁徙,纷乱而芜杂,充满着未知与蒙昧。 我们致敬先行者,感恩在黑暗中点亮火把,在泥泞中探索前行的道路。 我们以先行者为师,承续他们的智慧与勇气,在人类数字大…

【强化学习-读书笔记】动态规划(策略评估、价值迭代、策略迭代算法)

参考 Reinforcement Learning, Second Edition An Introduction By Richard S. Sutton and Andrew G. Barto动态规划 (Dynamic Programming, DP) 是一类优化方法,在给定一个用马尔可夫决策过程 (MDP) 描述的完备环境模型的情况下,其可以计算最优的策…

【Jeecg Boot 3 - 保姆级】第1节 docker + redis + nginx + redis一键安装启动

一、前言 ▶ JEECG-BOOT 开源版难以吃透的原因 ▶ 为了针对上面痛点,笔者做了如下安排 ▶ 你能收获什么 二、效果(第一节效果) ▶ 启动后端 > 日志 > 接口文档 ▶ 启动前端 三、准备工作 四、实战 ▶ 1、服务器安装 Stag…

RF模块是如何工作的?

射频(RF)模块使用无线电频率工作,这个频率范围在30kHz到300kHz之间变化。 在这个射频系统中,数字数据被表示为载波波幅度的变化。这种调制类型是振幅移位键。 这个射频模块是射频发射器和接收器的组合,发射器接收器对的…

读书笔记-《数据结构与算法》-摘要6[快速排序]

快速排序 核心:快排是一种采用分治思想的排序算法,大致分为三个步骤。 定基准——首先随机选择一个元素最为基准划分区——所有比基准小的元素置于基准左侧,比基准大的元素置于右侧递归调用——递归地调用此切分过程 快排的实现与『归并排…

伪距单点定位概念与原理、算例分析

目录 一、概念与原理 1.伪距观测值 2.为何被称为"伪距" ? 3.单点定位的概念 4.伪距单点定位的原理 5.伪距单点定位的优缺点 二、伪距观测方程 三、伪距观测方程线性化 1.泰勒级数展开 2.得到线性化后的观测方程 3.在某历元接收机同时观测n颗卫星&#xf…

视频号小店需要缴纳保证金吗?保证金缴纳标准,不懂的快来看!

我是电商珠珠 入驻视频号小店,需要缴纳保证金吗?具体缴纳多少?... 这是想要入驻视频号小店的热门话题,今天我就来给大家一一讲明白。 想要入驻视频号小店,就必须要缴纳保证金。保证金是平台为了约束商家的行为&…

递推与递归练习题

公众号:编程驿站 题目来源于洛谷! 数楼梯 题目描述 楼梯有 N 阶,上楼可以一步上一阶,也可以一步上二阶。 编一个程序,计算共有多少种不同的走法。 输入格式 一个数字,楼梯数。 输出格式 输出走的方…

智能优化算法应用:基于阴阳对算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于阴阳对算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于阴阳对算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.阴阳对算法4.实验参数设定5.算法结果6.参考文…

PR模板,复古怀旧电影效果视频制作PR项目工程文件

Premiere复古怀旧电影效果视频制作pr模板项目工程文件下载 这个PR模板以复古城市印象电影质感为特色,结合了电影和数字故障效果。包含6个场景。可以编辑文本、添加媒体和自定义颜色。包含视频教程。4K版本。不需要任何插件。 软件支持:PR2022 | 分辨率&a…