关于目标检测中按照比例将数据集随机划分成训练集和测试集

1. 前言

在做目标检测任务的时候,不少网上的数据,没有划分数据集,只是将数据和标签放在不同的文件夹下,没有划分数据集

虽然代码简单,每次重新编写还是颇为麻烦,这里记录一下

如下,有的数据集这样摆放:

这里的py文件是划分代码,和rawDataSet 放在相同目录下

关于图像分类任务划分数据集:关于图像分类任务中划分数据集,并且生成分类类别的josn字典文件

关于xml文件生成相应的类别json字典文件:

目标检测篇:如何根据xml标注文件生成类别classes的json文件

目标检测数据的可视化:

xml : 关于目标检测任务中,XML(voc格式)标注文件的可视化

txt : 关于目标检测任务中,YOLO(txt格式)标注文件的可视化

2. 完整代码

如下:

import random
import os
import shutil
from tqdm import tqdm


# 划分数据函数
def split_data(root,test_rate):
    images_path = [os.path.join(root,i) for i in os.listdir(root)]      # 获取所有图片路径
    test_split_path = random.sample(images_path, k=int(len(images_path) * test_rate))   # 随机采样测试集

    # 遍历所有图片
    for image_path in tqdm(images_path,desc='loading...'):
        # 获取相应的标注文件,这里需要根据目录、后缀更改
        label_path = image_path.replace('images','annotation')
        label_path = label_path.replace('.png','.xml')

        # 划分数据
        if image_path in test_split_path:       # 在测试集
            shutil.copy(image_path,'./data/test/images')
            shutil.copy(label_path,'./data/test/labels')
        else:
            shutil.copy(image_path,'./data/train/images')
            shutil.copy(label_path,'./data/train/labels')


if __name__ == '__main__':
    rawDataSet = './rawDataSet/images'            # 原始数据的图片路径

    if os.path.exists('./data'):        # 如果之前有,那么删除
        shutil.rmtree('./data')

    os.makedirs('./data/train/images')      # 训练集图片
    os.makedirs('./data/train/labels')      # 训练集标签
    os.makedirs('./data/test/images')       # 测试集图片
    os.makedirs('./data/test/labels')       # 测试集标签

    # 划分数据
    split_data(root=rawDataSet,test_rate=0.2)

代码运行过程:这里测试的就是五个数据

生成结果:

3. 代码使用的相关问题

不同于其他任务,脚本的运行逻辑是传入原始数据的图片目录,因为目标检测的标注文件和原图只是存放的目录不同,并且后缀不同,文件名是完全相同的

所以划分数据的时候,只需要找到图片,根据目录可以直接找到对应的标签

如下,第一个是目录的替换,根据数据进行更换,

第二个是图片后缀,根据自己数据集更换即可

如果是yolo标注的txt文件,也是一样的,后缀更换就行了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/300866.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI实景无人直播项目:开启自动直播新时代,一部手机即可实现增长

在当今社会,直播已经成为了人们日常生活中不可或缺的一部分。无论是商家推广产品、明星互动粉丝还是普通人分享生活,直播已经渗透到了各行各业。然而,传统直播方式存在着一些不足之处,如需现场主持人操作、高昂的费用等。近年来&a…

YOLOv5改进 | 注意力篇 | ACmix注意力与卷积混合的模型(轻量化注意力机制)

一、本文介绍 本文给大家带来的改进机制是ACmix自注意力机制的改进版本,它的核心思想是,传统卷积操作和自注意力模块的大部分计算都可以通过1x1的卷积来实现。ACmix首先使用1x1卷积对输入特征图进行投影,生成一组中间特征,然后根据不同的范式,即自注意力和卷积方式,分别…

【普中开发板】基于51单片机的温度报警器LCD1602_可调上下限( proteus仿真+程序+设计报告+讲解视频)

基于51单片机的温度报警器LCD1602_可调上下限 1.主要功能:资料下载链接: 普中开发板实物演示图:2.仿真3. 程序代码4. 设计报告5. 设计资料内容清单 【普中】基于51单片机的温度报警器LCD1602_可调上下限 ( proteus仿真程序设计报告讲解视频&a…

[VUE]5-TypeScript

目录 1 TypeScript 介绍2、安装3、快速上手4、TypeScript 常用类型4.1 类型标注的位置4.2 字符串、数字、布尔类型4.3 字面量类型4.4 ⭐interface 类型4.5 class 类型 ​🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,…

超维空间M1无人机使用说明书——41、ROS无人机使用yolo进行物体识别

引言:用于M1无人机使用的18.04系统,采用的opencv3.4.5版本,因此M1无人机只提供了基于yolov3和yolov4版本的darknet_ros功能包进行物体识别,识别效果足够满足日常的物体识别使用,如果需要更高版本的yolov7或者yolov8&am…

【Python期末】动态爬取电影Top250数据可视化处理(有GUI界面/无数据库)

诚接计算机专业编程作业(C语言、C、Python、Java、HTML、JavaScript、Vue等),10/15R左右,如有需要请私信我,或者加我的企鹅号:1404293476 本文资源:https://download.csdn.net/download/weixin_47040861/88713693 目录…

Java SE入门及基础(4)

Java 中的数据类型 1.数据的概念 数据就是信息的符号表示。 比如: 小米手机 红米 10 元 5 年 刘德华 帅 50 188 富豪 2.数据类型 生活中我们常见的数据类型: Java中的数据类型分为 基本数据类型 和 引用数据类型 两大类 Java 中…

【分布式】分布式链路跟踪技术

为什么需要分布式链路追踪 提到分布式链路追踪,我们要先提到微服务。相信很多人都接触过微服务。微服务是一种开发软件的架构和组织方法,它侧重将服务解耦,服务之间通过API通信。使应用程序更易于扩展和更快地开发,从而加速新功能…

【ArcGIS Pro微课1000例】0056:度分秒与十进制度互相转换(度分秒→度、度→度分秒)

ArcGIS软件可以很方便的直接实现度分秒转度、度转度分秒(度分秒→度、度→度分秒)。 文章目录 一、转换预览二、工具介绍三、案例解析一、转换预览 借助ArcGIS快速实现度分秒与度及其他格式的坐标转换,例如:度分秒→度、度→度分秒。 1. 度→度分秒 2. 度分秒→度 转换后…

构建高效PythonWeb:GraphQL+Sanic

1.1 简介:在当今快速发展的技术时代,Web应用的性能和灵活性变得越来越重要。在众多技术中,GraphQL和Sanic以其独特的优势脱颖而出。GraphQL,作为一个强大的数据查询语言,为前端和后端之间的通信提供了极大的灵活性。而…

【网络安全】PKI加密

1、PKI概述 名称:Public Key Infrastruction 公钥基础设施 作用:通过加密技术和数字签名保证信息的安全 组成:公钥机密技术、数字证书、CA、RA 2、信息安全三要素 机密性 完整性 身份验证/操作的不可否认性 3、哪些IT领域用到PKI&…

docker安裝gocd-server,并配置gitlab授权登录

gocd的地址:Installing GoCD server on Windows | GoCD User Documentation gocd文档:GitHub - gocd/docker-gocd-server: Docker server image for GoCD 一、docker拉取gocd镜像 #拉取server镜像 docker pull gocd/gocd-server:v21.1.0docker pull g…

一键了解获取网页requests方式

目录 一、爬虫原理: 二、安装: 测试: 三、文件的操作 方式一 方式二: 方式三 四、认识User-Agent 4.1、为什么用User-Agent: 步骤: 五、请求方式 5.1、get 5.2、post 六、爬出有中国关键字页面案例 一、爬…

信息系统安全——基于 KALI 和 Metasploit 的渗透测试

实验 2 基于 KALI 和 Metasploit 的渗透测试 2.1 实验名称 《基于 KALI 和 Metasploit 的渗透测试》 2.2 实验目的 1 、熟悉渗透测试方法 2 、熟悉渗透测试工具 Kali 及 Metasploit 的使用 2.3 实验步骤及内容 1 、安装 Kali 系统 2 、选择 Kali 中 1-2 种攻击工具&#xff0c…

JSON Crack数据可视化工具结合内网穿透实现公网访问

文章目录 1. 在Linux上使用Docker安装JSONCrack2. 安装Cpolar内网穿透工具3. 配置JSON Crack界面公网地址4. 远程访问 JSONCrack 界面5. 固定 JSONCrack公网地址 JSON Crack 是一款免费的开源数据可视化应用程序,能够将 JSON、YAML、XML、CSV 等数据格式可视化为交互…

OpenCV-18图像的翻转和旋转

一、图像的翻转 使用API---cv.flip&#xff08;src, flipCode&#xff09; flipCode 0表示上下翻转 flipCode > 0表示左右翻转 flipCode < 0上下 左右翻转 或者使用np的翻转src[: : -1,: : -1]实现上下翻转。 示例代码如下&#xff1a; import cv2 import numpy…

网站被篡改怎么办,如何进行有效的防护

随着互联网的飞速发展&#xff0c;信息传播的速度和范围得到了极大的提升。然而&#xff0c;这也为网页篡改行为提供了可乘之机。网页被篡改不仅会损害网站的形象&#xff0c;还可能对用户造成误导&#xff0c;甚至导致安全漏洞。因此&#xff0c;网页防篡改技术成为了网络安全…

LINUX——动/静态库

加油加油~ 目录&#xff1a; 动/静态库是什么&#xff1f; .o文件是什么&#xff1f; 以gcc编译器为例&#xff0c;查看xxx.i xxx.s xxx.o文件 生成test.i文件(预处理) 生成test.s文件(编译) 生成test.o文件(汇编) 生成可执行程序(链接)&#xff1a; 小结&#xff1a…

Docker 部署

文章目录 1.部署Nginx2.部署Tomcat 1.部署Nginx 首先我们可以使用下面命令来搜索镜像&#xff08;网站查询也可以&#xff09; # 搜索有关Nginx的镜像 docker search nginx# 下载镜像 docker pull nginx# 运行 docker run -d --name nginx01 -p 3344:80 nginx# -d 后台运行 #…

第一次上传仓库

第一步 第二步 git clone 地址 第三步 放到克隆下来的那个文件夹 第四步 上传到地址里面 如下操作 1,git status //显示分支状态 2,git add . //上传所有 3,git commit -am "第一次上传" //名字 4,git push