目标检测算法训练数据准备——Penn-Fudan数据集预处理实例说明(附代码)

目录

0. 前言

1. Penn-Fudan数据集介绍

2. Penn-Fudan数据集预处理过程

3. 结果展示

4. 完整代码


0. 前言

按照国际惯例,首先声明:本文只是我自己学习的理解,虽然参考了他人的宝贵见解及成果,但是内容可能存在不准确的地方。如果发现文中错误,希望批评指正,共同进步。

本文以Penn-Fudan数据集预处理为例,说明用于目标检测算法训练的数据集的预处理方法及过程。

因为要给目标检测算法进行训练,需要预先提取出图像中定位及分类相关信息,过程稍微有点复杂,所以单独写作这篇博客专门介绍整个过程。

1. Penn-Fudan数据集介绍

1.1 基础概述

Penn-Fudan行人数据集(Penn-Fudan Pedestrian Detection Dataset)是一个专门用于行人检测任务的小规模图像数据集。这个数据集由宾夕法尼亚大学和复旦大学的研究者共同创建,主要用于学术研究和算法验证。

该数据集包含170张高分辨率的RGB图像,这些图片都是从视频序列中截取的,并且在每幅图像中有0到6个不等的行人目标。每个行人的位置都通过矩形框(mask)进行了精确标注,提供了边界框坐标信息,便于进行目标检测训练和测试。

Penn-Fudan数据集的文件结构如下:

PennFudanPed/
├── Annotation/       #包含每个图像的注释,包含有多少行人及行人位置等信息
│   ├── FudanPed00001.txt
│   ├── FudanPed00002.txt
│   └── ... 
├── PedMasks/       #包含每个行人的掩码图像
│   ├── FudanPed00001_mask.png
│   ├── FudanPed00002_mask.png
│   └── ...       
├── PNGImages/      # 图像文件夹
│   ├── FudanPed00001.png
│   ├── FudanPed00002.png
│   └── ...        
└── readme.txt
1.2 图像内容
  • 场景:图像采集自多种环境,如校园、街道、人行横道等,涵盖了不同光照条件、行人姿态和遮挡情况。
  • 行人数量:总计标注了345个行人的实例,每张图片中至少有一个行人,部分图片中有多个行人。
1.3 标注信息

Penn-Fudan数据集所有图像都按照PASCAL VOC格式进行标注,包括每个行人的精确边界框和像素级分割掩模。

  • 边界框(Bounding Boxes):每个行人实例都有一个矩形边界框,用于表示行人在图像中的位置。
  • 分割掩模(Segmentation Masks):除了边界框之外,还提供了每个行人实例的精细像素级分割标签,这对于训练和评估基于深度学习的语义分割模型非常有用。
1.4 应用示例
  • 模型训练与验证:该数据集常被用于微调预训练的物体检测和实例分割模型,例如Mask R-CNN,以检验其对行人检测及分割任务的适应性。
  • 算法比较:研究者使用Penn-Fudan数据集来对比不同行人检测和分割方法的效果,并以此来改进算法性能。
1.5 获取与使用
  • 资源获取:用户通常需要从官方或相关学术项目网站下载该数据集,数据集中包含了图像文件夹(如“PNGImages”)和相应的XML标注文件。
  • 数据加载:利用工具如`TorchVision`或其他计算机视觉库可以方便地加载和解析这些标注数据,进而进行模型训练和实验。

需要数据集的小伙伴可以留下邮箱。

2. Penn-Fudan数据集预处理过程

首先需要解释下PedMasks中的mask,mask是一个二维矩阵,用于标注图像中的行人:用“0”标注图像背景,用“1”标注“行人1”,“2”标注“行人2”,以此类推……

下面示意图可以更加形象地说明mask:

当然真实mask要达到像素级精度,比上面示意图密集得多。

Penn-Fudan数据集预处理过程可以分为以下几个步骤:

  1. 提取mask中的值mask_id,确认图像中有几个行人,例如上图mask_id = [1, 2];
  2. 按照mask_id把单个mask拆分成多个masks,拆分过程如下图;
  3. 确认masks中的每个行人的位置,即每个ground truth框的[x_min, y_min, x_max, y_max];

3. 结果展示

按上述过程对Penn-Fudan数据集进行预处理,结果如下:

其中绿色框代表行人的ground truth框,红色数字代表行人编号。

4. 完整代码

import os
import numpy as np
from PIL import Image
import cv2

class PFdataset():
    def __init__(self, path):
        self.path = path
        self.imgs = list(sorted(os.listdir(os.path.join(path, 'PNGImages'))))  #图像列表:['FudanPed00001.png', 'FudanPed00002.png'...]
        self.masks = list(sorted(os.listdir(os.path.join(path, 'PedMasks'))))  #Mask列表:['FudanPed00001_mask.png', 'FudanPed00002_mask.png'...]

    def __getitem__(self, item):
        img_path = os.path.join(self.path, 'PNGImages', self.imgs[item])  #输出单个图像的地址:Penn-Fudan\PNGImages\FudanPed00xxx.png
        mask_path = os.path.join(self.path, 'PedMasks', self.masks[item])  #输出单个mask的地址:Penn-Fudan\PedMasks\PennPed00xxx_mask.png
        img = Image.open(img_path).convert('RGB')   #例 <PIL.Image.Image image mode=RGB size=559x536 at 0x2103A5ED790> , 可以用.show()看到图像, 可以用 numpy.array()看到图像数据
        mask = np.array(Image.open(mask_path))  #例  <PIL.PngImagePlugin.PngImageFile image mode=L size=530x410 at 0x214FACC83D0>

        mask_id = np.unique(mask) #提取mask的编码,例:编码有[0,1,2]。0代表背景,1代表人物1,2代表人物2
        mask_id = mask_id[1:]  #0是背景,进行切片,编码仅剩[1,2]
        masks = mask == mask_id[:,None,None]  #把不同对象的mask提取出来,mask_id[:,None,None]相当于array的升维

        gt_boxs = []  #groundtruth框的坐标值list

        for i in range(len(mask_id)):
            box = np.where(masks[i])
            xmin = np.min(box[1])
            xmax = np.max(box[1])
            ymin = np.min(box[0])
            ymax = np.max(box[0])

            gt_boxs.append([xmin, ymin, xmax, ymax, mask_id[i]])

        #使用cv2画框并且标注序号
        img_cv2 = cv2.imread(img_path)
        for [xmin, ymin, xmax, ymax, mask_id] in gt_boxs:
            cv2.rectangle(img_cv2,(xmin,ymin),(xmax,ymax),(0, 255, 0), 2)

            text = '%s'%mask_id
            font = cv2.FONT_HERSHEY_SIMPLEX
            font_scale = 1
            color = (0, 0, 255)  # 蓝色文本
            thickness = 2
            text_size, baseline = cv2.getTextSize(text, font, font_scale, thickness)
            text_origin = (xmin,ymin + baseline*3)

            # 在矩形框上方写入文本
            cv2.putText(img_cv2, text, text_origin, font, font_scale, color, thickness, cv2.LINE_AA)

        cv2.imshow('gt_box',img_cv2)
        cv2.imwrite('Penn-Fudan/output/%s.jpg'%item, img_cv2)

dataset = PFdataset('Penn-Fudan')
dataset[1]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/359978.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Springboot项目启动后浏览器不能直接访问接口,而postman可以访问?

在云服务器上部署springboot后端时&#xff0c;项目启动后浏览器不能直接访问接口,而postman可以访问。这是当时困扰了我大半天的小问题&#xff0c;在我打开防火墙和阿里云安全组之后还是没解决。然后在网上搜了很多很多资料&#xff0c;以为是浏览器访问权限或者是https什么证…

微信公众号数量达到上限怎么办

一般可以申请多少个公众号&#xff1f;许多用户在申请公众号时可能会遇到“公众号显示主体已达上限”的问题。这是因为在2018年11月16日对公众号申请数量进行了调整&#xff0c;具体调整如下&#xff1a;1、个人主体申请公众号数量上限从2个调整为1个。2、企业主体申请公众号数…

Mac删除自带的ABC输入法,简单快捷

一、下载PlistEdit Pro软件 二、终端执行 sudo open ~/Library/Preferences/com.apple.HIToolbox.plist 三、其中有一个数字下面的KeyboardLayout Name的value为“ABC”&#xff0c;这就是ABC输入法&#xff0c;点击上面的Delete按钮&#xff0c;删除整项ABC内容&#xff0c…

【计算机毕业设计】128电脑配件销售系统

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

public class和class的区别

不用public修饰的类 一个Java源文件中可以定义多个不用public修饰的class&#xff0c;且类名不用和java源文件名一致。public修饰的类可以没有。编译之后&#xff0c;一个class就会对应生成一个class字节码文件 对于用public修饰的类 如果一个类用了public修饰&#xff0c;那…

搞懂Nginx的.conf文件路径配置

详解server中各部分作用及如何配置 如下图所示&#xff0c;这是我配置好的一个server代码块&#xff0c;我这里配置了https&#xff0c;所以会比默认的多一部分内容&#xff0c;如果你只需要配置http&#xff0c;则只需关注红色方框的部分即可&#xff0c;下面会按顺序讲解。 ①…

C++进阶--继承

概念 继承&#xff0c;允许一个类&#xff08;称为子类或派生类&#xff09;从另一个类&#xff08;称为父类或基类&#xff09;继承属性和方法。 继承的主要目的是实现代码的重用和构建类之间的层次关系。通过继承&#xff0c;子类可以获得父类的特性&#xff0c;包括数据成员…

海外短剧系统国际短剧源码h5多语言版app挂载tiktok油管ins

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目 前言 一、海外短剧系统是什么&#xff1f; 二、海外短剧系统功能与运营方式介绍 1.系统功能 2.短剧APP运营方式 总结 前言 本文简单介绍海外短剧系统的功能&#xff…

【已解决】Ubuntu64位无法运行32位ELF文件的问题

问题起因 因为在做一道逆向题&#xff0c;发现题目给的文件是32位elf文件&#xff0c;所以想在Linux下执行一下&#xff0c;然后发现会报错。 于是查了一下资料&#xff0c;发现报错的原因是64位的Ubuntu无法直接运行32位的程序&#xff0c;需要下载兼容32位的库。 解决方法…

JUC并发编程10——ThreadLocal

目录 1. ThreadLocal是什么&#xff1f; 2. ThreadLocal怎么用&#xff1f; 3. ThreadLocal源码分析 3.1set方法 3.2get()方法 3.3remove()方法 4.为什么key使用弱引用&#xff1f; 5.ThreadLocalMap 和 HashMap 区别 6.ThreadLocal变量不具有传递性 7.InheritableTh…

Android 跳转应用设置/热点界面或等常用操作

Android 跳转应用设置/热点界面或等常用操作 https://www.jianshu.com/p/ba7164126690 android学习进阶——Setting https://blog.csdn.net/csdn_wanziooo/article/details/81980984 Android 7.1 以太网反射 EthernetManager 配置 DHCP、静态 IP https://codeleading.com/art…

防火墙综合拓扑(NAT、双机热备)

实验需求 拓扑 实验注意点&#xff1a; 先配置双机热备&#xff0c;再来配置安全策略和NAT两台双机热备的防火墙的接口号必须一致如果其中一台防火墙有过配置&#xff0c;最好清空或重启&#xff0c;不然配置会同步失败两台防火墙同步完成后&#xff0c;可以直接在主状态防火墙…

MyBatis 的注解实现方法

MyBatis 的注解实现方法 MyBatis 的注解实现方法引入依赖添加配置创建表创建实体类创建mapper接口InsertDeleteSelectResults和ResultMap通过配置文件解决 UpdateOptions MyBatis 的注解实现方法 引入依赖 在springBoot项目中下载了EditStarters插件的,可以直接在配置文件处右…

JVM学习

1.Java虚拟机内部有哪些线程共享&#xff0c;那些线程隔离 程序计数器&#xff1a; 通过改变这个计数器的值来选取下一条需要执行的字节码命令 Java虚拟机栈&#xff1a; 栈&#xff0c;每个方法被执行时&#xff0c;Java虚拟机都会同步的创建一个栈帧用于存储局部变量表&…

Linux:进度条的创建

目录 使用工具的简单介绍&#xff1a; \r &#xff1a; fflush &#xff1a; 倒计时的创建&#xff1a; 倒计时的工作原理&#xff1a; 进度条的创建&#xff1a; 不同场景下、打印任意长度的进度条&#xff1a; main .c procbor.c 测试效果&#xff1a; 使用工具…

STM32学习笔记(四) —— 位段别名区的使用

STM32F103RCT6有两个位段区 (SRAM 最低1M空间和片内外设存储区最低1M空间)&#xff0c; 这两个区域都有各自的别名区&#xff0c;在别名区中每个字会映射到位段区的一个位&#xff0c;所以在别名区修改一个字相当于修改位段区中对应的一个位 映射公式( 别名区中的字与位段区中的…

jenkins部署(docker)

docker部署&#xff0c;避免安装tomcat 1.拉镜像 docker pull jenkins/jenkins2.宿主机创建文件夹 mkdir -p /lzp/jenkins_home chmod 777 /lzp/jenkins_home/3.启动容器 docker run -d -p 49001:8080 -p 49000:50000 --privilegedtrue -v /lzp/jenkins_home:/var/jenkins_…

Excel得到JSON串

很多时候业务都需要做一种从Excel读取或者导入数据的功能&#xff0c;这在cs程序比较简单&#xff0c;在BS程序上如果封装不好的话那么写起来还是很费劲的&#xff0c;这次封装Excel读取操作。 先看使用 对&#xff0c;你没有看错&#xff0c;就是这么简单。 封装 基础设计…

2023年葡萄酒行业分析报告(电商数据查询):消费市场疲软,但国产品牌的替代效应逐步明显

近几年&#xff0c;受国内经济增速放缓的影响&#xff0c;现阶段国内葡萄酒的消费需求仍显不足。同时&#xff0c;当前国内酒类市场正处于存量竞争阶段&#xff0c;市场竞争十分激烈&#xff0c;其他酒类也在一定程度上挤占了葡萄酒的市场份额&#xff0c;这也导致国内葡萄酒消…