mmdetection使用自己的voc数据集训练模型实战

一.自己数据集整理
将labelimg格式数据集进行整理
1.1. 更换图片后缀为jpg

import os
import shutil

root_path='/media/ai-developer/img'

file=os.listdir(root_path)

for img in file:
    if img.endswith('jpeg') or img.endswith('JPG') or img.endswith('png'):
        img_path=os.path.join(root_path,img)
        name=os.path.splitext(img)[0]
        new_name=name+'.jpg'
        os.rename(img_path,os.path.join(root_path,new_name))
        print(name+'.jpg','修改成功....')

2.删除xml和jpg名称不对应的图片

import os
import shutil
imgs=[]
labels=[]

xml_path='/media/ai-developer/277f00a0-3f2b-47a3-9870-b69d65db4d511/图像/20240130结果/ann'
jpg_path='/media/ai-developer/277f00a0-3f2b-47a3-9870-b69d65db4d511/图像/20240130结果/img'


def get_file_list(path, ex):

    file_list = []
    for dir, folder, file in os.walk(path):
        for i in file:
            if os.path.splitext(i)[1] in ex:
                file_list.append(os.path.join(dir, i))
    return file_list

file_jpg = get_file_list(jpg_path, ['.jpg','.JPG','jpeg','png'])
file_xml = get_file_list(xml_path, ['.xml'])

prefix_jpg_list=[]
prefix_xml_list=[]

for b in file_jpg:
    prefix_jpg=os.path.splitext(b)[0]
    jpg_suffix = os.path.basename(prefix_jpg)
    prefix_jpg_list.append(jpg_suffix)

for b in file_xml:
    prefix_xml=os.path.splitext(b)[0]
    xml_suffix = os.path.basename(prefix_xml)
    prefix_xml_list.append(xml_suffix)

for c in prefix_jpg_list:
    if c not in prefix_xml_list:
        os.remove(os.path.join(jpg_path,c)+'.jpg')
        print(c + '.jpg 已将删除')

for d in prefix_xml_list:
    if d not in prefix_jpg_list:
        os.remove(os.path.join(xml_path,d)+'.xml')
        print(d+'.xml 已将删除')
print('over')

1.3 查看class name

# -*- coding:utf-8 -*-

from xml.dom.minidom import parse
import xml.dom.minidom
import os
import xml.etree.ElementTree as ET

xml_path = '/home/ai-developer/桌面/VOCdevkit/VOC2007/Annotations'

classCount = dict()
jpg_name_set=set()

def load_predefine_class():
    predef = open('predefined_classes.txt', 'r', encoding='utf-8')
    for c in predef:
        c = c[:-1]
        classCount[c] = 0

def parse_files(path):

    root = ET.parse(path).getroot()  # 利用ET读取xml文件

    for obj in root.iter('object'):  # 遍历所有目标框
        # print('pic_name:', xml_name)
        name = obj.find('name').text  # 获取目标框名称,即label名

        v = classCount.get(name, 0)
        classCount[name] = v + 1

def traversal_dir(xml_path):
    for p,d,f in os.walk(xml_path):
        for t in f:

            if t.endswith(".xml"):
                path = os.path.join(p, t)

                parse_files(path)
                # print(path)


def output():
    for k in classCount:
        print('%s : %d' % (k, classCount[k]))

if __name__ == '__main__':

    traversal_dir(xml_path)
    output()

1.4 创建以下目录结构
在这里插入图片描述

在这里插入图片描述

其中JPEGImgs里面是所有图片
Annotations里面是所有xml文件
dataset.py文件代码为

import os
import random

trainval_percent =0.8 # 0.8
train_percent =0.8  #0.8
xmlfilepath = 'Annotations'
txtsavepath = 'ImageSets\Main'
total_xml = os.listdir(xmlfilepath)

num = len(total_xml)
list = range(num)
tv = int(num * trainval_percent)
tr = int(tv * train_percent)
trainval = random.sample(list, tv)
train = random.sample(trainval, tr)

ftrainval = open('ImageSets/Main/trainval.txt', 'w')
ftest = open('ImageSets/Main/test.txt', 'w')
ftrain = open('ImageSets/Main/train.txt', 'w')
fval = open('ImageSets/Main/val.txt', 'w')

for i in list:
    name = total_xml[i][:-4] + '\n'
    if i in trainval:
        ftrainval.write(name)
        if i in train:
            ftrain.write(name)
        else:
            fval.write(name)
            ftest.write(name)
    else:
        ftest.write(name)

ftrainval.close()
ftrain.close()
fval.close()
ftest.close()
print('数据集划分完成')

准备好一切后,python dataset.py自动划分数据集
由此,数据集已经准备完成

二.修改mmdetection配置文件

我的环境版本
``
torch 2.0.1
mmcv 2.1.0
mmdeploy 1.3.1
mmdeploy-runtime 1.3.1
mmdeploy-runtime-gpu 1.3.1
mmdet 3.2.0
mmengine 0.10.1


### 我使用的模型为cascade-rcnn-r101
## 1.0  修改voc0712.py
vi /mmdetection-main/configs/_base_/datasets/voc0712.py

```python
# dataset settings
dataset_type = 'VOCDataset'
data_root = 'data/VOCdevkit/'

# Example to use different file client
# Method 1: simply set the data root and let the file I/O module
# automatically Infer from prefix (not support LMDB and Memcache yet)

# data_root = 's3://openmmlab/datasets/detection/segmentation/VOCdevkit/'

# Method 2: Use `backend_args`, `file_client_args` in versions before 3.0.0rc6
# backend_args = dict(
#     backend='petrel',
#     path_mapping=dict({
#         './data/': 's3://openmmlab/datasets/segmentation/',
#         'data/': 's3://openmmlab/datasets/segmentation/'
#     }))
backend_args = None

train_pipeline = [
    dict(type='LoadImageFromFile', backend_args=backend_args),
    dict(type='LoadAnnotations', with_bbox=True),
    dict(type='Resize', scale=(1000, 600), keep_ratio=True),
    dict(type='RandomFlip', prob=0.5),
    dict(type='PackDetInputs')
]
test_pipeline = [
    dict(type='LoadImageFromFile', backend_args=backend_args),
    dict(type='Resize', scale=(1000, 600), keep_ratio=True),
    # avoid bboxes being resized
    dict(type='LoadAnnotations', with_bbox=True),
    dict(
        type='PackDetInputs',
        meta_keys=('img_id', 'img_path', 'ori_shape', 'img_shape',
                   'scale_factor'))
]
train_dataloader = dict(
    batch_size=2,
    num_workers=2,
    persistent_workers=True,
    sampler=dict(type='DefaultSampler', shuffle=True),
    batch_sampler=dict(type='AspectRatioBatchSampler'),
    dataset=dict(
        type='RepeatDataset',
        times=3,
        dataset=dict(
            type='ConcatDataset',
            # VOCDataset will add different `dataset_type` in dataset.metainfo,
            # which will get error if using ConcatDataset. Adding
            # `ignore_keys` can avoid this error.
            ignore_keys=['dataset_type'],
            datasets=[
                dict(
                    type=dataset_type,
                    data_root=data_root,
                    ann_file='VOC2007/ImageSets/Main/trainval.txt',
                    data_prefix=dict(sub_data_root='VOC2007/'),
                    filter_cfg=dict(
                        filter_empty_gt=True, min_size=32, bbox_min_size=32),
                    pipeline=train_pipeline,
                    backend_args=backend_args),
                # dict(
                #     type=dataset_type,
                #     data_root=data_root,
                #     ann_file='VOC2012/ImageSets/Main/trainval.txt',
                #     data_prefix=dict(sub_data_root='VOC2012/'),
                #     filter_cfg=dict(
                #         filter_empty_gt=True, min_size=32, bbox_min_size=32),
                #     pipeline=train_pipeline,
                #     backend_args=backend_args)
            ])))

val_dataloader = dict(
    batch_size=2,
    num_workers=2,
    persistent_workers=True,
    drop_last=False,
    sampler=dict(type='DefaultSampler', shuffle=False),
    dataset=dict(
        type=dataset_type,
        data_root=data_root,
        ann_file='VOC2007/ImageSets/Main/test.txt',
        data_prefix=dict(sub_data_root='VOC2007/'),
        test_mode=True,
        pipeline=test_pipeline,
        backend_args=backend_args))
test_dataloader = val_dataloader

val_evaluator = dict(type='VOCMetric', metric='mAP', eval_mode='11points')
test_evaluator = val_evaluator

2.0 修改cascade-rcnn_r50_fpn.py

vi mmdetection-main/configs/base/models/cascade-rcnn_r50_fpn.py
修改3出位置 ,num_classes=自己对应的类别数量,

3.0 cascade-rcnn_r50_fpn_1x_coco.py文件修改

vi /mmdetection-main/configs/cascade_rcnn/cascade-rcnn_r50_fpn_1x_coco.py

_base_ = [
    '../_base_/models/cascade-rcnn_r50_fpn.py',
    # '../_base_/datasets/coco_detection.py',
    '../_base_/datasets/voc0712.py',
    '../_base_/schedules/schedule_2x.py', '../_base_/default_runtime.py'
]

4.0 修改voc.py
vi /mmdetection-main/mmdet/datasets/voc.py
在这里插入图片描述

5.0 修改class_name.py
vi /mmdetection-main/mmdet/evaluation/functional/class_names.py
在这里插入图片描述

好了,配置文件修改完成,接下来就是开始训练

三.启动训练

单卡训练模型示例 
python3 ./tools/train.py ./configs/faster_rcnn_r50_fpn_1x.py
python tools/train.py configs/cascade_rcnn/cascade_rcnn_r50_fpn_1x_coco.py --work-dir work_dirs/cascade_rcnn_r50_fpn_1x_0603/

多gpu分布式训练示例

./tools/dist_train.sh configs/cascade_rcnn/cascade-rcnn_r101_fpn_1x_coco.py 2 --work-dir work_dirs/cascade_rcnn_r101_fpn_1x_0120



resume 训练
 ./tools/dist_train.sh configs/cascade_rcnn/cascade_rcnn_r101_fpn_20e_coco.py 2 --resume-from work_dirs/cascade_rcnn_r101_fpn_1x_coco0716/latest.pth --work-dir work_dirs/cascade_rcnn_r101_fpn_1x_coco0716

四.模型推理

from mmdet.apis import DetInferencer
import mmcv
import os
import time
import cv2
import matplotlib.pyplot as plt


config_file = '/home/ai-developer/data/mmdetection-main/work_dirs/cascade_rcnn_r101_fpn_1x25/cascade-rcnn_r101_fpn_1x_coco.py'
checkpoint_file = '/home/ai-developer/data/mmdetection-main/work_dirs/cascade_rcnn_r101_fpn_1x25/epoch_19.pth'

inferencer = DetInferencer(model=config_file,weights=checkpoint_file,device='cuda:0') # ,palette ='random'

imgdir = '/home/ai-developer/data/mmdetection-main/work_dirs/cascade_rcnn_r101_fpn_1x_0205/test_img'
imgs = os.listdir(imgdir)
i = 0
start = time.time()
for img in imgs:
    i = i + 1
    name=os.path.basename(img)
    # print('name:',name)
    imgpath = os.path.join(imgdir, img)  # or img = mmcv.imread(img), which will only load it once

    # print(imgpath)
    out_dir = os.path.join('./results/shebei0205', img)
    result = inferencer(imgpath,out_dir=out_dir,show=False)#,show=True

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/376014.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python实现飞书群机器人消息通知(消息卡片)

python实现飞书群机器人消息通知 直接上代码 """ 飞书群机器人发送通知 """ import time import urllib3 import datetimeurllib3.disable_warnings()class FlybookRobotAlert():def __init__(self):self.webhook webhook_urlself.headers {…

vue electron应用调exe程序

描述 用Python写了一个本地服务编译成exe程序,在electron程序启动后,自动执行exe程序 实现 1. 使用node的child_process模块可以执行windows执行,通过指令调exe程序 // electron/index.js var cp require("child_process"); /…

1080p 显示屏分辨率玩游戏的大有人在

喜欢玩游戏的其实大可不必为不能把自己的主机升级到4060焦虑,也不必望着最新的显卡天梯图眼馋兴叹。根据 Steam 平台的调查,六成 Steam 玩家仍然还在用 1080p 显示屏分辨率玩游戏。 根据Steam硬件调查4月份的榜单,1920x1080分辨率依然占据了6…

利用LLM大模型生成sql的深入应用探究

Chat2DB 是一款有开源免费的多数据库客户端工具,和传统的数据库客户端软件Navicat、DBeaver 相比 Chat2DB 集成了 AIGC 的能力,能够将自然语言转换为 SQL,也可以将 SQL 转换为自然语言,可以给出研发人员 SQL 的优化建议,极大地提升…

【C语言】GtkStack及标签页的关闭

一、GtkStack GtkStack 是 GTK(GIMP Toolkit)库中的一个容器类,用于管理多个子窗口部件(widgets),但在任何给定时间内只显示其中一个。GtkStack 提供了一种在同一个空间位置显示不同内容的方式&#xff0c…

I.MX6u嵌入式linux驱动开发

1:Ubuntu 系统入门 当 Ubuntu 系统入门以后,我们重点要学的就是如何在 Linux 下进行 C 语言开发,如何使 用 gcc 编译器、如何编写 Makefile 文件等等 首先安装虚拟机软件VM: Vmware Workstation 软件可以在 Wmeare …

Vue3.0

一、Vue3.0介绍 1、Vue3.0介绍 在学习Vue3.0之前,先来看一下与Vue2.x的区别 会从如下几点来介绍 源码组织方式的变化Composition API性能提升Vite Vue3.0全部使用TypeScript进行重写,但是90%的API还是兼容2.x,这里增加了Composition API也就是组合A…

电动汽车雷达技术概述 —— FMCW干扰问题(第二篇)

此图片来源于网络 1、雷达干扰问题 此图表示道路上的典型场景。 两辆支持雷达的汽车相互通过。 在过去,这是不太可能的事件。 然而,随着越来越多的77千兆赫雷达汽车 在道路中行驶,这种事件发生的可能性变得越来越高。 因此,一个…

华为数通方向HCIP-DataCom H12-821题库(单选题:441-460)

第441题 下面是一台路由输出的信息,关于这段信息描述正确的是 <R1>display bgp peerBGP local router ID : 2.2.2.2Local AS number : 100Total number of peers : 2 Peers in established state : 0Peer V AS MsgRcvd MsgSent OutQ Up/Down …

【JavaScript】Js中一些数组常用API总结

目录 前言 会改变原数组 push() pop()和shift() unshift() splice() sort() reverse() 不会改变原数组 slice() concat() filter() forEach() toString join(分隔符&#xff09; 小结 前言 Js中数组是一个重要的数据结构&#xff0c;它相比于字符串有更多的方法…

Android7.0-Fiddler证书问题

一、将Fiddler的证书导出到电脑&#xff0c;点击Tools -> Options -> HTTPS -> Actions -> Export Root Certificate to Desktop 二、下载Window版openssl&#xff0c; 点击这里打开页面&#xff0c;下拉到下面&#xff0c;选择最上面的64位EXE点击下载安装即可 安…

node cool-admin 后端宝塔面板看代码日志

1.需求 我在处理回调问题的时候 就是找不到问题&#xff0c;因为不像本地的代码 控制台能够直接打印出来问题&#xff0c;你是放在线上了 所以那个日志不好打印 我看网上都说是 直接用一个loger.js 打印 日志 放到代码文件里 这种方法也许有用 但是对我这框架cool来说 试了没有…

使用 Kubernetes,基础设施层面如何优化?分享一些解决方案

重点内容 搭配 SmartX 自主研发的 Kubernetes 服务、分布式存储、Kubernetes 原生存储等产品&#xff0c;用户既可基于 SmartX 超融合构筑全栈 Kubernetes 基础设施&#xff0c;也可选择为部署在裸金属、其他虚拟化平台或混合环境的 Kubernetes 集群提供持久化存储支持。 文末…

基于YOLOv8的暗光低光环境下(ExDark数据集)检测,加入多种优化方式---DCNv4结合SPPF ,助力自动驾驶(一)

&#x1f4a1;&#x1f4a1;&#x1f4a1;本文主要内容:详细介绍了暗光低光数据集检测整个过程&#xff0c;从数据集到训练模型到结果可视化分析&#xff0c;以及如何优化提升检测性能。 &#x1f4a1;&#x1f4a1;&#x1f4a1;加入 DCNv4结合SPPF mAP0.5由原始的0.682提升至…

金融行业专题|证券超融合架构转型与场景探索合集(2023版)

更新内容 更新 SmartX 超融合在证券行业的覆盖范围、部署规模与应用场景。新增操作系统信创转型、Nutanix 国产化替代、网络与安全等场景实践。更多超融合金融核心生产业务场景实践&#xff0c;欢迎阅读文末电子书。 在金融行业如火如荼的数字化转型大潮中&#xff0c;传统架…

[Python进阶] 制作动态二维码

11.1 制作动态二维码 二维码&#xff08;QR code&#xff09;是一种二维条形码&#xff08;bar code&#xff09;&#xff0c;它的起源可以追溯到20世纪90年代初。当时&#xff0c;日本的汽车工业开始使用一种被称为QR码的二维条码来追踪汽车零部件的信息。 QR码是Quick Respo…

品牌如何营造生活感氛围?媒介盒子分享

「生活感」简而言之是指人们对生活的感受和意义&#xff0c;它往往没有充斥在各种重要的场合和事件中&#xff0c;而是更隐藏在细碎平凡的生活场景中。在营销越来越同质化的当下&#xff0c;品牌应该如何打破常规模式&#xff0c;洞察消费情绪&#xff0c;找到更能打动消费者心…

Python(20)正则表达式(Regular Expression)中常用函数用法

大家好&#xff01;我是码银&#x1f970; 欢迎关注&#x1f970;&#xff1a; CSDN&#xff1a;码银 公众号&#xff1a;码银学编程 正文 正则表达式 粗略的定义&#xff1a;正则表达式是一个特殊的字符序列&#xff0c;帮助用户非常便捷的检查一个字符串是否符合某种模…

14. 【Linux教程】文件压缩与解压

文件压缩与解压 前面小节介绍了如何对文件和目录删除、移动操作&#xff0c;本小节介绍如何使用命令对文件和目录进行压缩与解压操作&#xff0c;常见的压缩包格式有 .bz2、.Z、.gz、.zip、.xz&#xff0c;压缩之后的文件或目录占用更少的空间。 1. tar 命令介绍 下面列举 ta…

【C++】基础知识讲解(命名空间、缺省参数、重载、输入输出)

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;http://t.csdnimg.cn/eCa5z 目录 命名空间 命名空间的定义 命名空间的使用 命名空间的嵌套使用 C输入&输出 std命名空间的使用惯例&…