场景文本检测识别学习 day10(MMdetection)

配置文件(config)

  • 由于在大型项目中,一种模型需要分:tiny、small、big等很多种,而它们的区别主要在网络结构,数据的加载,训练策略等,且差别很多都很小,所以如果每个模型都手动从头写一份,很麻烦,为了方便,现在都是直接采用配置文件的形式来定义
  • 如yaml文件、py文件等
    在这里插入图片描述
    在这里插入图片描述

MMdetection的配置文件构成

  • 在MMdection的配置文件中,我们根据字段来定义模型训练的各部分
    在这里插入图片描述
  • 配置文件的运作方式
    在这里插入图片描述

使用MMdection来训练自己的检测模型

在这里插入图片描述

  • coco数据集的组织形式
    在这里插入图片描述

  • coco数据集的标注格式

  • 所有标注信息存储在一个JSON对象中,包含以下信息:images–所有原始图像信息、annotations–所有标注信息、categories–全部物体类别信息
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 其中:name表示当前的物体类别,supercategories表示当前物体的超类,如car的超类为vehicle

  • 我们将自己的数据集按照以上的格式整理好后,还需要更改模型的配置文件(有些模型是继承coco_instance.py,需要仔细查找),如下:
    在这里插入图片描述

  • 重点是需要修改:数据集的路径、batch_size、进程数

  • 在将原始图像输入进模型之前,我们可能还需要对图像进行:随机裁剪与缩放、水平翻转、像素值归一化、转换为PyTorch Tensor等操作,这些操作我们统一放在数据处理流水线,即pipeline中。对于微调训练,通常情况是不需要进行更改的

  • 下图为分类的pipeline:
    在这里插入图片描述

  • 由于检测有框,所以多了一个annotations,对于框也需要进行跟原始图片一样的操作,下图是检测的:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/656359.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

文生图模型演进:AE、VAE、VQ-VAE、VQ-GAN、DALL-E 等 8 模型

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…

【强训笔记】day24

NO.1 思路:递归。 代码实现: class Solution { public:bool IsBalanced_Solution(TreeNode* pRoot) {return dfs(pRoot)!-1;}int dfs(TreeNode* root){if(rootnullptr) return 0;int leftdfs(root->left);if(left-1) return -1;int rightdfs(root-…

如何使用甘特图来做任务管理?zz-plan甘特图的实践指南

在项目管理和任务调度中,甘特图是一种非常实用的工具,它可以帮助团队成员清晰地规划、执行和跟踪项目进度。然而,如何有效利用甘特图进行任务管理,对于许多团队来说仍然是一个挑战。本文将结合 zz-plan https://zz-plan.com/ 甘特…

jmeter服务器性能监控分析工具ServerAgent教程

ServerAgent介绍:支持监控CPU,memory,磁盘,网络等,和JMeter集成,在JMeter的图形界面中,可以实时看到监控的数据,但是,它只能监控硬件资源使用情况。 不能监控应用服务 S…

天若OCR 识别 (本地文字识别转换工具)

前言 天若OCR文字识别本地版是一款在天若OCR文字识别工具v5.0免费开源版的基础上采用Chinese-lite框架和Paddle-ocr框架本地化识别接口编译而成,无需联网也无需申请密钥,纯本地运算,识别准确度和速度很快,操作和天若OCR免费版一样&#xff0…

解决:error: failed to push some refs to ‘https://gitee.com/***/***.git‘(高效快速)

解决方案: git pull --rebase origin master 具体原因: 主要原因是gitee(github)中的README.md文件不在本地代码目录中 要执行git pull --rebase origin master命令将README.md拉到本地 然后就可以执行git push啦 写在最后: 要是问题得到…

实验四 网络的路径与连通性

文章目录 4.1 网络的路径与连通性第1关:路径与初始距离矩阵的构建第2关:由网络邻接矩阵求初始距离矩阵方法第3关:网络中任意两点的最短路径求解 4.2 网络连通性第1关:网络节点间的可达性判断第2关:邻接矩阵转换可达矩阵…

Java基础之 API 字符串

文章目录 API字符串String概述创建对象 java的内存模型java的常用方法(比较)练习 API 概念: APl(Application ProgrammingInterface): 应用程序编程接口 简单理解: API就是别人已经写好的东西,我们不需要自己编写,直接使用即可。 Java API: 指的就是J…

Ubuntu20.04安装ffmpeg,并捕获视频流

工控机:幻影峡谷 系统:Ubuntu20.04 摄像头:杰瑞微通环星光USB摄像头记录一下使用ffmpeg拉取视频流的原因:刚开始用的是ubuntu系统自带的 茄子 软件,但是视频流很卡(非常卡,基本上不能用&#xf…

springboot2+mybatis-plus+vue3创建入门小项目[学生管理系统]02[实战篇]

01学习篇 创建一个 vue 项目 创建这个新的文件夹 创建前端项目 eggbox 数据库 SQL CREATE DATABASE IF NOT EXISTS egg DEFAULT CHARACTER SET utf8 COLLATE utf8_bin; USE egg;CREATE TABLE stu (id INT AUTO_INCREMENT, -- 自增主键name VARCHAR(64) NOT NULL, -- 非空…

超级初始网络

目录 一、网络发展史 1、独立模式 2、局域网 LAN(Local Area Network) 3、广域网 WAN (Wide Area Network) 二、网络通信基础 1、IP地址:用于定位主机的网络地址 2、端口号:用于定位主机中的进程 3、网络协议 4、五元组 …

The First项目报告:解读ZK技术的跨链巨头Polyhedra Network

4 月 17 日,零知识证明(ZK)基础设施开发团队 Polyhedra Network与谷歌云达成战略合作,以响应 Web2 与 Web3 市场对于该技术日益增长的需求。双方将基于Polyhedra的尖端研究及专有算法通过谷歌云提供的零知识即服务向全球开发者开放…

基于LLM的优化器评测-非凸函数

基于LLM的优化器评测-非凸函数 目标函数测试结果测试代码测试日志 背景: ​ 很多时候我们需要为系统寻找最优的超参.比如模型训练,推理的量化等.本文尝试将LLM当成优化器,帮忙我们寻找最优的超参. 验证方法: 1.设计一个已知最优解的多项式,该多项式有3个变量(因为3个变量可以…

温故而知新-Spring篇【面试复习】

温故而知新-Spring篇【面试复习】 前言版权推荐温故而知新-Spring篇IOCAOP循环依赖springboot如果要对属性文件中的账号密码加密如何实现?SpringBoot的优点Spring Boot 的核心注解是哪个?它主要由哪几个注解组成的? 最后 前言 2023-7-31 15:…

MX Component基础使用(多点位读取,多点位写入)

步骤,先连接PLC,然后在填入对应的点位 D10 然后去读取。 using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Threading.Tasks;us…

微信小程序进阶(1)--自定义组件

自定义组件 1.1 什么是自定义组件 开发文档:https://developers.weixin.qq.com/miniprogram/dev/framework/custom-component/ 小程序中常常会有些通用的交互模块,比如:下拉选择列表、搜索框、日期选择器等;这些界面交互模块可…

FPGA DMA技术分享(赋能高速数据处理的新动力介绍篇)

一、引言 在现代数字信号处理系统中,数据的高速、高效传输与处理是关键。FPGA(现场可编程门阵列)以其高度的灵活性和并行处理能力,成为实现这一目标的理想平台。而DMA(直接内存访问)技术,作为FP…

Transformers x SwanLab:可视化NLP模型训练

HuggingFace 的 Transformers 是目前最流行的深度学习训框架之一(100k Star),现在主流的大语言模型(LLaMa系列、Qwen系列、ChatGLM系列等)、自然语言处理模型(Bert系列)等,都在使用T…

MM模块六(收货)

接到供应商收到的货以后,进行一个收货的动作 收货:MIGO 1.消耗物料的采购订单 数量是供应商的数量 消耗物料的采购订单,收进来的货物直接进入消耗,不会增加库存,所以这里没有库存地点进行选择 点击过账 收货后在采购…

mysql手动新建数据库

点击号输入数据库名,端口号,密码,连接到sa数据库新建数据库,语言必须选择utf8mb4新建数据库用户给数据库用户设置对应权限给数据库用户勾选权限