图像分类卷积神经网络模型综述

图像分类卷积神经网络模型综述

遇到问题

图像分类:核心任务是从给定的分类集合中给图像分配一个标签任务。
本地路径
输入:图片
输出:类别。

数据集

MNIST数据集

MNIST数据集是用来识别手写数字,由0~9共10类别组成。
从MNIST数据集的SD-1和SD-3构建的,其中包含手写数字的二进制图像:
本地路径
MNIST数据集将SD-3作为训练集,将SD-1作为测试集,但SD-3比SD-1更容易识别,原因在于SD-3来源于人工调查局雇员,
SD-1来源于高中生,以上表明分类结果要独立于完整样本集中训练集和测试集的选择,因此,通过混合MNIST数据集来建立新
的数据集很有必要,SD-1有58537幅图像,由500位作者书写,排列混乱,SSD-3的图像是顺序的,新的训练集共有60000幅图像,
一部分来源于SD-1的前250位作家书写,剩余部分来源于SD-3.新的测试集有60000幅图像,部分来源于SD-1剩余250位作家所书写,一部分来源于SD-3。

新数据集成为MNIST数据集,共10个类别:

  • 在LeNEt5实验中,训练集共60000幅图像,测试集共10000幅图像。
  • 数据集包含4个文件

train-images-idx3-ubyte:训练集图像 train-labels-idx1-ubyte:训练集标签 t10k-images-idx3-ubyte:测试集图像 t10k-labels-idx1-ubyte:测试集标签

图像像素28*28.
本地路径

IMagenET训练数据集

ImageNet数据集是具有超过1500万幅带标签的高分辨率图像数据库,这些图像大约属于22000个类别,这些图像由互联网收集,并由人工使用亚马逊的机械土耳其众包工具贴上标签。
本地路径

从2010年开始,每年举行一次名为ImnageNet的大规模视觉识别挑战赛,ILSVRC使用ImageNet的子集

  • 类别,共1000个类别
  • 数量:总共大约有120万幅训练图像,其中,每个类别大约包含1000幅图像。
  • 验证集合:50000幅验证图像
  • 测试集:50000幅测试图像。

深度卷积网络模型在ImageNet数据集上进行训练和测试,衡量模型优劣的指标为 t o p − 1 和 t o p − 5 top-1和top-5 top1top5错误率。

top-5错误率

对每幅图像同时预测5个标签类别,若预测的五个类别任意之一为该图像的正确标签,则视为预测正确,那么预测错误的概率为top-5错误率。

top-1错误率

若对图像预测一次,预测错误的概率为top-1错误率。

CIFAR-10/100数据集

CIFAR-10数据集

本地路径

  • 分辨率为32 × \times × 32
  • 类别:共10个类别
  • 数量:共有60 000幅彩色图像。其中,每个类别包含6 000幅图像。
  • 训练集:包含50000幅彩色图像。
  • 测试集:包含10 000幅彩色图像。图像取自10个类别,每个类别分别取1 000幅。

CIFAR-100数据集

• 类别:共100个类别
• 数量:共60000幅图像。其中,每个类别包含600幅图像
• 训练集:每个类别有500幅
• 测试集:每个类别有100幅

CIFAR-100中的100个类被分成20个大类别。每个图像都带有一个“精细”标签(它所属的类)和一个“粗糙”标签(它所属的超类)

SVHN数据集

该数据集用来检测和识别街景图像中的门牌号,从大量街景图像的剪裁门牌号图像中收集,包含600000幅小图像。


这些图像以两种格式呈现

  • 一种是完整的数字,即原始的,分辨率可变的,彩色门牌号图像,每个图像包括检测到数字转录以及字符级的边界框。
  • 一种是剪裁数字,图像的尺寸被调整为固定的 32 × 32 32 \times 32 32×32像素。
    SVHN数据集分为3个子集,73 257幅图像用于训练,26 032幅图像用于测试,531 131幅难度稍小的图像作为额外的训练数据。
    类别**:10个类别,数字1~9对应标签1~9,而“0”的标签则为10**
    •训练集:73257张图像
    •测试集:26032张图像
    •数据集格式**:带有字符级边界框的原始图像**。

评价标准

混淆矩阵

根据分类时预测与实际的情况,做出如下表格。

https://mp.weixin.qq.com/s/kAEZP20U0iRikuVKzeSe3w

准确率

准确率 = 正确预测的正反例数/总数
A C C = ( T P + T N ) / ( T P + T N + F P + F N ) = ( A + D ) / ( A + B + C + D ) ACC = (TP + TN)/(TP + TN + FP + FN) = (A + D)/(A + B + C + D) ACC=(TP+TN)/(TP+TN+FP+FN)=(A+D)/(A+B+C+D)

误分类率

误分类率 = 错误预测的正反例数/总数
误分类率 = 1 - ACC

查准率

查准率、精确率 = 正确预测到的正例数/预测正例总数。

召回率

查全率、召回率 = 正确预测到正例数/实际正例总数

F1 score

精确率与召回的调和平均值。

应用场景

  • 智能楼宇中,根据人脸识别,识别员工为本大楼员工时,自动进行打卡,自动按工作流程设定电梯。
  • 智能酒店中,根据人脸识别,办理自动入住,根据会员等级自动对接专属服务等。
  • 电商行业中,根据图像识别、搜索类似商品
  • 教育行业中,根据人脸特征,记录学生的听课状态(打盹、走神、小动作、举手等)。
  • 交通行业中,自动识别违规驾驶员
  • 新零售行业中,根据人脸识别会员,实现到店提醒、导购引导、定制化运营等
  • 公共交通中,实现刷脸支付。
  • 游戏行业中,虚拟现实相关游戏。

解决框架

图像分类解决框架如下

第一步

输入:图像image

第二步

图像特征提取
方法1: 传统算法(手工提取特征) - HOG、SIFT等
方法2:**深度学习(自动提取特征)- 卷神经网络(CNN)、自注意机制(Transformer)**等

第三步

分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax

第四步

输出:类别(label)
)、自注意机制(Transformer)**等

第三步

分类器
方法1: 机器学习-SVM,随机树等。
方法2:图片特征进行全连接层即MLP。 加上softmax

第四步

输出:类别(label)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/2226.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在Clion开发工具上使用NDK编译可以在安卓上执行的程序

1. 前言 因为工作需要,我要将一份C语言代码编译成可执行文件传送到某安卓系统里执行。 众所周知,使用ndk编译代码有三种使用方式,分别是基于 Make 的 ndk-build、CMake以及独立工具链。以前进行ndk编程都是使用ndk-build进行的,新…

RocketMQ的基本概念、系统架构、单机安装与启动

RocketMQ的基本概念、系统架构、单机安装与启动 文章目录RocketMQ的基本概念、系统架构、单机安装与启动一、基本概念1、消息(Message)2、主题(Topic)3、标签(Tag)4、队列(Queue)5、…

C# 教你如何终止Task线程

我们在多线程中通常使用一个bool IsExit类似的代码来控制是否线程的运行与终止,其实使用CancellationTokenSource来进行控制更为好用,下面我们将介绍CancellationTokenSource相关用法。C# 使用 CancellationTokenSource 终止线程使用CancellationTokenSo…

【Leetcode】-有效的括号

作者:小树苗渴望变成参天大树 作者宣言:认真写好每一篇博客 作者gitee:gitee 如 果 你 喜 欢 作 者 的 文 章 ,就 给 作 者 点 点 关 注 吧! 文章目录前言前言 今天我们再来讲一期关于题目的博客,我挑选的是一道leet…

Git学习与gitlab中央仓库搭建(详细介绍)

环境:centos7.3一,Git的发展史git:分布式版本控制系统,是当前最流行的版本控制软件创始人:林纳斯.拖瓦兹二,部署Git环境1.安装git服务[rootlocalhost ~]# yum -y install git2.配置git环境不一定是data目录…

【C++】初识模板

放在专栏【C知识总结】,会持续更新,期待支持🌹前言在谈及本章之前,我们先来聊一聊别的。橡皮泥大家小时候应该都玩过吧,通常我们买来的橡皮泥里面都会带有一些小动物的图案的模子。我们把橡皮泥往上面按压,…

【性能分析】分析JVM出现的内存泄漏的性能故障

分析JVM出现的内存持续增加的性能故障手册 前言 本文通过常见的性能文件为例,提供简单清晰的思路去快速定位问题根源,从而可以快速解决性能故障。 性能问题介绍 在性能测试工作中针对Java程序最重要的是要关注JVM的内存消耗情况,JVM的内存…

面试错题本

目录2023.3.21 深信服哈夫曼树哈夫曼编码2023.3.21 深信服 ​同一线程共享的有堆、全局变量、静态变量、指针,引用、文件等,而独自占有栈 友元函数不能被继承,友元函数不是成员函数 友元函数不能被继承,友元函数不是当前类的成员…

Vue2项目总结-电商后台管理系统

Vue2项目总结-电商后台管理系统 去年做的项目,拖了很久,总算是打起精力去做这个项目的总结,并对Vue2的相关知识进行回顾与复习 各个功能模块如果有过多重复冗杂的部分,将会抽取部分值得记录复习的地方进行记录 一:项目…

精心整理前端主流框架学习路径

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl 前端主流框架 前端框架指的是用于构建Web前端应用程序的框架,使用框架进行前端开发带来以下显著优势: 提高开发效率:前端框架提供了现成的…

STM32的CAN总线调试经验分享

相关文章 CAN总线简易入门教程 CAN总线显性电平和隐性电平详解 STM32的CAN总线调试经验分享 文章目录相关文章背景CAN总线CAN控制器CAN收发器调试过程硬件排查CAN分析仪芯片CAN控制器调试总结背景 最近负责的一个项目用的主控芯片是STM32F407IGT6,需要和几个电机控…

DWF文件怎么用CAD打开?DWF输入CAD步骤

DWF是一种开放、安全的文件格式,它可以将丰富的设计数据高效率地分发给需要查看、评审或打印这些数据的任何人。那么,DWF文件如何打开呢?下面就和小编一起来了解一下DWF输入浩辰CAD软件中的具体操作步骤吧! DWF输入CAD中步骤&…

安装CentOS系统

打开 Oracle VM VirtualBox 点击新建 输入名称 点击下一步 点击下一步 点击创建 点击下一步 点击下一步 分配30G硬盘 点击创建 创建成功 点击启动按钮 选择 CentOS 系统 iso 镜像文件 点击启动 按键盘方向键 “上键”,选择第一项 按键盘回车键,然后等待 …

QT搭建MQTT开发环境

QT搭建MQTT开发环境 第一步、明确安装的QT版本 注意: 从QT5.15.0版本开始,官方不再提供离线版安装包,除非你充钱买商业版。 而在这里我使用的QT版本为5.15.2,在线安装了好久才弄好,还是建议使用离线安装的版本 在这里…

代码随想录复习——单调栈篇 每日温度 下一个更大元素12 接雨水 柱状图中最大的矩形

739.每日温度 每日温度 暴力解法双指针 def dailyTemperatures(self, temperatures: List[int]) -> List[int]:n len(temperatures)res [0] * nfor i in range(n):for j in range(i,n):if temperatures[j] < temperatures[i]: continueelse: res[i] j-ibreakreturn …

pytorch 计算混淆矩阵

混淆矩阵是评估模型结果的一种指标 用来判断分类模型的好坏 预测对了 为对角线 还可以通过矩阵的上下角发现哪些容易出错 从这个 矩阵出发 可以得到 acc &#xff01; precision recall 特异度&#xff1f; 目标检测01笔记AP mAP recall precision是什么 查全率是什么 查准率…

【K8S系列】深入解析Pod对象(一)

目录 序言 1.问题引入 1.1 问题描述 2 问题解答 2.1 pod 属性 2.1.1 NodeSelector 2.1.2 HostAliases 2.1.3 shareProcessNamespace 2.1.4 NodeName 2.1.5 其他pod属性 2.2 容器属性 2.2.1 ImagePullPolicy 2.2.2 Lifecycle 3 总结 4. 投票 序言 任何一件事情&am…

一文读懂强化学习!

一.了解强化学习1.1基本概念强化学习是考虑智能体&#xff08;Agent&#xff09;与环境&#xff08;Environment&#xff09;的交互问题&#xff1a;智能体处在一个环境中&#xff0c;每个状态为智能体对当前环境的感知&#xff1b;智能体只能通过动作来影响环境&#xff0c;当…

空间信息智能应用团队研究成果介绍及人才引进

目录1、多平台移动测量技术1.1 车载移动测量系统1.2 机载移动测量系统2、数据处理与应用技术研究2.1 点云与影像融合2.2 点云配准与拼接2.3 点云滤波与分类2.4 道路矢量地图提取2.5 道路三维自动建模2.6 道路路面三维病害分析2.7 多期点云三维变形分析2.8 地表覆盖遥感监测分析…

ChatGPT在安全研究领域的应用实践

引言ChatGPT是一个人工智能技术驱动的自然语言处理工具&#xff0c;它能够通过理解和学习人类的语言来进行对话&#xff0c;并能进行连续对话。目前ChatGPT已经官方已经更新模型到4.0版本&#xff0c;宣称它是“最先进的系统&#xff0c;能生产更安全和更有用的回复”。当前使用…