【机器学习】卷积神经网络(五)-计算机视觉应用

七、应用-计算机视觉

7.1 人脸检测

DenseBox\Femaleness-Net\MT-CNN\Cascade CNN 介绍

09d80934883241c4303e322fcc08c146.png

7d8b5e305f2b67ef827b5226787d2602.png

VJ框架的分类器级联用于卷积网络

8d8118f9e262ccbbb34a7b1cc8d08b71.png

用于人脸检测的紧凑卷积神经网络级联

问题:作者希望实时检测高分辨率视频流中的正面,由于人脸图像和背景的多样性和复杂性,这具有挑战性。

解决方案:作者提出了三个卷积神经网络 (CNN) 的级联,其参数很少,并且可以在移动 GPU 上高效运行。

结果:作者表明,他们的 CNN 级联可以以高达每秒 27 帧的速度处理 4K 超高清视频,并在 FDDB 数据集上实现与最先进的正面人脸检测器相当的性能。他们还声称他们的检测器比任何现有的 CPU 或 GPU 算法都要快得多2。

本文提出了一种基于三个紧凑 CNN 级联的正面人脸检测新解决方案34。第 1 部分的要点是:

动机:作者的目标是设计一种快速、准确的检测器,可以处理高分辨率视频流,并应对人脸图像和背景的巨大变化和困难。

方法:作者使用三个参数很少的 CNN,并针对低级并行性和速度对其进行了优化。第一个 CNN 扫描图像金字塔并拒绝大部分背景区域5。第二个和第三个 CNN 使用选择单元对剩余区域进行分类和细化。最终的检测是通过非极大值抑制算法获得的。

评估:作者将他们的检测器与 FDDB 数据集上的其他正面和多视角人脸检测器进行了比较,结果表明他们的检测器具有相似的性能,但速度要高得多。他们还展示了他们的探测器可以在移动 GPU 上实时处理 4K 超高清视频,并且对图像内容具有鲁棒性。

这篇论文提出了一种基于卷积神经网络(CNN)的级联人脸检测器,它具有以下几个特点:

  • 它只有三个级联阶段,比其他的级联方法更简洁。

  • 它使用了紧凑的CNN结构,减少了特征图的数量,但保证了模型的准确性。

  • 它可以异步地执行不同的级联阶段,提高了检测的速度和效率。

  • 它利用了SIMD、CUDA和OpenCL等技术,对CNN的实现进行了优化,使得检测器的性能接近硬件的峰值。

这篇论文在两个公开的人脸检测数据集上进行了实验,证明了它的优越性。它可以在移动平台上实时地处理4K超高清视频流。

5ccd91bf8320c7c86174cd05ee94fba2.png

Compact Convolutional Neural Network Cascade for Face Detection

https://arxiv.org/ftp/arxiv/papers/1508/1508.01292.pdf  Compact Convolutional Neural Network Cascade for Face Detection

https://github.com/Bkmz21/CompactCNNCascade Bkmz21/CompactCNNCascade:一个二进制库,用于使用紧凑型 CNN 进行非常快速的人脸检测。(github.com)

51c25b0f32a32facf72ac5dbdf8e1d83.png

DenseBox目标检测

d74b7a9c2297fdae747d66a60ea800f2.png

3b614896c43f9549e8cab6aea5386e2b.png

b0bfc9485d9ac3afed28fbf0cde744f7.png

网络结构

https://zhuanlan.zhihu.com/p/44021975 人脸检测之DenseBox - 知乎 (zhihu.com)

https://arxiv.org/abs/1509.04874 

Faceness-Net 人脸检测

adcb118a362368b667ce043244010118.png

97f4f4fab1cd3a5b456175bf55007e00.png

b0b10fe3493c73b56d5884cf59e1a7d8.png

https://ar5iv.labs.arxiv.org/html/1701.08393?_immersive_translate_auto_translate=1 Faceness-Net: Face Detection through Deep Facial Part Responses --- [1701.08393] Faceness-Net:通过深层面部部分响应进行人脸检测 (arxiv.org)

MT-CNN(Multi-Task CNN,多任务CNN)

cedc9ca78c9a88e9b7c90e84e28a9c71.png

71c63af3b2e49a8c3695f8e91f5110a4.png

https://github.com/timesler/facenet-pytorch 预训练的 Pytorch 人脸检测 (MTCNN) 和人脸识别 (InceptionResnet) 模型

https://github.com/YYuanAnyVision/mxnet_mtcnn_face_detection  MTCNN人脸检测,下载mxnet_mtcnn_face_detection的源码

7.2 通用目标检测

12947c03d3e4bb62b862b099a8673a5c.png

deformable parts model 介绍

585ed87d99b95de0f956d20593263b53.png

 IOU概念介绍

6a93a55d9e910b4c902581d2873be38f.png

通用目标检测的R-CNN算法

dae3f964a7fbe639ceb6c83983eb1c0c.png

35830bed2736af70dfc52ea5018a98b2.png

4f3d4b987576b17333c4884ea5881081.png

8bad28653697d7c9f6ae188624a4448a.png

https://en.wikipedia.org/wiki/Region_Based_Convolutional_Neural_Networks

https://neurohive.io/en/popular-networks/r-cnn/

空间金字塔池化(Spatial Pyramid Pooling,简称SPP)网络

09951d6002d7bbcb506de5a4712e5475.png

a0c4e2dc63b3f5e075b6c9a1407aff72.png

9ac720bfea3fd84ed60c36dffd1b61dd.jpeg

https://www.mdpi.com/2079-9292/9/6/889 Evaluation of Robust Spatial Pyramid Pooling Based on Convolutional Neural Network for Traffic Sign Recognition System (mdpi.com)

SPP网络与R-CNN网络对比

6d804085a351457085f36bcf9d50acdf.png

介绍Fast R-CNN 网络

eade2c8e230f54bbcbce430e6a85d008.png

56a87f1d0314c53c55a6eb1acc1cac20.png

897c796d8eeafdc7756a87da624f4392.png

3b51c82f341e918350843e3b36406b04.png

Fast R-CNN - arXiv.org. https://arxiv.org/abs/1504.08083.

https://github.com/rbgirshick/fast-rcnn

详述R-CNN,SPP,Fast R-CNN的优缺点

ff0f936ce10735bd1e143d3b49835b59.png

c9d5365a7599150b8d241542860b1478.png

e53c19039e8b13b5af3bb78a7d567778.png

ROI池化层

e825a4e4dbe5b6197a2e742ca0b052e5.png

2f84c7bc3c68492b1ce2cc83a666b068.png

Faster R-CNN

819f2e756343f2a287511970f2647607.png

f881fc9322d7eadf8cf6d6e9a9955041.png

https://zhuanlan.zhihu.com/p/370407951 一文详解R-CNN、Fast R-CNN、Faster R-CNN - 知乎 (zhihu.com)

Faster R-CNN相比于之前的R-CNN版本有哪些优点和不足?

fc29ae47ef48aa794de8a8c65dcb40ac.png

Mask R-CNN

2ae1394d1e960b3dff0fa3f5290fb714.png

9dc74db9f491df72a5b7e01cdbae5fc1.png

https://arxiv.org/abs/1703.06870 [1703.06870] Mask R-CNN (arxiv.org)

https://zhuanlan.zhihu.com/p/462521226 Mask R-CNN超详细介绍 - 知乎 (zhihu.com)

Yolo 网络

4807571c31f2dcfe886957a4b860b377.png

aaa2a07ef8f0a56bd90b5c48f8ae8d77.png

e9d0e30ce240e0eb00b5f3b9c9645b32.png

https://github.com/ultralytics/yolov5

https://zhuanlan.zhihu.com/p/186014243

YOLO相较于R-CNN系列算法有哪些不同之处?

814fb45f85630bd63e040f10772e810e.png

SSD网络

0b2b557ce194dc8839153e9787103d5a.png

SSD网络结构

4e1ff76907a47ba65ab8099ad5f9ec9e.png

d202c4f6adfa924fe4ae6d772743faf6.png

SSD网络主要用于哪些任务?

fb40269c9fd008bdda0f51d2d326017a.png

SSD网络是如何生成候选检测框的?

892bf75265dbb82e2c3293c4a427d119.png

SSD网络的训练算法

6bd5da1792e041178b15808fcff0fd4e.png

https://arxiv.org/abs/1512.02325

https://arxiv.org/pdf/1512.02325.pdf

Smooth L1损失

0846ea78be31c16250287ae40c9a9b55.png

88accce43907e0dc6092b3b99989f4b2.png

https://zhuanlan.zhihu.com/p/267688490 目标检测回归损失函数——L1、L2、smooth L1 - 知乎 (zhihu.com)

7.3 人脸关键点定位

c0f8bd9d9c836c976fdf18678c0d3370.png

a5dfe42bebc9386416826999ee0ef118.png

参考网址:

https://aravamu2-cs-766-project-webpage.netlify.app/r-cnn/

https://zhuanlan.zhihu.com/p/172121380

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/289695.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Godot4.2——爬虫小游戏简单制作

目录 一、项目 二、项目功能 怪物 人物 快捷键 分数 游戏说明 提示信息 三、学习视频 UI制作 游戏教程 四、总结 一、项目 视频演示:Godot4爬虫小游戏简单制作_哔哩哔哩bilibili 游戏教程:【小猫godot4入门教程 C#版 已完结】官方入门案例 第…

【人工智能】百度智能云千帆AppBuilder,快速构建您的专属AI原生应用

大家好,我是全栈小5,欢迎来到《小5讲堂》,此序列是《人工智能》专栏文章。 这是2024年第5篇文章,此篇文章是进行人工智能相关的实践序列文章,博主能力有限,理解水平有限,若有不对之处望指正&…

ResNet论文阅读和简单实现

论文:https://arxiv.org/pdf/1512.03385.pdf Deep Residual Learning for Image Recognition 本模块主要是阅读论文,会做简单的翻译(至少满足我自己能看明白)。 Introduction 由上图可见,在20层和56层的网络上训练的…

Linux的chmod命令及快捷写法

通过chmod命令可以修改文件、文件夹的权限信息 只有文件、文件夹的所属用户或root用户可以修改 形式:chmod [-R] 权限 文件或文件夹 -R:对文件夹内的全部内容应用同样的操作 eg:chmod urwx,grx,ox test.txt ,将文件权限修改为…

python实现巴特沃斯低通滤波器——数字图像处理

原理: 巴特沃斯低通滤波器(Butterworth Low-Pass Filter)是图像处理中常用的一种频率域滤波器,它相较于理想低通滤波器提供了更平滑的过渡,以减少图像处理时引入的振铃效应。 设计原理: 巴特沃斯低通滤波…

隐藏层节点数对分类准确率的影响

直线上有9个格子,4个石子, 数量 结构编号 6 0 1 1 1 1 0 0 0 0 0 5 2 1 1 1 0 1 0 0 0 0 5 1 1 0 1 1 1 0 0 0 0 4 3 1 1 0 0 1 1 0 0 0 4 4 1 0 1 0 1 1 0 0 0 3 5 1 0 1 0 1 0 1 0…

Vue中的选项式 API 和组合式 API,两者有什么区别

Vue中的选项式 API(Option API)和组合式 API(Composition API)是两种不同的组件编写方式,它们各有特点和适用场景: 选项式 API(Option API): 传统方法:Vue最初的编程范式…

c# OpenCvSharp Cv2.Threshold()和Cv2.AdaptiveThreshold参数说明

一、 Cv2.Threshold()二值化的函数参数说明 Cv2.Threshold()是一个用于图像二值化的函数。具体来说,它会将图像中的每一个像素的灰度值与一个阈值进行比较,大于该阈值的像素会被赋值为最大灰度值(即 255),小于该阈值的像素会被赋值为最小灰度…

Python 自学(四) 之元组字典与集合

目录 1. 列表,元组,字典与集合的区别 2. 元组的创建和删除 tuple() del P101 3. 单个元素的元组 P102 4. 元组元素的修改 P106 5. 元组的使用场景 6. 字典的创建和删除 dict() zip() : del clear() P1…

SWM341系列之86盒智能开关应用

SWM341系列 86盒智能开关应用 华芯微特SWM341系列的SWM34SRET6,在86盒智能开关产品中的应用。 SWM34SRET6性能和UI的描述 SWM34SRET6是一款基于ARM Cortex-M33内核,最高主频可达150MHz时钟,提供内置512KB Flash,64KB SRAM&#…

【零基础入门TypeScript】TypeScript - 运算符

目录 ​编辑 什么是操作员? 算术运算符 关系运算符 逻辑运算符 按位运算符 赋值运算符 杂项运算符 否定运算符 (-) 字符串运算符:连接运算符 () 条件运算符 (?) 类型运算符 类型运算符 实例化 什么是操作员? 运算符定义将对数…

论文阅读:通过时空生成卷积网络合成动态模式(重点论文)

原文链接 github code 介绍视频 视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布&#xff0…

LeetCode刷题---旋转图像

解题思路: 首先对主对角线两边的元素进行交换 接着走一轮遍历,将第1列和第n列进行交换,第2列和第n-1列进行交换,直至得到最终的矩阵。 代码实现: public void rotate(int[][] matrix) {//首先对主对角线的元素进行交换…

01、Kafka ------ 下载、安装 ZooKeeper 和 Kafka

目录 Kafka是什么?安装 ZooKeeper下载安装启动 zookeeper 服务器端启动 zookeeper 的命令行客户端工具 安装 Kafka下载安装启动 Kafka 服务器 Kafka是什么? RabbitMQ的性能比ActiveMQ的性能有显著提升。 Kafka的性能比RabbitMQ的性能又有显著提升。 K…

【UEFI基础】EDK网络框架(基础说明)

基础说明 UEFI中的网络框架大致如下: 红框部分是实现UEFI的EDK2开源项目中网络框架自带的实现,红框之外的部分需要网卡设备商提供驱动。UEFI下通常推荐使用最右边的形式,即网卡设备商提供实现了UNDI的网卡驱动。因此UEFI网络框架的另一个形式…

HCIA-Datacom题库(自己整理分类的)_02_网络设备基础多选【14道题】

注:红色题目是答案有争议。 1.以下哪些MAC地址不能作为主机网卡的MAC地址? 00-02-03-04-05-06 02-03-04-05-06-07 01-02-03-04-05-06 03-04-05-06-07-08 解析:MAC地址的第二位必须是偶数。 2.堆叠,集群技术有以下哪些优势&…

微信小程序:图片处理

参考&#xff1a;image | 微信开放文档 1、针对image图片属性 <view class"page"><view class"page__hd"><text class"page__title">image</text><text class"page__desc">图片</text></vie…

How to understand DataArts Insight in Huawei Cloud

How to understand DataArts Insight in Huawei Cloud 概述什么是DataArts Insight为什么选择华为云DataArts Insight多业务场景全覆盖&#xff0c;实现企业智能分析产品架构产品功能数据接入数据加工仪表板数据大屏交互式分析嵌入式分析智能分析助手智能洞察BI内存引擎企业级数…

HTML5-简单文件操作

文件操作 简介 概念&#xff1a;可以通过file类型的input控件或者拖放的方式选择文件进行操作 语法格式&#xff1a; <input type"file" multiple>属性 multiple&#xff1a;表示是否选择多个文件 accept&#xff1a;用于设置文件的过滤类型&#xff08;MI…

AI:115-基于深度学习的创意广告图像生成

🚀点击这里跳转到本专栏,可查阅专栏顶置最新的指南宝典~ 🎉🎊🎉 你的技术旅程将在这里启航! 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的关键代码,详细讲解供…