【机器学习】卷积神经网络（五）-计算机视觉应用

七、应用-计算机视觉

7.1 人脸检测

DenseBox\Femaleness-Net\MT-CNN\Cascade CNN 介绍

VJ框架的分类器级联用于卷积网络

用于人脸检测的紧凑卷积神经网络级联

问题：作者希望实时检测高分辨率视频流中的正面，由于人脸图像和背景的多样性和复杂性，这具有挑战性。

解决方案：作者提出了三个卷积神经网络 (CNN) 的级联，其参数很少，并且可以在移动 GPU 上高效运行。

结果：作者表明，他们的 CNN 级联可以以高达每秒 27 帧的速度处理 4K 超高清视频，并在 FDDB 数据集上实现与最先进的正面人脸检测器相当的性能。他们还声称他们的检测器比任何现有的 CPU 或 GPU 算法都要快得多2。

本文提出了一种基于三个紧凑 CNN 级联的正面人脸检测新解决方案34。第 1 部分的要点是：

动机：作者的目标是设计一种快速、准确的检测器，可以处理高分辨率视频流，并应对人脸图像和背景的巨大变化和困难。

方法：作者使用三个参数很少的 CNN，并针对低级并行性和速度对其进行了优化。第一个 CNN 扫描图像金字塔并拒绝大部分背景区域5。第二个和第三个 CNN 使用选择单元对剩余区域进行分类和细化。最终的检测是通过非极大值抑制算法获得的。

评估：作者将他们的检测器与 FDDB 数据集上的其他正面和多视角人脸检测器进行了比较，结果表明他们的检测器具有相似的性能，但速度要高得多。他们还展示了他们的探测器可以在移动 GPU 上实时处理 4K 超高清视频，并且对图像内容具有鲁棒性。

这篇论文提出了一种基于卷积神经网络（CNN）的级联人脸检测器，它具有以下几个特点：

它只有三个级联阶段，比其他的级联方法更简洁。
它使用了紧凑的CNN结构，减少了特征图的数量，但保证了模型的准确性。
它可以异步地执行不同的级联阶段，提高了检测的速度和效率。
它利用了SIMD、CUDA和OpenCL等技术，对CNN的实现进行了优化，使得检测器的性能接近硬件的峰值。

这篇论文在两个公开的人脸检测数据集上进行了实验，证明了它的优越性。它可以在移动平台上实时地处理4K超高清视频流。

Compact Convolutional Neural Network Cascade for Face Detection

https://arxiv.org/ftp/arxiv/papers/1508/1508.01292.pdf Compact Convolutional Neural Network Cascade for Face Detection

https://github.com/Bkmz21/CompactCNNCascade Bkmz21/CompactCNNCascade：一个二进制库，用于使用紧凑型 CNN 进行非常快速的人脸检测。(github.com)

DenseBox目标检测

网络结构

https://zhuanlan.zhihu.com/p/44021975 人脸检测之DenseBox - 知乎 (zhihu.com)

https://arxiv.org/abs/1509.04874

Faceness-Net 人脸检测

https://ar5iv.labs.arxiv.org/html/1701.08393?_immersive_translate_auto_translate=1 Faceness-Net: Face Detection through Deep Facial Part Responses --- [1701.08393] Faceness-Net：通过深层面部部分响应进行人脸检测 (arxiv.org)

MT-CNN（Multi-Task CNN,多任务CNN）

https://github.com/timesler/facenet-pytorch 预训练的 Pytorch 人脸检测 (MTCNN) 和人脸识别 (InceptionResnet) 模型

https://github.com/YYuanAnyVision/mxnet_mtcnn_face_detection MTCNN人脸检测,下载mxnet_mtcnn_face_detection的源码

7.2 通用目标检测

deformable parts model 介绍

IOU概念介绍

通用目标检测的R-CNN算法

https://en.wikipedia.org/wiki/Region_Based_Convolutional_Neural_Networks

https://neurohive.io/en/popular-networks/r-cnn/

空间金字塔池化（Spatial Pyramid Pooling，简称SPP）网络

https://www.mdpi.com/2079-9292/9/6/889 Evaluation of Robust Spatial Pyramid Pooling Based on Convolutional Neural Network for Traffic Sign Recognition System (mdpi.com)

SPP网络与R-CNN网络对比