深度学习|CNN卷积神经网络

CNN卷积神经网络

  • 解决的问题
  • 人类的视觉原理
  • 原理
    • 卷积层——提取特征
    • 池化层——数据降维
    • 全连接层——输出结果
  • 应用
    • 图像处理
    • 自然语言处理

解决的问题

在CNN没有出现前,图像对人工智能来说非常难处理。
主要原因:

  • 图像要处理的数据量太大了。图像由像素组成,每个像素又由不同颜色组成,一张1000×1000彩色RGB图像需要的参数是1000×1000×3,需要三百万参数左右,普通神经网络会全用全连接方法来学习整幅图像上的特征,处理起来无论是计算还是存储都需要很大的资源。
  • 很难保留图像特征。一张图像做了一些翻转、旋转、缩放的那个操作的时候,线性向量表示会发生很大的变化,机器没法认为是同一张图。而CNN能够让机器“以视觉的方式看待图像数据”,能利用视觉原理捕获到图像数据中的特征。

人类的视觉原理

深度学习是基于神经网络的实现的,而神经网络是一种模仿生物神经网络结构和功能的数学模型或计算模型。所以深度学习的许多研究成果,离不开对大脑认知原理的研究。CNN就借鉴了人类视觉系统层次结构。

人类的视觉原理:瞳孔摄入原始像素信号,然后大脑皮层某些细胞发现边缘和方向,大脑进行抽象判断特征例如物体形状,最后再进一步做出判断例如物体是个人。

下图是一个大脑进行人脸识别的示例图:
在这里插入图片描述
通过模仿人类的视觉原理的特点,来构造神经网络,低层的识别图像初级特征,若干曾底层特征组成更上一层的特征,最终通过多个层级组合,在顶层做出分类判断。

原理

CNN(Convolutional Neural Network,卷积神经网络)结构可以分为3层:卷积层、池化层和全连接层。

卷积层——提取特征

卷积层(Convolutional Layer) :主要作用是提取特征。

过程:一个过滤器(卷积核,Filter)来过滤图像各个小区域,从而得到各个小区域的特征。卷积层通过卷积核的过滤提取出图片中局部的特征,与人类视觉的特征提取类似。
在这里插入图片描述

实际应用的时候,往往会有很多种卷积核,不同卷积核识别不同的图像模式,也就是不同的特征。

池化层——数据降维

池化层(Max Pooling Layer) :提取某个区域的总结特征,主要作用是下采样(Downsampling),能够数据降维,但是不会损坏识别结果。

原因:做完卷积后的图像依然很大,1000*1000经过10种卷积核后,得到1000×1000×10,维度非常大。通过池化层,能降低数据大小,同时不会对识别结果造成破坏。

池化层函数:是一种统计函数,通常由最大池化(提取区域内的最大特征)、平均池化(提取区域内的平均特征)、混合池化等。

过程:下图采用最大池化策略,对4×4的矩阵按照2×2进行分开,每个2×2取最大值保留下来。
在这里插入图片描述
好处:除了降低参数量,还有个优点就是能够避免过拟合。池化是提取某个区域的总结特征,是对某个区域全局的考量,减少了对具体像素的依赖性,从而降低了过拟合风险。例如某个点其实是噪声,但是池化总结特征的时候被舍弃了,就没有影响;如果不池化,后续调参的时候还会考虑到噪声。

全连接层——输出结果

全连接层(Fully Connected Layer):主要作用是分类。通过卷积层和池化层的出来的特征,需要让全连接层对前面总结好的特征做分类判断。

过程:“全连接”前层网络中的所有神经元都与下一层的所有神经元连接。
在这里插入图片描述

应用

图像处理

  1. 图像分类(Image Classification):判断图片中的物体属于哪一个类别。
    举例:LeNet-5用来对手写字体识别,被认为是最早的CNN模型,作者LeCun Y也被誉为CNN之父。
  2. 图像分割(Image Segmentation):为图片每个对象创造一个像素级别的掩膜。
    分类:语义分割和实例分割。
    语义分割(Semantic Segmentation):为图像中的每个像素分配一个类别,但是同一类别之间的对象不会区分。
    实例分割(Instance Segmetation):实例分割还会对同一类别的对象进行区分。
    下图中左边是语义分割,右边是实例分割:
    在这里插入图片描述
  3. 目标检测(Object Detection):目标定位并且能对目标物体进行分类。
    与目标定位的区别:目标定位通常是针对单个检测对象,而目标检测能检测多个对象。此外,图像分类也是针对单个对象的。
    与图像分割的区别:目标检测和目标定位都只是定位出目标的位置,通常是用一个方框表示,而图像分割则是每个像素属于那个对象,对象的轮廓会更加清楚。
    在这里插入图片描述
  4. 超分辨率(Super-Resolution):提高原有图像的分辨率。

自然语言处理

除了在图像处理领域,CNN 在自然语言处理(Natural Language Processing,NLP)也有应用。

输入:任何矩阵都可以作为CNN的输入,所以输入也可以是词向量组成的矩阵,即矩阵每一行代表一个词,也可以是一个字符。

卷积:过滤器“宽度”通常和输入矩阵的宽度相同,也就是输入的词向量大小;高度可能会有所不同,也每次卷积多少个词。

池化:进一步降低参数量,避免过拟合,例如最大池化、平均池化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/86367.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

solidity0.8.0的应用案例11:透明代理合约

选择器冲突 智能合约中,函数选择器(selector)是函数签名的哈希的前4个字节。例如mint(address account)的选择器为bytes4(keccak256("mint(address)")),也就是0x6a627842. 由于函数选择器仅有4个字节,范围很小,因此两个不同的函数可能会有相同的选择器,例如…

PMP如何备考?学习方式这里有

预习阶段:强烈建议跟着习课视频学习(自己看书真的很难看懂),初步了解PMBOK,有个大致印象; 精讲阶段:这个时候就需要静下心来深入了解各个知识模块,不仅是看PMBOK,还要尽…

从C语言到C++_33(C++11_上)initializer_list+右值引用+完美转发+移动构造/赋值

目录 1. 列表初始化initializer_list 2. 前面提到的一些知识点 2.1 小语法 2.2 STL中的一些变化 3. 右值和右值引用 3.1 右值和右值引用概念 3.2 右值引用类型的左值属性 3.3 左值引用与右值引用比较 3.4 右值引用的使用场景 3.4.1 左值引用的功能和短板 3.4.2 移动…

线程池UncaughtExceptionHandler无效?可能是使用方式不对

背景 在业务处理中,使用了线程池来提交任务执行,但是今天修改了一小段代码,发现任务未正确执行。而且看了相关日志,也并未打印结果。 源码简化版如下: 首先,自定义了一个线程池 public class NamedThrea…

视频批量剪辑矩阵分发系统源码开源分享----基于PHP语言

批量剪辑视频矩阵分发: 短视频seo主要基于抖音短视频平台,为企业实现多账号管理,视频分发,视频批量剪辑,抖音小程序搭建,企业私域转化等,本文主要介绍短视频矩阵系统抖音小程序开发详细及注意事…

selenium +Jmeter 的性能测试

通过Jmeter快速将已有的Selenium 代码以性能测试的方式组织起来,并使用JMeter 丰富的报表展示测试结果 from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.by import By driver …

孟羽童:成为勇敢逆袭的职场女性

相信职场中的小伙伴几乎都听过孟羽童这个名字,她从籍籍无名的应届毕业生到现如今摇身一变职场女强人,相信一定有职场人值得借鉴的地方。那么今天小编就给大家分享一下孟羽童的职场经历带给我的启发。 该图片来自网络,侵删 1、年龄并不是成功的…

java八股文面试[java基础]——final 关键字作用

为什么局部内部类和匿名内部类只能访问final变量: 知识来源 【基础】final_哔哩哔哩_bilibili

【Redis】Redis 的主从同步

【Redis】Redis 的主从同步 很多企业都没有使用 Redis 的集群,但是至少都做了主从。有了主从,当主节点(Master) 挂掉的时候,运维让从节点 (Slave) 过来接管,服务就可以继续,否则主节点需要经过数据恢复和重启的过程&a…

xcode15 change

jump to define 由原先的 control command left click 改为command left click

NLP与大模型主题全国师资培训班落地,飞桨持续赋能AI人才培养

为了推动大模型及人工智能相关专业人员的培养,8月11日-8月13日,由中国计算机学会主办、机械工业出版社、北京航空航天大学、百度飞桨联合承办 “CCF群星计划之文心高校行- NLP与大模型”主题师资培训班(以下简称培训班)在北京天信…

怎样压缩mp4视频大小?

怎样压缩mp4视频大小?由于视频文件的体积通常比其他类型的文件更大,因此它们需要更多的存储空间来保存。但是,如果我们的设备、应用程序或平台不支持某些视频格式或分辨率,或者我们没有足够的存储空间来容纳这些大型视频文件&…

产品流程图是什么?怎么做?

产品流程图是什么? 产品流程图是一种图形化的表达方式,用于描述产品开发、制造、销售、使用等各个阶段中涉及的流程、步骤和关系。它通过图形符号、箭头、文本等元素,展示了产品的各个环节之间的关联和顺序,通常被用于可视化产…

Vivado2018的工程迁移到Vivado2019上

Vivado2018的工程迁移到Vivado2019上 说明: 迁移很简单直接打开以后直接更新IP核后,即可重新编译工程 1、打开Vivado2019软件,准备打开工程 2、更新IP核 3、重新编译即可

Cesium.Entity图片纹理在不同观察角度有不同亮度

Cesium.Entity图片纹理在不同观察角度有不同亮度 测试代码: viewer.entities.add({rectangle: {coordinates: Cesium.Rectangle.fromDegrees(-92.0, 30.0, -76.0, 40.0),material: "../images/rect.png",} }); 测试图片: rect.png 这个图片…

制作一个专属于安防监控业的小程序商城

随着科技的发展和人们生活水平的提高,安防监控设备在我们的日常生活中起到了越来越重要的作用。因此,建立一个安防监控设备商城小程序就变得尤为重要。下面将介绍如何建立这样一个小程序。 第一步,登录乔拓云平台后台,进入商城管理…

智慧工地:安防监控EasyCVR智慧工地视频监管风险预警平台的应用

智慧工地方案是一种结合现代化技术与工地管理实践的创新型解决方案。它通过实时监控、数据分析、人工智能等技术手段,使工地管理更加高效、智能化。在建设智慧工地的过程中,除了上述提到的利用物联网技术实现设备互联、数据采集及分析以外,还…

jmeter CSV 数据文件设置

创建一个CSV数据文件:使用任何文本编辑器创建一个CSV文件,将测试数据按照逗号分隔的格式写入文件中。例如: room_id,arrival_date,depature_date,bussiness_date,order_status,order_child_room_id,guest_name,room_price 20032,2023-8-9 14:…

【JavaSE】详解final关键字

在Java中,final可以用来修饰类、方法和变量。final修饰类,表示该类无法被继承,并且此类的设计已被认为很完美而不需要进行修改或扩展。final修饰类中的方法,表示不可以被重写;也就是把该方法锁定了,以防止继…

PCL中的ISS特征点检测

ISS是基于内部形态描述子(ISS) 的特征点。 算法检测流程(参考论文:基于ISS 特征点结合改进ICP 的点云配准算法): PCL中的实现: template<typename PointInT, typename PointOutT, typename NormalT> void pcl::ISSKeypoint3D<PointInT, PointOutT, NormalT>…