RNN And CNN通识

CNN And RNN

  • RNN And CNN通识
    • 一、卷积神经网络(Convolutional Neural Networks,CNN)
      • 1. 诞生背景
      • 2. 核心思想和原理
        • (1)基本结构:
        • (2)核心公式:
        • (3)关键特性:
        • (4)局限性:
      • 3. 发展历史
        • (1)LeNet的提出(1989年)
        • (2)AlexNet的突破(2012年)
        • (3)VGG和GoogLeNet(2014-2015年)
        • (4)ResNet的提出(2015年)
      • 4. 最佳实践
    • 二、循环神经网络(Recurrent Neural Network, RNN)
      • 1. 诞生背景
      • 2. 核心思想和原理
        • (1) 基本结构:
        • (2)核心公式:
        • (3)关键特性:
        • (4)局限性:
      • 3. 发展历史
        • (1)经典RNN的提出(1986年)
        • (2)LSTM的诞生(1997年)
        • (3)GRU的提出(2014年)
        • (4)基于注意力机制的改进(2014-2017年)
        • (5)现代发展(2020年至今)
      • 4. 最佳实践
    • 三、RNN与CNN对比
      • 1. 应用场景
      • 2. 核心思想
      • 3. 结构与原理对比
      • 4. 优缺点对比
      • 5. 适用场景与选择建议
      • 6. 总结

RNN And CNN通识

近期正在阅读《Attention Is All You Need》这篇Transformer的原始论文,阅读中碰到了一些对我来说,是新名词、新技术、新模型的知识,因此进行一个通识的学习和总结,记录在此。


一、卷积神经网络(Convolutional Neural Networks,CNN)

1. 诞生背景

卷积神经网络(Convolutional Neural Network, CNN)最早的基础可以追溯到20世纪80年代,由Yann LeCun等人提出,最初用于手写数字识别。与传统的前馈神经网络相比,CNN在处理图像数据方面表现出了显著优势。传统神经网络需要连接每一对输入和输出,这在处理高维数据(如图像)时计算成本较高且效率低。CNN通过局部连接共享权重等方式,有效地减少了模型参数,并使得神经网络能够捕捉到输入数据的空间结构。

  • 诞生时间:CNN的概念最早由LeCun于1989年提出,并在1998年发布了经典的LeNet-5模型。
  • 主要解决问题:CNN主要解决了图像数据处理中的参数过多和计算效率低的问题,同时通过局部连接和权重共享使得神经网络能够有效地捕捉图像的局部特征。

2. 核心思想和原理

卷积神经网络的核心思想是通过卷积层提取局部特征,并通过池化层降低特征维度,逐步提取更高级的特征,从而进行分类或回归任务。

(1)基本结构:

CNN的基本结构通常包括:

  1. 卷积层(Convolutional Layer):用于提取局部特征,通常使用多个滤波器(卷积核)在输入图像上滑动,进行局部感受野的计算。
  2. 池化层(Pooling Layer):通过下采样减少特征图的大小,降低计算量,同时保留最重要的特征信息。
  3. 全连接层(Fully Connected Layer):在卷积和池化层提取特征之后,使用全连接层进行分类或回归任务。
  4. 激活函数(Activation Function):通常使用ReLU(Rectified Linear Unit)激活函数,使模型能够学习非线性特征。
(2)核心公式:
  1. 卷积操作公式
    在这里插入图片描述

  2. 池化操作公式
    池化层通常使用最大池化(Max Pooling)或平均池化(Average Pooling),最大池化公式为:
    在这里插入图片描述

(3)关键特性:
  • 局部连接:每个神经元只连接到输入图像的局部区域,这样可以减少计算量。
  • 共享权重:同一卷积核在图像的不同位置使用相同的权重,进一步减少参数数量。
  • 平移不变性:通过卷积操作,CNN能够在不同位置识别相同的特征,具有平移不变性。
(4)局限性:
  • 对空间关系的依赖:CNN主要关注局部特征和空间关系,对于长期依赖和全局上下文的建模能力较弱。
  • 计算开销:尽管通过共享权重减少了参数数量,但卷积和池化操作仍然需要较高的计算资源。

3. 发展历史

(1)LeNet的提出(1989年)

LeNet由Yann LeCun等人提出,是第一个成功应用于手写数字识别的卷积神经网络模型。LeNet使用卷积和池化层提取特征,然后通过全连接层进行分类。它是CNN的早期代表之一,标志着CNN在计算机视觉领域的首次成功应用。

(2)AlexNet的突破(2012年)

2012年,AlexNet在ImageNet比赛中取得了突破性成绩,显著提高了深度学习在计算机视觉中的应用。AlexNet通过使用更深的网络结构(8层卷积层和全连接层)、ReLU激活函数、Dropout正则化等技术,解决了过拟合和计算效率问题,使得CNN成为深度学习领域的重要研究方向。

(3)VGG和GoogLeNet(2014-2015年)
  • VGG提出了更深的网络结构,使用了重复的3×3卷积层,改进了模型的表现。
  • GoogLeNet(Inception Network)引入了Inception模块,通过使用不同尺寸的卷积核和池化操作来提高网络的表达能力,同时保持较少的计算量。
(4)ResNet的提出(2015年)

ResNet通过引入残差连接(Residual Connection)解决了深度网络训练中的梯度消失问题,使得网络深度可以达到上千层,并且提高了网络的性能。ResNet开创了深度网络的新方向,使得深度学习技术在各个领域取得了更大的突破。


4. 最佳实践

(1)网络结构的选择

  • 简单任务:对于较简单的图像分类任务,可以选择较浅的网络,如LeNet或AlexNet。
  • 复杂任务:对于复杂的任务,如图像识别和检测,可以使用更深的网络,如VGG、ResNet或Inception。

(2)正则化技术

  • Dropout:可以有效减少过拟合,尤其是在训练大型深度神经网络时。
  • Batch Normalization:通过对每一层的输出进行标准化,加速训练并提高模型的稳定性。

(3)优化技术

  • 数据增强:通过对输入数据进行旋转、缩放、裁剪等变换来扩增数据集,增强模型的泛化能力。
  • 学习率调度:使用动态调整学习率的方法(如学习率衰减)来加速训练过程并避免局部最优解。

(4)硬件加速

  • GPU加速:使用GPU进行矩阵运算的加速,可以大大缩短训练时间。
  • 分布式训练:对于超大规模数据集和模型,可以使用分布式训练框架(如TensorFlow、PyTorch)来进行并行训练。

二、循环神经网络(Recurrent Neural Network, RNN)

1. 诞生背景

在上世纪80年代至90年代,传统神经网络(如前馈神经网络)在处理序列数据时表现出局限性。这些网络无法有效捕获序列中前后数据的关联,因为输入之间是独立的。然而,许多实际任务(如语音识别、机器翻译和时间序列预测)都涉及顺序依赖关系。为了克服这一问题,==循环神经网络(RNN)==应运而生。

  • 诞生时间:RNN最初由David Rumelhart等人于1986年提出,后来由Sepp Hochreiter和Jürgen Schmidhuber在1997年提出LSTM(长短期记忆网络)加以改进。
  • 主要解决问题:如何在序列数据中捕获长期依赖关系,记住前面输入的信息,并将其用于当前和后续的预测。

2. 核心思想和原理

循环神经网络的核心思想是通过隐藏状态(Hidden State)存储过去的信息,并在序列的每一步中将当前输入与之前的隐藏状态结合起来,以动态更新隐藏状态。

(1) 基本结构:

RNN每个时间步的输入输出关系如下:
在这里插入图片描述

(2)核心公式:
  1. 隐藏状态更新公式
    在这里插入图片描述

  2. 输出计算公式

(3)关键特性:
  • 权重共享:在不同时间步之间,RNN的参数(如权重矩阵)是共享的。
  • 序列依赖:每个时间步的输出依赖于之前时间步的隐藏状态,从而捕获序列中的时间依赖关系。
(4)局限性:
  • 梯度消失和梯度爆炸:在长序列中,反向传播时梯度可能会逐渐衰减(梯度消失)或迅速增长(梯度爆炸),导致难以捕获长期依赖。

3. 发展历史

(1)经典RNN的提出(1986年)

David Rumelhart等人首次提出RNN结构,用于解决序列数据的建模问题。但受限于梯度消失问题,其性能有限。

(2)LSTM的诞生(1997年)

Sepp Hochreiter和Jürgen Schmidhuber提出长短期记忆网络(LSTM),通过引入记忆单元(Cell State)和门机制(如输入门、遗忘门和输出门)有效缓解了梯度消失问题,使得RNN可以处理更长的序列。

(3)GRU的提出(2014年)

Kyunghyun Cho等人提出门控循环单元(GRU),简化了LSTM的结构,保留了其捕获长期依赖的能力,同时减少了计算开销。

(4)基于注意力机制的改进(2014-2017年)
  • 2014年,Bahdanau等人提出注意力机制(Attention Mechanism),让模型在生成每个输出时能够灵活选择关注输入序列的不同部分。
  • 2017年,Transformer的提出彻底改变了序列建模领域,完全摒弃了RNN结构,依赖于全局注意力机制。
(5)现代发展(2020年至今)

虽然Transformer已在许多任务中取代了RNN,但RNN及其变体(如LSTM、GRU)仍在语音识别、时间序列预测等领域具有重要地位。


4. 最佳实践

(1)选择合适的RNN变体

  1. 标准RNN:适用于短序列任务,如简单时间序列预测。
  2. LSTM:更适合长序列任务,如文本生成、机器翻译。
  3. GRU:计算效率更高,但在大多数任务中的性能与LSTM相当。

(2)梯度问题的解决

  • 梯度裁剪(Gradient Clipping):防止梯度爆炸,通过限制梯度的最大值来稳定训练。
  • 权重正则化:使用L2正则化或Dropout减少过拟合。

(3)优化训练

  • 小批量梯度下降(Mini-Batch Gradient Descent):使用小批量样本训练,提高计算效率。
  • 学习率调度:动态调整学习率以加快收敛。

(4)结合注意力机制

  • 在序列到序列(Seq2Seq)模型中,结合注意力机制可提升RNN对长序列的处理能力。

(5)硬件加速与库选择

  • 硬件:利用GPU或TPU加速矩阵计算。
  • 深度学习框架:如PyTorch、TensorFlow等框架提供了高效的RNN、LSTM、GRU实现。

三、RNN与CNN对比

卷积神经网络(CNN)和循环神经网络(RNN)是深度学习中两种重要的神经网络架构,分别擅长处理不同类型的数据。以下将从应用场景核心思想结构与原理优缺点等方面进行详细对比。

1. 应用场景

网络类型主要应用领域示例任务
CNN计算机视觉、图像处理、视频分析图像分类、目标检测、语义分割、风格迁移
RNN自然语言处理、时间序列分析、语音处理机器翻译、文本生成、语音识别、时间序列预测

总结

  • CNN适合空间结构数据,如图像、视频等。
  • RNN适合序列数据,如文本、语音等。

2. 核心思想

网络类型核心思想
CNN通过卷积核提取局部特征,并利用权重共享减少参数数量。
RNN通过隐藏状态捕获序列中的时间依赖关系。

总结

  • CNN专注于空间特征提取,局部感受野逐层扩展至全局。
  • RNN专注于时间依赖建模,当前输出依赖于过去的信息。

3. 结构与原理对比

(1) CNN结构特点

  • 卷积层(Convolutional Layer):用于提取局部特征,通过卷积核在输入图像上滑动进行计算。
  • 池化层(Pooling Layer):对特征图进行下采样,以此减少特征维度。
  • 激活函数(ReLU):引入非线性特性,使模型能够学习更复杂的映射关系。
  • 全连接层(Fully Connected Layer):将前面提取的特征用于分类或回归任务。

(2)RNN结构特点

  • 隐藏状态(Hidden State):当前时间步的隐藏状态(h_t)由前一时间步(h_{t - 1})和当前输入(x_t)共同决定,以此实现信息在序列中的传递与累积。
  • 时间依赖(Temporal Dependency):借助循环结构来对序列数据的依赖关系进行建模,体现序列顺序特性。
  • 序列输出:输出可以是单个值,也可以是整个序列,具体取决于具体任务需求。

4. 优缺点对比

对比维度卷积神经网络(CNN)循环神经网络(RNN)
优势1. 具备高效并行计算能力,计算速度相对较快。
2. 通过参数共享机制,可有效减少模型参数数量。
3. 在处理图像、视频等空间数据方面表现优异。
1. 非常适合处理序列数据,能够有效捕获其中的时间依赖关系。
2. 可以处理长度可变的输入和输出序列。
3. 使用如LSTM、GRU等变体,能够在一定程度上缓解梯度消失问题。
劣势1. 擅长处理固定大小的输入,对于序列数据的处理效果欠佳。
2. 较难捕获长距离依赖关系,对于远距离特征关联建模能力有限。
3. 对全局特征的捕获能力相对有限(通常需要加深网络结构来改善)。
1. 计算过程难以并行化,导致训练速度较慢。
2. 原始的RNN容易出现梯度消失或梯度爆炸问题,影响模型训练效果和稳定性。
3. 针对长序列任务,往往需要较长的训练时间。
并行化能力优异(卷积操作和池化操作均可并行执行)。较差(其计算依赖前一时间步的结果,限制了并行计算的可行性)。
参数规模较小(得益于卷积核共享权重的特性,整体参数数量相对较少)。较大(因为每个时间步都涉及参数更新,所以参数规模相对更大)。

5. 适用场景与选择建议

  1. 使用CNN的场景

    • 图像分类、目标检测、语义分割、视频分析等计算机视觉相关任务。
    • 需要高效并行处理以及捕获空间特征的任务场景。
  2. 使用RNN的场景

    • 自然语言处理相关任务,例如机器翻译、文本生成等。
    • 时间序列预测、语音识别等涉及序列数据处理的任务。
  3. 综合建议

    • 若任务涉及长序列并且需要捕获复杂的时间依赖关系,建议使用RNN或其变体(如LSTM、GRU)。
    • 若任务涉及空间特征(如图像或视频),则使用CNN更为高效。
    • 在某些场景下,可结合CNN + RNN架构,比如在视频分类任务中,先利用CNN提取视频帧中的空间特征,再借助RNN对帧序列的时间关系进行建模。

6. 总结

卷积神经网络(CNN)作为一种强大的深度学习模型,在计算机视觉领域中发挥了巨大的作用。它通过局部连接和共享权重等方式,成功提取图像中的局部特征,并进行分类或回归任务。从LeNet到AlexNet,再到ResNet,CNN不断发展和完善,推动了深度学习技术的进步。对于研究者和工程师而言,理解CNN的核心原理、选择合适的网络结构,并掌握最佳实践,是构建高效神经网络模型的关键。

循环神经网络作为一种能够建模序列数据的强大工具,在深度学习的发展中具有重要地位。从经典RNN到LSTM、GRU,再到结合注意力机制的Seq2Seq模型,RNN不断演化以适应更复杂的序列建模需求。虽然Transformer已在许多领域占据主导地位,但RNN仍在一些特定任务中具有不可替代的优势。对于研究者而言,了解RNN的发展历史、核心原理以及最佳实践,是深入掌握序列建模技术的基础。

卷积神经网络(CNN)和循环神经网络(RNN)各有所长,分别在不同类型的数据处理上展现优势。CNN主要聚焦于空间结构数据的处理,适用于图像、视频等任务;RNN则侧重于序列数据,更契合自然语言处理和时间序列分析等应用场景。深入理解二者的差异、优势以及应用场景,有助于针对具体任务准确选择最适配的模型架构,进而提升任务处理效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/927760.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据事务】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…

南昌大学(NCU)羽毛球场地预约脚本

在冬天进行羽毛球运动是一个很好的选择,它能帮助你保持身体活力,增强心肺功能,并促进血液循环。但是室友和师弟师妹反应,学校的羽毛球场地有限,手速慢的根本预约不到场地。 中午12:00准时开放预约&#xff…

三种方式(oss、本地、minio)图片的上传下载

一、OSS 1、前期准备 1.1 注册阿里云账号,开启对象存储oss功能,创建一个bucket(百度教程多的是,跟着创建一个就行,创建时注意存储类型是标准存储,读写权限是公共读) 有的在创建桶时读写属性是…

关于Nginx前后端分离部署spring boot和vue工程以及反向代理的配置说明

最近项目中用到关于Nginx前后端分离部署spring boot和vue工程以及反向代理的配置,总结了一下说明: 1、后端是spring boot工程,端口8000,通过 jar命令启动 nohup java -jar xxx-jsonflow-biz.jar > /usr/local/nohup.out 2>…

debian 11 虚拟机环境搭建过坑记录

目录 安装过程系统配置修改 sudoers 文件网络配置换源安装桌面mount nfs 挂载安装复制功能tab 无法补全其他安装 软件配置eclipse 配置git 配置老虚拟机硬盘挂载 参考 原来去 debian 官网下载了一个最新的 debian 12,安装后出现包依赖问题,搞了半天&…

Android:生成Excel表格并保存到本地

提醒 本文实例是使用Kotlin进行开发演示的。 一、技术方案 org.apache.poi:poiorg.apache.poi:poi-ooxml 二、添加依赖 [versions]poi "5.2.3" log4j "2.24.2"[libraries]#https://mvnrepository.com/artifact/org.apache.poi/poi apache-poi { module…

RK3576技术笔记之一 RK3576单板介绍

第二篇嘛,亮亮我们做出来的板子,3576这个片子的基本功能接口单板都做了,接口数量肯定是比不上3588(PS:这个我们也在做,后续都完成后会发文章),但是比起3568来说还是升级了&#xff0…

SQL进阶技巧:如何寻找同一批用户 | 断点分组应用【最新面试题】

目录 0 问题描述 1 数据准备 2 问题分析 ​编辑 3 小结 0 问题描述 用户登录时间不超过10分钟的视为同一批用户,找出以下用户哪些属于同一批用户(SQL实现) 例如: user_name time a 2024-10-01 09:55 b 2024-10-01 09:57 c 2024-10-01…

数字图像处理(11):RGB转YUV

(1)RGB颜色空间 RGB颜色空间,是一种基于红色、绿色、蓝色三种基本颜色进行混合的颜色空间,通过这三种颜色的叠加,可以产生丰富而广泛的颜色。RGB颜色空间在计算机图像处理、显示器显示、摄影和影视制作等领域具有广泛应…

利用Ubuntu批量下载modis图像(New)

由于最近modis原来批量下载的代码不再直接给出,因此,再次梳理如何利用Ubuntu下载modis数据。 之前的下载代码为十分长,现在只给出一部分,需要自己再补充另一部分。之前的为: 感谢郭师兄的指导(https://blo…

HTTP 长连接(HTTP Persistent Connection)简介

HTTP长连接怎么看? HTTP 长连接(HTTP Persistent Connection)简介 HTTP 长连接(Persistent Connection)是 HTTP/1.1 的一个重要特性,它允许在一个 TCP 连接上发送多个 HTTP 请求和响应,而无需为…

淘宝商品详情主图SKU图价格|品牌监控|电商API接口

淘宝/天猫获得淘宝商品详情 API 返回值说明 item_get-获得淘宝商品详情 taobao.item_get 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中&a…

单片机学习笔记 17. 串口通信-发送汉字

更多单片机学习笔记:单片机学习笔记 1. 点亮一个LED灯单片机学习笔记 2. LED灯闪烁单片机学习笔记 3. LED灯流水灯单片机学习笔记 4. 蜂鸣器滴~滴~滴~单片机学习笔记 5. 数码管静态显示单片机学习笔记 6. 数码管动态显示单片机学习笔记 7. 独立键盘单片机学习笔记 8…

五层网络协议(封装和分用)

目录 七层网络协议五层网络协议封装1.应用层2.传输层3.网络层4.数据链路层5.物理层 分用1. 物理层2.数据链路层3.网络层 IP 协议4.传输层 UDP 协议5.应用层 七层网络协议 网络通信过程中,需要涉及到的细节,其实是非常非常多的,如果要有一个协…

阿里云人工智能平台(PAI)免费使用教程

文章目录 注册新建实例交互式建模(DSW)注册 注册阿里云账号进行支付宝验证 新建实例 选择资源信息和环境信息,填写实例名称 资源类型需要选择公共资源,才能使用资源包进行抵扣。目前每月送250计算时。1 * NVIDIA A10 8 vCPU 30 GiB 1 * 24 GiB1 * NVIDIA V100 8 vCPU 32 Gi…

【实战】Oracle基础之控制文件内容的5种查询方法

关于Jady: ★工作经验:近20年IT技术服务经验,熟悉业务又深耕技术,为业务加持左能进行IT技术规划,右能处理综合性故障与疑难杂症; ★成长历程:网络运维、主机/存储运维、程序/数据库开发、大数…

蓝桥杯第 23 场 小白入门赛

一、前言 好久没打蓝桥杯官网上的比赛了,回来感受一下,这难度区分度还是挺大的 二、题目总览 三、具体题目 3.1 1. 三体时间【算法赛】 思路 额...签到题 我的代码 // Problem: 1. 三体时间【算法赛】 // Contest: Lanqiao - 第 23 场 小白入门赛 …

使用 Pytorch 构建 Vanilla GAN

文章目录 一、说明二、什么是 GAN?三、使用 PyTorch 的简单 GAN(完整解释的代码示例)3.1 配置变量3.2 、PyTorch 加速3.3 构建生成器3.4 构建鉴别器 四、准备数据集五、初始化函数六、前向和后向传递七、执行训练步骤八、结果 一、说明 使用…

【Windows 11专业版】使用问题集合

博文将不断学习补充 I、设置WIN R打开应用默认使用管理员启动 1、WIN R输入 secpol.msc 进入“本地安全策略”。 2、按照如下路径,找到条目: “安全设置”—“本地策略”—“安全选项”—“用户账户控制:以管理员批准模式运行所有管理员” …

合规性要求对漏洞管理策略的影响

讨论漏洞管理中持续面临的挑战,包括确定漏洞的优先级和解决修补延迟问题。 介绍合规性要求以及自动化如何简化漏洞管理流程。 您认为为什么尽管技术不断进步,但优先考虑漏洞和修补延迟等挑战仍然存在? 企业基础设施日益复杂,攻…