NNDL总结

第四章 前馈神经网络

4.1 神经元

 人工神经元,简称神经元,是构成神经网络的基本单元。

7d50133b74d849b085b3bfe46b094be2.png

 当eq?z>0时,eq?a%3Df%28z%29为1,兴奋; 当eq?z<0时,eq?a%3Df%28z%29为0,抑制。

激活函数的性质

1、连续可导的非线性函数。

2、激活函数及其导函数要尽可能简单

3、激活函数的导函数的值域要在一个合适的区间内

4、单调递增(不一定)

常用的激活函数

S型函数

df501069c1144f3291b5dea72885672a.png

                                                 Logistic函数:eq?%5Csigma%20%28x%29%3D%5Cfrac%7B1%7D%7B1&plus;exp%28-x%29%7D

                                                 Tanh函数:eq?tanh%28x%29%3D%5Cfrac%7Bexp%28x%29-exp%28-x%29%7D%7Bexp%28x%29&plus;exp%28-x%29%7D

                                                 eq?tanh%28x%29%3D2%5Csigma%20%282x%29-1 

性质:

饱和函数

Tanh函数是零中心化,而logistic函数的输出恒大于0     

(非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移,并进一步使得梯度下降的收敛速度变慢)                                                   

斜坡函数 

d775c0fff75e4b56b00ffaedf0682756.png

ReLU可以解决梯度消失问题 

死亡ReLU问题(Dying ReLU Problem)

训练时,如果参数在一次不恰当的更新后(如:学习率过大), 第一个隐藏层中某个 ReLU神经元在所有训练数据上都不能被激活,那么这个神经元自身参数的梯度永远都会是0,在以后的训练过程中永远不能被激活

4.2 网络结构

目前常用的神经网络结构有以下三种:
前馈网络

前馈网络包括全连接前馈网络卷积神经网络

前馈网络可以看作一个函数,通过简单非线性函数的多次复合,实现输入空间到输出空间的复杂映射。这种网络结构简单,易于实现。

记忆网络

记忆网络,也称反馈网络,网络中的神经元不但可以接受其他神经元的信息,也可以接受自己的历史信息。具有记忆能力。

图网络

图网络是前馈网络和记忆网络的泛化,包含很多不同的实现方式,比如图卷积网络、图注意力网络、消息传递神经网络等。 

4.3 前馈神经网络

前馈神经网络(全连接神经网络、多层感知器)

    各神经元分别属于不同的层,层内无连接

    相邻两层之间的神经元全部两两连接(全连接)。

    整个网络中无反馈,信号从输入层向输出层单向传播。

    可用一个有向无环图表示。

                                                                z^{(l)}=W^{(l)}a^{(l-1)}+b^{(l)} 

                                                                a^{(l)}=f_{1}(z^{(l)}) 

可合并写为:                                         z^{(l)}=W^{(l)}f_{l-1}(z^{(l-1)})+b^{(l)}

首先根据第l−1层神经元的活性值a^{(l-1)} 计算出第l层神经元的净活性值z^{l},然后经过一个激活函数得到第 l层神经元的活性值。因此,我们也可以把每个神经层看作一个仿射变换和一个非线性变换。 

参数学习

                                                       

权重衰减:抑制过拟合

对于所有权重,权值衰减方法都会为损失函数加上\frac{1}{2}\lambda W^{2}。因此,在求权重梯度的计算中,要为之前的误差反向传播的结果加上正则化的导数\lambda W

 L_{1}L_{2}范数见:梯度爆炸实验-CSDN博客

4.4 反向传播算法
周老师西瓜书上BP算法的图

 前向计算

step1:                    b_{h}=f(\beta _{h}-\gamma _{h}),\beta _{h}=\sum ^{d}_{i=1}v_{ih}x_{i}

step2:                   \hat{y}^{k}_{j}=f(\alpha _{j}-\theta _{j}),\alpha _{j}=\sum ^{q}_{h=1}w_{hj}b_{h}

step3:                  E_{k}=\frac{1}{2}\sum ^{l}_{j=1}(\hat{y}^{k}_{j}-y^{k}_{j})^{2}

 下面是反向传播的过程推导,当时手推的时候真的很麻烦,很费人。(ο̬̬̬̬̬̬̬̏̃ɷο̬̬̬̬̬̬̬̏̃)

作业4:实现例题中的前馈神经网络_前馈神经网络计算例题-CSDN博客

4.5 优化算法

非凸优化问题因为可行域集合可能存在无数个局部最优点,通常求解全局最优的算法复杂度是指数级别的(NP难)。

 平方误差损失和交叉熵损失都是关于参数的非凸函数。

梯度消失 

 Sigmoid型函数的饱和区的导数更接近于0,误差经过每一层传递都会不断衰减。当网络层数很深时,梯度就会不停衰减,甚至消失,这就是梯度消失问题

 第五章 卷积神经网络

卷积神经网络是一种具有局部连接、权重共享等特性的深层前馈神经网络. 

全连接神经网络缺点:

1. 参数过多,效率低下,训练困难;会导致过拟合

2. 将图像展开为向量,会丢失空间信息。

3. 局部不变性特征:自然图像中的物体都具有局部不变性特征。全连接前馈网络很难提取这些局部不变特征。一般需要进行数据增强来提高性能。

目前的卷积神经网络一般是由卷积层、汇聚层和全连接层交叉堆叠而成的前馈神经网络。卷积神经网络有三个结构上的特性:局部连接、权重共享以及汇聚。

5.1 卷积

 一维卷积经常用在信号处理中,用于计算信号的延迟累积。不同滤波器(卷积核)提取信号序列中的不同特征。

 二维卷积

 一个输入信息X和滤波器W的二维卷积定义为:         

                                                              Y=W*X

                                            y_{ij}=\sum_{u=1}^{U}\sum_{v=1}^{V}w_{uv}x_{i-u+1,j-v+1} 

 

 互相关和卷积的区别仅仅在于卷积核是否进行翻转。互相关也可以称为不翻转卷积。

 卷积的变种

 引入卷积核的滑动步长零填充来增加卷积的多样性,可以更灵活地进行特征抽取。

 步长(Stride)是指卷积核在滑动时的时间间隔。

零填充(Zero Padding)是在输入向量两端进行补零 。

假设卷积层的输入神经元个数为M,卷积大小为K,步长为S,在输入两端各 填补P个0(zero padding),那么该卷积层的神经元数量为(M-K+2P)/S+1

一般常用的卷积有以下三类:

(1) 窄卷积(Narrow Convolution):步长S=1 ,两端不补零P=0,卷积 后输出长度为M-K+1

(2) 宽卷积(Wide Convolution):步长S=1,两端补零P=K-1,卷积 后输出长度M+K-1

(3) 等宽卷积(Equal-Width Convolution):步长 S=1,两端补零 P=(K-1)/2,卷积后输出长度M

 感受野:特征图上一个点对应输入图像上的区域

5.2 卷积神经网络

 根据卷积的定义,卷积层有两个很重要的性质:局部连接权重共享。

局部连接:每个神经元没有必要对全局图像进行感知, 只需要对局部进行感知, 然后在更高层将局部的信息综合起来就得到了全局的信息。

权值共享:减少了参数量

 特征映射(Feature Map)为一幅图像(或其他特征映射)在经过卷积提取到的特征,每个特征映射可以作为一类抽取的图像特征。

卷积层可显著减少连接个数,但每一个特征映射的神经元个数并没显著减少。

汇聚层可有效地减少神经元的数量

汇聚层(Pooling Layer)也叫子采样层(Subsampling Layer),其作用是进行特征选择,降低特征数量,从而减少参数数量。

常用的汇聚函数有两种:

(1)最大汇聚:对于一个区域,选择这个区域内所有神经元的最大活性值作为这个区域的表示。

(2)平均汇聚:一般是取区域内所有神经元活性值的平 均值。

 卷积网络的整体结构

卷积层、汇聚层、全连接层交叉堆叠而成。

5.3 参数学习

卷积的性质

 交换性:图像 X和 卷积核W有固定长度时,它们的宽卷积具有交换性

rot180(W)\widetilde{\bigotimes }X=rot180(X)\widetilde{\bigotimes }W

导数:\frac{\partial f(Y)}{\partial X}=rot180(\frac{\partial f(Y)}{\partial Y})\widetilde{\bigotimes }X=rot180(W)\widetilde{\bigotimes }\frac{​{\partial f(Y)}}{\partial Y}

 CNN的反向传播算法:https://www.cnblogs.com/pinard/p/6494810.html

5.4 几种典型的卷积神经网络

 LeNet-5

 AlexNet(2012第一个现代深度卷积网络模型)

 VGG-Net

更小的卷积核

卷积核不超过3×3

2个3×3卷积核堆叠的感受野相当于 1个5×5卷积核

同等感受野,2个3×3卷积间加入激活函数,其非线性能力比1个5×5卷积强

更深的网络结构

AlexNet:5个卷积层

VGG16:13个卷积层

更深的结构有助于网络提取图像中更复杂的语义信息

 Inception网络

 Inception模块:一个卷积层包含多个不同大小的卷积操作

残差网络通过给非线性的卷积层增加直连边(也称为残差连接(Residual Connection))的方式来提高信息的传播效率。

 残差网络就是将很多个残差单元串联起来构成的一个非常深的网络。

5.5 其他卷积方式

转置卷积

微步卷积:步长S<1的转置卷积

输入特征之间插入0,间接使得步长变小 

如果卷积操作的步长为 S<1,希望其对应的转置卷积的步长为\frac{1}{S}, 需要在输入特征之间插入S-1个0来使得其移动的速度变慢.D=S-1=2-1=1

空洞卷积

在卷积核的每两个元素之间插入D − 1个空洞, 卷积核的有效大小为:

{K}'=K+(K-1)*(D-1)

第六章 循环神经网络

前馈网络存在的问题

连接在层与层之间,每层节点间无连接。 输入和输出的维数固定,不能任意改变。无法处理时序数据

循环神经网络(Recurrent Neural Network,RNN)

      1、具有短期记忆能力

      2、神经元可接受其他神经元信息,也可接受自身信息,形成有 环路的网络结构

      3、和前馈神经网络相比,更加符合生物神经网络的结构

      4、已广泛应用在语音识别、语言模型、自然语言生成等任务上

      5、容易扩展到更广义的记忆网络模型:递归神经网络、图网络

6.1 给网络增加记忆力

三种方法增加短期记忆能力:

延时神经网络

    建立额外延时单元,存储网络历史信息

有外部输入的非线性自回归模型

    用变量y_t的历史信息来预测自己

循环神经网络

    RNN通过使用带自反馈的神经元,能够处理任意长度的时序数据。

6.2 简单循环网络

 SRN:只有一个隐藏层的神经网络

NNDL 作业9 RNN - SRN-CSDN博客  

6.3 应用到机器学习

序列到类别:主要用于序列数据的分类问题:输入为序列,输出为类别。

同步的序列到序列:主要用于序列标注任务,即每一时刻都有输入和输出,输入序列和输出序列的长度相同。

异步的序列到序列:也称为编码器—解码器模型,即输入序列和输出序列不需要有严格的对应关系,也不需要保持相同的长度。

6.4 参数学习

在循环神经网络中主要有两种计算梯度的方式:随时间反向传播算法(BPTT)和实时循环学习算法(RTRL) 。                                                                            

 随时间反向传播算法的主要思想是通过类似前馈神经网络的误差反向传播算法来计算梯度。

 实时循环学习是通过前向传播的方式来计算梯度

ec46f681b76b4eceaa2894651e343958.png

6.5 长程依赖问题

 循环神经网络在学习过程中的主要问题是由于梯度消失或爆炸问题,很难建模长时间间隔的状态之间的依赖关系。

梯度爆炸 一般而言,循环网络的梯度爆炸问题比较容易解决,一般通过权重衰减或梯度截断来避免。

梯度消失 梯度消失是循环网络的主要问题.除了使用一些优化技巧外,更有效的方式就是改变模型。通过引入门控机制来进一步改进模型。

6.6 基于门控的循环神经网络

基于门控的循环神经网络:长短期记忆网络门控循环单元网络。

长短期记忆网络(LSTM)是循环神经网络的一个变体,可以有效地解决简单循环神经网络的梯度爆炸或消失问题.

门控循环单元(GRU)网络是一种比LSTM网络更加简单的循环神经网络。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/296980.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言 B树的分析与实现

本文主要说明了B树的概念、应用以及如何用C语言实现B树。 概述 有使用过数据库的朋友都知道&#xff0c;数据库需要存储大量的数据&#xff0c;并且查询数据的性能也需要一定的保证。那么数据库的底层数据结构是如何实现的呢&#xff0c;就是我们要讨论的B树和B树&#xff0c…

【电源专题】电池充放电中常说的0.2C是什么概念

在工作中我们时常会听到老员工说拿这个电池去做一下充放电,以0.2C充,0.2C放。那么这个0.2C到底是啥? 这就要说到电池C-rate概念。在《GB 31241:便携式电子产品用锂离子电池和电池安全要求》中我们可以看到3.7中写了额定容量为C,也就是制造商标明的电池或电池组容量。 那么…

src refspec master does not match any

新项目推送至 Git 空仓库时抛出如下异常 src refspec master does not match any 初始化 init 都做了但反复尝试 git push -u origin master 均无果 后发现权限不够 .... 起初设置为开发者,后变更为了主程序员再次尝试 push 成功 .... 以上便是此次分享的全部内容&#xff0c;…

MyBatisPlus学习二:常用注解、条件构造器、自定义sql

常用注解 基本约定 MybatisPlus通过扫描实体类&#xff0c;并基于反射获取实体类信息作为数据库表信息。可以理解为在继承BaseMapper 要指定对应的泛型 public interface UserMapper extends BaseMapper<User> 实体类中&#xff0c;类名驼峰转下划线作为表名、名为id的…

etcd储存安装

目录 etcd介绍: etcd工作原理 选举 复制日志 安全性 etcd工作场景 服务发现 etcd基本术语 etcd安装(centos) 设置&#xff1a;etcd后台运行 etcd 是云原生架构中重要的基础组件&#xff0c;由 CNCF 孵化托管。etcd 在微服务和 Kubernates 集群中不仅可以作为服务注册…

单片机大小端模式

单片机大小端模式 参考链接 单片机干货-什么是大小端_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1Ju4y1M7Tx/?spm_id_from333.337.search-card.all.click&vd_sourcee821a225c7ba4a7b85e5aa6d013ac92e 特此记录 anlog 2024年1月2日

C语言——内存函数【memcpy,memmove,memset,memcmp】

&#x1f4dd;前言&#xff1a; 在之前的文章C语言——字符函数和字符串函数&#xff08;一&#xff09;中我们学习过strcpy和strcat等用来实现字符串赋值和追加的函数&#xff0c;那么除了字符内容&#xff0c;其他的数据&#xff08;例如整型&#xff09;能否被复制或者移动呢…

IDEA2023 最新版详细图文安装教程(Java环境搭建+IDEA安装+运行测试+汉化+背景图设置)

IDEA2023 最新版详细图文安装教程 名人说&#xff1a;工欲善其事&#xff0c;必先利其器。——《论语》 作者&#xff1a;Code_流苏(CSDN) o(‐&#xff3e;▽&#xff3e;‐)o很高兴你打开了这篇博客&#xff0c;跟着教程去一步步尝试安装吧。 目录 IDEA2023 最新版详细图文安…

Linux第15步_安装FTP客户端

安装完FTP服务器后&#xff0c;还需要安装FTP客户端&#xff0c;才可以实现Ubuntu系统和Windows系统进行文件互传。 1、在STM32MP157开发板A盘基础资料\03软件中&#xff0c;找到“FileZilla_3.51.0_win64-setup.exe”&#xff0c;双击它&#xff0c;就可以安装。 2、点击“I …

吉他打谱软件Guitar Pro8苹果Mac电脑简体中文特别版

Guitar Pro 8 Mac是一款吉他编曲学习软件&#xff0c;用于吉他、贝和其他弦乐器的制谱和演奏&#xff0c;这是一个多轨编辑器&#xff0c;具有集成的 MIDI 编辑器、合唱绘图仪、吉他、节拍器和其他音乐家工具。它使您能够编辑吉他、贝司和尤克里里、乐谱、指法谱&#xff0c;并…

浅谈云可观测性的关键组件及重要性

在云计算时代&#xff0c;企业和开发团队不仅需要关注应用程序的功能性&#xff0c;还需要关心系统在生产环境中的性能、可用性和可靠性。云可观测性成为一项关键的技术实践&#xff0c;它涵盖了日志、指标、追踪等多个方面&#xff0c;为系统监控和故障诊断提供了全方位的支持…

二手买卖、废品回收小程序 在app.json中声明permission scope.userLocation字段 教程说明

处理二手买卖、废品回收小程序 在app.json中声明permission scope.userLocation字段 教程说明 sitemapLocation 指明 sitemap.json 的位置&#xff1b;默认为 ‘sitemap.json’ 即在 app.json 同级目录下名字的 sitemap.json 文件 找到app.json这个文件 把这段代码加进去&…

分解质因数算法总结

知识概览 n中最多只包含一个大于的质因子。 例题展示 题目链接 活动 - AcWing 系统讲解常用算法与数据结构&#xff0c;给出相应代码模板&#xff0c;并会布置、讲解相应的基础算法题目。https://www.acwing.com/problem/content/869/ 题解 分解质因数可以用试除法解决&…

Zoho SalesIQ:构建客户服务知识库的实用工具与指南

客服人员每天都有很多事情要做&#xff0c;包括在线聊天、音频通话、屏幕共享和发送电子邮件。为什么要将搜索常用信息添加到他们列表中呢&#xff1f;因为客户在遇到问题的同时想快速解决问题。所以&#xff0c;我们要使用Zoho SalesIQ客服系统构建客户服务知识库。 一、什么…

根据MySql的表名,自动生成实体类,模仿ORM框架

ORM框架可以根据数据库的表自动生成实体类&#xff0c;以及相应CRUD操作 本文是一个自动生成实体类的工具&#xff0c;用于生成Mysql表对应的实体类。 新建Winform窗体应用程序AutoGenerateForm&#xff0c;框架(.net framework 4.5)&#xff0c; 添加对System.Configuration的…

【经验】VSCode连接远程服务器(可以使用git管理、方便查看和编辑Linux源码)

1、查看OpenSSH Windows10通常自带OpenSSH不需要安装。 Windows10下检查是否已经安装OpenSSH的方法: 1)按下快捷键Win + X,选择Windows PoweShell(管理员) 2)输入以下指令: Get-WindowsCapability -Online | ? Name -like ‘OpenSSH*’ 3)如果电脑未安装OpenSSH,…

RFID标签在汽车监管方面的应用与实施方案

RFID技术在汽车工业领域得到了广泛应用&#xff0c;主要体现在汽车资质证书远程监管系统的普及化&#xff0c;系统包括OBD接口监视器、车证监管箱、超高频读写设备、应用系统软件以及大数据采集与处理等组成部分。 在汽车物流监管方面&#xff0c;系统利用OBD接口监控车辆并实时…

JavaWeb 期末考--复盘

Javaweb 期末复习题目 1 单选 2 多选 3 问答与分析 4 程序填空 5 程序设计&#xff08;该部分无&#xff09; 需要word版资料详见文章末尾&#xff0c;免费自提 0、学期知识点回顾 一、注释和注解 1、Java的三种注释&#xff1a;单行、多行和文档注释。 2、常用…

深入理解神经网络训练与反向传播

目录 前言1 损失函数1.1 交叉熵&#xff08;Cross Entropy&#xff09;&#xff1a;1.2 均方差&#xff08;Mean Squared Error&#xff09;&#xff1a; 2 梯度下降与学习率2.1 梯度下降2.2 学习率 3 正向传播与反向传播3.1 正向传播3.2 反向传播 4 链式法则和计算图4.1 链式法…

万界星空科技云MES,助力客户快速构建数字工厂

一、MES发展趋势 1、定制化趋势 工业2.0、3.0的技术已较为成熟&#xff0c;部分制造业水平较为发达的国家已经率先进入以网络化、智能化为代表的工业4.0发展阶段,MES作为制造业规划层随着物联网等持续发展&#xff0c;为适应定制化时代&#xff0c;整体技术模块化、服务化将重…