【机器学习】卷积和反向传播

一、说明

        自从 AlexNet 在 2012 年赢得 ImageNet 竞赛以来,卷积神经网络 (CNN) 就变得无处不在。从不起眼的 LeNet 到 ResNets 再到 DenseNets,CNN 无处不在。

        您是否想知道 CNN 的反向传播中会发生什么,特别是反向传播在 CNN 中的工作原理。如果您读过反向传播,您就会了解它是如何在具有全连接层的简单神经网络中实现的。 (Andrew Ng 在 Coursera 上的课程对此做了很好的解释)。但是,对于我的一生,我无法理解反向传播如何与卷积层一起工作。

我知道,您不必了解反向传播的数学复杂性即可实现 CNN。您不必手动实现它们。因此,大多数深度学习书籍也没有涵盖它。

 

        这篇文章最重要的是向您展示这一点:

我们都知道卷积层的前向传递使用卷积。但是,反向传播期间的反向传递也使用了卷积!

        但如果您已经了解反向传播中的链式法则,那么您可以跳到下一节。

二、了解反向传播中的链式法则 

        考虑这个方程

f(x,y,z) = (x + y)z

        为了让它更简单,让我们把它分成两个方程。

        现在,让我们为其绘制一个计算图,其中 x、y、z 的值为x = -2、y = 5、z = 4。

        f = q*z 的计算图,其中 q = x + y

        当我们求解方程时,当我们从左向右移动时(“前向传递”),我们得到的输出为f = -12

        现在让我们进行向后传递。比如说,就像在反向传播中一样,我们在每个阶段导出从右到左移动的梯度。因此,最后,我们必须得到输入 x、y 和 z 的梯度值 — ∂f/∂x ∂f/∂y∂f/∂z用 x 来区分函数 f, y 和 z)

        从右到左,在乘法门处,我们可以对f进行微分以获得qz处的梯度— ∂f/∂q∂f/∂z。在加法门,我们可以对q进行微分以获得xy处的梯度— ∂q/∂x∂q/∂y。

计算计算图中的梯度及其值

       

我们必须找到∂f/∂x∂f/∂y ,但我们只得到∂q/∂x和∂q/∂y的值那么,我们该怎么做呢?

我们如何找到 ∂f/∂x∂f/∂y

        这可以使用微分链式法则来完成。根据链式法则,我们可以求出∂f/∂x

微分链式法则

        我们可以将∂f/∂x∂f/∂y计算为:

具有所有梯度的计算图的向后传递

三、卷积层中的链式法则

        现在我们已经完成了一个简单的计算图,我们可以将 CNN 想象成一个巨大的计算图。假设计算图中有一个门f,输入为x 和 y,输出为z。

一个简单的函数 f,将 x 和 y 作为输入并输出 z

       

        我们可以轻松计算局部梯度——将 z 相对于 x 和 y 微分∂z/∂x∂z/∂y

        对于前向传播,我们穿过 CNN,遍历其各层,最后使用损失函数获得损失。当我们开始逐层向后计算损失时,我们从前一层得到损失的梯度为∂L/∂z为了将损失传播到其他门,我们需要找到∂L/∂x∂L/∂y

局部梯度可以使用函数 f 计算。我们需要找到 𝛛  L/ 𝛛  x 𝛛  L/ 𝛛  y,因为它需要传播到其他层。

        链式法则对我们有帮助。使用链式法则,我们可以计算∂L/∂x∂L/∂y,这将馈送到扩展计算图中的其他门

求 x 和 y 的损失梯度

        那么,这与 CNN 卷积层中的反向传播有什么关系呢?

        现在,假设函数f 是输入 X 和滤波器 F之间的卷积。输入 X 是 3x3 矩阵,滤波器 F 是 2x2 矩阵,如下所示:

具有输入 X 和滤波器 F 的简单卷积层示例

        输入 X 和滤波器 F 之间的卷积得到输出 O。这可以表示为:

X 和 F 之间的卷积函数,给出输出 O

卷积运算给出输出 O 的值

        这给了我们前向传球!让我们来看看向后传递。如前所述,在向后传递期间,我们得到相对于下一层输出 O 的损失梯度为∂L/∂O。结合我们之前使用链式法则和反向传播的知识,我们得到:

向后传递期间的函数 f

        如上所示,我们可以找到相对于输出 O 的局部梯度∂O/∂X∂O/∂F 。利用前几层的损失梯度 — ∂L/∂O并使用链式法则,我们可以计算∂L /∂X∂L/∂F

好吧,但是为什么我们需要找到∂L/∂X∂L/∂F呢?

为什么我们需要找到 ∂L/∂X 和 ∂L/∂F

四、所以我们来求 X 和 F 的梯度 — ∂L/∂X∂L/∂F

4.1 求 ∂L/∂F

        正如我们之前所做的那样,这有两个步骤。

  • 求局部​​梯度∂O/∂F
  • 使用链式法则求∂L/∂F

        步骤 1:求局部梯度 — ∂O/∂F:

        这意味着我们必须区分输出矩阵 O 和滤波器 F。通过我们的卷积运算,我们知道这些值。因此,让我们开始区分 O- O11 的第一个元素与 F — F11 、 F12、F21 和 F22 的元素

步骤 2:使用链式法则:

        正如我们之前的例子中所描述的,我们需要找到∂L/∂F

        OF是矩阵。并且∂O/∂F将是矩阵O对于矩阵F的偏导数!最重要的是我们必须使用链式法则。这看起来确实很复杂,但幸运的是我们可以使用下面的公式来扩展它。

使用链式法则导出矩阵相对于矩阵的偏导数的公式

       

展开,我们得到..

∂L/∂F的导数

        将方程 A 中的局部梯度值 — ∂O/∂F 代入,我们得到

使用方程 A 中的局部梯度值

        如果你仔细观察的话,这就是我们非常熟悉的操作。我们可以将其表示为输入 X和损失梯度∂L/∂O 之间的卷积运算,如下所示:

∂L/∂F = 输入矩阵 X 与损失梯度 ∂L/∂O 的卷积

∂L/∂F 只不过是输入 X 和下一层的损失梯度 ∂L/∂O 之间的卷积

4.2 求 ∂L/∂X:

        步骤 1:求局部梯度 — ∂O/∂X:

        与我们之前找到局部梯度的方式类似,我们可以找到∂O/∂X

局部梯度 ∂O/∂X

        步骤 2:使用链式法则:

        将其展开并代入方程 B,我们得到

使用方程中的局部梯度计算 ∂L/∂X的导数

        好的。现在我们有了 ∂L/∂X 的值不管你相信与否,这甚至可以表示为卷积运算。

∂L/∂X 可以表示为 180 度旋转滤波器 F 和损失梯度 ∂L/∂O 之间的“完全”卷积

首先,让我们将滤镜 F 旋转 180 度。这是通过先垂直翻转然后水平翻转来完成的。

将滤镜 F 翻转 180 度 — 垂直和水平翻转

        现在,让我们在这个翻转的滤波器 F 和 ∂L/∂O 之间进行“完全”卷积,如下所示:(这就像将一个矩阵从右到左、从下到上滑动到另一个矩阵上)

180 度翻转滤波器 F 和损失梯度 ∂L/∂O 之间的全卷积运算可视化

        上面的全卷积生成 ∂L/∂X 的值,因此我们可以将 ∂L/∂X 表示为

∂L/∂X 可以表示为 180 度旋转滤波器 F 和损失梯度 ∂L/∂O 之间的“完全”卷积

好了,现在我们已经找到了∂L/∂X 和 ∂L/∂F,我们现在可以得出这个结论

卷积层的前向传播和反向传播都是卷积

总结一下:

如何计算 ∂L/∂X 和 ∂L/∂F

五、结束语

        希望这有助于解释反向传播在 CNN 卷积层中的工作原理。如果您想了解更多相关信息,请查看下面的链接。并通过为这篇文章鼓掌来表达一些爱。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/384566.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蓝牙BLE学习-概述

1. 简介 1.1 蓝牙发展历程 蓝牙,直接来自于一位国王的名字--King Harald ‘Bluetooth Gromsson。这位国王因两件事留名于史,其一是在公园958年统一了丹麦和挪威,其二是在其死后,其牙齿呈现出暗蓝色的颜色,因而得名蓝牙…

WordPress修改所有用户名并发送邮件通知的插件Easy Username Updater

前面跟大家介绍了『如何修改WordPress后台管理员用户名?推荐2种简单方法』一文,但是对于有很多用户的站长来说,操作有点复杂,而且无法发邮件通知对方,所以今天boke112百科向大家推荐一款可以直接在WordPress后台修改所…

记录一下,我使用stm32实现pwm波输入,以及对频率和占空比的计算,同时通过串口输出(实现-重要)

1,首先看下半物理仿真 看下我的配置: 看下计算方法以及matlab的仿真输出的数据: timer3的ch2是选择高电平,计算频率 timer3的ch1是选择的是低电平,用来计算周期 其中TemPIpre表示的是CH2输出的值, TemPI…

ElasticSearch级查询Query DSL上

目录 ES高级查询Query DSL match_all 返回源数据_source 返回指定条数size 分页查询from&size 指定字段排序sort 术语级别查询 Term query术语查询 Terms Query多术语查询 exists query ids query range query范围查询 prefix query前缀查询 wildcard query通…

「计算机网络」数据链路层

数据链路层的地位:网络中的主机、路由器等都必须实现数据链路层信道类型 点对点信道:使用一对一的点对点通信方式广播信道 使用一对多的广播通信方式必须使用专用的共享信道协议来协调这些主机的数据发送 使用点对点信道的数据链路层 数据链路和帧 链…

ansible shell模块 可以用来使用shell 命令 支持管道符 shell 模块和 command 模块的区别

这里写目录标题 说明shell模块用法shell 模块和 command 模块的区别 说明 shell模块可以在远程主机上调用shell解释器运行命令,支持shell的各种功能,例如管道等 shell模块用法 ansible slave -m shell -a cat /etc/passwd | grep root # 可以使用管道…

比特币突然大涨

作者:秦晋 2月9日,除夕夜,比特币突然大涨,最高涨至48219美元,涨幅超6%。据CNBC报道,本周比特币已经上涨10.76%,创下自12月8日以来的最佳的一周。本周ETH上涨8.46%,成为自1月12日以来…

蓝桥杯-X图形

问题描述 给定一个字母矩阵。一个 X 图形由中心点和由中心点向四个 45度斜线方向引出的直线段组成,四条线段的长度相同,而且四条线段上的字母和中心点的字母相同。 一个 X 图形可以使用三个整数 r,c,L 来描述,其中 r,c 表示中心点位于第 r 行…

【Java程序设计】【C00261】基于Springboot的休闲娱乐代理售票系统(有论文)

基于Springboot的休闲娱乐代理售票系统(有论文) 项目简介项目获取开发环境项目技术运行截图 项目简介 这是一个基于Springboot的休闲娱乐代理售票系统 本系统分为系统功能模块、管理员功能模块以及用户功能模块。 系统功能模块:休闲娱乐代理…

视频讲解:优化柱状图

你好,我是郭震 AI数据可视化 第三集:美化柱状图,完整视频如下所示: 美化后效果前后对比,前: 后: 附完整案例源码: util.py文件 import platformdef get_os():os_name platform.syst…

探索Redis特殊数据结构:Geospatial(地理位置)在实际中的应用

一、概述 Redis官方提供了多种数据类型,除了常见的String、Hash、List、Set、zSet之外,还包括Stream、Geospatial、Bitmaps、Bitfields、Probabilistic(HyperLogLog、Bloom filter、Cuckoo filter、t-digest、Top-K、Count-min sketch、Confi…

【开源】JAVA+Vue.js实现天然气工程业务管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、使用角色3.1 施工人员3.2 管理员 四、数据库设计4.1 用户表4.2 分公司表4.3 角色表4.4 数据字典表4.5 工程项目表4.6 使用材料表4.7 使用材料领用表4.8 整体E-R图 五、系统展示六、核心代码6.1 查询工程项目6.2 工程物资…

three.js 细一万倍教程 从入门到精通(一)

目录 一、three.js开发环境搭建 1.1、使用parcel搭建开发环境 1.2、使用three.js渲染第一个场景和物体 1.3、轨道控制器查看物体 二、three.js辅助设置 2.1、添加坐标轴辅助器 2.2、设置物体移动 2.3、物体的缩放与旋转 缩放 旋转 2.4、应用requestAnimationFrame …

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之ImageAnimator组件

鸿蒙(HarmonyOS)项目方舟框架(ArkUI)之ImageAnimator组件 一、操作环境 操作系统: Windows 10 专业版、IDE:DevEco Studio 3.1、SDK:HarmonyOS 3.1 二、ImageAnimator组件 提供分隔器组件,分隔不同内容块/内容元素…

一、DataX简介

DataX简介 一、什么是DataX二、DataX设计三、支持的数据源四、框架设计五、运行原理六、DataX和Sqoop对比 一、什么是DataX DataX是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、OD…

python -m SimpleHTTPServer mac报错

错误内容: Traceback (most recent call last):File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/runpy.py", line 174, in _run_module_as_main"__main__", fname, loader, pkg_name)File "/System/Libra…

【GameFramework框架内置模块】1、全局配置(Config)

推荐阅读 CSDN主页GitHub开源地址Unity3D插件分享简书地址 大家好,我是佛系工程师☆恬静的小魔龙☆,不定时更新Unity开发技巧,觉得有用记得一键三连哦。 一、前言 【GameFramework框架】系列教程目录: https://blog.csdn.net/q7…

回归预测模型:MATLAB岭回归和Lasso回归

1. 岭回归和Lasso回归的基本原理 1.1 岭回归: 岭回归(Ridge Regression) 是一种用于共线性数据分析的技术。共线性指的是自变量之间存在高度相关关系。岭回归通过在损失函数中添加一个L2正则项( λ ∑ j 1 n β j 2 \lambda \s…

LeetCode662:二叉树最大宽度(二叉树非典型最大宽度,BFS层序遍历重编号)

题目 给你一棵二叉树的根节点 root ,返回树的 最大宽度 。 树的 最大宽度 是所有层中最大的 宽度 。 每一层的 宽度 被定义为该层最左和最右的非空节点(即,两个端点)之间的长度。将这个二叉树视作与满二叉树结构相同,…

雨云裸金属服务器

雨云服务器与裸金属服务器:云端与实体的完美交融 随着信息技术的迅猛发展,云服务已经成为企业和个人数据处理与存储的重要选择。其中,雨云服务器和裸金属服务器作为两种截然不同的服务形式,各自拥有独特的优势和应用场景。本文将深…