动手学深度学习20 卷积层里的填充和步幅

动手学深度学习20 卷积层里的填充和步幅

  • 1. 填充和步幅
  • 2. 代码实现
  • 3. QA
  • 4. 练习

课本: https://zh-v2.d2l.ai/chapter_convolutional-neural-networks/padding-and-strides.html

1. 填充和步幅

在这里插入图片描述

卷积网络可调的超参数。
当输入shape一定,卷积核shape一定,想要做更深层的网络怎么处理数据shape不够大的问题,填充。输出可能比输入还要大。
在这里插入图片描述
在这里插入图片描述
层数越多,计算越复杂,卷积核大小不变,输入输出shape大小是线性相关,加上步幅,成指数相关。shape大小下降比较快。
在这里插入图片描述

在这里插入图片描述
步幅通常取2。一般取填充合适,高和宽都是2的倍数,且步幅取2,每层网络都是把输入输出的高和宽全部做除2的操作。
填充:当不想模型模型改变输入的大小,或者想要训练深层网络时使用。
步幅:控制滑动窗口挪动行列的步长,成倍减少输入的形状。当输入shape过大,可以用步幅成倍缩小输出shape,减少计算量。
在这里插入图片描述

2. 代码实现

超参数:padding stride
当输入数据不是方块,可以通过超参数控制调整输出数据的shape。

# 当不考虑输入输出通道 批量大小数 输入就是一个矩阵
# padding=1 上下左右各填充一行 每一边填充的多少行
import torch
from torch import nn

# 为了方便起见,我们定义了一个计算卷积层的函数。
# 此函数初始化卷积层权重,并对输入和输出提高和缩减相应的维数
def comp_conv2d(conv2d, X):
  # 这里的(1,1)表示批量大小和通道数都是1
  # 元组连接运算符 (1, 1)+(1,1)=(1,1,1,1)
  X = X.reshape((1, 1)+ X.shape)
  Y = conv2d(X)
  # 省略前两个维度:批量大小和通道
  return Y.reshape(Y.shape[2:])

# 请注意,这里每边都填充了1行或1列,因此总共添加了2行或2列
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
print(comp_conv2d(conv2d, X).shape)

# 当卷积核的高度和宽度不同时,我们可以填充不同的高度和宽度,使输出和输入具有相同的高度和宽度
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2,1))
print(comp_conv2d(conv2d, X).shape)

# 高度和宽度的步幅设置为2,从而将输入的高度和宽度减半
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
print(comp_conv2d(conv2d, X).shape)

conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
print(comp_conv2d(conv2d, X).shape)
# 认情况下,填充为0,步幅为1。在实践中,我们很少使用不一致的步幅或填充.
torch.Size([8, 8])
torch.Size([8, 8])
torch.Size([4, 4])
torch.Size([2, 2])

3. QA

  1. 是55层。每层减去4,(224-4)/4=55

  2. 一般填充会让输入输出高宽一样,通常设置为kernel-1, 为了让每层输入输出大小一样,这样输入输出关系计算方便。
    步幅一般取1,当觉得计算量太大,不想选用很多层,步幅就不取1,通常步幅取2,每次减半,计算能有多少次减半,把步幅均匀的插在卷积网络中。
    核大小通常是关键的。填充一般取默认的。步幅取决于你要把模型复杂度控制在什么程度。

  3. 卷积核边长一般选奇数,是为了对称,上下填充是对称的情况。一般卷积核用3*3,效果都差不多。

  4. 当224*224维度,五六次减半数据维度都没有了,没有办法做很深的网络,减半是很少的情况,多数情况输入输出shape是不变的。

  5. 步幅 填充 kernel 通道数 是神经网络架构的一部分,是网络怎么设计的一部分,不那么敏感,很少调整。当你用定义好的网络架构的时候,这些参数就已经被设定好了。
    在这里插入图片描述

  6. 实际上,多用经典网络结构。RestNet。当输入数据是个非常不一样的,经典的结构无法处理,可以自己设计。网络结构没有那么关键,只是一部分。数据是怎么预处理的,细节是怎么处理的也占很大部分。

  7. 分别应用可以用元组padding=(1,1) 行列表示。

  8. padding=1=(1,1), 左右各填充一行,跟slide一共填充多少行多少列不一样。

  9. 张量的形状一般都是整数,都有向上或向下取整。不会有小数的情况。

  10. 3*3视野小,但深网络视野就大了。
    在这里插入图片描述
    在这里插入图片描述

  11. nas-让超参数也参与训练,自动机器学习的一部分。或者根据硬件情况搜索一个比较好的参数。

  12. 信息一定会是丢失的。机器学习本质上是一个极端压缩算法。把原始计算机能理解的像素信息,文字的字符串信息等压缩到人能理解的语义空间。

  13. 有自动调参功能,不建议用,比较贵。

  14. autoguluon也有做nas, 比较贵。

  15. 验证集设置的很好,过拟合会很好的避免,自动调参会带来一定的过拟合,但可以控制。
    在这里插入图片描述

  16. 三层的33是否可以用2层55替代呢。效果上是可以替代的,但是3*3计算速度是更快的。计算复杂度,kernel计算是平方项,复杂度高,高宽的限制是线性的关系。

  17. 主流底层可以用大一点的kernel, 后面的用33多, 33便宜一点,构造方便一点。简单的网络容易通用。可以试。

  18. 一个特定的卷积层可以看特定的纹理,不同卷积层看不同的纹理。

  19. 更多的数据–数据贵;gpu计算替代了人力、数据的成本。用机器代替人力。
    在这里插入图片描述

4. 练习

  1. 对于本节中的最后一个示例,计算其输出形状,以查看它是否与实验结果一致。

  2. 在本节中的实验中,试一试其他填充和步幅组合。

  3. 对于音频信号,步幅=2说明什么?
    在这里插入图片描述

  4. 步幅大于1的计算优势是什么?
    可以快速的降低输出的维数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631631.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springcloud+nocos从零开始

首先是去nacos官网下载最新的包&#xff1a;Nacos 快速开始 | Nacos win下启动命令&#xff1a;startup.cmd -m standalone 这样就可以访问你的nacos 了。 添加一个配置&#xff0c;记住你的 DataId,和Group名字。 创建一个pom项目&#xff0c;引入springCloud <?xml ve…

windows快速计算文件的SHA256数值的步骤

在文件路径打开cmd窗口 输入命令 用Windows自带的certutil命令来计算一个文件的校验值1&#xff1a; certutil支持的算法有&#xff1a;MD2 MD4 MD5 SHA1 SHA256 SHA384 SHA512。 certutil的使用方法非常简单&#xff0c;只需要执行“certutil -hashfile 文件名 校验值类型”…

SpringAI应用开发

一、人工智能简述 四次工业革命推动了人类社会发展和变革&#xff1a; 蒸汽时代&#xff0c;发生在18世纪60年代~19世纪中期&#xff08;大约是1760年到1860年&#xff09;&#xff0c;这一时期的特点是机械化生产和大规模生产。电气时代&#xff0c;发生在19世纪下半叶~20世纪…

齐护K210系列教程(二十七)_语音识别

语音识别 1.烧录固件和模型2.语音识别程序2.1训练并识别2.2使用本地文件语音识别 3.课程资源联系我们 1.烧录固件和模型 注&#xff1a;本应用只适用于有麦克风功能的型号&#xff1a;AIstart_pro、AIstart_掌机、AIstart_Mini, 其它型号不支持&#xff01; 机器码生成以及模…

人工智能到底是什么玩意儿?

说实话&#xff0c;每次听到“人工智能”这个词&#xff0c;我都感觉像是在听天书一样。它似乎总是被包裹在一堆高大上的术语和概念里&#xff0c;让人摸不着头脑。但今天&#xff0c;我决定挑战一下自己&#xff0c;把这个问题搞个明白&#xff01; 首先&#xff0c;我得承认&…

5 个免费使用 GPT-4o 的方法

5 个免费使用 GPT-4o 的方法 虽然距离 OpenAI 发布 GPT-4o 已过去一天&#xff0c;我仍然对 GPT-4o 感到震撼。Demo 中语音助手功能实在是太令人惊叹了——它咯咯的笑声、准确的语气感叹和歌唱方式让 Siri 和 Google Assistant 显得相形见绌。 虽然备受期待的语音助手功能还要…

论文阅读-《MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation》

目录 1 摘要 2 介绍 3 相关工作 3.1 3D HPE 3.2 ViT 3.3 多假设方法 4 MHFormer 4.1 概述 4.2 准备阶段 4.2.1 多头自注意力机制&#xff08;MSA&#xff09; 4.2.2 多层感知器&#xff08;MLP&#xff09; 4.3 MHG-多假设生成 4.3.1 概述 4.3.2 详细解释&#x…

数学建模——建立数学模型(1)

前言 这个也是对《数学模型》&#xff08;姜启源第四版&#xff09;书内容的摘抄 建立数学模型 数学模型这个词汇现在越来越多地出现在现代入的 生产、工作和社会活动中&#xff0e;广大的科学技 术人员和应用数学工作者来说&#xff0c;建立数学模型是沟通摆在面前的实际问…

Redis第17讲——Redis zset结构实现滑动窗口限流

一、什么是滑动窗口限流 滑动窗口限流是一种流量控制策略&#xff0c;用于控制在一定时间内允许执行的操作数量或请求频率。它的工作方式类似于一个滑动时间窗口&#xff0c;对每个时间窗口的请求数量进行计数&#xff0c;并根据预先设置的限流策略来限制或调节流量&#xff0…

「AIGC算法」近邻算法原理详解

本文主要介绍近邻算法原理及实践demo。 一、原理 K近邻算法&#xff08;K-Nearest Neighbors&#xff0c;简称KNN&#xff09;是一种基于距离的分类算法&#xff0c;其核心思想是距离越近的样本点&#xff0c;其类别越有可能相似。以下是KNN算法的原理详解&#xff1a; 1. 算…

STM32手写寄存器的方式实现点亮LED灯

这次是从头开始学习STM32&#xff0c;看野火的视频开始学习&#xff0c;感觉需要记录的时候就要记录一下学习的心得。野火视频学习的老师讲的还是很到位的&#xff0c;能够学习到很多的细节之处&#xff0c;有时会感觉很啰嗦&#xff0c;但是不得不说确实很详细&#xff0c;只有…

cpu卡片详解(FM1208)

​ 目录 ​1. 引言 1.1 FM1208 CPU卡芯片 2. FM1208 CPU卡芯片概述 2.1 FM1208及其在智能卡中的作用 2.2 FM1208功能框图 3.FM1208的技术规格 4.FM1208工作流程 5.&#xff26;&#xff2d;1208文件结构 6.FM1208与其他智能卡技术的比较 7.FM1208安全特性 7.1 DES/…

水泡传感器内部结构

水泡传感器内部结构&#xff1a; 水泡传感器放大电路 电路是基于1.6V做的TIA I2V&#xff0c; 也就是输出部分基于1.6V做电压的增加或减少。

OpenAI GPT-4o:开启人工智能交互新纪元

引言 在人工智能领域&#xff0c;OpenAI一直是创新的代名词。2024年5月14日&#xff0c;OpenAI再次以GPT-4o模型震撼了科技界&#xff0c;这款全新的旗舰生成模型不仅免费向公众开放&#xff0c;更以其革命性的多模态交互能力&#xff0c;引领我们进入了一个全新的科幻时代。 …

react 图片没有加载出来的问题

react 图片没有加载出来的问题 我原来是这样写的 <Layout><Sider><imgsrc"../images/login/topdivbg20221202.png"/></Sider><Content><Menu onClick{onClick} selectedKeys{[current]} mode"horizontal" it…

停车场车位引导系统是什么,停车场车位引导系统有哪些作用?

随着城市交通的快速发展&#xff0c;车辆的数量也在迅速增长&#xff0c;随之而来的就是停车难的问题&#xff0c;那么在城市中&#xff0c;如何合理的利用好现有资源&#xff0c;让停车资源得到合理利用呢&#xff1f;这就需要一套科学有效的智能停车场系统&#xff0c;可以帮…

MySQL单表查询案例演示

目录 一、创建数据库lianxi 二、选择数据库为lianxi 三、新建一个数据表grade&#xff0c;在grade表中插入数据 四、开始进行查询操作&#xff08;验证表中数据&#xff09; 1、查询1945班的成绩信息 2、查询1945班&#xff0c;语文成绩大于60小于90的成绩信息 3、查询学…

谷歌举办Gemini API开发者大赛;ChatGPT iOS版更新支持中文

&#x1f989; AI新闻 &#x1f680; 谷歌举办Gemini API开发者大赛&#xff0c;大奖1981款电动DeLorean 摘要&#xff1a;IT之家 5 月 15 日消息&#xff0c;在 2024 年谷歌 I/O 开发者大会上&#xff0c;谷歌宣布举办 Gemini API 开发者大赛&#xff0c;主要面向个人开发者…

NASA数据集——GES DISC 的 AIRS-CloudSat 云掩模、雷达反射率和云分类匹配 V3.2 (AIRS_CPR_MAT)

AIRS-AMSU variables-CloudSat cloud mask, radar reflectivities, and cloud classification matchups V3.2 (AIRSM_CPR_MAT) at GES DISC GES DISC 的 AIRS-CloudSat 云掩模、雷达反射率和云分类匹配 V3.2 (AIRS_CPR_MAT) 简介 这是 NetCDF-4 格式的 AIRS-CloudSat 定位子…

CET6级(笔试备考)

CET6笔试 做题技巧 备考注意 感觉考前一个月还是要多刷几套真题啊&#xff0c;刷个10套吧。 参考链接&#xff1a;https://blog.csdn.net/m0_57656758/article/details/130707582