现代神经网络QA(LeNet/AlexNet/VGG/NiN/GooleNet/ResNet)-----一篇搞懂

现代神经网络Q&A-----一篇搞懂

LeNet核心架构

经典卷积神经网络的包括:

  1. 带填充以保持分辨率的卷积层;
  2. 非线性激活函数,如ReLU;
  3. 汇聚层,如最大汇聚层。

在这里插入图片描述

  1. pooling时,使用avg还是max?

    • max:侧重该感受野的最大信息量(有没有鸟)
    • avg:侧重整个感受野的各项信息量
  2. 一层卷积为什么从1个通道变成6个通道?

    一个通道是灰度图(28 * 28 * 1) 使用6个权重不同的卷积核分别对图像卷积操作,每个卷积核得到一个feature map特征图,则变成6个通道。

  3. 卷积只能做图像吗?可以做时序任务吗?

    没问题,二维卷积变成一维即可。

  4. sigmoid换成relu可以吗?替换之后为什么模型不收敛,有什么区别?

    sigmoid原Learning rate为0.9,后改为relu可以将Learning rate改为0.1,即可收敛,人工调参。

  5. 如何可视化网络学到的东西?

    CNN Explainer (poloclub.github.io)

    clicking on topmost first conv. layer activation map

    直接在网页中动态查看即可,十分直观。

  6. LeNet卷积层通道数扩大到了16,这意味着信息被放大了吗?

    • 通常,高宽减半,通道数加倍;

    • 每个通道对应一个独立的特征检测器(如边缘、纹理等模式识别),也就是说每个特征图可以看做某些特定模式的识别,特征图变小,但是通道数增多,意味着能识别这些模式的神经元变多了,并且一个位置能编码更丰富的语义信息。

  7. mlp和cnn使用哪个?

    数据不大mlp没问题,当然都可以尝试;数据集很大则放弃mlp,很有可能overfitting

AlexNet核心架构
  • 是更大更深的LeNet,10x参数个数,260x计算复杂度
  • 新加:dropout丢弃法,reLu,最大池化层,数据增强
  • AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。

在这里插入图片描述

AlexNet VS LeNet

左LeNet,右AlexNet

在这里插入图片描述

  1. AlexNet 池化层放到不同卷积层之后,效果一样吗?

    这个需要自己尝试。

  2. Local Response Normalizaon有什么意义?

    • 模拟神经元的侧抑制机制。其主要作用是增强局部区域内的激活响应,同时抑制周围区域的激活,以提高模型的感知能力。
    • LRN会增加计算复杂度和内存消耗,而对模型性能的提升有限
    • 其实LRN和ReLU作用相差不大,后面也没用LRN
  3. dropout有什么用?

    为了正则化,通过随机删除部分神经元的活动,来缓解模型的复杂性,防止过拟合

  4. 如果网络输入size固定,实际图片输入时会resize吗?

    不会,保持图片比例,垂直水平方向会切边。

  5. 为什么要有两个相同的Dense(4096)?

    两个较大的全连接层有较好的效果。

  6. 全连接层的参数量占据大多数,有什么必要作用?

    • 全连接层需要捕获整体结构的信息,在图像分类任务中,全连接层可以帮助识别图像的整体形状或颜色模式,而不是仅仅关注局部细节

    • 全连接层可以将多个不同层次的神经元(如卷积层中的各个池化层输出)通过线性变换连接起来。

  7. 为什么AlexNet新增加了3层384输出的卷积层,有什么道理?

    没有特别的原因,试出来性能好。

VGG核心架构

img

One VGG Block重复n次,每个Block包括以下序列:

  1. 带填充以保持分辨率的卷积层;3×3; pad 1
  2. 非线性激活函数,如ReLU;
  3. 汇聚层,如最大汇聚层;2×2;stride 2
参数计算:
  • 卷积层需要较少的参数:
    c i × c 0 × k 2 ( 输入通道 × 输出通道 × k e r n e l 大小 ) c_i×c_0×k^2 (输入通道×输出通道×kernel大小) ci×c0×k2(输入通道×输出通道×kernel大小)

  • 但卷积层后的第一个全连接层的参数

    • LeNet 16x5x5x120=48k
    • AlexNet 256x5x5x4096=26M
    • VGG 512x7x7x4096=102M
VGG VS AlexNet

在这里插入图片描述

**VGG16:**13卷积层+3全连接层

  1. 训练损失一直下降测试损失从开始起就一点不降成水平状是什么原因呢?

代码有问题;或者是过拟合overfitting了,测试集和训练集差距很大。

  1. 为什么VGG(1,1,224,224)的输入高宽减半后,通道数是64?

    通道数和高宽减半无关,通道数是人工设置的kernel数量(也就是该卷积层输出通道)

NiN核心架构
  • 无全连接层 参数少
  • 交替使用NiN块和步幅为2的最大池化层逐步减小高宽和增大通道数
  • 最后使用全局平均池化层得到输出其输入通道数是类别数
NiN VS VGG

在这里插入图片描述

  1. 一个超级宽的:单隐藏层难以训练是因为显存不够大吗?

    很容易过拟合。

  2. 全局池化层的设计是否很关键?

    代替全连接层,通道数不变,将卷积输出的feature mapping高宽变成1,把输入变小了,并且没有可学习的参数;将模型复杂度降低,提升泛化性,但是收敛变慢了,需要训练时长变长,但是精度会高一些。

  3. NiN Block为什么选用2个1×1Conv?

    可以试一下。。。

  4. 分类不用做softmax吗?

    softmax写在了交叉损失熵Loss函数中,不会出现在网络代码中

  5. 两个1×1Conv对每个像素增加了非线性性,为什么?

    • 1×1Conv 输入输出的宽高不变,通道数改变
    • 理解:将某一像素点视为样本,该像素点的通道视为特征的全连接。
    • 相当于2个隐含层的mlp,存在ReLU,增加了非线性性
ResNet核心架构

是否越深越好?
在这里插入图片描述

架构:左侧正常块,右侧残差块

  • ResNet残差块高宽减半 步幅2
  • 后接多个正常块

在这里插入图片描述

  • 残差块使得很深的网络更加容易训练甚至可以训练一千层的网络
  • 残差网络对随后的深层神经网络设计产生了深远影响,无论是卷积类网络还是全连接类网络。
  1. 为什么lenet batch size大于1000收敛会有问题?会有什么样的问题?nan还是?

    • 较大的batch size可以提高内存利用率,减少每个epoch所需的迭代次数,从而加快训练速度。然而,过大的batch size可能导致内存不足,影响训练效率
    • batch size大于1000可能会出现特征图相似情况,计算类似,影响收敛精度。
  2. f(x)=x+g(x),这样就能保证至少不会变坏吗?如果g(x)不是变好也不是什么都不干,而是变坏了呢?

    g(x)是训练出来的,如果不好,权重也就不会更新,通常情况不会使模型变坏。

  3. cos学习率会比step 或者固定学习率好吗?

    足够多的时间做微调。

  4. 测试精度一定比训练精度低吗?

    • 不一定,如果训练数据大量噪声,测试数据没有,测试精度可能会比训练精度高。

    • 训练噪音使得模型鲁棒性提高,泛化能力变强

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/966887.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构与算法(test2)

五、串 1. 串是由___零___个或___多____个字符组成的有限序列, 又称为___字符串________。 一般记为 S“a1a2.....an” (n > 0), 串中的字符数目n称为串的__长度_____,零个字符的串称为___空串_____. 定义中谈到的"有限"是指长度 n 是一个有限的数值…

Matplotlib基础01( 基本绘图函数/多图布局/图形嵌套/绘图属性)

Matplotlib基础 Matplotlib是一个用于绘制静态、动态和交互式图表的Python库,广泛应用于数据可视化领域。它是Python中最常用的绘图库之一,提供了多种功能,可以生成高质量的图表。 Matplotlib是数据分析、机器学习等领域数据可视化的重要工…

六种负载均衡算法

六种负载均衡算法对比:原理、优缺点及适用场景 负载均衡是分布式系统的核心技术之一,通过合理分配请求流量,确保服务器资源高效利用,提升系统的可用性和响应速度。不同的负载均衡算法适用于不同的场景,以下是六种常见…

公司配置内网穿透方法笔记

一、目的 公司内部有局域网,局域网上有ftp服务器,有windows桌面服务器; 在内网环境下,是可以访问ftp服务器以及用远程桌面登录windows桌面服务器的; 现在想居家办公时,也能访问到公司内网的ftp服务器和win…

Citespace之关键词爆发检测分析(进阶分析)

在开始citespace进行关键词爆发检测分析之前,如果不会使用citespace的,可以参考我之前这一篇博客: https://blog.csdn.net/m0_56184997/article/details/145536095?spm1001.2014.3001.5501 一、创建工程后进行设置 在创建好工程后&#xf…

【文献讲解】《Non-local Neural Networks》

一、引言 传统的深度学习方法(如卷积神经网络CNN和循环神经网络RNN)在捕捉长距离依赖关系时存在局限性。CNN主要关注局部邻域的特征,而RNN则依赖于序列的递归计算,无法直接捕捉全局信息。为了解决这一问题,本文提出了一种非局部神经网络(Non-local Neural Networks),通…

基于 Spring Cloud + Spring AI + VUE 的知识助理平台介绍以及问题

前言(一些废话) 在看这篇文章的各位大佬,感谢你们留出几分钟时间,来看这个产品介绍,其实重点说实话,不是这个产品怎么样。而是在最后有一个郁结在心里的几个问题,希望大佬们能给出一些建议。万…

IDEA安装离线插件(目前提供了MavenHelper安装包)

目录 1、离线安装方式2、Maven Helper 1、离线安装方式 首先访问 IDEA插件网站 下载离线插件安装包,操作如下: 然后打开IDEA的Settings配置,点击Plugins,点击右侧设置按钮(齿轮),选择Install P…

JVM的性能优化

1.方法内联 方法内联,是指 JVM在运行时将调用次数达到一定阈值的方法调用替换为方法体本身 ,从而消除调用成本,并为接下来进一步的代码性能优化提供基础,是JVM的一个重要优化手段之一。 注: C++的inline属于编译后内联,但是java是运行时内联 简单通俗的讲就是把方法内部调…

蓝桥杯小白打卡第四天

1221. 四平方和 问题描述 四平方和定理,又称为拉格朗日定理:每个正整数都可以表示为至多 4 个正整数的平方和。如果把 0 包括进去,就正好可以表示为 4 个数的平方和。 例如: (5 0^2 0^2 1^2 2^2)(7 1^2 1^2 1^2 2^2) …

【kafka系列】Topic 与 Partition

Kafka 的 Topic(主题) 和 Partition(分区) 是数据组织的核心概念,它们的映射关系及在 Broker 上的分布直接影响 Kafka 的性能、扩展性和容错能力。以下是详细解析: 一、Topic 与 Partition 的映射关系 Top…

哈佛大学“零点项目”(Project Zero)简介

哈佛大学“零点项目”(Project Zero)简介 起源与背景 “零点项目”(Project Zero)由美国哲学家纳尔逊古德曼(Nelson Goodman)于1967年在哈佛大学教育研究院创立。名称源于“从零开始研究艺术教育”的理念&…

【Java基础】为什么不支持多重继承?方法重载和方法重写之间区别、Exception 和 Error 区别?

Hi~!这里是奋斗的明志,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 🌱🌱个人主页:奋斗的明志 🌱🌱所属专栏:Java基础面经 📚本系列文章为个…

rebase和merge

rebase 和merge区别: rebase变基,改变基底:rebase会抹去提交记录。 git pull 默认merge,git pull --rebase 变基 rebase C、D提交属于feature分支,是基于master分支,在B提交额外拉出来的,当…

科研工作中如何高效利用LabVIEW

LabVIEW作为图形化编程语言,在科研领域广泛应用于数据采集、自动控制、信号处理等任务。如何充分发挥其优势,提高实验效率和数据可靠性,是科研工作者需要重点关注的问题。本文从软件架构、硬件选型、数据处理、调试优化等方面详细探讨LabVIEW…

MybatisPlus整合druid多数据源

1.引入依赖&#xff1a; <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.2.0</version> </dependency><dependency><groupId>com.baomidou</gro…

实验6 客户端和服务器之间IPsec VPN配置

实验6 客户端和服务器之间IPsec VPN配置 1.实验目的 通过在两台计算机间或客户端与服务器之间配置IPsec VPN连接&#xff0c;掌握IPsec VPN配置方法&#xff0c;加深对IPsec协议的理解。 2.实验内容 &#xff08;1&#xff09;在Windows Server系统中配置VPN服务器。 &#xf…

VirtualBox中Ubuntu 22.04网卡配置以及解决过程中遇到的问题

1.添加网卡(仅主机) 2.启动虚拟机&#xff0c;查看新添加网卡信息 #查看网卡 ip addr # 查看网络信息&#xff0c;发现新网卡(enp0s8)未分配 ifconfig -a3.使用netplan进行网络配置 3.1 配置 DHCP获取IP # 进入netplan 文件夹 cd /etc/netplan #查看文件夹下yaml ls -al # 编…

上拉触底案例

1.什么是上拉触底 2. 修改上拉触底距离的默认值 3.上拉触底案例 上拉触底时获取随机颜色 4.添加loading效果 展示loading效果 隐藏loading效果 5.节流处理 进行节流处理&#xff0c;防止多次触底的时候&#xff0c;一次请求多页数据&#xff0c;正在请求下一页数据的时…

AES200物理机部署DeepSeek-R1蒸馏模型

AES200物理机部署DeepSeek-R1模型 华为官方官宣自己的NPU支持DeepSeek-R1模型部署&#xff0c;华为的大模型推理部署依托于其大模型推理引擎&#xff1a;MindIE&#xff0c;但是根据MindIE的文档&#xff0c;其只支持以下硬件&#xff1a; 表1 MindIE支持的硬件列表 类型配置…