Vision Transfomer系列第二节---Tricks测试

目录

  • 学习式和固定式位置编码测试
  • dropout的作用测试
  • block深度的作用测试
  • embeding维度大小的作用测试
  • 多头的作用测试
  • Overlap Patch的作用

学习式和固定式位置编码测试

主要测试无位置编码\可学习位置编码和固定式位置编码的训练效果:
其中固定式位置编码采用之前博客的正余弦位置编码
无位置编码:

# input = input + self.pos_embed.to(input)

train: epoch=30, loss=0.523701012134552

可学习位置编码:

self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim))

train: epoch=31, loss=0.4830354154109955

固定式位置编码:

self.pos_embed = posemb_sincos_1d(len=num_patches + 1, dim=embed_dim,temperature=1000).unsqueeze(0)

train: epoch=30, loss=0.5667092204093933

目测位置编码好像没什么大作用???谁呢解释下

dropout的作用测试

这里主要测试attension矩阵后的dropout层.
该dropout层可以使得attension矩阵行方向随机赋0,其他除以drop概率,可以用于缓解 Vision Transformer 中的过拟合问题.

下面测试下dropout=0/0.25/0.5/0.75的训练效果.
dropout=0:

train: epoch=45, loss=0.3784039616584778
val: epoch=45, loss=0.24934779107570648, accuracy=0.9

dropout=0.25:

train: epoch=45, loss=0.38590484857559204
val: epoch=45, loss=0.24613243341445923, accuracy=0.906

dropout=0.5:

train: epoch=45, loss=0.48613107204437256
val: epoch=45, loss=0.30928316712379456, accuracy=0.876

dropout=0.75:

train: epoch=45, loss=0.4950393736362457
val: epoch=45, loss=0.36618882417678833, accuracy=0.852

初步来看一定程度地dropout有利于模型收敛,但是过大就会使得其反,因此我后面开始取p=0.1

block深度的作用测试

block作为transfomer类模型的核心组件,block的重复次数是一个超参数,直接影响到模型的深度和表达能力.
下面测试下depth分别为1/3/6/12/24的训练效果.
为了对比方便,下面我都用tensorboard可视化,为了训练快一点batch为8.
depth=1:
在这里插入图片描述
depth=3:
在这里插入图片描述
depth=6:

在这里插入图片描述
depth=12:
在这里插入图片描述

实验可知:block的重复次数过低会导致模型的表达能力不够;
过高会导致训练很慢,和过拟合(验证损失更早地上升),而且当表达能力足够后准确率并不会上升太多.因此后面开始我取depth=6

embeding维度大小的作用测试

在VIT中embeding维度可以理解为每一个图像块的编码维度
embeding维度大小和block的重复次数类似,可以直接影响到模型的表达能力.
下面测试下embeding dim分别为12/48/192/768的训练效果.
embeding dim=12:
在这里插入图片描述

embeding dim=48:
在这里插入图片描述

embeding dim=192:
在这里插入图片描述

embeding dim=768:

实验可知:embeding dim过小会导致模型的表达能力不够,具体表现为训练集损失下不去;
过大会导致训练很慢,而且当表达能力足够后准确率并不会上升太多.考虑到速度,因此后面开始我取embeding dim=192.

多头的作用测试

Multi-Head Attention的原理是通过将模型分为多个头,形成多个子空间,让模型关注不同方面的信息。每个头独立进行注意力运算,得到一个注意力权重矩阵。注意力矩阵完成不同块之间的交互,然后每个头之间通过cat和全连接进行交互.
下面测试下head_num分别为1/4/12/36的训练效果.

head_num=1
在这里插入图片描述

head_num=4
在这里插入图片描述

head_num=12
在这里插入图片描述
head_num=36
在这里插入图片描述

实验可知,适当的head_num可以提高模型的拟合能力,但是不是越多越好,需要根据任务的复杂情况和embeding维度去调整.本处实验其实效果不明显,可能是任务过于简单的原因.
在后面,我将会令head_num为4

Overlap Patch的作用

Overlap Patch指的是在切分图像为小块时,允许相邻的小块之间有重叠。这种重叠可以提高图像块之间的信息交互,可能会影响模型的性能和效果。这种trick在很多transfomer网络如EfficientViT,SwimTransfomer中都有应用.
非Overlap Patch:
卷积核大小是16,stride取16,padding取0,输入为224x224时,输出为14x14
在这里插入图片描述
Overlap Patch:
卷积核大小是20,stride取16,padding取2,输入为224x224时,输出也为14x14,但是相邻图像块之间有2圈像素的交集.
在这里插入图片描述
本处实验其实效果不明显

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/398420.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

组件嵌套-传递参数

组件嵌套 这里的嵌套,就相当于不同的界面组合进在外层的root界面。每个部分都是独立的。 数据传递(父→子) 理论上通过props可以传递任何类型的数据,需要注意的是,子组件可以接收父组件的值,不能父组件接收…

缓存驱动联邦学习架构赋能个性化边缘智能 | TMC 2024

缓存驱动联邦学习架构赋能个性化边缘智能 | TMC 2024 伴随着移动设备的普及与终端数据的爆炸式增长,边缘智能(Edge Intelligence, EI)逐渐成为研究领域的前沿。在这一浪潮中,联邦学习(Federated Learning, FL&#xf…

Java学习小记——设计模式

设计模式 设计模式简介Singleton模式Singleton模式简介Singleton的创建双重锁模式Double checked locking作为Java类的静态变量 变继承关系为组合关系组合模式装饰器模式 如何创建对象抽象工厂模式 设计模式简介 设计模式(Design pattern)代表了最佳的实…

C# OpenCvSharp DNN Low Light image Enhancement

目录 介绍 效果 模型信息 项目 代码 下载 C# OpenCvSharp DNN Low Light image Enhancement 介绍 github地址:https://github.com/zhenqifu/PairLIE 效果 模型信息 Model Properties ------------------------- ------------------------------------------…

Maven的初步认识

Maven 1,Maven 简介 Maven是Apache软件基金会的一个开源项目,是一个优秀的项目构建工具,他用来帮助开发者管理项目中的jar包以及jar之间的依赖关系,完成项目的编译,测试,打包发布等工作. Maven中的概念 pom(Project Object Model 项目对象模型) maven 管理项目的根目录下 都…

WebRTC最新版报错解决:FileNotFoundError: LASTCHANGE.committime (二十五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

【k8s初始化过程解析】

k8s初始化过程解析 [rootk8s-master ~]# kubeadm init –apiserver-advertise-address10.10.10.100 –image-repository registry.aliyuncs.com/google_containers –kubernetes-version v1.25.0 –service-cidr10.1.0.0/16 –pod-network-cidr10.2.0.0/16 –cri-socket …

PDF文件格式(二):交叉引用类型“O“

PDF交叉引用类型有三种:“n”,"f","o";前两种比较常见,本文介绍第三种“o”类型。 type为"o"类型的引用在PDF文件中不能够直接找到对应的obj,它被以压缩的形式内嵌在其他的obj内,因此此类型的引用…

GitCode配置ssh

下载SSH windows设置里选“应用” 选“可选功能” 添加功能 安装这个 坐等安装,安装好后可以关闭设置。 运行 打开cmd 执行如下指令,启动SSH服务。 net start sshd设置开机自启动 把OpenSSH服务添加到Windows自启动服务中,可避免每…

Sora会“杀死”剪映吗?

图片来源:pexels ▎留给张一鸣和张楠的时间不多了。 Sora的横空出世,对张一鸣来说,亦喜亦忧。 被OpenAI的ChatGPT震撼过一轮的AI大模型行业,又一次被这家公司推出的首个视频生成模型Sora震撼了一把。 不同于Runway、Pika等仅能生成不足10秒&…

Linux——信号(3)

经过前两部分的介绍,我们现在已经认识了信号是如何产生的,并且知道无 论信号是如何产生的,最终只能由操作系统来对特定进程发送信号,而发送 信号其实也就是写信号,往内核数据结构(pending表)中写…

第3.1章:StarRocks数据导入——Insert into 同步模式

一、概述 在StarRocks中,insert的语法和mysql等数据库的语法类似,并且每次insert into操作都是一次完整的导入事务。 主要的 insertInto 命令包含以下两种: insert into tbl select ...insert into tbl (col1, col2, ...) values (1, 2, ...…

Oracle 如何提高空间使用率?

一,行迁移和行链接。 oracle尽量保证一行的数据能够放在同一个数据块当中,有的时候行会发生行迁移和行链接。 行链接 :有一个列的字段是大对象(long,longlong)一行占的数据一整个块都放不下,则…

OpenCV统计函数之minMaxLoc和meanStdDev

在OpenCV中,minMaxLoc和meanStdDev是两个用于统计图像或数组中元素的基本特性的函数。这些统计函数对于图像处理、特征提取和数据分析非常有用。 minMaxLoc minMaxLoc函数用于查找数组或图像中的最小值和最大值,并可选地返回这些值的位置。这在处理图像…

【漏洞复现】大华DSS视频管理系统信息泄露漏洞

Nx01 产品简介 大华DSS数字监控系统是一个在通用安防视频监控系统基础上设计开发的系统,除了具有普通安防视频监控系统的实时监视、云台操作、录像回放、报警处理、设备治理等功能外,更注重用户使用的便利性。 Nx02 漏洞描述 大华DSS视频管理系统存在信…

.NET 9 首个预览版发布:瞄准云原生和智能应用开发

前言 前不久.NET团队发布了.NET 9 的首个预览版,并且分享.NET团队对 .NET 9 的初步愿景,该愿景将于今年年底在 .NET Conf 2024 上发布。其中最重要的关注领域是:云原生和智能应用开发。 云原生开发人员平台 过去几年,.NET团队一直…

探索 LRU 算法的缺陷与解决方案

LRU算法 Linux 的 Page Cache 和 MySQL 的 Buffer Pool 的大小是有限的,并不能无限的缓存数据,对于一些频繁访问的数据我们希望可以一直留在内存中,而一些很少访问的数据希望可以在某些时机可以淘汰掉,从而保证内存不会因为满了而…

conda 进入python环境里pip install安装不到该环境或不生效

参考:https://blog.csdn.net/weixin_47834823/article/details/128951963 https://blog.51cto.com/u_15060549/4662570?loginfrom_csdn 1、直接进入python Scripts目录下安装 cmd打开运行窗口,cd切换路径至指定虚拟环境下的Scripts路径后再pip安装 擦…

08-静态pod(了解即可,不重要)

我们都知道,pod是kubelet创建的,那么创建的流程是什么呐? 此时我们需要了解我们k8s中config.yaml配置文件了; 他的存放路径:【/var/lib/kubelet/config.yaml】 一、查看静态pod的路径 [rootk8s231 ~]# vim /var/lib…

SQL笔记-多表查询(合并记录新增字段)

比如要统计2张表的所有数据,这两张表无关联关系,统计的数据需要在同一行: SELECT (SELECT COUNT(*) FROM reptile_csdn_article) AS table1_count, (SELECT COUNT(*) FROM reptile_tag_type) AS table2_count 运行截图如下: 大于…