视觉Transformer和Swin Transformer

视觉Transformer和Swin Transformer

article2025/1/12 16:39:24/文章来源:https://blog.csdn.net/qq_47896523/article/details/137245946

视觉Transformer概述

ViT的基本结构：

①输入图片首先被切分为固定尺寸的切片；

②对展平的切片进行线性映射（通过矩阵乘法对维度进行变换）；

③为了保留切片的位置信息，在切片送入Transformer编码器之前，对每个切片加入位置编码信息；

④Transformer编码器由L个Transformer模块组成，每个模块由层归一化（LN）、多头自注意力模块（MHSA）、多层感知机（MLP）及残差连接等构成；

多层感知机（MLP）https://blog.csdn.net/JasonH2021/article/details/131021534

其中， $z_{l}^{'}$ 和 $z_{l}$ 分别表示第 $l$ 个模块中MHSA和MLP的输出特征

$z_{l}^{'}=MSA(LN(z_{l-1}))+z_{l-1}$

$z_{l}=MLP(LN(z_{l}^{'}))+z_{l}^{'}$

由于ViT关注分类问题，编码器的输出只关注最后一个Transformer模块的MLP头部信息， $y=LN(z_{L}^{0})$ 。只有在大规模数据集上进行预训练再迁移到中小规模数据集的条件下，ViT才能取得与当时最新卷积结构媲美的性能。

Swin Transformer

最大的贡献在于降低了self-attention的计算复杂度。

Swin Transformer在视觉Transformer的基础上引入了移动窗口（shifted windows）机制，采用“分而治之”的思想，将自注意力的计算限制在各个窗口内从而使得模型只有和输入图片尺寸相关的线性复杂度。

连续Swin Transformer块

其在Transformer编码器基础上，将对头自注意力模块（MHSA）替换为常规窗口多头自注意力（W-MHSA）和移动窗口多头自注意力（SW-MHSA）模块。

$\hat{z}^{l}=W-MHSA(LN(z^{l-1}))+z^{l-1}$

$z^{l}=MLP(LN(\hat{z}^{l}))+\hat{z}^{l}$

$\hat{z}^{l+1}=SW-MHSA(LN(z^{l}))+z^{l}$

$z^{l+1}=MLP(LN(\hat{z}^{l+1}))+\hat{z}^{l+1}$

其中， $\hat{z}^{l}$ 和 $z^{l}$ 分别表示第 $l$ 个模块中（S）W-MSA和MLP的输出特征

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/511029.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

基于vue实现动态table

基于vue实现动态table

1、代码 <div style"height: 600px; overflow: scroll;"> <div ng-repeat"row in entity.procedureList"><cb-title title"工序{{row.procedireLocation}}&quo…

阅读更多...

【保姆级讲解下MySQL中的drop、truncate和delete的区别】

【保姆级讲解下MySQL中的drop、truncate和delete的区别】

🌈个人主页:程序员不想敲代码啊 🏆CSDN优质创作者，CSDN实力新星，CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共…

阅读更多...

【面试八股总结】传输控制协议TCP（三）

【面试八股总结】传输控制协议TCP（三）

参考资料 ：小林Coding、阿秀、代码随想录一、TCP拥塞控制⭐ 1. 慢启动 – Slow Start 慢启动是指TCP连接刚建立，一点一点地提速，试探一下网络的承受能力，以免直接扰乱了网络通道的秩序。慢启动算法： 初始拥塞窗口…

阅读更多...

OpenCV项目实战-深度学习去阴影-图像去阴影

OpenCV项目实战-深度学习去阴影-图像去阴影

往期热门博客项目回顾： 计算机视觉项目大集合改进的yolo目标检测-测距测速路径规划算法图像去雨去雾目标检测测距项目交通标志识别项目 yolo系列-重磅yolov9界面-最新的yolo 姿态识别-3d姿态识别深度学习小白学习路线 //正文开始！ 图…

阅读更多...

NoSQL（非关系型数据库）之Redis的简介与安装

NoSQL（非关系型数据库）之Redis的简介与安装

一、简介 1.1 关系型数据库与非关系型数据库 1.1.1 概念 1.1.2 区别 1.2 非关系型数据库产生背景 1.3 redis 简介 1.4 redis 优点 1.5 redis 快的原因二、安装 2.1 关闭核心防护 2.2 安装相关依赖 2.3 解压软件包并进行编译安装 2.4 设置 Redis 服务所需相关配置文…

阅读更多...

聚道云软件连接器：助力企业财务效率提升的成功案例

聚道云软件连接器：助力企业财务效率提升的成功案例

客户介绍某公司是一家实力雄厚的综合性企业，自成立以来，公司始终秉持着创新、务实、高效的经营理念，深耕多个领域，不断拓展业务版图，逐渐发展成为业界翘楚。公司经营范围广泛，涵盖了科技研发、生产制造、…

阅读更多...

【保姆级讲解下Docker容器】

【保姆级讲解下Docker容器】

🌈个人主页:程序员不想敲代码啊 🏆CSDN优质创作者，CSDN实力新星，CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共…

阅读更多...

数据分析：品牌如何借势小红书热点？

数据分析：品牌如何借势小红书热点？

导语近期，一碗麻辣烫，让甘肃天水成为了不少人旅行计划单上的榜首，各地食客心甘情愿地排队5、6个小时，赶赴一场“麻辣烫之约”。千瓜数据，近30天浏览量破500W，且增势迅猛。图 | 千瓜数据去有人的地方 &…

阅读更多...

YOLOv8全网独家改进: 小目标 | 注意力 |卷积和注意力融合模块(CAFMAttention) | 2024年4月最新成果

YOLOv8全网独家改进: 小目标 | 注意力 |卷积和注意力融合模块(CAFMAttention) | 2024年4月最新成果

💡💡💡本文独家改进：卷积和注意力融合模块(CAFMAttention)，增强对全局和局部特征的提取能力，2024年最新的改进思路 💡💡💡创新点：卷积和注意力巧妙设计 💡💡💡如何跟YOLOv8结合：1）放在backbone后增强对全局和局部特征的提取能力；2）放在detect前面，增…

阅读更多...

从《布瓦尔与佩库歇》实践中学习社会科学概论

从《布瓦尔与佩库歇》实践中学习社会科学概论

从《布瓦尔与佩库歇》实践中学习社会科学概论前情提要《布瓦尔与佩库歇》实践笔记云藏山鹰社会科学概论报告核心--信息形数身知™意合™意气实体过程意气实体过程宇宙学诠释™ 社会科学概论花间流风版导读，马斯克风格演讲[ 一尚韬竹团队供稿；] 内容展开…

阅读更多...

带合并行、分组表头和分组表格导出excel

带合并行、分组表头和分组表格导出excel

目录一、实现思路二、实现 1.引入js 2.数据处理。 3.合并行，根据vxe-table的span-method方法做合并行和列 4.点击导出按钮，调用导出方法 vue项目里面的一个需求，需要导出一个excel表格，数据源是后端返回的json&#xff…

阅读更多...

寻找适合您的舒适防静电鞋：从安全到舒适的选择指南

寻找适合您的舒适防静电鞋：从安全到舒适的选择指南

在工作环境中，我们时常面临着各种各样的安全隐患，其中静电可能是其中之一。静电不仅会给我们带来不便，还可能引发严重的安全问题，甚至导致火灾或爆炸。因此，选择适合的防静电鞋成为了我们十分关注的话题。舒适性与安…

阅读更多...

获取用户位置数据，IP定位离线库助您洞悉消费者需求

获取用户位置数据，IP定位离线库助您洞悉消费者需求

获取用户位置数据是现代互联网应用中非常重要的一环。通过获取用户的位置数据，可以了解用户所在的地理位置，从而更好地为用户提供个性化的服务和推荐。而IP归属地离线库就是一种非常有用的工具，可以帮助企业准确地获取用户的位置信息。 IP归…

阅读更多...

WebKit揭秘：从内部结构到应用程序开发

WebKit揭秘：从内部结构到应用程序开发

文章目录 WebKit结构简介核心模块其他组件多进程架构（WebKit2） Wekbit做了什么？应用程序如何利用 Webkit WebKit结构简介 WebKit是一个开源的浏览器引擎，它由多个模块组成，这些模块协同工作以提供Web内容的渲染和交互…

阅读更多...

电商技术揭秘四：电商平台的物流管理系统

电商技术揭秘四：电商平台的物流管理系统

文章目录引言一、物流管理系统的功能与架构1.1 物流管理系统在电商平台中的作用概述保障订单的及时配送优化库存管理控制运营成本提升客户服务水平支持数据驱动的决策应对市场变化 1.2 订单处理功能分析自动化处理流程订单分配与履行错误检测与处理机制实时订单状态更新订单数…

阅读更多...

Hi3861 OpenHarmony嵌入式应用入门--鸿蒙开发环境搭建

Hi3861 OpenHarmony嵌入式应用入门--鸿蒙开发环境搭建

目录简介准备材料安装开发环境配置开发工具和sdk 新建工程代码编译简介本篇将进行hi3861开发环境的搭建，并能够编译默认工程。准备材料华为集成开发环境工具DevEco Device Tool 华为集成开发环境IDE DevEco Device Tool下载 | HarmonyOS设备开发 …

阅读更多...

C语言练习题

目录 1.统计二进制中1的个数方法1 方法2 方法3 2.求两个数二进制中不同位的个数方法1 方法2 3.打印整数二进制的奇数位和偶数位 4.用“ * ”组成的X形图案 5.根据年份和月份判断天数 6.结语 1.统计二进制中1的个数【题目内容】写一个函数返回参数二进制中 1 的个…

阅读更多...

C++语言学习（三）——内联函数、auto、for循环、nullptr

C++语言学习（三）——内联函数、auto、for循环、nullptr

1. 内联函数 （1）概念以inline修饰的函数叫做内联函数，编译时C编译器会在调用内联函数的地方展开，没有函数调用建立栈帧的开销，内联函数提升程序运行的效率。内联函数是一种编译器指令，用于告诉编译器…

阅读更多...

开源AGV调度系统OpenTCS中的任务分派器(dispatcher)详解

开源AGV调度系统OpenTCS中的任务分派器(dispatcher)详解

OpenTCS中的任务分派器dispatcher详解 1. 引言2. 任务分派器(dispatcher)2.1 默认的停车位置选择2.2 可选停车位置属性2.3 默认的充电位置选择2.4 即时运输订单分配 3. 默认任务分派器的配置项4. 参考资料与源码 1. 引言 openTCS是一项著名的开源运输控制系统，我在…

阅读更多...

OpenHarmony实战：轻量级系统之子系统移植概述

OpenHarmony实战：轻量级系统之子系统移植概述

OpenHarmony系统功能按照“系统 > 子系统 > 部件”逐级展开，支持根据实际需求裁剪某些非必要的部件，本文以部分子系统、部件为例进行介绍。若想使用OpenHarmony系统的能力，需要对相应子系统进行适配。 OpenHarmony芯片适配常见子系统列…

阅读更多...

最新文章