论文解读:SwinTransformer-减少Q、K、V的运算规模

概述以及要解决的问题

什么是Bankbone:不论什么模型,用这个backbone提特征,效果大概率非常好

直接套用在各种下游任务中

要解决的问题:

一个block要完成的任务

整体网络架构

H*W*3卷积->还是H*w*3->对应H*w的特征图的,取4*4的小正方型resize为一维向量(长度为16),总16个(H/4)*(H/4)

之后考虑上channel=3,故一维向量长度应为16*3=48,故此时有的特征为(H/4)*(H/4)*48

下面为swin transformer blocks

获取各窗口输入特征

Patch Embedding

卷积输出的特征图的channel设置了96(自己小模型训练,也可以设置低一些)

window_partition

基于窗口的注意力机制解读

W-MSA(Window Multi-head Self Attention)

窗口偏移操作的实现、细节及其计算量的概述

window_reverse

下面猫中的偏移:

将c图黄色的部分往上3格,往左3格;而之前红色、蓝色以及灰色的小方块都放在整个图中的右下角,如d图中所示

SW-MSA(Shifted Window)

Tips:值得注意的地方

参考文章:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows - 知乎

值得注意的是,虽然只是得到蓝色窗口内的patch之间的联系,但别忘了,蓝色窗口左边四个patch(位于第一行左边的窗口)在上一个block中已经获得与红色窗口内其它patch之间的联系,于是红色窗口内其它patch与蓝色窗口右边四个patch(位于第一行右边的窗口)之间也可以获得联系(好比知道A和B的关联方式,B和C的关联方式,那就可以知道A和C的关联方式)。进一步,蓝色窗口右边四个patch与绿色窗口内其他patch已有联系,那么蓝色窗口左边四个patch和绿色窗口其他的patch也可以获得联系。再进一步,可以获得红色窗口内的patch与绿色窗口内的patch之间的联系。实际上当然了,这肯定没有计算完整窗口直接获得各个patch间的联系的方式好,不过移动窗口的方式至少能让模型感知到不同窗口间patch的联系(这种联系得通过传递来感知,没有全局计算好)。

整体网络结构整合

位移中的细节

SW-MSA做完偏移之后,继续做W-MSA(多了一个mask机制)

下采样操作实现方法

分层计算方法

参考文章

📎Swin Transformer.pdf

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/260634.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

创建基于 GBASE南大通用数据源的数据连接

此章节主要介绍如何在 Visual Studio 开发工具的‚服务器资源管理器‛窗口中创建基于 GBASE南大通用数据源的数据连接。如果‚服务器资源管理器‛在 Visual Studio 开发工具打开后没有激活,可以选择‚视图‛菜单中的‚服务器资源管理器‛,如下图 9-1 所示…

JDBC的使用

目录 JDBC简介 JDBC的使用 JDBC简介 JDBC(Java DataBase Connectivity)是用Java操作数据库的一套API。 sun公司官方定义的一套操作所有关系型数据库的规范,即接口。各个数据库厂商去实现这套接口,提供数据库驱动jar包。我们可以使用这套接口(JDBC)来编…

云原生系列2-CICD持续集成部署-GitLab和Jenkins

1、CICD持续集成部署 传统软件开发流程: 1、项目经理分配模块开发任务给开发人员(项目经理-开发) 2、每个模块单独开发完毕(开发),单元测试(测试) 3、开发完毕后,集成部…

最大化控制资源成本 - 华为OD统一考试

OD统一考试 题解: Java / Python / C++ 题目描述 公司创新实验室正在研究如何最小化资源成本,最大化资源利用率,请你设计算法帮他们解决一个任务分布问题:有taskNum项任务,每人任务有开始时间(startTime) ,结更时间(endTme) 并行度(paralelism) 三个属性,并行度是指这个…

ELFK日志收集

文章目录 第一章:ELK日志收集系统介绍日志收集重要性ELK介绍EFK介绍ELFK介绍ES部署Kibana部署第二章:Logstach日志收集Logstash介绍Logstash安装Logstash Input输入插件Logstash Filter过滤插件Logstash Output输出插件Input fileFilter mutatesplit示例add_field示例remove_…

kettle查库组装参数循环调用第三方接口入库

需求:需要通过查询数据库表组装第三方接口和参数,挨个调用接口获取数据入库,相当于一个小爬虫 创建JOB 勾选执行每次相当于对查出的结果集进行循环,然后每条数据去调用接口查询入库 创建转化 查表获取参数组装部分常量参数 字段选…

HTML+CSS做一个冰立方体时钟

文章目录 💕效果展示💕代码展示HTMLJS💕效果展示 💕代码展示 HTML <!DOCTYPE html> <html lang

改变传媒格局的新趋势

在如今信息高速发展的时代&#xff0c;人们早已进入了一个以手机为中心的智能化时代。随着科技的迅猛发展&#xff0c;手机无人直播成为了一种新兴的传媒形态&#xff0c;正逐渐改变着传媒格局。本文将从手机无人直播的定义、发展背景和影响等方面进行探讨。 首先&#xff0c;…

力扣题目学习笔记(OC + Swift)17. 电话号码的字母组合

17. 电话号码的字母组合 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对应任何字母。 关键字&#xff1a;所有组合 模式识别&#xff1a…

【SpringBoot】之Security集成使用(入门级)

&#x1f389;&#x1f389;欢迎来到我的CSDN主页&#xff01;&#x1f389;&#x1f389; &#x1f3c5;我是君易--鑨&#xff0c;一个在CSDN分享笔记的博主。&#x1f4da;&#x1f4da; &#x1f31f;推荐给大家我的博客专栏《SpringBoot开发之Mybatis-Plus系列》。&#x1…

TCAX特效字幕保姆入门教程+效果演示+软件源码自取

目录 介绍 下载链接 初步使用 软件使用 tcc文件介绍 tcc文件版本 模式设置 ​编辑 k值提供方式举例 特效脚本设置 主要设置 ass全局风格设置 额外设置 常见问题 编码使用 使用其他tcax博主的进行编码测试 介绍 TCAX是一款专门用于制作特效字幕的软件。通过TCAX…

系列十一(面试)、如何查看JVM的参数?

一、查看JVM的参数 1.1、概述 上篇文章介绍了JVM的参数类型&#xff0c;通过jinfo可以查看JVM的默认参数&#xff0c;本章介绍另外一种查看JVM参数的方式。 1.2、 分类 JVM中提供了三种方式查看JVM的参数信息&#xff0c;这三种方式又分为两类&#xff0c;即&#xff1a;查看默…

【点选验证码识别】某招标网站反爬虫分析与验证码自动识别

文章目录 1. 写在前面2. 风控描述3. 验证码裁剪4. 验证码识别 【作者主页】&#xff1a;吴秋霖 【作者介绍】&#xff1a;Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作&#xff01; 【作者推荐】&#xff1a;对JS逆向感兴趣…

Screen记录窗口输出日志

screen是Linux窗口管理器&#xff0c;用户可以建立多个screen会话&#xff0c;每个screen会话又可以建立多个window窗口&#xff0c;每一个窗口就像一个可操作的真实的ssh终端一样。 screen详解&#xff1a;http://www.linuxidc.com/Linux/2013-10/91612.htm Linux Screen超简…

JetBrains AI Assistant 最佳平替方案来了

先看看官方推荐 JetBrains IDE 中的 AI 助手 除了你自己&#xff0c;谁最了解你的项目&#xff1f;你的IDE&#xff01;这就是为什么 AI Assistant 可以如此具有上下文感知能力和帮助性的原因。 JetBrains AI 服务采用不同的大型语言模型 &#xff08;LLM&#xff09;&#xf…

遥感影像正射校正

原始的遥感影像是没有坐标和投影信息的&#xff0c;其实就是一张图片&#xff0c;当做后续一些处理时&#xff0c;尤其是遥感地信方向后续应用中会涉及很多叠加分析&#xff0c;比如同一个地区的影像不同年份的叠加&#xff0c;但是影像大小又不能保证大小一致&#xff0c;因此…

Talk | 约翰霍普金斯大学博士生魏晨: De-Diffusion-文本是不同模态的沟通桥梁

本期为TechBeat人工智能社区第557期线上Talk。 北京时间12月20日(周三)20:00&#xff0c;约翰霍普金斯大学博士生—魏晨的Talk已准时在TechBeat人工智能社区开播&#xff01; 她与大家分享的主题是: “De-Diffusion-文本是不同模态的沟通桥梁题”&#xff0c;介绍了她的团队在如…

【设计模式--结构型--代理模式】

设计模式--结构型--代理模式 代理模式概述结构静态代理案例&#xff1a;卖车票jdk动态代理cglib代理三种代理对比优缺点使用场景 代理模式 概述 由于某些原因需要给某对象提供一个代理以控制该对象的访问。这时&#xff0c;访问对象不适合或者不能直接引用目标对象&#xff0…

Postgresql中PL/pgSQL的游标、自定义函数、存储过程的使用

场景 Postgresql中PL/pgSQL代码块的语法与使用-声明与赋值、IF语句、CASE语句、循环语句&#xff1a; Postgresql中PL/pgSQL代码块的语法与使用-声明与赋值、IF语句、CASE语句、循环语句-CSDN博客 上面讲了基本语法&#xff0c;下面记录游标、自定义函数、存储过程的使用。 …

智能化物联网(IoT):发展、问题与未来前景

导言 智能化物联网&#xff08;IoT&#xff09;作为信息技术领域的一项核心技术&#xff0c;正在深刻改变人们的生活和工作方式。本文将深入研究IoT的发展过程、遇到的问题及解决过程、未来的可用范围&#xff0c;以及在各国的应用和未来的研究趋势。探讨在哪些方面能够取得胜利…