SepViT: Separable(分离式) Vision Transformer

        Vision Transformers(ViT)在一系列的视觉任务中取得了显著的成功。然而,这些Transformer模型通常依赖大量的计算成本来实现高性能,这使得在资源受限的设备上部署它们变得非常困难。研究者们从深度可分离卷积(depthwise separable convolution)中汲取经验,并模仿其设计理念,设计了一个高效的Transformer主干网络,即Separable Vision Transformer,简称SepViT。

        SepViT使用深度可分离自注意力(depthwise separable self-attention)机制来帮助在窗口内部和窗口之间按顺序执行局部-全局的信息交互。这种方法通过两种新的技术来实现:

  • 窗口标记嵌入(window token embedding):以可忽略的成本计算窗口之间的注意力关系。
  • 分组自注意力(grouped self-attention):在多个窗口之间建立长距离的视觉交互。

1. 引言

        ViT将Transformer引入到图像识别任务中。它将整个图像分割成补丁(小块),并将每个补丁作为令牌提供给Transformer。然而,基于补丁的Transformer由于计算效率低下的全注意机制而难以部署。

        为了解决这一问题,Swin (Liu et al . 2021)提出了基于窗口的自注意,以限制非重叠子窗口的自注意计算。显然,基于窗口的自关注在很大程度上降低了复杂性,但在窗口之间建立连接的算子移位给 ONNX 或 TensorRT 的部署带来了困难。

        ONNX(Open Neural Network Exchange)是一个用于表示深度学习模型的开放格式,它使得模型可以在不同的框架和硬件之间轻松转移。

        TensorRT是NVIDIA的一个高性能深度学习推理优化器和运行时,它用于NVIDIA GPU的推理加速。

        Twins (Chu et al . 2021a)利用基于窗口的自注意和来自PVT的空间缩减注意(Wang et al . 2021c),提出了空间可分离的自注意。虽然Twins是部署友好的,并且取得了出色的性能,但它的计算复杂度很难降低。CSWin (Dong et al . 2021)通过新颖的十字形窗口自关注显示了最先进的性能,但其吞吐量较低。

        为了克服上述问题,提出了一种高效的 Transformer 主干,称为可分离视觉变压器(SepViT),它可以按顺序捕获本地和全局依赖关系。SepViT的一个关键设计元素是其深度可分离的自注意模块。受MobileNets中的深度可分离卷积的启发,重新设计了自注意力模块,并提出了深度可分离自注意力,它由深度自注意(PSA)和点自注意(PSA)组成,分别对应于MobileNets中的深度和点卷积。

         深度自注意力用于捕获每个窗口内的局部特征,而点向自注意力用于建立窗口之间的联系,显著提高了表达能力。此外,为了获得局部窗口的全局表示,开发了一种新的窗口令牌嵌入方法,该方法用于计算窗口间的注意关系。此外,还将AlexNet (Krizhevsky, Sutskever, and Hinton 2012)的分组卷积思想扩展到我们的深度可分离自注意中,并提出了分组自注意力,以进一步提高性能。

1.1 主要贡献

        设计了一种轻量级而高效的深度可分离自注意,并将其扩展到分组自注意,实现了单个Transformer块中窗口内部和窗口之间的信息交互。

        提出了窗口令牌嵌入来学习每个窗口的全局特征表示,用于在计算成本可以忽略的情况下建立窗口之间的注意关系。

        提出了一种高效的可分离视觉变压器(SepViT),它在各种视觉任务的性能和延迟之间实现了最先进的权衡。

2. 相关工作

2.1 Vision Transformer 

        Vision Transformer是在ViT (Dosovitskiy et al . 2020)诞生时首次进入我们的视野,并在分类任务上取得了优异的表现。基于ViT的一系列视觉变压器相继诞生,如DeiT (Touvron et al . 2021)、T2T (Yuan et al . 2021)、TNT (Han et al . 2021)、CPVT (Chu et al . 2021b)等。随后,PVT (Wang et al . 2021c)和Swin (Liu et al . 2021)同步提出了适合于对象检测、语义和实例分割等密集预测任务的分层结构。同时,Swin (Liu et al . 2021)作为先驱提出了基于窗口的自注意力来计算局部窗口内的注意力。不久之后,Twins (Chu et al . 2021a)和CSWin (Dong et al . 2021)相继提出了基于层次结构的空间可分自注意和十字形窗口自注意。

        另一方面,一些研究人员将CNN的空间归纳偏差纳入Transformer中。CoaT (Xu et al . 2021)、CVT (Wu et al . 2021)和

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/792086.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

构建高质量数据集与智能数据工程平台:播客AI Odyssey深度对话实录

对话整数智能联创和前IDEA研究员:构建高质量数据集与智能数据工程平台 - AI Odyssey | 小宇宙 - 听播客,上小宇宙 人工智能技术的日益深远发展,对人工智能的性能提升与技术迭代提出了新的要求。在大模型训练中,已有的研究和实践表…

机器学习笔记之监督学习

基本概念 用于训练模型的数据集称为:训练集 成本函数/代价函数:指示模型的运行情况,用于衡量训练数据与该直线的拟合程度。将预测值和目标值做差,该差值也被称为“损失值”。 例如我们需要计算平均的平方误差来衡量 成本函数/…

数字信号处理及MATLAB仿真(5)——z变换

采样的其他概念咱们后面再慢慢的讲述吧,先把z变换的程序给大家展示一下,总的来说呢,就用一个函数——ztran就行了。在 MATLAB 中,可以使用 ztrans 函数来进行 Z 变换。ztrans 函数用于对离散时间信号或系统进行 Z 变换&#xff0c…

Linux防火墙-Netfilter和iptables

文章目录 防火墙概述Netfilternetfilter五个勾子函数三种报文流向 iptables的组成五表table五链chainiptables规则添加时考量点实验:控制某个主机谁可以访问谁不能访问1.实验环境准备2.iptables命令格式详解:3.拒绝某个服务器ping 防火墙概述 防火墙&am…

安泰电压放大器的选型方案是什么

电压放大器是一种常见的电路元件,广泛应用于各种电子设备中。在选择电压放大器的时候,我们需要考虑一系列因素,以确保选型方案能够满足实际需求。下面安泰电子将详细介绍电压放大器选型的主要考虑因素,包括应用需求、技术性能、成…

Backend - visual studio 安装配置运行

目录 一、安装 (一)visual studio的内存需求很大! (二)自定义工具和SDK的安装位置 1. 菜单栏搜索regedit,进入注册表编辑器 2. 修改SharedInstallationPath项的路径 3. 重启电脑 4. 重新打开visual studio …

EtherCAT笔记(六)—— 分布时钟之一

目录 1. 分布时钟的功能 2. 分布时钟涉及到的概念 2.1 系统时间 2.2 参考时钟 & 从时钟 2.3 主站时钟 2.4 本地时钟 2.4.1 本地时钟的初始偏移量 2.4.2 本地时钟的时钟漂移 2.5 本地系统时间 2.6 传输延时 人们理解知识的一个阻碍就是那些从没见过的概念和这些概念的随意使…

Vue2/Vue3实现全局/局部添加防篡改水印的效果。删除元素无效!更改元素属性无效!支持图片、元素、视频等等。

水印目的 版权保护:水印可以在图片、文档或视频中嵌入作者、品牌或版权所有者的信息,以防止未经授权的复制、传播或使用。当其他人使用带有水印的内容时,可以追溯到原始作者或版权所有者,从而加强版权保护。 身份识别:水印可以用作作者或品牌的标识符,使观众能够轻松识…

Web 基础与HTTP 协议

域名的概述 (1 )域名的结构 (2 )域名结构类型 根域:指的是根服务器,要用来管理互联网的主目录,全世界只有13台。1个为 主根服务器,放置在美国。其余12 个均为辅根服务器,其中9个放置在美国;欧 洲2个&…

一文清晰了解表格表单

一、表格 要想实现下述内容&#xff1a; 代码如下&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"GBK"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><…

无线LED显示屏:信息传播新潮流

随着信息技术的飞速发展&#xff0c;无线LED显示屏以其独特的优势在信息传播领域崭露头角。本文将详细介绍无线LED显示屏的特点及其在现代信息传播中的作用。 组网规模的无限可能 无线LED显示屏通过GSM、GPRS、CDMA、3G等无线网络实现信息的远程、实时发布&#xff0c;采用TCP/…

cadence23中 PCB Editer导入元器件

cadence的文件架构&#xff1a; 1 .dra文件是元器件封装的可编辑文件 2 .psm是cadence元器件封装的cadence的识别文件&#xff0c;cadence只识别.psm,不识别.dra 3..dra是元器件的封装文件&#xff0c;由.pad焊盘文件和丝印组成 .dra .psm文件放在一个文件夹中&#xff0c;…

31. 1049. 最后一块石头的重量 II, 494.目标和,474.一和零

class Solution { public:int lastStoneWeightII(vector<int>& stones) {int sum 0;for(int stone : stones) sum stone;int bagSize sum /2;vector<int> dp(bagSize 1, 0);for(int i 0; i < stones.size(); i){ //遍历物品for(int j bagSize; j >…

迅为RK3588S开发板广泛用于边缘技术,人工智能,智能家居,智慧零售,智能网关等

性能强 iTOP-3588S开发板采用瑞芯微RK3588S处理器&#xff0c;是全新一代AloT高端应用芯片&#xff0c;搭载八核64位CPU&#xff0c;四核Cortex-A76和四核Cortex-A55架构主频高达2.4GHZ&#xff0c;8GB内存&#xff0c;32GBEMMC。 四核心架构GPU内置GPU可以完全兼容0penGLES1.1…

动漫3d模型设计需要注意什么?---模大狮模型网

设计动漫3D模型时&#xff0c;有几个方面需要注意&#xff1a; 保持角色风格一致性&#xff1a; 动漫通常有独特的风格和美学&#xff0c;设计时要确保模型与所代表的角色或作品的整体风格相符。注意保持线条和比例的一致性&#xff0c;使模型能够忠实地呈现原作的特点。 注重…

c++初阶学习----入门(下)

承接上篇&#xff0c;我们在上一篇博客中提及过&#xff0c;我们c入门还有一些。这一篇博客会着重写重载和引用。当然还会有一些其他的知识点。但是大家主要是需要了解这两个重点。好&#xff0c;那么我们马上来讲讲今天的主题。 引用 引用的含义 好我们还是先看含义引⽤不是…

【GreenHills】GHS-Servecode的查看和说明

【更多软件使用问题请点击亿道电子官方网站】 1、 文档目标 在Green Hills客户申请license试用以及正式文件的Servecode编号会有不同&#xff0c;该文档对此进行说明并如何主动查看Servecode&#xff0c;并且说明Servecode的类别&#xff0c;通过Servecode了解客户授权情况。 …

【鸿蒙学习笔记】使用axios进行HTTP数据请求

官方文档&#xff1a;网络管理开发概述 目录标题 访问淘宝公开接口&#xff08;测试数据&#xff09;第1步&#xff1a;module.json5 配置网络授权第2步&#xff1a;下载axios第3步&#xff1a;源码第4步&#xff1a;启动模拟器第5步&#xff1a;启动entry第6步&#xff1a;操…

ChIP项目文章CMI(IF=24.1)|IRF1激活可促进辐射诱导的细胞死亡和炎症反应

2024年6月7日&#xff0c;四川大学张舒羽教授团队在Cellular & Molecular Immunology&#xff08;IF24.1&#xff09;期刊上发表了题为“Chaperone-and PTM-mediated activation of IRF1 tames radiation-induced cell death and inflammation response”的文章&#xff0c…

专注于国产FPGA芯片研发的异格技术Pre-A+轮融资,博将控股再次投资

近日&#xff0c;苏州异格技术有限公司&#xff08;以下简称“异格技术”&#xff09;宣布成功完成数亿元的Pre-A轮融资&#xff0c;由博将控股在参与Pre-A轮投资后&#xff0c;持续投资。这标志着继2022年获得经纬中国、红点中国、红杉中国等机构数亿元天使轮融资后&#xff0…