自注意力与卷积高效融合!多SOTA、兼顾低成本与高性能

自注意力机制中,模型计算输入序列中不同位置的相关性得分,以生成连接权重,从而关注序列中的重要部分。而卷积通过滑动窗口的方式,在输入上应用相同权重矩阵来提取局部特征。

如果将以上两者结合,就可以同时利用自注意力捕捉长距离依赖关系和卷积运算提取局部特征的能力,让模型更全面地理解输入数据(特别是在处理复杂任务时),实现更高的性能和更低的计算成本。比如典型案例X-volution与ACmix。

目前这种结合策略的高质量成果已有不少,我从中整理了10个比较有代表性的供同学们参考,原文以及开源代码都整理好了,希望能给各位的论文添砖加瓦。

论文原文以及开源代码需要的同学看文末

X-volution: On the unification of convolution and self-attention

方法:本文提出了一种新的原子操作符X-volution,将卷积和自注意力操作符集成在一起,通过实验证明了它在图像分类、目标检测和实例分割等任务上取得了显著的性能改进。

创新点:

  • 提出了X-volution原子操作符,将基本的卷积和自注意力操作符整合到一个统一的计算块中,从而在local vs. non-local/linear vs. non-linear这两方面都能获得非常显著的性能提升。

  • 首次理论推导了一种全局自注意力近似方案PSSA,通过这种方案能够在计算上转换为卷积操作,从而简化了模型的拓扑结构。

  • 在图像分类、目标检测和实例分割等主流视觉任务上进行了广泛的定性和定量评估,结果表明X-volution操作符取得了非常有竞争力的改进效果。

On the Integration of Self-Attention and Convolution

方法:本文揭示了自注意力和卷积之间的紧密关系,并提出了一种有效且高效的混合模型ACmix。该研究对于深入理解和改进卷积和自注意力模块在计算机视觉任务中的应用具有重要意义。

创新点:

  • 将传统的卷积和自注意力模块结合在一起,形成一种混合模型,名为ACmix。ACmix利用了卷积和自注意力的优势,并且与纯卷积或自注意力相比,具有更小的计算开销。

  • 揭示了自注意力和卷积之间的紧密关系,发现它们在投影输入特征图方面都使用了相同的1×1卷积操作。基于这一发现,提出了ACmix模型,通过共享相同的重型操作来将自注意力和卷积模块集成在一起。

UniFormer: Unifying Convolution and Self-attention for Visual Recognition

方法:论文提出了一种新颖的统一Transformer(UniFormer),它可以在简洁的Transformer格式中无缝整合卷积和自注意的优点。与典型的Transformer模块不同,UniFormer 模块中的关系聚合器在浅层和深层分别配备了局部和全局标记亲和力,从而可以同时解决冗余和依赖性问题,实现高效的表征学习。

创新点:

  • 动态位置嵌入(Dynamic Position Embedding):该方法通过深度卷积和零填充的方式,灵活地将位置信息嵌入到Transformer中,以提高模型的灵活性和识别性能。

  • 层级堆叠的UniFormer块:作者通过在不同阶段使用局部和全局UniFormer块的方式,逐步学习逐渐增长的视觉表示,以捕捉图像中的语义信息。

  • 作者提出了一种关系聚合器设计,既能减少局部冗余又能学习全局依赖关系,通过将卷积和自注意力相结合,实现了高效而有效的特征学习。

MixFormer: Mixing Features across Windows and Dimensions

方法:本研究提出了MixFormer,针对局部窗口自注意力在视觉任务中存在的有限感受野和建模能力不足问题进行了解决。通过并行设计将局部窗口自注意力与深度卷积相结合,模拟窗口之间的连接以扩大感受野;同时,引入了双向交互设计,增强了通道和空间维度上的建模能力。

创新点:

  • 并行设计:通过在不同的视觉任务中进行连续设计,验证了并行设计能够在特征表示学习方面取得更好的效果。

  • 双向交互:引入了双向交互来增强通道和空间维度的建模能力。结果表明,通道交互和空间交互在所有不同的视觉任务中都优于没有交互的模型。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“自卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/720695.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

爱死了,4款逆天IOS App推荐!

河马喝水提醒 「河马喝水提醒」是一款生活小助手应用,旨在帮助用户建立并维持定时喝水的良好习惯。该应用不仅是一个提醒闹钟,更是健康生活的贴心伙伴。它每天定时推送提醒,帮助用户在繁忙的日常中不忘补充水分。此外,该应用还提供…

软件性能测试之负载测试、压力测试详情介绍

负载测试和压力测试是软件性能测试中的两个重要概念,它们在保证软件质量和性能方面起到至关重要的作用,本文将从多个角度详细介绍这两种测试类型。 一、软件负载测试   负载测试是在特定条件下对软件系统进行长时间运行和大数据量处理的测试&#xff…

电能表厂家的研发能力是实力的体现

电能表厂家的研发能力无疑是其整体实力的核心体现。一个拥有强大研发能力的电能表厂家,不仅能够持续推出具有竞争力的新产品,满足市场需求,还能引领行业发展,塑造企业品牌形象。 一、研发能力对电能表厂家的重要性 研发能力是电…

如何预防最新的Mallox变种hmallox勒索病毒感染您的计算机?

一、引言 近年来,网络安全问题日益严重,勒索病毒成为了其中的一大威胁。其中,.hmallox勒索病毒作为Malox勒索软件家族的新变种,凭借其高度的攻击性和隐蔽性,给全球用户的数据安全带来了严重威胁。本文将深入分析.hmal…

部署yum仓库

目录 安装软件包 yum 配置文件 缓存功能操作步骤 创建并配置本地仓库文件 yum相关命令 yum install __ yum repolist yum list __ yum info __ yum search __ yum whatprovides __ yum remove __ yum -y update __ yum history yum grouplist yum groupinstall…

【C语言】回调函数 和 部分库函数的用法以及模拟实现

一、回调函数: 1、定义: 回调函数就是一个通过函数指针调用的函数。如果你把函数的指针(地址)作为参数传递给另一个函数,当这个指针被用来调用其所指向的函数时,我们就说这是回调函数。 2、qsort的模拟实现…

PHP基础语法【上】

文章目录 一、环境安装二、代码应该写在哪里?三、什么是错误?四、变量无需声明变量变量命名规则变量的作用域可变变量 五、常量常量的定义常量的特性 六、数据类型NULL 空值Boolean 布尔类型Integer 整型Float 浮点型String 字符串Array 数组Object 对象…

有效招聘营销策略的六个组成部分

任何想吸引更多人购买其产品的公司都必须投资于市场营销。然而,当涉及到让更多的人了解公司的工作时,许多有效的营销活动可能不是招聘团队的首要考虑因素。为了超越招聘委员会上的“发布祈祷”策略,有必要包括有效招聘营销策略的所有组成部分…

Redis 6.0新特性详解

Redis 6.0新特性主要有3个:多线程、Client Side Cache、Acls。下面详细说明一下。 1.多线程 redis 6.0 提供了多线程的支持,redis 6 以前的版本,严格来说也是多线程,只不过执行用户命令的请求时单线程模型,还有一些线…

【Axure高保真原型】动态统计中继器表格项目数

今天和大家分享动态统计中继器表格项目数的原型模板,具体包括以下功能: 表格下方可以自动根据表格内容统计表格的总项目数、启用和禁用数、选中和未选中数 我们可以点击开发切换启用和禁用 点击多选按钮,选中或取消选中对应行内容 选中后可…

跨境电商源码支持,多国语言与货币切换功能全解析

一、背景介绍 跨境电商的兴起,使得供货商和代理商们面临着一个全新的挑战:如何管理跨国交易和多语言 的销售平台。为了解决这一问题,跨境电商源码应运而生。本文将全面解析供货商和代理商后 台所具备的跨境电商源码支持功能&…

环境搭建---nginx

nginx离线安装 下载地址:https://nginx.org/download/ 一、安装编译工具及库文件 [rootVM-20-14-centos ~]# yum -y install make zlib zlib-devel gcc-c libtool openssl openssl-devel二、安装 PCRE [rootVM-20-14-centos ~]# tar -zxvf pcre-8.35.tar.gz [r…

从热潮到理性,大模型迎来产业「拐点」

前言 无人不谈大模型,是今年上半年科技界的真实写照。 从市场热闹程度来看,大模型已经成为各家科技厂商争先涌入的赛道,无论是互联网巨头,还是科技公司,甚至是研究机构,均已加入这场大模型混战&#xff0…

k8s快速上手实操

前言 Kubernetes(简称K8s)是由Google开源的一个用于自动化部署、扩展和管理容器化应用程序的系统。自2014年发布以来,Kubernetes已经迅速成长为容器编排领域的标准,并在全球范围内得到了广泛的采用和认可。 Kubernetes作为现代容…

彩色图像批处理实例

在数字图像处理过程中,经常需要对一批图像进行处理,下面以自然场景下花背景分割为例,给出其主要处理过程和处理结果。 处理的主要步骤:1. 六张彩色图像存放在flower文件夹中,图像文件名为1.jpg 2.jpg 3.jpg 4.jpg 5.j…

同三维T80006EHL-4K30CN 单路4K30 HDMI编码器(全国产化)

同三维T80006EHL-4K30CN 单路4K30 HDMI编码器 带1路HDMI环出和1路3.5音频输入,支持4K30,所有元器件全国产 一、 产品简介: T80006EHL-4K30CN 4K编码器(采集盒)是一款全国产化的专业4K HDMI音视频编码产品,…

开始报名啦!智能可观测运维技术 MeetUp 议题硬核来袭

「龙蜥社区“走进系列”MeetUp」是由龙蜥社区与生态合作伙伴联合主办的系列月度活动,每期走进一家企业,聚焦龙蜥社区和合作伙伴的技术、产品和创新动态,展示硬核技术,共建繁荣生态。 龙蜥社区“走进系列”第 11 期走进中兴通讯-智…

文字转语音在线怎么转?总结了三种快速转换

文字转语音在线怎么转?在数字化信息爆炸的时代,文字转语音的操作也越来越多。无论是为了制作视频配音、播客节目,还是为了方便视力障碍者阅读,文字转语音技术都提供了极大的便利。因此,本文将总结三种文字转语音的在线…

Python热涨落流体力学求解算法和英伟达人工智能核评估模型

🎯要点 🎯平流扩散简单离散微分算子 | 🎯相场模拟:简单旋节线分解、枝晶凝固的 | 🎯求解二维波动方程,离散化时间导数 🎯英伟达 A100 人工智能核性能评估模型 | 🎯热涨落流体动力学…

时隔一年,SSD大涨价?

同样产品,2T,去年400多到手,今年700。 去年 今年