新一代大核卷积反超ViT和ConvNet!同参数量下性能、精度、速度完胜

大核卷积网络是CNN的一种变体,也是深度学习领域的一种重要技术,它使用较大的卷积核来处理图像数据,以提高模型对视觉信息的理解和处理能力。

这种类型的网络能够捕捉到更多的空间信息,因为它的大步长和大感受野可以一次性覆盖图像的更多区域。比如美团提出的PeLK网络,内核大小可以达到101x101,同参数量下性能反超 ViT,目前已被CVPR 2024收录。

更值得一提的,大核卷积网络不仅在性能上有所提升,在ImageNet分类等任务上,也展现出了优于ViT和ConvNet架构的效果。比如腾讯+港中文提出的UniRepLKNet,只用ImageNet-22K预训练,精度和速度SOTA,ImageNet达到88%。

当然效果惊人的成果远不止这些,我这次挑选了10个大核卷积网络最新创新方案,开源的项目代码都有,供有论文需求的同学参考学习。

论文原文以及开源代码需要的同学看文末

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

方法:论文提出了外围卷积,通过参数共享有效减少了密集网格卷积 90% 以上的参数数量,并设法将内核尺寸扩大到极大。在此基础上,作者提出了参数高效的大核网络(PeLK)。

创新点:

  • 密集网格卷积(Dense Grid Convolution)相较于条纹卷积(Stripe Convolution)具有持续的优势,无论是在多种核大小下还是在不同的任务中,密集网格卷积都能够表现出更好的性能。

  • 引入人类外周视觉机制(Peripheral Vision)的概念来提高大核卷积网络的参数效率,通过参数共享有效地减少了密集网格卷积的参数数量,并且能够将卷积的复杂性从O(K^2)降低到O(log K)。

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

方法:论文探索了大卷积核的卷积神经网络(ConvNet)的架构设计和在多模态领域的通用感知能力,填补了现有大卷积核ConvNet的架构设计不足和在非视觉领域的应用研究空白,通过提出四个架构准则设计了UniRepLKNet,并在图像识别、时间序列预测和音频识别等任务上取得了领先的性能,验证了大卷积核的重要性和ConvNet的通用感知能力。

创新点:

  • 大核ConvNet架构设计:
    • 提出了四个关于大核ConvNet设计的指导原则,其中核心原则是利用大核与小核的本质区别,即大核可以在不加深网络的情况下实现更广阔的感受野。

    • 根据这些指导原则,提出的大核ConvNet在图像识别任务中取得了领先的性能,相比于其他强大的竞争模型,具有更好的性能和更高的速度。

  • 大核ConvNet在多模态领域的普适感知能力:
    • 发现大核ConvNet在原本不擅长的领域具有出色的性能表现。通过特定的模态相关预处理方法,该模型在时间序列预测和音频识别任务上实现了业界领先的性能,即使没有进行模态特定的架构定制化。

    • 证明了大核ConvNet在多模态任务中的卓越性能,为ConvNet在新领域的应用开辟了新的可能性。

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

方法:论文主要介绍了一种用于遥感目标检测的新方法,即大型选择性核网络(LSKNet)。LSKNet的整体架构基于最近流行的结构,并使用了重复的构建块。作者通过定义Rc作为期望选择RF区域与GT边界框区域的比例来研究每个目标类别的感受野范围。

创新点:

  • 作者首次尝试将大核卷积应用于遥感目标检测,并研究了其在这一领域的重要性。通过将大核卷积分解为两个深度卷积核,作者提出了一种适用于遥感的LSKNet架构,能够充分利用遥感图像的特点,实现对不同对象类型的广泛和可适应的上下文理解。

  • 作者提出了一种空间选择机制,用于在不同尺度上从大卷积核中选择特征图。通过通道平均池化和通道最大池化,作者有效地提取了特征之间的空间关系,并使用卷积层将池化特征转换为空间注意力图。然后,通过相应的空间选择掩码,对分解的大核卷积特征进行加权并融合,以获得最终的关注特征。

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

方法:论文提出了一种新的操作符,通过正则卷积实现大卷积核效果,从而在广泛的设备范围内实现了CNN的最新进展。论文还提出了一种新的剪枝操作,通过粗粒度剪枝实现了稀疏组卷积。同时,论文还提出了一种基于偏移操作的算子来改进卷积操作,并将其应用于改进的模块结构中。

创新点:

  • 通过使用shift-wise操作,作者实现了使用标准卷积进行大卷积核效果,并通过剪枝得到了稀疏组卷积。这一方法能够将大卷积核的效果与标准CNN的先进性结合起来,拓展了CNN的应用领域。

  • 作者提出了一种新的shift-wise操作方法,通过将输入特征进行分组和位移,模拟多个卷积核尺寸,从而创建多个输出分支。然后,将这些输出分支合并为一个单一的分支。这种方法能够在保持整体网络结构不变的同时,不断优化数据流形的依赖关系。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“大核卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/708777.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

34万汉语词语成语反义词ACCESS\EXCEL数据库

反义词就是两个意思相反的词,包括:绝对反义词和相对反义词。分为成对的意义相反、互相对立的词。如:真——假,动——静,拥护——反对。这类反义词所表达的概念意义互相排斥。或成对的经常处于并举、对待位置的词。如&a…

WinForm之TCP服务端

目录 一 原型 二 源码 一 原型 二 源码 using System.Net; using System.Net.Sockets; using System.Text;namespace TCP网络服务端通讯 {public partial class Form1 : Form{public Form1(){InitializeComponent();}TcpListener listener null;TcpClient handler null;Ne…

记C#优化接口速度过程

前提摘要 首先这个项目是接手的前一任先写的项目,接手后,要求对项目一些速度相对较慢的接口进行优化,到第一个速度比较慢的接口后,发现单接口耗时4-8秒,是的,请求同一个接口,在参数不变的情况下…

如何在CST软件中获得多天线不同频的SAR

之前写过计算SAR的文章,但是没有提到多天线的情况。 仿真实例018:均匀头模型和天线SAR比吸收率仿真案例 CST软件如何用E场计算Loss损耗密度 --- SAR计算加速技巧 这期我们看看多天线不同频率如何计算SAR。 用一个简单的手模型和三个不同长度天线为例&a…

红海云签约盛帆集团,开启多元化集团人力资源数字化新征程

武汉盛帆投资集团股份有限公司(以下简称“盛帆集团”)是以能源管理产业为根本,以金融投资产业为纽带,以文体产业为拓展方向的多元化集团企业。公司能源管理产业创立于1998年,主要从事智能电表、智能水表、集中器、高压…

学习笔记——网络管理与运维——SNMP(概述)

一、SNMP概述 1、SNMP背景 SNMP的基本思想:为不同种类的设备、不同厂家生产的设备、不同型号的设备,定义为一个统一的接口和协议,使得管理员可以是使用统一的外观面对这些需要管理的网络设备进行管理。 通过网络,管理员可以管理…

NewspaceAi之GPT使用新体验

GPT功能 使用地址:https://newspace.ai0.cn/ 上车 挂挡 踩油门,一脚到底,开始你的表演 问题1:你能做什么详细告诉我? 下面内容是GPT的回答 当然!作为一个基于GPT-4架构的AI,我能够在许多方面为…

Linux基础一

目录 一,Linux中常用的快捷键 二,man指令 三,pwd指令 四,cd指令 五,ls指令 六,mkdir和rmdir指令 七,touch指令 八,cp指令 九,mv指令 十,cat指令 十一&#xf…

React+TS前台项目实战(八)-- 全局常用组件模态框Modal封装

文章目录 前言Modal模态框组件1. 功能分析2. 代码详细注释说明3. 使用方式4. 效果展示 总结 前言 今天这篇主要讲项目中经常会用到的模态框Modal组件封装。模态框可用在很多地方,比如弹窗Dialog使用、消息提示Message使用等都可以在外层套上Modal组件,下…

牛客链表刷题(一)

目录 题目一:反转链表 代码: 题目二:链表内指定区间反转 代码: 题目一:反转链表 代码: import java.util.*;/** public class ListNode {* int val;* ListNode next null;* public ListNode(int …

微信小游戏插件申请,微信小程序插件管理

微信小游戏的插件申请与小程序不一样,官方没有提供一个统一的管理入口进行申请插件,以及查看插件,没有小程序方便的; 小程序申请查看插件入口如下图所示: 小游戏的插件可以通过以下的方式进行申请: 如下…

Python跳动的爱心(双爱心版)

目录 系列文章 前言 Turtle简介 Python跳动的爱心 尾声 系列文章 序号文章目录直达链接表白系列1无法拒绝的表白界面https://want595.blog.csdn.net/article/details/1347448942满屏飘字表白代码https://want595.blog.csdn.net/article/details/1350373883无限弹窗表白代…

微信小程序查分易如何使用?

期末马上到了,老师们又开始为发放成绩而头疼了,堆积如山的试卷,密密麻麻的分数,还有那些不断响起的家长电话,真是让人心烦。别担心,今天就让我来介绍一个让老师“偷懒”神器——查分易微信小程序 第一步&am…

汇编:宏的使用

汇编语言中的宏是用于定义可重复使用的代码块或指令集合的强大工具。宏通过简化代码编写和提高可读性,使得编写和维护汇编程序更加方便;在 MASM(Microsoft Macro Assembler)中,宏的定义和使用非常常见。以下是对汇编语…

windows环境如何运行python/java后台服务器进程而不显示控制台窗口

1.通常我们在windows环境下使用Java或Python语言编写服务器程序,都希望他在后台运行,不要显示黑乎乎的控制台窗口: 2.有人写了一个bat文件: cd /d D:\lottery\server && python .\main.py 放到了开机自启动里,可是开机的…

鹧鸪云光伏业务管理系统,助力企业数智化发展

在当今数字化浪潮席卷全球的背景下,光伏行业作为绿色能源的重要组成部分,其业务管理的数智化转型显得尤为重要。鹧鸪云光伏业务管理系统,以其强大的功能和卓越的性能,正成为企业实现数智化转型的重要助力。 作为光伏行业的领军软…

【Java基础】OkHttp 超时设置详解

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

RT-thread内核对象的基础应用

RT-thread的内核对象基础应用 启动流程: 以RT-Thread Studio为例,用户程序入口为位于 main.c 文件中 的main 函数。系统启动后先运行startup_stm32f103xe.s文件中的汇编代码,运行“bl entry”指令后跳转到components.c 文件中调用entry函数&a…

flink源码系列:RPC通信

这里写目录标题 1. 本节课目的2.开始本节内容2.1.RPC概念3.2.大数据组件常见的RPC实现技术3.3.Pekko(Akka)3.3.1. Akka、Pekko基本概念3.3.2.Pekko Demo事例3.3.2.1.PekkoData 类3.3.2.2.PekkoRpcReceiverActor类3.3.2.3.PekkoRpcSenderActor 类3.3.2.4.…

618全面开战,抖音电商头部品牌罗拉密码突然“不干”了?

前言: 随着618电商大战的硝烟渐浓,各大电商平台纷纷摩拳擦掌,准备在这场年度购物盛宴中大展拳脚。然而,在这热闹非凡的氛围中,一个熟悉的名字却显得格外低调——罗拉密码。作为抖音电商领域的头部品牌,罗拉…