论文阅读——InternImage(cvpr2023)

arxiv:https://arxiv.org/abs/2211.05778

github:https://github.com/OpenGVLab/InternImage

一、介绍      

大部分大模型都是基于transformer的,本文是一个基于CNN的视觉基础模型。使用可变性卷积deformable convolution作为核心操作,使得模型有大的有效的感受野和自适应的空间集合。

        稍微改动了一下deformable convolution v2 (DCNv2),然后用这个DCNv3结合其他设计和一些前沿方法设计了一个block模块,然后堆叠和扩大这些模块增加参数提高表示能力。

二、InternImage Model

1、Deformable Convolution v3

        Convolution vs. MHSA(multi-head self-attention):

        从长期依赖的角度,即使有非常深的模型,基于CNN的模型仍然无法获得像ViTs这样的长期依赖性,这限制了它的性能。

        从自适应空间聚合的角度,MHSA权重是根据输入动态的,常规的卷积权重是静态的且有非常强的归纳偏差(inductive biases),如位置、周围的结构等,由于这些归纳偏差,卷积模型收敛的比较快并且比vit模型需要更少的数据集,但是也限制了CNN模型学习更一般更鲁棒特征的能力。

2、DCNv2

        DCNv2作为常规卷积扩展,加载预训练模型,然后微调得到更好的性能来使用,这并不适用于从头开始训练的大规模视觉基础模型。于是,从以下三个方面扩展了DCNv2,得到DCNv3:

1)卷积神经元之间的权重共享:将原始的卷积分解为Depthwise卷积与Pointwise卷积

2)引入多组机制:多组机制首先出现在一组卷积中。将空间聚合过程分为G组,每一组有单独的采样偏移∆pgk和模块尺度mgk。这样不同组在同一卷积层可以获得不同空间聚合模式,可以得到更强的特征表示。

3)沿采样点归一化modulation scalars(Normalizing modulation scalars along sampling points):DCNv2是通过sigmoid函数元素级归一化,因此每个modulation scalar范围是[0,1],这样所有采样点的modulation scalar求和不稳定,范围[0,K],这会导致梯度不稳定。沿采样点归一化modulation scalars就可以使得所有采样点的modulation scalar求和在0-1之间,使训练过程稳定。

综上,得到的DCNv3为:

3、Model

        4个stage,每个stage有三个超参数,所以模型原本应该有12个超参数,最佳超参数搜索空间很大,于是作者总结了一下以前的模型设置的,总结了四个规律,如上图右下角,然后最后得出只需要4个超参数就可以:s (C1, C' , L1, L3),然后根据实验得出最佳超参数为(64, 16, 4, 18)。

        有了模型之后,因为要训练一个很大参数的基础模型,所以考虑怎么使得模型变大,增加参数。参数缩放规则,也就是根据什么使模型变大,作者考虑了两种方式,深度,即L,多叠加几层stage,和宽度,即C,即每层提取的特征增加,或者是两个维度按某种比重α, β,φ结合:

        

最终实验找到最佳α, β是α=1.09, β=1.36

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/124087.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python tkinter实现复刻Windows记事本UI和菜单的文本编辑器(一)

下一篇:Python tkinter实现复刻Windows记事本UI和菜单的文本编辑器(二)-CSDN博客 介绍: Windows操作系统中自带了一款记事本应用程序,通常用于记录文字信息,具有简单文本编辑功能。Windows的记事本可以新…

Go和JavaScript结合使用:抓取网页中的图像链接

前言 在当今数字化时代,数据是金钱的源泉,对于许多项目和应用程序来说,获取并利用互联网上的数据是至关重要的。其中之一的需求场景是从网页中抓取图片链接,这在各种项目中都有广泛应用,特别是在动漫类图片收集项目中…

漏刻有时百度地图API实战开发(6)多个标注覆盖层级导致不能响应点击的问题

漏刻有时百度地图API实战开发(1)华为手机无法使用addEventListener click 的兼容解决方案漏刻有时百度地图API实战开发(2)文本标签显示和隐藏的切换开关漏刻有时百度地图API实战开发(3)自动获取地图多边形中心点坐标漏刻有时百度地图API实战开发(4)显示指定区域在移动端异常的解…

【MATLAB源码-第70期】基于matlab的萤火虫算法(FA)的栅格路径规划,输出最短路径和适应度曲线。

操作环境: MATLAB 2022a 1、算法描述 萤火虫算法(Firefly Algorithm,FA)是由剑桥大学的Xin-She Yang在2008年提出的一种元启发式优化算法。该算法的灵感来源于萤火虫闪烁的行为特征,主要用于解决连续的优化问题。萤…

在 Gorm 中学习分页和排序

一个全面的指南,教您在 GORM 中实现分页和排序,以实现高效的数据检索和展示 高效的数据检索和展示是应用程序开发的关键方面。GORM,强大的 Go 对象关系映射库,为开发人员提供了强大的工具来实现这一目标。在本指南中,…

去中心化数据云项目Oort主网即将上线

备受期待的去中心化数据云项目Oort,今日已通过官方X账号官宣,将于纽约时间11月27日正式上线主网Olympus Protocol。届时,用户也能够通过Oort的Ale Wallet钱包和开发者API使用主网,并可通过OORT浏览器查询交易和合约,开…

代码随想录 Day41 动态规划09 LeetCode T121 买卖股票的最佳时机 T122 买卖股票的最佳时机II

前言 这两题看起来是不是有点眼熟,其实我们在贪心章节就已经写过了这两道题,当时我们用的是将利润分解,使得我们始终得到的是最大利润 假如第 0 天买入,第 3 天卖出,那么利润为:prices[3] - prices[0]。 相当于(prices[3] - prices[2]) (pri…

小程序 打开方式 页面效果 表单页面 点击跳到详情页 图标 获取后台数据 进行页面渲染

请求地址:geecg-uniapp 同源策略 数据请求 获取后台数据 ui库安装 冲突解决(3)-CSDN博客 一.uniapp转小程序 (1) 运行微信开发工具 (2) 配置id 然后运行 打开小程序 路径 E:\通\uniapp-jeecg\unpackage\dist\d…

MySQL -- mysql connect

MySQL – mysql connect 文章目录 MySQL -- mysql connect一、Connector/C 使用1.环境安装2.尝试链接mysql client 二、MySQL接口1.初始化2.链接数据库3.下发mysql命令4.获取执行结果5.关闭mysql链接6.在C语言中连接MySQL 三、MySQL图形化界面推荐 使用C接口库来进行连接 一、…

ppt聚光灯效果

1.放入三张图片内容或其他 2.全选复制成图片 3.设置黑色矩形,透明度30% 4.粘贴复制后的图片,制定图层 5.插入椭圆,先选中矩形,再选中椭圆,点击绘图工具,选择相交即可(关键)

python二维码识别系统的设计与实现

大家好我是玥沐春风,今天分享一个python二维码识别系统的设计与实现,项目源码以及部署相关请联系我,文末附上联系信息 。 项目简介: 本项目是在对二维码的应用服务场景进行了深入的分析,通过利用Python技术来开发一款…

警告:未配置spring boot 配置注解处理器

前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 问题 我再使用ConfigurationProperties(prefix “redisson”)去加载配置文件中的属性的时候,发现idea有个警告 并且配…

uni-app基于vue实现商城小程序

目录 一、前言 二、功能效果图 1.首页 2.分类 ​3.活动 4.我的 ​5.商品详情 6.购物车 三、代码实现 1.项目结构截图 uni-app,Hbuilder 2.首页源码 3.数据模拟通讯 四、总结 一、前言 参考“网易严选”小程序 项目采用传统vue项目结构,即u…

【123. 买卖股票的最佳时机 III】

目录 一、题目描述二、算法原理三、代码实现 一、题目描述 二、算法原理 三、代码实现 class Solution { public:const int Init-0x3f3f3f3f;int maxProfit(vector<int>& prices) {int nprices.size();vector<vector<int>> f(n,vector<int>(3,Ini…

python开发过程中注意编码规范~

文章目录 一、 代码编排二、 文档编排三、 空格的使用四、 注释五、 文档描述六、 命名规范总体原则&#xff0c;新编代码必须按下面命名风格进行&#xff0c;现有库的编码尽量保持风格。七 编码建议关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、…

SpectralDiff论文阅读笔记

高光谱图像分类是遥感领域的一个重要问题&#xff0c;在地球科学中有着广泛的应用。近年来&#xff0c;人们提出了大量基于深度学习的HSI分类方法。然而&#xff0c;现有方法处理高维、高冗余和复杂数据的能力有限&#xff0c;这使得捕获数据的光谱空间分布和样本之间的关系具有…

MySQL -- 用户管理

MySQL – 用户管理 文章目录 MySQL -- 用户管理一、用户1.用户信息2.创建用户3.删除用户4.远端登录MySQL5.修改用户密码6.数据库的权限 一、用户 1.用户信息 MySQL中的用户&#xff0c;都存储在系统数据库mysql的user表中&#xff1a; host&#xff1a; 表示这个用户可以从…

windows系统下查看安卓apk的sha1

1.在apk所在文件夹打开cmd或者powershell 2.输入 certutil -hashfile xxx.apk SHA1 这样就可以了 3.指令格式 certutil -hashfile FileName [HashAlgorithm] certutil -hashfile&#xff1a;原样输入 FileName&#xff1a;文件名 HashAlgorithm&#xff1a;可选项包括&…

【unity实战】Unity实现2D人物双击疾跑

最终效果 前言 我们要实现的功能是双击疾跑&#xff0c;当玩家快速地按下同一个移动键两次时能进入跑步状态 我假设快速按下的定义为0.2秒内&#xff0c;按下同一按键两次 简单的分析一下需求&#xff0c;实现它的关键在于获得按键按下的时间&#xff0c;我们需要知道第一次…

ArcGIS进阶:水源涵养功能分级评价操作

首先抛出水源涵养重要性评价的公式&#xff1a;水源涵养量降雨量-蒸散发量-地表径流量&#xff0c;其中地表径流量降雨量*平均地表径流系数 声明&#xff1a;以下数据来源于来自于牛强老师书籍&#xff08;城乡规划GIS技术&#xff09;。 以下给出重要性评价阈值表&#xff1…