VIT论文阅读

论文地址:https://arxiv.org/pdf/2010.11929.pdf

VIT论文阅读

    • 摘要
    • INTRODUCTION
    • 结论
    • RELATEDWORK
    • METHOD
      • 1.VISIONTRANSFORMER(VIT)
        • 整体流程
        • 消融实验
          • HEAD TYPE AND CLASSTOKEN
          • poisitional embedding
        • 整体过程公式
        • Inductive bias
        • Hybrid Architecture
      • 2.FINE-TUNINGANDHIGHERRESOLUTION
    • 实验

摘要

虽然transformer已经是nlp领域的标准,但是transformer来做cv很有限,cv中跟attention跟cnn一起使用,或者cnn中的某些卷积替换成attention,整体结构不变。文章提出,直接使用transformer也可以在图像,尤其在大数据做训练再迁移到中小数据集。同时,transformer需要更少的训练资源。(2500天TPU V3)

INTRODUCTION

nlp领域的应用,transformer已经是必选模型。主流方式:在大规模数据集做预训练再去特定领域小数据集做微调(Bert)

transformer应用到cv难点:2d图片变成1d数据

self-attention应用到cv领域,

1.featuremap当做transformer输入,

2.孤立自注意力:通过局部小窗口,轴注意力:2d矩阵拆分为2个1d,先在高度维度做self-attention,再宽度维度做self-attention

2理论上高速,没有在硬件上加速,模型不够大。

直接应用transformer在图片领域,不做修改。把图片分成几个patches,每个patch通过fc layer得到一个linear embedding,将其输入给transformer。图片块类似nlp里面的tokens。训练使用有监督

在这里插入图片描述

在中规模数据集,vit缺少归纳偏置(locality, translation equivariance:f(g(x))=g(f(x)),效果较弱。在大规模预训练,在下游任务去vit就可以取得相近或者更好的结果。

结论

抽图片块、位置编码之外没有引入归纳偏置。图像序列的图像块直接做transformer,简单、扩展性好的策略与大规模数据结合,达到了很好的效果。

未来方向:transformer在检测、分割的应用,自监督的预训练方式

模型变大达到更好的结果。

RELATEDWORK

transformer在nlp的应用:

BERT:denoising self-supervised(完形填空)

GPT:language modeling (next word pre)

在cv应用:

如果每个像素点当做一个元素,俩俩自注意力,平方复杂度难以应用

1.local neighborhoods

2.sparse transformer,稀疏点做自注意力

3.应用到不同大小block,或者按轴做自注意机制

需要用复杂工程加速算子

transformer和cnn结合:涵盖各领域

与之相似的工作:

1.Jean-Baptiste Cordonnier,Andreas Loukas,and Martin Jaggi. On the relationship between self-attention and convolutional layers. In ICLR, 2020.

2.iGPT:生成性模型,也使用transformer。微调后性能72%

3.其他相似工作:大数据集预训练;数据集ImageNet-21k、JFT-300M

METHOD

模型设计贴近transformer原理,好处:直接使用nlp的transformer架构

1.VISIONTRANSFORMER(VIT)

在这里插入图片描述

整体流程

1.图分成patch,变成序列

X: 224x224,使用patch size = 16, N= HW/P^2

得到196个图像块 ==> 16x16x3

2.每个patch经过linear projection线性投射层(全连接层E)得到特征,即patch embedding。加上位置编码信息position embedding。

3.借鉴bert extra learnable embedding,加入特殊字符cls ,图像*代替,class embedding。token输入transformer encoder

E: 768x768, D = 768,第一个768是图像计算得来16x16x8

X * E = 196 x 768 x 768 x 768 = img: 196 x 768 = 197 x 768,  矩阵乘法
								cls: 1  x 768		
加入位置编码信息,sum

4.多头自注意力机制,mlp head 分类头

12个头:768 / 12 = 64

197x64	197x64	197x64 12个头输出拼接:197 x 768
k		q		v

layer norm: 197 x 768
mlp: 放到4倍:197 x 3072 缩小投射———> 197 x 768
消融实验
HEAD TYPE AND CLASSTOKEN

class token 当做图像的整体特征,token输出接mlp,使用tanh为激活函数做预测。

(ResNet)图像全局向量特征:feature map ——> globally average-pooling

在这里插入图片描述

transformer

在这里插入图片描述

两种方式都可以,vit用class token,尽可能跟transformer保持一致

在这里插入图片描述

poisitional embedding
  • 1D: nlp常用的

    1 2 3 4 ... 9   维度 D
    
  • 2D:

    		D/2
    D/2	11	12	13
    	21	22	23
    	31	32	33
    维度D/2的向量表示X-embedding, D/2的向量表示Y-embedding
    contact成维度D --> 2d poisitional embedding
    
  • Relative position embedding:绝对距离、相对距离

实验结果:都可以

在这里插入图片描述

ptach-level而不是pixel-level,图像块较小,获取小块之间相对位置较容易,因此采用不同位置编码差异不大。

本文中vision transformer采用class token 跟1d position embedding(对标准的transformer不做过多改动)

整体过程公式

在这里插入图片描述

Inductive bias

cnn: locality、translation equivariance,模型每一层均体现,先验知识贯穿

vit:mlp layer是局部、平移等变性,self-attention全局,图片2d信息基本没有使用。位置编码也是随机初始化,没有携带任何2d信息。(缺少偏置,中小数据集效果不如cnn)

Hybrid Architecture

使用CNN进行预处理

图片通过CNN获取feature map,拉直后跟全连接层操作

在这里插入图片描述

2.FINE-TUNINGANDHIGHERRESOLUTION

微调用较大尺寸图像,得到更好结果。

使用预训练好的vision transformer,当用更大尺寸图像,patch size 保持一致,序列长度增加,提前预训练好的位置编码失效。

进行2d插值解决该问题(临时解决方案,微调局限性),2D interpolation

实验

对比resnet、vit和hybrid表征学习能力,不同大小数据集做预训练,在很多数据集做测试。vit在大多数数据集上训练时间短效果好

数据集:imagetNet、imagetNet-21k、JFT

下游任务分类:CIFAR-10/100、Oxford-IIIT Pets、,OxfordFlowers-102
在这里插入图片描述

ViT-L/16:Large模型,patch size 16x16

序列长度跟patch size成反比,模型用更小的patch size时,计算代价更大

在这里插入图片描述

bit:cnn中较大的模型

noisy student:image net中表现最好 ,pseudo-label进行self training (伪标签)

vit训练时间更短
在这里插入图片描述

1.小数据集cnn效果好

2.数据规模大于ImageNet-21K,vit效果较好

在这里插入图片描述

使用预训练模型当做特征提取器,做5-shot

原因:缺少归纳偏置,小数据集效果较cnn差;

平均注意力距离

在这里插入图片描述

自监督:masked patch,将图片分成几个patch,随机涂抹几个patch;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/552150.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

阿里面试:DDD中的实体、值对象有什么区别?

在领域驱动设计(DDD)中,有两个基础概念:实体(Entity)和值对象(Value Object)。 使用这些概念,我们可以把复杂的业务需求映射成简单、明确的数据模型。正确使用实体和值对…

AI大模型日报#0417:国产音乐SOTA、AI评标师上岗、北大ASC全球超算冠军

导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 首个国产音乐SOTA模型来了!专为中文优化,免费用,不限曲风 摘要: 昆仑万维发布「天工3.0」和…

华为 2024 届实习招聘——硬件-电源机试题(四套)

华为 2024 届实习招聘——硬件-电源机试题(四套) 部分题目分享,完整版带答案(有答案,答案非官方,未仔细校正,仅供参考)(共四套) 获取(WX:didadidadidida313&…

LeetCode———100——相同的树

目录 ​编辑 1.题目 2.解答 1.题目 . - 力扣(LeetCode) 给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。 如果两个树在结构上相同,并且节点具有相同的值,则认为它们是相同的。 示例 1&…

两台服务器如何超快速互传文件/文件夹【xshell详细版 速度真的超快!】

如果您需要将一台服务器上的资料传到另一台服务器上,您如果老实地先下载文件到本地或者另外一个地方,再上传到另外一台服务器上,那这样也太浪费您宝贵的时间了吧!在这里,只需要使用一个简单的命令,即可实现…

Python 物联网入门指南(八)

原文:zh.annas-archive.org/md5/4fe4273add75ed738e70f3d05e428b06 译者:飞龙 协议:CC BY-NC-SA 4.0 第三十章:制作机械臂 最后,我们终于到达了大多数人自本书开始以来就想要到达的地方。制作一个机械臂!在…

【MATLAB源码-第25期】基于matlab的8QAM调制解调仿真,手动实现未调用内置函数,星座图展示。

操作环境: MATLAB 2022a 1、算法描述 8QAM调制(8 Quadrature Amplitude Modulation)是一种数字调制技术,它可以在有限带宽内传输更多的信息比特。在8QAM调制中,每个符号可以携带3个比特的信息。QAM调制是将数字信号…

充电桩--OCPP 充电通讯协议介绍

一、OCPP协议介绍 OCPP的全称是 Open Charge Point Protocol 即开放充电点协议, 它是免费开放的协议,该协议由位于荷兰的组织 OCA(开放充电联盟)进行制定。Open Charge Point Protocol (OCPP) 开放充电点协议用于充电站(CS)和任何…

同城O2O系统开发实战:外卖送餐APP的技术架构与实现

今天,我们将深入探讨同城O2O系统开发实战中,外卖送餐APP的技术架构与实现。 一、概述 外卖送餐APP是一种典型的O2O应用,通过移动互联网技术,将用户与商家连接起来,实现用户在线订餐,商家配送服务的模式。…

JVM 方法调用之方法分派

JVM 方法调用之方法分派 文章目录 JVM 方法调用之方法分派1.何为分派2.静态分派3.动态分派4.单分派与多分派5.动态分派的实现 1.何为分派 在上一篇文章《方法调用之解析调用》中讲到了解析调用,而解析调用是一个静态过程,在类加载的解析阶段就确定了方法…

4.1 返回JSON数据

1. 默认实现方式 JSON是目前主流的前后端数据传输方式,Spring MVC中使用消息转换器HttpMessageConverter对JSON的转换提供了很好的支持,在Spring Boot中更进一步,对相关配置做了更进一步的简化。 默认情况下,当开发者新创建一个S…

4.17号驱动

中断子系统 1. 中断工作原理 1.1 异常处理流程 保存现场(cpu自动完成) 保存cpsr寄存器中的值,到spsr_寄存器中 修改cpsr寄存器中的值 修改状态位(T位) 根据需要禁止相应的中断位(I/F) 修改对应模式位 保存函数的返回地址到lr寄存器中 修改pc指向异常向量表 …

【测试开发学习历程】python常用的模块(下)

目录 8、MySQL数据库的操作-pymysql 8.1 连接并操作数据库 9、ini文件的操作-configparser 9.1 模块-configparser 9.2 读取ini文件中的内容 9.3 获取指定建的值 10 json文件操作-json 10.1 json文件的格式或者json数据的格式 10.2 json.load/json.loads 10.3 json.du…

React 快速入门:掌握前端开发的核心技能

React 快速入门:掌握前端开发的核心技能 一、React 简介1.1 React 的历史1.2 React 的概念1.3 React 的特点1.4 React 的官网地址 二、开发环境搭建三、React 基础3.1 JSX3.2 组件3.3 Props3.4 State3.5 props 和 state 的区别3.6 Hook 四、React 生命周期五、添加样…

OceanBase 4.3 列存存储格式和列存索引存储格式

以 t1 表和索引为例子,下面两张图说明了存储层如何存储数据。 create table t1 (id1 int, id2 int, name varchar(10), salary int, primary key(id1, id2)) with column group (each column);create index idx (name) storing(salary) with column group(each co…

代码随想录算法训练营第三十七天| LeetCode 738.单调递增的数字、总结

一、LeetCode 738.单调递增的数字 题目链接/文章讲解/视频讲解:https://programmercarl.com/0738.%E5%8D%95%E8%B0%83%E9%80%92%E5%A2%9E%E7%9A%84%E6%95%B0%E5%AD%97.html 状态:已解决 1.思路 如何求得小于等于N的最大单调递增的整数?98&am…

【云计算】云数据中心网络(六):私网连接

云数据中心网络(六):私网连接 1.什么是私网连接2.私网连接的组成3.私网连接的优势4.私网连接的主要应用场景 前面讲到 VPC 网络具有隔离性,VPC 之间无法通信。当一个 VPC 中的终端需要访问部署在另一个 VPC 中的服务时&#xff0c…

C++奇迹之旅:构造函数和析构函数

文章目录 📝类的6个默认成员函数🌠 构造函数🌉 概念🌉特性🌉三种默认构造函数 🌠 特性🚩总结 📝类的6个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真…

Redis中的订阅发布(一)

订阅发布 概述 Redis的发布与订阅功能由PUBLISH、SUBSCRIBE、PSUBSCRIBE等命令组成。通过执行SUBSCRIBER命令,客户端可以订阅一个或多个频道,从而成为这些频道的订阅者(subscribe): 每当有其他客户端向被订阅的频道发送消息(message)时&…

多ip证书实现多个ip地址https加密

在互联网快速发展的现在,很多用户会使用由正规数字证书颁发机构颁发的数字证书,其中IP数字证书就是只有公网IP地址网站的用户用来维护网站安全的手段。由于域名网站比较方便记忆,只有公网IP地址的网站是很少的,相应的IP数字证书产…