论文阅读之AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

文章目录

  • 原文链接
  • 主要内容
  • 模型图
  • 技术细节
  • 实验结果

原文链接

AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

主要内容

这篇文章的主要内容是介绍了一种新的计算机视觉模型——Vision Transformer(ViT),这是一种将自然语言处理中广泛使用的Transformer架构直接应用于图像识别任务的尝试。文章通过大量实验验证了ViT在多个图像识别基准上的有效性,并与当时的最先进卷积神经网络(CNN)模型进行了比较。

以下是文章的主要内容概述:

引言:介绍了Transformer架构在自然语言处理(NLP)任务中的成功,并探讨了其在计算机视觉领域的潜在应用。指出以往的工作尝试将注意力机制与卷积网络结合,或者用注意力机制替换卷积网络的某些部分,但整体结构保持不变。

方法:提出了Vision Transformer(ViT),它将图像分割成一系列小块(patches),然后将这些块作为序列输入到标准的Transformer编码器中。这种方法避免了依赖于CNN,并且通过在大量数据上进行预训练,ViT在多个中等规模或小规模的图像识别基准上取得了与最先进CNN相比肩甚至更好的结果,同时训练所需的计算资源更少。

相关工作:回顾了Transformer在NLP中的应用,以及在图像处理中的一些尝试,包括局部自注意力和稀疏变换器等。

实验:详细描述了ViT在不同数据集上的预训练和微调过程,包括ImageNet、CIFAR-100和VTAB等,以及与其他模型的比较结果。

结论:文章总结了ViT的主要发现,并讨论了未来的研究方向,包括将ViT应用于其他计算机视觉任务、探索自监督预训练方法以及进一步扩展ViT的规模。

文章的主要贡献在于展示了Transformer架构在没有CNN特有的归纳偏差(如平移不变性和局部性)的情况下,通过大规模预训练,仍然能够有效地处理图像识别任务。这一发现为未来的图像处理模型提供了新的设计思路。

模型图

在这里插入图片描述
ViT将图像分割成固定大小的块,线性嵌入每个块,添加位置嵌入,并将生成的矢量序列提供给标准Transformer编码器。为了执行分类,使用向序列添加额外可学习的“分类标记”的标准方法。
在这里插入图片描述

技术细节

在这里插入图片描述
模型输入就是把图像切成小块,然后排列整齐输入,就像文本一样,可以简单将一块图片当作一个单词。

但是由于transformer输入是1D的,但是图像是2D的,所以需要reshape维度

例如原始图片高x宽x颜色数

在这里插入图片描述
reshape成:
在这里插入图片描述
其中N就是多少个小块,P就是一个小块的边长,C是颜色通道数
在这里插入图片描述
那么此时一个小块xp的维度就是P*P*C

此时再进行线性变换,就得到了小块的embedding了
在这里插入图片描述

在这里插入图片描述
E就是进行线性变换,Epos就是添加位置编码。

在这里插入图片描述
上标表示第几个小块的编码信息,下标表示经过了几层encoder(0表示输入,L就表示输出)

因为BERT中有[CLS]用来标记分类,这里多加了个xclass也用来分类
在这里插入图片描述
LN就是layer normalization

在这里插入图片描述
然后这就是对应编码部分,MSA就是multiheaded self-attention,L表示有L层来编码

实验结果

在这里插入图片描述‘训练时间少、效果好。
在这里插入图片描述

左图:预训练数据集越大,模型越大效果越好
右图:预训练数据集越大,ViT模型效果越好,并实现反超。

先这样吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/472824.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

爬虫基础:HTTP基本原理

爬虫基础:HTTP基本原理 前言HTTP基本原理URI 和 URLHTTP 和 HTTPSHTTP 请求过程请求与响应HTTP请求HTTP响应请求与响应的交互过程 HTTP 2.0二进制传输多路复用Header压缩服务器端提前响应内容安全 前言 了解 HTTP的基本原理,了解从往测览器中输人 URL到获…

软件安全测评要点有哪些?第三方软件安全测试是必需品吗?

在当今数字化时代,软件安全测试是每个软件开发团队都不能忽视的重要环节。安全测试是指对软件产品进行系统、全面的安全性评测与检测的过程。它旨在发现并修复软件中存在的漏洞和安全隐患,以确保软件能够在使用过程中保护用户的数据和隐私不被非法访问和…

Pytest自动化测试框架快速上手(超详细)

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号:互联网杂货铺,回复1 ,免费获取软件测试全套资料,资料在手,薪资嘎嘎涨 pytest是一个非常成熟的全功能的Python测试框架&#…

《操作系统实践-基于Linux应用与内核编程》第10章--实验 Qt聊天程序

前言: 内容参考《操作系统实践-基于Linux应用与内核编程》一书的示例代码和教材内容,所做的读书笔记。本文记录再这里按照书中示例做一遍代码编程实践加深对操作系统的理解。 引用: 《操作系统实践-基于Linux应用与内核编程》 作者:房胜、李旭健、黄…

边缘检测-Tiny and Efficient Model for the Edge Detection Generalization

源代码: https://github.com/xavysp/TEED 论文地址:https://arxiv.org/pdf/2308.06468.pdf 大多数高级计算机视觉任务依赖于低级图像操作作为其初始过程。边缘检测、图像增强和超分辨率等操作为更高级的图像分析提供了基础。在这项工作中,我们考虑三个…

YUNBEE云贝-OBCP大军又一满分学员登榜!

课程介绍 培训概述 OceanBase 认证是 OceanBase 官方推出的唯一人才能力认证体系,代表了阿里巴巴及蚂蚁集团官方对考生关于 OceanBase 技术能力的认可,旨在帮助考生更好地学习 OceanBase 数据库产品,早日融入 OceanBase 技术生态体系&#x…

浏览量这么低,还要不要继续坚持?

哈喽,你好啊,我是雷工! 曾经在一个群里聊天,有群友看到我两位数的浏览量,说到:浏览量这么低还坚持什么? 浏览量低是事实,大多数是十几二十的,上百的都是少数&#xff0c…

ubuntu10.04 apache2.2开启tls1.2的支持,使现代的edge和firefox浏览器能正常访问https

最近发现自己ubuntu10.04服务器上的apache https无法通过win11上的edge和firefox浏览器访问,但xp下的ie6和ie8没有问题。 firefox的错误提示为“此网站可能不支持TLS 1.2协议,而这是Firefox支持的最低版本”。 经过检查发现: IE6访问https所需的版本是SS…

Vulnhub靶机:Stapler1

一、介绍 运行环境:Virtualbox 攻击机:kali(10.0.2.4) 靶机:Stapler: 1(10.0.2.13) 目标:获取靶机root权限和flag 靶机下载地址:https://www.vulnhub.com/entry/sta…

安卓转鸿蒙能有多适配?简直了……

到现在为止,想必很多开发者都或多或少 了解过鸿蒙。许多企业也都已经加入了鸿蒙业务,半推半就的开始学习鸿蒙开发。那么鸿蒙到底好不好搞呢? 首先可以肯定的一点,对于做安卓的来说鸿蒙非常搞,究竟有多好搞呢&#xff…

蓝桥杯-体育健将-CPP-贪心

目录 一、题目描述: 二、整体思路: 三、代码: 一、题目描述: 二、整体思路: 要在k分钟内拿最多的金牌,就意味着要参加尽可能多的项目,因此就要选择耗时(比赛时间和休息时间)最少的项目先预处…

2024全国水科技大会【联合主办】福州水务集团有限公司

福州水务成立于2008年11月,AA信用评级,注册资本21.2亿元。下属各级企业70多家(包括3家国家级高新技术企业、1家A股上市企业)。集团主营供水、排水、环保、温泉文旅、综合服务五大板块,旗下运营自来水厂17座&#xff0c…

解锁数据价值:COS支持日志检索与分析功能

前言 腾讯云对象存储服务(COS)一直致力于为用户提供高效、安全、便捷的云存储服务。但是,当数据流动如同星辰大海,如何捕捉那些关键的瞬间,洞察每一次访问背后的故事?现在,日志检索与分析功能可…

Dijkstra算法

Dijkstra算法用于求无向图或者有向图中起点到各个顶点的最短路径,且边的权值需要为非负数下面这个题就可以用该算法求解 743. 网络延迟时间 有 n 个网络节点,标记为 1 到 n。 给你一个列表 times,表示信号经过 有向 边的传递时间。 times[i]…

MNN createSession 之 Schedule(三)

系列文章目录 MNN createFromBuffer(一) MNN createRuntime(二) MNN createSession 之 Schedule(三) MNN createSession 之创建流水线后端(四) MNN Session::resize 之流水线编码&am…

har的编译及引用

1.创建HAR 选择文件->新建->模块,然后再下一个页面选择static library,之后在接下来的页面设置模块名字,然后下一步直到完成。 2.创建成功后在新建的模块下编写自己的代码内容。 3.编译HAR 编译默认是从Index.ets文件下进行导出,如果…

202309 CSP认证 | 梯度求解

梯度求解 这道题是直接在考场上面做的。当然因为去年九月的我过于稚嫩,基本的字符串操作都没有完成好。 当然这次再写我发现,我的思路和在考场上面一模一样,导致还是无法下手… 无法下手的原因就是我一直在思考应该以什么样的结构来存储以及…

bezier曲线拟合椭圆弧线

椭圆弧线用bezier曲线拟合 。 先计算出 椭圆中心 起始角度 旋转角度 S t e p 1 : C o m p u t e ( x 1 ′ , y 1 ′ ) Step 1: Compute(x_1, y_1) Step1:Compute(x1′​,y1′​) ( x 1 ′ y 1 ′ ) ( cos ⁡ φ sin ⁡ φ − sin ⁡ φ cos ⁡ φ ) ⋅ ( x 1 − x 2 2 y 1 −…

JMH微基准测试框架学习笔记

一、简介 JMH(Java Microbenchmark Harness)是一个用于编写、构建和运行Java微基准测试的框架。它提供了丰富的注解和工具,用于精确控制测试的执行和结果测量,从而帮助我们深入了解代码的性能特性。 二、案例实战 在你的pom文件…

2024最新自动化测试面试题合集 (附答案)

1、你会封装自动化测试框架吗? 这个问得最多,甚至有很多公司直接写在招聘要求中! 当然可以,自动化框架主要的核心框架就是分层PO模式:分别为:基础封装层BasePage,PO页面对象层,Tes…