【多模态】BEIT: BERT Pre-Training of Image Transformers

论文:BEIT: BERT Pre-Training of Image Transformers
链接:https://arxiv.org/pdf/2301.00184

Introduction

  1. BEIT(Bidirectional Encoder representation from Image Transformers)
  2. Motivation: 启发于BERT的自编码方式(随机mask进行token预测)
  3. 难点:没有视觉词表,无法简单应用softmax分类器预测candidates。
  4. 直观感受是将该问题视为回归问题,预测masked patch的每个像素点,但是这会导致浪费模型能力在建立短程依赖和高频细节上。(waste modeling capability on pre-training shortrange dependencies and high-frequency details)
  5. 最终解决方案
    1) Overview
    在这里插入图片描述
    2)两种view,image patches and visual tokens。首先将图像划分为patches并随机mask作为模型输入。然后通过VAE将图像tokenize为离散的视觉token。模型最终学习目标为,recover the visual tokens not pixels of masked patches。
    3)实验结果:BEIT 优于从头开始训练和以前的强自监督模型

Details

  1. Image Patch,输入图像维度 x ∈ R H ∗ W ∗ C x \in R^{H*W*C} xRHWC,reshape成为 N = H W / P 2 N=HW/P^2 N=HW/P2个patch, x p ∈ R N ∗ ( P 2 C ) x^p\in\mathbb{R}^{N*(P^2C)} xpRN(P2C),C为通道数。在该实验中,split 224 × 224 image into a 14 × 14 grid of image patches, where each patch is 16 × 16.
  2. Visual Token,直接将图像tokenize为 z = [ z 1 , . . . z N ] ∈ V h ∗ w z=[z_1,...z_N]\in \mathbb{V}^{h*w} z=[z1,...zN]Vhw,tokenizer为训练好的discrete variational autoencoder (dVAE),该自编码器包括encoder和decoder两部分,encoder负责将图像输入映射到视觉词表,decoder负责根据encoder的结果重建输入。在本文中仅需要使用训练好的encoder部分作为tokenizer以及对应词表。词表大小为8192
  3. Backbone Network: Image Transformer,在输入前加入special token [S]。
  4. Pre-Training BEIT: Masked Image Modeling(MIM) 。随机mask40%的patches,masked位置由[M] token替代。
    训练目标为感觉masked patch预测相应位置的visual token:
    在这里插入图片描述
    • blockwise masking,类似于bert中的n gram mask,先随机生成块大小,再选定纵横比 :
      在这里插入图片描述

实验

  1. 参数设置:ImageNet-1K,1.2M图像。12-layer Transformer with 768 hidden size, and 12 attention heads,intermediate size of feed-forward networks is 3072,16 × 16 input patch size,视觉词表8192. 图像处理包括随机调整大小的裁剪,水平翻转,颜色抖动。2k batch size,800epoch。500k training steps take about five days using 16 Nvidia Telsa V100 32GB GPU cards。
  2. 下游任务微调:
    • 在图像分类任务上,加入一个简单的线性分类器作为任务层,使用average pooling作为最终表示过softmax。
    • 在语义分割上,引入几个反卷积层
    • Intermediate fine-tuning,进一步进行beit的微调应用于下游任务
  3. 主要对比实验,384为输入图像大小
    在这里插入图片描述
  4. 收敛实验,BEiT收敛速度更快
    在这里插入图片描述
  5. 语义分割实验
    在这里插入图片描述
  6. 消融实验,预测visual tokem最重要
    在这里插入图片描述
  7. 可视化结果
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/743164.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习-10】 | Scikit-Learn工具包进阶指南:Scikit-Learn工具包之支持向量机模块研究

🎩 欢迎来到技术探索的奇幻世界👨‍💻 📜 个人主页:一伦明悦-CSDN博客 ✍🏻 作者简介: C软件开发、Python机器学习爱好者 🗣️ 互动与支持:💬评论 &…

什么是Cookie?有什么用?如何清除浏览器中的Cookie?

互联网上的每一次点击和每一个选择都可能被一种名为Cookie的技术记录下来。但Cookie是什么?我们在网站上登录时,为什么经常会被问及是否接受Cookie?接受Cookie登录会不会影响我们的在线隐私? Cookie是什么? Cookie是一…

Web后端Javaee企业级开发之定时任务 Springboot整合任务框架Quartz和Task详解

定时任务 在Java EE企业级开发中,定时任务(也称为后台调度或周期性任务)是非常常见的一种功能,主要用于执行那些不需要用户交互,但需要按照预定时间间隔或事件触发的任务。Java EE提供了几个框架和API来处理这种需求&…

Java的gui开发-Swing如何一键打包exe、dmg等

java的gui开发其实很方便,性能也不错,知名的idea开发工具也是java-swing开发,只是用的人少,看了我的例子3分钟就能学会,分分钟写桌面端,下面教你如何一键打包windows端exe Java-Swing-Template java的gui开…

Netty学习(二)——黏包半包、协议设计解析、聊天室

一、粘包与半包 1.1 粘包和半包复现 1、粘包复现: Server代码: public class ProblemServer {public static void main(String[] args) throws InterruptedException {new ServerBootstrap()//若是指定接收缓冲区大小:就会出现黏包、半包…

Unity2D - 碰撞检测及边界检测

1. 地面检测 1.1 地面检测的逻辑及代码 一般情况下,对于手人物进行事件处理或动作处理时,我们需要判定人物是否在地面上,这个时候最好的方式是设定地面碰撞器,只有角色在地面时才可以进行跳跃; 我们可以想象物体的重心向地面延伸…

rapidocr-onnxruntime库及在open-webui上传PDF 图像处理 (使用 OCR)应用

背景 rapidocr-onnxruntime是一个跨平台的OCR库,基于ONNXRuntime推理框架。 目前已知运行速度最快、支持最广,完全开源免费并支持离线快速部署的多平台多语言OCR。 缘起:百度paddle工程化不是太好,为了方便大家在各种端上进行oc…

苏宁易购通用卡怎么使用?

现在还有人用苏宁的礼品卡吗 前两天618,想买点家电,但是在苏宁上看价格还不如京东淘宝优惠 最后手里的苏宁卡也没用出去 本来想着要不送人算了,但是收卡云的价格也还不错,最后就卖出去了 500块钱的苏宁卡买了475,到…

智慧校园-后勤管理系统总体概述

在今天这个信息化飞速发展的时代,智慧校园后勤管理系统就像一股清新的风,悄悄吹走了过去校园后勤工作中的一些老难题。它就像是个超级聪明的帮手,用上了物联网、大数据那些听起来就很高大上的技术,目的很简单,就是让学…

华为研发PMO能力建设架构实战

华为作为全球领先的ICT解决方案供应商,在项目管理领域的实践和探索无疑是行业的标杆。本文将通过分析华为研发PMO(项目管理办公室)的能力建设架构,揭示其在项目化运作中的关键要素、流程与方法、组织变革及人力资源管理等方面的卓…

vs利器Visual Assist X的十大顶级用法及下载注册

Visual Assist X是一款功能强大的Microsoft Visual Studio插件,它可以显著提高编程效率和代码质量。 十大顶级用法 1.打开任意文件(ShiftAltO) Visual Assist X只需通过简单的快捷键ShiftAltO,结合文件名或搜索模式,即可迅速定位并打开项目…

驾校预约管理系统

摘 要 随着驾驶技术的普及和交通安全意识的增强,越来越多的人选择参加驾校培训,以获取驾驶执照。然而,驾校管理面临着日益增长的学员数量和繁琐的预约管理工作。为了提高驾校的管理效率和服务质量,驾校预约管理系统成为了必不可少…

全国首场以AI数字内容风控为主题的大会,开放参会报名中

网易易盾将于2024年7月6日举办一场AI数字内容风控大会,邀请AI产业链的基础层、模型层和应用层的企业代表,科研机构、律所、院校的专家老师,探讨大模型时代下的自由与责任等话题。参会报名链接:https://sourl.cn/vqUU7X&#xff0c…

node.js 离线实时语音识别

前言 在node.js实现语音实时转文字。获取麦克风实时语音转文字。 下面是用vosk的效果。注意踩坑要及时评论哦,坑还是挺多的。 在探索后发现本地模型对设备还是有一定要求的,最总无奈采用百度语音识别的方案。 探索结果分享给大家,希望能在项…

IDS Gaia-X Catena-X Manufacturing-X的关系

来源:小盟科普丨Catena-X数据空间在汽车领域落地https://mp.weixin.qq.com/s/Ftp0UGAohsh4ltLn3DylAw

基于Java毕业生生活用品出售网站设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…

CMA软件测试报告对企业和用户有什么好处?

CMA是中国计量认证的简称,由省级以上人民政府计量行政部门对检测机构的检测能力及可靠性进行的一种全面的认证及评价,认证对象是所有对社会出具公正数据的产品质量监督检验机构及其它各类实验室,是需要强制性认证的资质。取得该资质认证的&am…

如何将 ChatGPT (OpenAI) 与 Kubernetes 集成

Kubernetes是一种非常流行的容器编排平台,旨在大规模管理分布式应用程序。它具有许多用于部署、扩展和管理容器的高级功能,使软件工程师能够构建高度灵活且具有弹性的基础设施。 此外,值得注意的是,它是一款开源软件,…

[RK-Linux] RK3562 I2C驱动TP芯片GSL3680

TP芯片GSL3680 1、简介 GSL3680是一款电容屏多点触摸控制单芯片,其芯片内部框架图如下所示: GSL3680采用了独特的互电容感应技术,可以在1ms内测量多达192个节点,支持广泛的传感器选择,包括单层或双层ITO,玻璃或薄膜,采用了先进的抗电磁干扰信号处理技术,使其对各种干…

Chrome开发者工具学习

打开开发者工具: 可以通过在网页上点击右键并选择“检查”来打开。 或者使用快捷键Ctrl Shift I(在Windows/Linux上)或Command Option I(在Mac上)。 界面概览: 熟悉DevTools的基本面板,如“…