Revealing the Dark Secrets of MIM

论文名称: Revealing the Dark Secrets of Masked Image Modeling
发表时间:CVPR2022
作者及组织:Zhenda Xie, Zigang Geng, Hu Han等,来自清华,中科院,微软亚洲研究院。

前言

 本文尝试探讨MIM为何有效的原因。

1、结论

 由于是篇充满可视化及对比实验的文章,因此先说结论:
 1) MIM能给模型所有层带来归纳偏置;
 2) MIM能给不同Head带来多样性;
 3) MIM在感知任务和细分类任务上优于全监督预训练。

2、对比实验条件设置

 Backbone:VIT-B
 预训练方法:全监督(DeiT),对比学习(Moco),MIM

3、可视化角度

 论文从不同角度,可视化了三种预训练方法的热图。下面将分别介绍:

3.1.Head内的平均注意力距离(AAD)

 简单说下平均注意力距离计算方法:在得到Attntion Mat后,遍历每个token与之匹配token 的相对距离,将其求和在除以token总数。因而能够定性表示Attntion Mat关注的相对位置远近的分布(引入归纳偏置)。
在这里插入图片描述

 在上图中,横坐标表示不同层,纵坐标表示AAD,每个圆圈表示一个Head。全监督和对比预训练在最后三层AAD基本一致,而MIM还保持了较大分布范围,因此便得出MIM能给不同层带来归纳偏置。

3.2.Head权重值的熵(权重值的分布)

 论文之后可视化了每个Head的熵(-p*logp)分布,能够衡量每个Head属于全局注意力Or局部注意力。
在这里插入图片描述

 从上图可以看出,全监督和对比预训练方法在最后三层的Head熵挺大的,表示Attention Mat关注的范围更广,即全局注意力;而MIM则在最后三层熵分布范围广,即保证局部注意力同时也保证了全局注意力。

3.3.不同Head之间权重分布相似性

  上述两个指标表示MIM的Head关注范围丰富,但无法确定Head与Head之间分布相似性,因此作者又衡量了不同Head之间的分布的相似性,即利用KL散度。
在这里插入图片描述

  上图中大圆圈表示当前层平均KL散度,MIM相较前两种预训练方法在后三层KL散度更大。即不同Head关注的token不一致。

3.4.特征图FM之间相似性

  作者借助CKA指标观察了不同FM的相似度。下图是12层FM之间热力图,颜色越亮表示越相似。可以发现,MIM层与层之间FM趋于相似。

在这里插入图片描述

4、实验角度

 该章节则是从对比实验角度比较三种预训练方法。
在这里插入图片描述

 在感知任务上MIM效果更好,得益于MIM引入归纳偏置和Attntion Mat多样性丰富。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/329753.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据库的安全管理

数据库的安全管理 一、实验目的 掌握用户账号的创建、查看、修改、删除的方法。掌握用户权限设置方法。掌握角色的创建、删除方法。 二、实验内容用户账号的创建、查看、修改、删除的SQL语句。用户权限设置SQL语句。角色的创建、删除SQL语句。 三、实验步骤在本地主机创建用户…

使用vite框架封装vue3插件,发布到npm

目录 一、vue环境搭建 1、创建App.vue 2、修改main.ts 3、修改vite.config.ts 二、插件配置 1、创建插件 2、开发调试 3、打包配置 4、package.json文件配置 5、执行打包命令 pnpm build 6、修改index.d.ts 目录 一、vue环境搭建 1、创建App.vue 2、修改main.ts 3…

NOIP2018提高组day2 - T1:旅行

题目链接 [NOIP2018 提高组] 旅行 题目描述 小 Y 是一个爱好旅行的 OIer。她来到 X 国,打算将各个城市都玩一遍。 小 Y 了解到,X 国的 n n n 个城市之间有 m m m 条双向道路。每条双向道路连接两个城市。 不存在两条连接同一对城市的道路&#xff…

企事业单位宣传任务的考核稿和投稿有哪些网站?

企事业单位在宣传任务方面扮演着重要角色,他们不仅要向公众展示自己的实力和影响力,也需要提高自己的知名度和形象。在这个信息化时代,涌现出了许多网络平台,为企事业单位提供了更多的宣传机会。本文将介绍一家被广泛认可的投稿平…

模型Model:文件系统模型QFileSystemModel

一、 1、常用函数 QFileSystemModel自带目录变化监听 1)、 QModelIndex setRootPath(const QString &path); 设置检索根目录 2)、 bool isDir(const QModelIndex &index) const; 选中索引是否为目录节点 3)、 QString filePath(const QModelIndex &index) const;…

算法和数据结构--树状数组

概念: 树状数组的初衷是解决状态压缩空间里的累积频率,现在多用于求前缀和与后缀和(方便计算),它可以以 O(logN)的时间得到任意前缀和,并同时支持在 O(logN)时间内支持动态单点值的修改。空间复杂度 O(N)。 树状数组的引用&#…

如何根据自己的数据集微调一个 Transformer 模型

将通过 NLP 中最常见的文本分类任务来学习如何在自己的数据集上利用迁移学习(transfer learning)微调一个预训练的 Transformer 模型—— DistilBERT。DistilBERT 是 BERT 的一个衍生版本,它的优点在它的性能与 BERT 相当,但是体积…

Unity3d C#实现场景编辑/运行模式下3D模型XYZ轴混合一键排序功能(含源码工程)

前言 在部分场景搭建中需要整齐摆放一些物品(如仓库中的货堆、货架等),因为有交互的操作在单个模型上,每次总是手动拖动模型操作起来也是繁琐和劳累。 在这背景下,我编写了一个在运行或者编辑状态下都可以进行一键排序…

【嘉立创EDA-PCB设计指南】3.网络表概念解读+板框绘制

前言:本文对网络表概念解读板框绘制(确定PCB板子轮廓) 网络表概念解读 在本专栏的上一篇文章【嘉立创EDA-PCB设计指南】2,将设计的原理图转为了PCB,在PCB界面下出现了所有的封装,以及所有的飞线属性&…

从0开始python学习-48.pytest框架之断言

目录 1. 响应进行断言 1.1 在yaml用例中写入断言内容 1.2 封装断言方法 1.3 在执行流程中加入断言判断内容 2. 数据库数据断言 2.1 在yaml用例中写入断言内容 2.2 连接数据库并封装执行sql的方法 2.3 封装后校验方法是否可执行 2.4 使用之前封装的断言方法&#xff0c…

austin-admin 消息推送平台前端项目依赖低代码平台Amis 怎么使用

austin-admin 消息推送平台前端项目🔥依赖低代码平台Amis 怎么使用 收到一个通知,要将部署一个开源的消息系统 :austin的前端开源:https://gitee.com/zhongfucheng/austin-admin 本地运行 1、使用npm或者yarn这些咯 yarn yarn start2、使用…

【LabVIEW FPGA入门】FPGA中的数学运算

数值控件选板上的大部分数学函数都支持整数或定点数据类型,但是需要请注意,避免使用乘法、除法、倒数、平方根等函数,此类函数比较占用FPGA资源,且如果使用的是定点数据或单精度浮点数据仅适用于FPGA终端。 1.整数运算 支持的数…

pyechart基础

pyecharts - A Python Echarts Plotting Library built with love. 全局配置项 初识全局配置组件 Note: 配置项章节应该配合图表类型章节中的 example 阅读。 全局配置项可通过 set_global_opts 方法设置 InitOpts:初始化配置项 class pyecharts.options.InitO…

Java顺序表(2)

🐵本篇文章将对ArrayList类进行讲解 一、ArrayList类介绍 上篇文章我们对顺序表的增删查改等方法进行了模拟实现,实际上Java提供了ArrayList类,而在这个类中就包含了顺序表的一系列方法,这样在用顺序表解决问题时就不用每次都去实…

【C++干货铺】红黑树 (Red Black Tree)

个人主页点击直达:小白不是程序媛 C系列专栏:C干货铺 代码仓库:Gitee 目录 前言 红黑树的概念 红黑树的性质 红黑树结点的定义 红黑树的插入操作 插入新的结点 检查规则进行改色 情况一 情况二 情况三 插入完整代码 红黑树的验…

SpringMVC参数接收见解4

# 4.参数接收Springmvc中,接收页面提交的数据是通过方法形参来接收: 处理器适配器调用springmvc使用反射将前端提交的参数传递给controller方法的形参 springmvc接收的参数都是String类型,所以spirngmvc提供了很多converter(转换…

【数据结构】归并排序的两种实现方式与计数排序

前言:在前面我们讲了各种常见的排序,今天我们就来对排序部分收个尾,再来对归并排序通过递归和非递归的方法进行实现,与对计数排序进行简单的学习。 💖 博主CSDN主页:卫卫卫的个人主页 💞 👉 专栏…

Android Matrix绘制PaintDrawable设置BitmapShader,手指触点为圆心scale放大原图,Kotlin

Android Matrix绘制PaintDrawable设置BitmapShader,手指触点为圆心scale放大原图,Kotlin 在 Android基于Matrix绘制PaintDrawable设置BitmapShader,以手指触点为中心显示原图的圆切图,Kotlin(4)-CSDN博客 的…

2001-2022年上市公司企业财务绩效、公司价值、并购绩效数据(ROA、ROE、TOBINQ变化)

2001-2022年上市公司企业财务绩效、公司价值、并购绩效数据(ROA、ROE、TOBINQ变化) 1、时间:2001-2022年 2、指标:证券代码、统计截止日期、证券简称、行业代码、行业名称、年份、、总资产净利润率B、净资产收益率(ROE)B、托宾Q…

【方法】如何压缩zip格式文件?

zip是一种常见的压缩文件格式,能够高效打包文件便于存储和传输,那zip格式的压缩文件要如何压缩呢? 压缩zip文件需要用到解压缩软件,比如常见的WinRAR、7-Zip软件都可以压缩zip格式。下面一起来看看具体如何操作。 一、使用WinRAR…