(ECCV,2022)Mask-CLIP:从CLIP中提取自由密集标签

文章目录

  • Extract Free Dense Labels from CLIP
    • 相关资料
    • 摘要
    • 引言
    • 方法
      • Mask-CLIP
      • Mask-CLIP+
    • 实验

Extract Free Dense Labels from CLIP

相关资料

代码:https://github.com/chongzhou96/MaskCLIP
论文:https://arxiv.org/abs/2112.01071

摘要

对比语言-图像预训练(CLIP)在开放词汇的零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别分类和操作。在本文中,我们希望检查CLIP在像素级密集预测方面的内在潜力,特别是在语义分割方面。为此,我们展示了通过最小修改,MaskCLIP在没有注释和微调的情况下,在各种数据集上的开放概念中产生了引人注目的分割结果。通过添加伪标记和自训练,MaskCLIP+在很大程度上超越了最先进的感应零样本语义分割方法,例如,在PASCAL VOC/PASCAL Context/COCO Stuff上未见类别的mIoUs从35.6/20.7/30.3提高到86.1/66.7/54.7。我们还测试了MaskCLIP在输入损坏下的鲁棒性,并评估了其区分细粒度对象和新概念的能力。我们的发现表明,MaskCLIP可以作为密集预测任务的新可靠监督源,实现无需注释的分割。源代码在此处可用。

引言

在这里插入图片描述

我们的模型名为MaskCLIP,我们展示了一个可以直接从CLIP的图像编码器中提取密集的补丁级特征,即最后一个注意力层的值特征,而不会破坏视觉-语言关联。用于密集预测的分类权重,本质上是1×1卷积,可以直接从CLIP文本编码器的文本嵌入中获得,而不需要任何刻意的映射。在我们的实证研究中,MaskCLIP在通过mIoU指标测量的定量性能和定性结果方面都产生了合理的预测。此外,MaskCLIP可以基于所有变体的CLIP,包括ResNets和ViTs。我们提供了两种流行的骨干网络之间的并排比较。我们还为MaskCLIP提出了两种掩码细化技术,以进一步提高其性能,即关键平滑提示去噪,两者都不需要训练。具体来说,关键平滑计算不同补丁的关键特征(最后一个注意力层)之间的相似性,这些特征用于平滑预测。提示去噪通过删除图像中不太可能存在的类别的提示,从而减少干扰因素,使预测更加准确。

方法

在这里插入图片描述

Mask-CLIP

如图2(b)所示,与传统的全局平均池化不同,CLIP的图像编码器采用了Transformer风格的多头注意力层,其中全局平均池化的特征作为查询,每个空间位置的特征生成一个键-值对。因此,这一层的输出是对传入特征图的空间加权和,然后是线性层 F ( ⋅ ) F(·) F()
在这里插入图片描述
其中 C C C是一个常数缩放因子, E m b ( ⋅ ) Emb(·) Emb()表示线性嵌入层。 x i x_i xi表示空间位置i的输入特征, x ˉ \bar{x} xˉ是所有 x i x_i xi的平均值。Transformer层的输出作为整个图像的全面表示。我们相信这是可能的,因为在每个空间位置计算的#F(v_i)#已经捕获了与CLIP文本嵌入中的标记很好地对应的局部语义的丰富响应。
基于这样的假设,如图2(b)所示,我们在我们的新尝试中直接修改了CLIP的图像编码器:

  1. 移除查询和键嵌入层;
  2. 将值嵌入层和最后的线性层重新制定为两个各自的1×1卷积层。
  3. 我们保持文本编码器不变,它以带有目标类别的提示作为输入。每个类别的得到的文本嵌入被用作分类器。

我们将得到的模型命名为MaskCLIP,因为它产生像素级掩码预测而不是全局图像级预测。然后,我们在各种标准分割基准测试以及网络爬取的图像上评估MaskCLIP。如图1所示,MaskCLIP可以在没有任何微调或注释的情况下输出合理的结果。有人可能会争论,由于全局注意力池化是一个自注意力层,即使没有修改,它也可以生成密集的特征。然而,由于查询 q ˉ \bar{q} qˉ是在CLIP预训练期间训练的唯一查询,这种朴素的解决方案失败了。我们将这个解决方案视为基线,并在实验中将其结果与我们的进行比较。此外,ViT中的Transformer层与全局注意力池化非常相似。实际上,唯一的两个区别是:

  1. 全局查询是通过一个特殊的[CLS]标记而不是所有空间位置的平均值来生成的;
  2. Transformer层有一个残差连接。因此,通过用q[cls]替换 q ˉ \bar{q} qˉ并在输出中添加输入x,MaskCLIP可以与ViT骨干一起工作。

尽管MaskCLIP与现有的分割方法相比简单,但提出的方法享有从CLIP继承的多个独特优点:

  1. MaskCLIP可以用作免费的分割注释器,为使用有限标签的分割方法提供丰富和新颖的监督信号。
  2. 其次,由于CLIP在MaskCLIP中保留了视觉-语言关联,它自然具备分割开放词汇表类别的能力,以及由自由形式短语描述的细粒度类别,如白色汽车和红色公交车。
  3. 由于CLIP是在原始网络策划的图像上训练的,CLIP展示了对自然分布变化[45]和输入损坏[47]的巨大鲁棒性。

我们验证了MaskCLIP在一定程度上保留了这种鲁棒性。关键平滑和提示去噪。为了进一步提高MaskCLIP的性能,我们提出了两种细化策略,即关键平滑和提示去噪。回想一下,在方程3中,除了 q ˉ \bar{q} qˉ,关键特征 k i k_i ki也在CLIP预训练期间得到了训练。然而,在原始的MaskCLIP中, k i k_i ki被简单地丢弃了。因此,在这里我们寻求利用这些信息来细化最终输出。关键特征可以被视为相应补丁的描述符,因此具有相似关键特征的补丁应该产生相似的预测。基于这个假设,我们提出用以下方式平滑预测:
在这里插入图片描述

其中 k i k_i ki p r e d i pred_i predi分别是空间位置 i i i的关键特征和类别置信度预测, ∣ ∣ ⋅ ∣ ∣ 2 ||·||_2 ∣∣2 c o s ( ⋅ ) cos(·) cos()分别表示L2归一化和余弦相似性。我们称这种策略为关键平滑。此外,我们还观察到在处理许多目标类别时,由于在单个图像中只有一小部分类别出现,其余的类别实际上是干扰因素,会削弱性能。因此,我们提出了提示去噪,它通过移除所有空间位置上的类别置信度都小于阈值t=0.5的提示的目标类别。

Mask-CLIP+

虽然MaskCLIP不需要任何训练,但其网络架构受限于CLIP的图像编码器。为了从架构限制中解放MaskCLIP并整合更高级的架构,如PSPNet[55]和DeepLab[5,6],我们注意到可以在训练时而不是推理时部署MaskCLIP,它充当一个通用且鲁棒的注释器,提供高质量的伪标签。结合标准的自训练策略,得到的模型,称为MaskCLIP+,实现了显著的卓越性能。除了无需注释和开放词汇表分割,MaskCLIP+也可以应用于感应零样本语义分割任务,其中MaskCLIP仅为未见类别生成伪标签。

实验

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/781218.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

接口测试分析、设计以及实现

接口相关理论 ui功能测试和接口测试哪个先执行?–为什么 结论:接口测试先执行 原因:ui功能测试需要等待前端页面开发完成、后台接口开发完后且前端与后端联调完成。ui功能测试与接口测试的区别? ui功能:功能调用&am…

windows上传app store的构建版本简单方法

我们在上传app store上架,或上传到testflight进行ios的app测试的时候,需要mac下的上传工具上传ipa文件到app store的构建版本上。 然而windows电脑这些工具是无法安装的。 因此,假如在windows上开发hbuilderx或uniapp的应用,可以…

程序升级bootloader

文章目录 概述什么是bootloader?为什么用?bootloader启动流程图步骤 下载过程代码获取本地配置信息获取主机传过来的配置信息bootloader发送2给上位机,上位机发送文件给bootloader根据网站复制CRC 烧写flasherase启动编译问题 概述 用keil编…

Halcon 产品周围缺口检测

*读取一张图像read_image (Image, 原图.jpg)*获取图像大小get_image_size(Image, Width, Height)*关闭已经打开的窗口dev_close_window ()*打开新窗口dev_open_window(0, 0, Width, Height, black, WindowHandle) //打开指定大小的窗口*对图像进行阈值操作threshold (Image, R…

【eMTC】eMTC 窄带以及带宽的关系

1 概述 eMTC 传输进行通信时,一般采用1.4M带宽,在和LTE小区联合部署时,需要将LTE的带宽分割成以1.4M带宽为粒度的单位,这个单位在协议上叫做窄带。 2 窄带定义 3 参考文献 36.211

图片高效管理神器,随机高度切割,一键生成灰色图片,个性化处理随心所欲

在数字化时代,图片已成为我们生活和工作中不可或缺的一部分。然而,面对海量的图片资源,如何高效管理、快速处理,成为了许多人头疼的问题。今天,我们为您带来了一款全新的图片高效管理神器_——首助编辑高手&#xff0c…

【沐风老师】3DMAX样条线增强工具SplinePro使用方法详解

3DMAX样条线增强工具SplinePro使用教程 3DMAX样条线增强工具SplinePro,允许创建选定的多条样条曲线形状的轮廓并删除交叉点。 【适用版本】 3dMax2019 - 2025 【安装方法】 1.解压缩后,确认SplinePro-0.2.0.mse和logo.png两个文件在同一文件夹中。 2.…

python+django 环境搭建以及post接口封装

1、搭建pythondjango环境 python 3.7.9的版本 具体参考之前的安装教程 django 使用 pip install django 会自动安装 检验安装版本: python -m django --version 2、创建django项目 django-admin startproject projectname 启动项目:python manage.py…

verilog读写文件注意事项

文章目录 想要的16进制数是文本格式提供的文件,想将16进制数提取到变量内,想要的16进制数是文本格式提供的文件,想将16进制数提取到变量内,想要的16进制数是二进制格式提供的文件,想将16进制数提取到变量内&#xff0c…

大模型在营销领域的探索及创新

1 AIGA介绍 2 AIGA在营销领域的 应用和探索 3 总结与展望

【WPF】桌面程序开发之xaml页面基础布局方式详解

使用Visual Studio开发工具,我们可以编写在Windows系统上运行的桌面应用程序。其中,WPF(Windows Presentation Foundation)项目是一种常见的选择。然而,对于初学者来说,WPF项目中xaml页面的布局设计可能是一…

MySQL8.0在windows下的下载安装及详细使用

下载mysql8.0二进制包 下载地址:MySQL :: Download MySQL Community Server 编辑my.ini配置文件 解压二进制包,新建/编辑my.ini配置文件(如果不存在则新建) [client] #客户端设置,即客户端默认的连接参数 # 设置mysql客户端连接服务端时…

Python【打包exe文件两步到位】

Python打包Exe 安装 pyinstaller(pip install pyinstaller) 执行打包命令(pyinstaller demo.py) 打完包会生成 dist 文件夹,如下如

openrestry中的hello world

目录 概述实践部署openrestry脚本效果验证 概述 此篇将在 k8s 运行起一个 openrestry   环境:k8s:1.27.9 ,openrestry(docker镜像版本): 1.25.x ,k8s 与 ingress 请参考我的其它文章 离线镜像包请参考:op…

2024暑假集训

Day1——枚举 Day2——测试 Day3——贪心 Day4、5——测试 ——————————————————————————————————————————— Day3T7&Day5T7:没思路 Day3T8:不知道怎么排序筛选 Day5T5:没有算法难度,但是不知道怎么处理2队奶牛的情…

【TB作品】51单片机 Proteus仿真 超声波LCD1602ADC0832 身高体重测量仪

00024 超声波LCD1602ADC0832 实验报告:基于51单片机的身高体重测量仪设计 背景介绍 本实验设计并实现了一个基于51单片机的身高体重测量仪。该系统利用超声波传感器测量高度,通过ADC0832模数转换芯片获取重量数据,并使用LCD1602显示屏显示…

MySQL 中的 DDL、DML、DQL 和 DCL

文章目录 1. 数据定义语言(DDL)2. 数据操作语言(DML)3. 数据查询语言(DQL)4. 数据控制语言(DCL)总结 在 MySQL 数据库管理系统中,SQL 语句可以根据其功能分为不同的类别&…

电源纹波相关

什么是纹波?什么是噪声? 这种叠加在直流稳定量上的交流分量就称为纹波。 纹波的危害 电源纹波能影响设备性能和稳定性 纹波会导致电器上产生谐波,降低电源的使用效率; 高频电源纹波可能会产生浪涌电压或电流,影响设…

VSCode神仙插件——CodeSnap (好看的代码截图)

1 安装 2 使用 选中要截图的代码,右键 此时右侧会出现代码截图的预览图 如果要将截图保存到本地,则点击上图红色框中的图标 也可以点击下面截的图,CtrlC复制,然后就可以CtrlV粘贴到其他应用程序里了

拉曼光谱入门:3.拉曼光谱的特征参数与定量定性分析策略

1.特征参数 1.1 退偏振率 退偏振率(p)是一个衡量拉曼散射光偏振状态的参数,它描述了拉曼散射光的偏振方向与入射光偏振方向之间的关系。退偏振率定义为垂直偏振方向的拉曼散射强度与平行偏振方向的拉曼散射强度之比。退偏振率(p&…