ICCV2023 | VL-Match: 使用Token-Level和Instance-Level Matching提升视觉语言预训练

论文标题:VL-Match: Enhancing Vision-Language Pretraining with Token-Level and Instance-Level Matching

代码:None

单位:中国科学院北京计算技术研究所  中国科学院大学  微软

在VLP种,通常采用两种预训练任务(ITM、MLM)来训练多模态编码器。

一、IDea

为了进一步增强token level和instance level的ITM,提出了具有两个新的ITM: 视觉语言替代token检测(VL-RTD)通过生成器-鉴别器结构增强token级的匹配,细粒度图像-文本匹配(FG-ITM)通过引入更多的hard负样本来增强实例级的图像-文本匹配任务。

VL-RTD:将多模态编码器视为鉴别器,将文本编码器视为生成器。给定一个原始文本输入,生成器输出一个损坏的文本,然后鉴别器学习区分损坏文本中的每个标记是否被生成器替换。与使用[MASK]破坏原始文本的掩码语言建模相比,VL-RTD使用从词汇表中选择的标记来破坏文本,保留了原始文本的更多语义信息。

FG-ITM:通过引入更细粒度的负样本来增强实例级的图像-文本匹配任务。以前,图像-文本匹配任务的负文本样本要么随机采样,要么根据实例级相似度采样。为了细粒度地呈现正负样本之间的差异,提出了一种新的数据增强方法NegGen。通过在应用语言生成器来合成一个新的文本实例。期望生成的文本在自然语言中是连贯的,但与相应的图像有一些细粒度的差异。

二、Model

1、Vision-Language Replaced Token Detection(VL-RTD

在生成过程中,将文本编码器视为生成器,根据文本上下文学习文本表示并生成损坏的文本(图2中的红色箭头)。与掩码语言建模类似,所选位置的标记被替换为[MASK]标记,将其表示为REPLACE(T,m, [MASK]),其中T为原始文本标记,m为所选位置。给定被屏蔽的文本T被屏蔽,文本编码器学习预测被屏蔽掉的标记的原始标记。pG(T掩码)为预测概率。基于此概率对每个token进行采样,以获得损坏的文本Tcorrupt ,生成过程(就是MLM):

在判别过程中,将多模态编码器视为判别器,以判别文本中的每个token是否与图像和文本上下文对齐(图2中的绿色箭头)。给定Tcorrupt,文本编码器将文本转换为{Tccls, tc1,…, tcM},被输入到多模态编码器中,与图像{vcls, v1,…, vN}经过cross attention,多模态编码器的输出经过一个二分类层,分类是否匹配:

因此,该部分损失为:

2、Image-Text Contrastive learning

典型ITC:

损失为:

3、Fine-Grained Image-Text Matching

对于每个输入的图像-文本对,使用两种类型的负样本:根据式6或7选择的批量hard负样本,以及由NegGen生成的细粒度负样本。使用多模态编码器对[CLS]标记的输出embedding作为图像-文本对的联合表示:

总体损失为:

4、NegGen

原始文本被mask,然后输入到语言模型中,生成细粒度的负样本。为了屏蔽具有丰富语义信息的token,使用了一个简单的词性标注器来识别原始文本中的名词和形容词,并随机屏蔽其中的50%。生成细粒度负样本的过程形式化如下:

此外,为了确保生成的文本样本是负的,采用ITM训练的VLP模型作为判别器来预测图像-文本匹配概率并过滤掉潜在的正样本。

三、Experiments

1、Image-Text Retrieval

2、Visual Entailment (VE)
3、Visual Question Answering (VQA)
4、Natural Language for Visual Reasoning (NLVR2)

5、 Ablations on Pretraining Tasks

这个想法其实很通用(也想到过,但不是生成,而是制定负样本规则,如果破坏15%-25%-50%等)。在对比学习中,其主要是拉开两类样本的分布,这种细粒度的负样本放到对比学习中,如果这两类样本的粒度很小,肯定更容易实现对齐,效果肯定有提升。其次在结构上,论文不是通用的VLP双塔结构或者CLIP双分支,而是在CLIP Encoder上加Cross-Attention融合特征进行分类(图中是这样的,但是代码就不知道了,没开源,期待开源研究code)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/329113.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Leetcode 程序员面试金典 05.01】插入 —— 位运算

面试题 05.01 插入 给定两个整型数字N与M&#xff0c;以及表示比特位置的i与j&#xff08;i < j&#xff0c;且从 0 位开始计算&#xff09;。 编写一种方法&#xff0c;使M对应的二进制数字插入N对应的二进制数字的第i ~ j位区域&#xff0c;不足之处用0补齐。具体插入过…

Shell脚本同时调用#!/bin/bash和#!/usr/bin/expect

如果你想在一个脚本中同时使用bash和expect&#xff0c;你可以将expect部分嵌入到bash脚本中。以下是一个示例&#xff1a; #!/bin/bash# 设置MySQL服务器地址、端口、用户名和密码 MYSQL_HOST"localhost" MYSQL_PORT"3306" MYSQL_USER"your_usernam…

从零实现一套低代码(保姆级教程)【后端服务】 --- 【17】实现页面的增删改查接口

摘要 在上一篇中&#xff0c;我们已经搭建好了后端服务。同时实现了获取全部页面列表的接口以及Swagger文档的配置。 如果这一步没有问题了&#xff0c;我们现在就可以去完成剩下和页面相关的接口了。我们先总体的看一下&#xff0c;我们要实现什么接口。 1.实现新建页面的接…

rust跟我学三:文件时间属性获得方法

图为RUST吉祥物 大家好,我是get_local_info作者带剑书生,这里用一篇文章讲解get_local_info是怎样获得杀毒软件的病毒库时间的。 首先,先要了解get_local_info是什么? get_local_info是一个获取linux系统信息的rust三方库,并提供一些常用功能,目前版本0.2.4。详细介绍地址…

《WebKit 技术内幕》之三(2): WebKit 架构和模块

2.基于 Blink 的 Chrominum 浏览器结构 2.1 Chrominum 浏览器的架构及模块 Chromium也是基于WebKit&#xff08;Blink&#xff09;开发的&#xff0c;并且在WebKit的移植部分中&#xff0c;Chromium也做了很多有趣的事&#xff0c;所以通过Chromium可以了解如何基于WebKit构建浏…

【SpringBoot】Bean 是什么?

感兴趣的话&#xff0c;可以看我另外一篇关于 Bean 的文章&#xff1a;【Java基础】Spring 中 Bean 的理解与使用 一、Bean 定义 Bean 作为 Spring 框架面试中不可或缺的概念&#xff0c;其本质上是指代任何被 Spring 加载生成出来的对象。&#xff08;本质上区别于 Java Bea…

迪文串口屏屏幕界面制作软件T5L_DGUS Tool\\DGUS_V7647的使用

一、概述 使用迪文串口屏要首先用屏幕界面制作软件T5L_DGUS Tool制作界面&#xff0c;然后在直面上设置变量&#xff0c;变量对应有地址。单片机可以使用串口发送数组&#xff0c;数组为迪文屏的控制指令&#xff0c;比如写数据指令&#xff0c;该指令中有变量的地址&#xff0…

k8s创建资源对象过程

我们都知道&#xff0c;K8S中一切皆资源&#xff0c;在使用K8S时&#xff0c;所有的pod或者controller都是通过yaml文件进行创建的。 那么接下来&#xff0c;就和大家一起看一下K8S是如何创建资源的。 创建资源对象的过程 Deployment是一种常见的资源对象。在Kubernetes系统…

低代码-详情页组件设计

效果图 详情页数据结构定义 layout:{// 按钮数据buttonLayout:{headButton:[], // 页头按钮footButton:[] // 页脚按钮},// 详情页表单配置config:{}, // 配置组件列表detailLayout:[]}默认行为 进表单初始化&#xff0c;只展示表单属性&#xff0c;隐藏通用、数据、事件tab项…

springboot第50集:File类,IO流,网络编程,反射机制周刊

image.png FileReader、FileWriter的使用 FileInputStream、FileOutputStream的使用 image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png image.png 服务器内存优化是一个复杂的过程&#xff0c;通常需要综合考虑…

存储系统——Ceph

目录 存储基础 单机存储设备 单机存储的问题 分布式存储&#xff08;软件定义的存储 SDS&#xff09; 分布式存储的类型 Ceph 概述 Ceph 优势 Ceph 架构 RADOS 基础存储系统 LIBRADOS 基础库 高层应用接口 应用层 Ceph 核心组件 OSD&#xff08;Object Storage D…

实现歌词滚动效果

文章目录 需求源码 需求 有一段音频和一个字符串格式的歌词&#xff0c;现欲将二者结合做到歌词随音乐播放歌词滚动的效果&#xff0c;如下图所示 源码 目录结构 index.html <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8&…

windows PyCharm远程同步Linux服务器上的项目文件,以及远程连接Linux服务器上的python环境

&#xff08;1&#xff09;上传项目文件到Linux服务器和前置说明 &#xff08;1-1&#xff09;本地项目文件地址&#xff1a;D:\Python_Work\XXX &#xff08;1-2&#xff09;阿里云服务器项目文件地址&#xff1a;/home/XXX &#xff08;1-3&#xff09;Pycharm必须是专业版…

杨中科 .NETCORE EFCORE第七部分 一对一,多对多

一对一 一对一关系配置 1、builder.HasOne(o >o.Delivery).WithOne(d>d.Order).HasForeignKey(d>dOrderId); 2、测试插入和获取数据 示例 新建 Order 新建 Delivery DeliveryConfig OrderConfig 执行 迁移命令 查看数据库 测试数据插入 运行查看数据 多对多…

Qt中ComboBox的简单使用

1.相关说明 combobox中item的文字、data、图片设置 2.界面绘制 3.相关主要代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete …

怎么修改或移除WordPress后台仪表盘概览底部的版权信息和主题信息?

前面跟大家分享『WordPress怎么把后台左上角的logo和评论图标移除&#xff1f;』和『WordPress后台底部版权信息“感谢使用 WordPress 进行创作”和版本号怎么修改或删除&#xff1f;』&#xff0c;其实在WordPress后台仪表盘的“概览”底部还有一个WordPress版权信息和所使用的…

【Python笔记】pip intall -e命令:让你的工程直接使用开源包的源码,可断点调试,修改源码!

最近学习MetaGPT&#xff0c;用到了 pip install -e . 安装命令&#xff0c;这个安装命令是从源代码安装包。 从源代码安装包有几个好处&#xff1a; 包内的代码是可见的&#xff0c;是白盒&#xff0c;不是黑盒&#xff0c;可以直接在项目中看源码断点调试可以直接断到源码里…

看看通义天问AI的水平怎么样?

写在前面 我问了通义千问一个问题&#xff1a;gooey项目改名后的新名字是什么&#xff1f; 这个问题很模糊&#xff0c;它把gooey理解为一个python库&#xff0c;这很正常&#xff0c;毕竟该项目知名度大。 随着对话的进展&#xff0c;我补充了相关信息&#xff0c;将上下文领…

QT软件在线安装与维护

一.安装 安装QT开发环境分离线安装和在线安装两种方式&#xff0c;具体步骤如下&#xff1a; QT官网注册账号----下载安装包-----安装-----选择要安装的版本与开发包----版本维护 注意&#xff1a;Qt5.14.2是最后提供二进制安装包的版本&#xff0c;后面的版本都需要在线安装…

力扣hot100 爬楼梯 线性DP

Problem: 70. 爬楼梯 复杂度 时间复杂度: O ( n ) O(n) O(n) Code class Solution {public int climbStairs(int n){int[] f new int[n 1];f[0] 1;f[1] 1;for (int i 2; i < n; i)f[i] f[i - 1] f[i - 2];return f[n];} }