一些 VLP 下游任务的相关探索

一、Image-Text Retrieval (ITR , 图像文本检索)

任务目的:

检索与给定文本最匹配的图像,或者给定图像最匹配的文本。

跨模态图像-文本检索(ITR)是根据用户给定的一种模态中的表达,从另一模态中检索出相关样本,通常包括两个子任务:图像-文本(i2t)和文本-图像(t2i)检索。

数据集格式

以 filter8k数据集为例。官网🤠 

其 caption target 的格式为

1000268201_693b08cb0e.jpg,A child in a pink dress is climbing up a set of stairs in an entry way .
1000268201_693b08cb0e.jpg,A girl going into a wooden building .
1000268201_693b08cb0e.jpg,A little girl climbing into a wooden playhouse .
1000268201_693b08cb0e.jpg,A little girl climbing the stairs to her playhouse .
1000268201_693b08cb0e.jpg,A little girl in a pink dress going into a wooden cabin .
1001773457_577c3a7d70.jpg,A black dog and a spotted dog are fighting
1001773457_577c3a7d70.jpg,A black dog and a tri-colored dog playing with each other on the road .
1001773457_577c3a7d70.jpg,A black dog and a white dog with brown spots are staring at each other in the street .
1001773457_577c3a7d70.jpg,Two dogs of different breeds looking at each other on the road .
1001773457_577c3a7d70.jpg,Two dogs on pavement moving toward each other .

可以看到,每张图片配有五个不同的标题。图片和标题实况举例

image:

caption:

A child in a pink dress is climbing up a set of stairs in an entry way . # 一个穿着粉红色连衣裙的孩子正在爬入口处的一组楼梯。
A girl going into a wooden building .  # 一个女孩走进一栋木屋。
A little girl climbing into a wooden playhouse .  # 一个小女孩爬进了一个木制的剧场。
A little girl climbing the stairs to her playhouse .  # 一个小女孩爬楼梯去她的游戏屋。
A little girl in a pink dress going into a wooden cabin .  # 一个穿着粉红色连衣裙的小女孩走进一间木屋。

 在训练时,image会经过数据增强,caption对一些噪声符号进行去除,然后每条注释格式会进行配对,(image,caption, idx)。其中idx是图像的索引。(idx用来索引图像,作为文本检索图像时模型的预测目标)

注意:这里 虽然是 单个图像与单个文本配对儿, 实际上每个图像对应五条文本,只不过不是一次性的训练,即 一图像与五条文本配对,而是分开的一对一作为样本对儿。

训练流程

1、 caption text 进行量化,text token送入 text encoder, image 送入 image encoder。

2、 计算ITC损失。  过程中利用idx构造真实图像文本匹配的one hot target。  可以参考这里 🐼 ,

3、 文本表征与图像表征送入多模态Encoder,进行融合前向处理。

计算 ITM损失。 可以参考这里 👿

evaluation流程 

1、text token 送入text Encoder, image 送入 image Encoder

2、计算相似性矩阵。例如

sims_matrix = image_embeds @ text_embeds.t()

主要目的是拿出image space 和 text space中最对齐的特征送入多模态Encoder中去。计算分数。

这个过程重复两次,一次是 i2t ,一次是t2i

最终返回的是匹配分数矩阵。

3、 进行评估。

评估细节用 工具 API实现的,因此这里不做详述。

实际使用推测猜想 

本次没有做实际使用demo的相关代码阅读。不过根据evaluate,在实际使用的时候,不管是图像-文本,还是文本-图像,最终的检索结果只能包含于使用的训练数据集中。因为它是根据 索引去 选择预测的结果,而不是生成式的去生成结果。

因此,实际使用中,是需要有这样的一个包含 图像-文本 对儿的数据库去检索的,你输入的单一模态的数据可以不来源数据集,但是它会去数据集中匹配最佳的结果。而不是说像GPT那样你描述一个场景,它去给你生成。当然,GPT等可能也融合了这种检索任务,你描述的场景如果存在,就去检索,不存在则去生成。我感觉那种网上的搜索任务,比如根据问题描述去找解决办法,可以靠这种检索去实现。有的根据描述问题让GPT去编写代码,很大可能都是靠检索去完成的(利用一个很大的代码库,比如github上的,leetcode上的)。实际靠语言模型去回归预测代码的编写感觉不太靠谱。(只限于目前自己的联想,因为学习也是循序渐进的,视野也是逐渐走向开阔的,不可能保证一开始的认知就是正确的,哈哈。如有错误,请求指正。)

二、Visual Question Answering (VQA , 视觉问答) 

任务目的

VQA的任务是通过理解图像中的内容并结合问题的文本描述,生成合适的答案 。

回答有关图像的问题。大多数研究人员将其视为一项分类任务,即从答案库中选择正确的答案。

通过给定一个图像和一段关于图像的自然语言,这个任务将提供一个精确的自然语言答案。这个任务可以映射到现实生活的场景中:比如说帮助视障人士,问题和答案都是开放性的。

 数据集格式

以VQA 数据集为例,官网🤠

这个数据集的配置分成了四个部分:注释(即答案)、问题、图像、互补对其列表。

1、注释示例

{"question_type": "what is this", "multiple_choice_answer": "net", "answers": [{"answer": "net", "answer_confidence": "maybe", "answer_id": 1}, {"answer": "net", "answer_confidence": "yes", "answer_id": 2}, {"answer": "net", "answer_confidence": "yes", "answer_id": 3}, {"answer": "netting", "answer_confidence": "yes", "answer_id": 4}, {"answer": "net", "answer_confidence": "yes", "answer_id": 5}, {"answer": "net", "answer_confidence": "yes", "answer_id": 6}, {"answer": "mesh", "answer_confidence": "maybe", "answer_id": 7}, {"answer": "net", "answer_confidence": "yes", "answer_id": 8}, {"answer": "net", "answer_confidence": "yes", "answer_id": 9}, {"answer": "net", "answer_confidence": "yes", "answer_id": 10}], "image_id": 458752, "answer_type": "other", "question_id": 458752000}
=============
{"question_type": "what", "multiple_choice_answer": "pitcher", "answers": [{"answer": "pitcher", "answer_confidence": "yes", "answer_id": 1}, {"answer": "catcher", "answer_confidence": "no", "answer_id": 2}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 3}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 4}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 5}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 6}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 7}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 8}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 9}, {"answer": "pitcher", "answer_confidence": "yes", "answer_id": 10}], "image_id": 458752, "answer_type": "other", "question_id": 458752001},

举了两个例子。可以看到一问题有10个答案。这里只列举了两个,其实看那个 image id,一个图片大概可以有五个问题,那么综合起来,每个图片有 5*10=50 个问答场景。

2、问题示例

{"image_id": 458752, "question": "What is this photo taken looking through?", "question_id": 458752000}, {"image_id": 458752, "question": "What position is this man playing?", "question_id": 458752001}, {"image_id": 458752, "question": "What color is the players shirt?", "question_id": 458752002}, {"image_id": 458752, "question": "Is this man a professional baseball player?", "question_id": 458752003},

图像id, 问题caption, 以及 问题id。

3、 图像示例

{"file_name": "abstract_v002_train2015_000000011779.png", "image_id": 11779, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/11779.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000005536.png", "image_id": 5536, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/5536.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000016949.png", "image_id": 16949, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/16949.png", "width": 700}, {"file_name": "abstract_v002_train2015_000000019949.png", "image_id": 19949, "height": 400, "url": "http://visualqa.org/data/abstract_v002/scene_img/img/19949.png", "width": 700},

图像文件的name, 图像id, 图像的地址url,以及长和宽等信息

4、互补对齐列表示例

[158307014, 254204008], [158307013, 89462005], [472405000, 79224002]

两个问题的id。这个是由于存在 当两个不同的图片伴相同的问题, 但是有着不同的答案的场景。

具体地示例展示

 训练流程

以ALBEF算法中VQA流程的为例

 1、image 送入 encoder, 然后与 question token(量化后的) 一起送入Multimodal Encoder(这里 text encoder也一起包含其中了,区分就是Bert的前6层与后6层,以及多模态使用cross attention 层)

2、将 answer 的 token ,上面得到的question state 送入decoder,跟据Bert的流程去计算损失。

BERT在第一句前会加一个[CLS]标志,最后一层该位对应向量可以作为整句话的语义表示(即句子embedding),从而用于下游的分类任务等。与文本中已有的其它词相比,这个无明显语义信息的符号会更“公平”地融合文本中各个词的语义信息,从而更好的表示整句话的语义。

 demo以及评估流程

1、将 question 的token 和 image token 送入 多模态Encoder,

2、 然后将answer 的 token, 上面的、得到的question states 送入decoder,采用 cls token对应的序列作为预测输出

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/540287.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

工厂方法模式:解锁灵活的对象创建策略

在软件设计中,工厂方法模式是一种非常实用的创建型设计模式,它不仅提升了系统的灵活性,还简化了对象的创建过程。本文将详细探讨工厂方法模式的核心概念、实现方式、应用场景以及与其他设计模式的对比,旨在提供一份全面且实用的指…

flutter中鼠标检测事件的应用---主要在于网页端使用

flutter中鼠标检测事件的应用—主要在于网页端使用 鼠标放上去 主要代码 import package:flutter/material.dart;class CustomStack extends StatefulWidget {override_CustomStack createState() > _CustomStack(); }class _CustomStack extends State<CustomStack>…

MySQL——创建和插入

一、插入数据 INSERT 使用建议; 在任何情况下建议列出列名&#xff0c;在 VALUES 中插入值时&#xff0c;注意值和列的意义对应关系 values 指定的值顺序非常重要&#xff0c;决定了值是否被保存到正确的列中 在指定了列名的情况下&#xff0c;你可以仅对需要插入的列给到…

C++——StackQueue

目录 一Stack 1介绍 2接口 3模拟实现 4栈的oj题 二Queue 1介绍 2接口 3模拟实现 三容器适配器 1再谈栈和队列 四优先级队列 1接口 ​编辑 2仿函数 五dequeue的简单介绍 一Stack 1介绍 先来看看库中对栈的介绍&#xff1a; 1. stack是一种容器适配器&#x…

自养号测评技术:如何快速提高亚马逊、速卖通、沃尔玛新号的权重?

亚马逊平台高度关注买家账号权重&#xff0c;对于希望快速提升listing曝光与销量的卖家而言&#xff0c;拥有高权重买家账号进行下单至关重要。前提是&#xff0c;确保您的listing已经过精细优化。当前&#xff0c;市场上存在众多自养号服务商&#xff0c;然而由于多种原因&…

外汇兑换问题的最优子结构分析

外汇兑换问题的最优子结构分析 一、 当所有交易佣金为零时1.1 伪代码示例&#xff1a;1.2 C代码示例 二、 佣金不为零时的最优子结构性质三、 结论 在考虑外汇兑换问题时&#xff0c;我们面临的是如何通过一系列兑换操作&#xff0c;以最小的成本将一种货币转换为另一种货币。这…

网络变压器(网络隔离变压器)是如何影响网通设备的传输速率的呢?

Hqst华轩盛(石门盈盛)电子导读&#xff1a;今天介绍网络变压器&#xff08;网络隔离变压器/网络滤波器&#xff09;是如何影响网通设备的传输速率的 一、网络变压器&#xff08;网络隔离变压器/网络滤波器&#xff09;的工作原理 网络变压器&#xff08;网络隔离变压器/网络滤…

Docker 学习笔记(六):挑战容器数据卷技术一文通,实战多个 MySQL 数据同步,能懂会用,初学必备

一、前言 记录时间 [2024-4-11] 系列文章简摘&#xff1a; Docker学习笔记&#xff08;二&#xff09;&#xff1a;在Linux中部署Docker&#xff08;Centos7下安装docker、环境配置&#xff0c;以及镜像简单使用&#xff09; Docker 学习笔记&#xff08;三&#xff09;&#x…

arm-linux-gnueabihf-gcc默认目录

默认编译的头文件目录&#xff1a; /usr/local/arm/gcc-linaro-4.9.4-2017.01-x86_64_arm-linux-gnueabihf/arm-linux-gnueabihf/lib 默认编译的库文件目录&#xff1a; /usr/local/arm/gcc-linaro-4.9.4-2017.01-x86_64_arm-linux-gnueabihf/arm-linux-gnueabihf/include/ …

校招生如何准备软件测试、测试开发岗位的面试?

校招生如何准备软件测试、测试开发岗位的面试&#xff1f; 求职建议 大家都很困惑如何学习测试&#xff1f;如何准备测试方面的面试&#xff1f; 我有朋友是做研发的&#xff0c;他认为测试不用准备&#xff0c;直接用开发的简历就行。也有人认为要学习一些测试理论&#xf…

使用 create-vue 脚手架工具创建一个基于 Vite 的项目,并包含加入 Vue Router 等可选项

如果你打算启动一个新项目&#xff0c;你可能会发现使用 create-vue 这个脚手架工具更容易&#xff0c;它能创建一个基于 Vite 的项目&#xff0c;并包含加入 Vue Router 的选项&#xff0c;指令如下&#xff1a; // npm npm create vuelatest// yarn yarn create vue// pnpm …

HTML、CSS --javaweb学习笔记

记录一些重要的知识点 CSS引入方式 行内样式&#xff1a;<h1 style"...">内嵌样式&#xff1a;<style>…</style>外联样式&#xff1a;xxx.css <link href"..."> 颜色表示 关键字&#xff1a;red、green.......rgb表示法&…

java快速构建飞书API消息推送、消息加急等功能

文章目录 飞书机器人自定义机器人自定义应用机器人 自定义应用发送消息普通文本 text富文本 post图片 image文件 file语音 audio视频 media消息卡片 interactive分享群名片 share_chat分享个人名片 share_user 批量发送消息消息加急发送应用内加急发送短信加急 发送电话加急spr…

【随身wifi京东金榜排名】格行vs华为vs上赞随身wifi哪款最好用?格行随身wifi官方正品,格行随身wifi怎么样?

第一名&#xff1a;格行随身wifi 综合分99.1 随身WiFi行业领跑品牌 &#xff0c;15年行业经验 &#xff0c;随身WiFi口碑榜第一名。轻便小巧&#xff0c;支持三网通&#xff0c;可以随时随地提供稳定高速的网络连接。使用目前先进的马维尔芯片&#xff0c;信号稳定&#xff0…

Unet++(pytorch实现)

Unet++网络 Dense connection Unet++继承了Unet的结构,同时又借鉴了DenseNet的稠密连接方式(图1中各种分支)。 作者通过各层之间的稠密连接,互相连接起来,就像Denset那样,前前后后每一个模块互相作用,每一个模块都能看到彼此,那对彼此互相熟悉,分割效果自然就会变好…

位像素海外仓管理系统对接ERP系统教程,一对一教学

在海外仓管理过程中&#xff0c;对接ERP系统的重要性不言而喻的。这种对接不仅能让数据实时共享&#xff0c;还能让海外仓管理者优化整个供应链管理流程。 因此&#xff0c;今天小编就来教大家&#xff0c;海外仓仓库系统是怎么对接ERP物流系统的&#xff1f; 1.分析需求 在对接…

2024年危险化学品经营单位安全管理人员证考试题库及试题解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年危险化学品经营单位安全管理人员证考试题库及危险化学品经营单位安全管理人员试题解析是安全生产模拟考试一点通结合&#xff08;安监局&#xff09;特种作业人员操作证考试大纲和&#xff08;质检局&#xff0…

Docker 镜像推送到docker hub

查看容器 #sudo docker ps -a commit容器为镜像 $ sudo docker commit d7b5e8d56a75 ubuntu_pytorch39_v4 #sha256: ********** 查看镜像信息 $ sudo docker images 登录 docker hub $ sudo docker login --username用户名 registry.cn-beijing.aliyuncs.com #密码 为…

2024年mathorcup数学建模思路及论文助攻

题目C题 物流网络分拣中心货量预测及人员排班 电商物流网络在订单履约中由多个环节组成&#xff0c;图1是一个简化的物流网络示意图。其中&#xff0c;分拣中心作为网络的中间环节&#xff0c;需要将包裹按照不同流向进行分拣并发往下一个场地&#xff0c;最终使包裹到达消费者…

在 macOS 上安装 Jenkins

Jenkins常用命令&#xff1a; 安装最新的 LTS 版本&#xff1a; brew install jenkins-lts 安装特定的 LTS 版本&#xff1a; brew install jenkins-ltsYOUR_VERSION 启动Jenkins服务&#xff1a; brew services start jenkins-lts 重启Jenkins服务&#xff1a; brew services…