connect-caption-and-trace——用于共同建模图像、文本和人类凝视轨迹预测

介绍

论文地址:https://arxiv.org/abs/2105.05964
源码地址:https://github.com/facebookresearch/connect-caption-and-trace

在过去,计算机视觉和自然语言处理领域的模型和算法的发展只有偶尔的重叠,但近年来,这两个领域的想法逐渐趋同。

特别是,重点是建立多模态模型来协调视觉和语言,这些模型的目标是模仿人类压缩信息和跨模态翻译的非凡能力

然而,尽管取得了这些进展现有的图像标题数据集只提供简短的名词或短语级别的标题,并且而且,到目前为止,图像标题和视觉定位模型无法联合生成长篇自然语言标题和高度精确的词级视觉定位

本文介绍了一个使用新颖的Transformer架构解决上述问题的论文,该架构对图像、标题和追踪这三种模式进行联合建模。

数据集和新任务概述

首先,描述了本文中使用的本地化叙事数据集和使用它的新任务。

本地化叙述数据集是通过同时记录注释者描述图像内容时的声音和鼠标痕迹来收集的。该数据集将由三种模式组成:图像、标题和追踪。

虽然关于这个数据集的原始论文只处理了一个任务**–从图像和痕迹中生成标题**–但本文提出了两个额外的、具有挑战性的新任务

  1. 以图像和标题作为输入,生成痕迹。
  2. 只用图像作为输入就能生成标题和痕迹。

这在下图中得到了体现。(表中第1行和第3行是新任务)

虽然这三项任务乍看之下是分开的,但本文提出了一个新颖的模型架构并提出了一个统一的框架对这三项任务进行联合建模。

MRL(Mirrored TransformeR)

本文没有为上述三个任务建立三个独立的模型,而是提出了一个模型,在一个统一的框架内有效地学习,并共享参数,由于其对称结构,本文将这个模型架构命名为Mirrored TransformeR(MITR)。该模型架构因其对称的结构而被命名为镜像传输(MITR)。(见下图)

特征值

模型的输入是一个图像特征、文本特征和痕迹特征的子集,每个特征都是

  • 图像特征使用预先训练好的Faster R-CNNs来计算检测区域的视觉特征。
  • 对于文本特征,与现有的研究一样,总和位置嵌入和词嵌入
  • 在轨迹特征中,位置嵌入和输入轨迹对d个隐藏维度的投影被加在一起。

模型结构

该模型由三个模块组成:1)图像编码器,2)字幕编码-解码器和3)轨迹编码-解码器。(见下图)

让我们分别用xv、 xw和 xr来表示输入的图像特征、文本特征和痕迹特征。图像编码器hv定义如下。

这里,按照现有的研究,前馈网络(FFN)被定义为两个线性转换层,中间有一个ReLU激活函数,MultiHead定义如下。

标题编码器-解码器hw跟踪编码器-解码器hr也定义如下。

这些模块被设计成具有镜像结构,在标题生成和跟踪生成这两项任务中,两种模式是对称的。

另外,通过执行现有研究中提出的屏蔽操作,即编码器指的是所有输入,而解码器只指部分过去的信息 ,上述两个模块的特点是能够在编码器和解码器的角色之间无缝切换。这两个模块可以在编码器和解码器的角色之间无缝切换。

总损失功能

最终的损失函数可以表述如下

其中,**L[trace]**是trace生成中预测的trace盒与地面真实trace盒之间的L1损失,L[caption]是caption生成中的cross-entropy损失,**Lr~→w→r是循环损失,而L[联合]**是联合字幕和追踪生成任务中的追踪损失和字幕损失之和。

实验

本文在四个数据集上进行了实验,COCO、Flickr 30k、ADE 20k和Open Images。

痕迹和标题的生成

使用本文提出的方法,跟踪生成(任务1)和标题生成(任务2)的结果如下图所示。结果显示在图2中。

如图所示,所提出的方法能够为这两项任务获得准确的生成结果。

联合字幕和痕迹生成

同时生成字幕和追踪的结果(任务3)如下图所示。

与只对字幕进行建模的基线相比,同时对痕迹和字幕进行建模,使字幕生成性能得到了显著提高。

然而,在没有人为痕迹注释生成标题的情况下,有时会观察到诸如同一对象或描述在一个标题中重复多次的缺陷,这表明需要采取一些措施,如保留所有参考对象的记录,以便在未来的发展中避免这种重复。有人建议,在未来的发展中,应采取诸如保留所有参考对象的记录的措施,以避免这种重复。

总结

提出了Mirrored TransformeR(MITR),这是一个新颖的转化器架构,它对图像、标题和追踪三种模式进行联合建模。

由于该模型有可能被用来解决各种社会问题,例如为社交媒体上的视障人士自动生成图片的本地化描述。未来的发展将受到密切关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/726810.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI音乐大模型:是创意的助力还是产业的挑战?

近期音乐界迎来了一场前所未有的革命。随着多家科技公司纷纷推出音乐大模型,素人生产音乐的门槛被前所未有地拉低,一个崭新的“全民音乐时代”似乎已近在眼前。然而,在这场技术革新的浪潮中,关于AI产品版权归属、创意产业如何在AI…

服务器无法远程桌面连接,解决服务器进行无法远程桌面连接方法有哪些

当服务器无法建立远程桌面连接时,通常涉及多个层面的排查和修复。下面将详细列举一些专业的解决方法,以应对服务器远程桌面连接问题。 一、基础排查与验证 1. 确认网络连通性: - 使用ping命令检查客户端与服务器之间的网络连通性。 - …

数据结构之B数

目录 1.概述 2.特点 3.诞生 4.优缺点 4.1.优点 4.2.缺点 5.应用场景 6.C语言中的B树实现例子 7.总结 1.概述 B树(B-tree)是一种自平衡的树数据结构,广泛应用于数据库和文件系统中,以便高效地进行顺序读取、写入以及查找…

Cytoscape之操作界面介绍

Cytoscape 简介 Cytoscape是一个专注于开源网络可视化和分析的软件。软件的核心部分提供了网络显示、布局、查询等方面的基本功能。软件的核心可以通过插件架构进行扩展,这样就能快速地开发出新的功能。 Cytoscape 源自系统生物学,用于将生物分子交互网…

win10成功安装stable-diffusion-webui

目录 1.python下载安装 2.git下载安装 3.stable-diffusion-webui下载 4.安装s-d-webui的依赖包(用国内镜像提速) 5.git下载的stable-diffusion-webui,依赖包提示已安装,但运行webui-user.bat后,又开始下载 6.修改…

2024最新AI大模型-LLm八股合集(八)-Transformer模型

更多2024最新AI大模型-LLm八股合集可以拉到文末!!! MHA & MQA & MGA (1)MHA 从多头注意力的结构图中,貌似这个所谓的多个头就是指多组线性变换层,其实并不是,只有使用了一…

ARM Linux 设备树详细介绍(1)

1. ARM&Device&Tree 起源 Linus Torvalds 在 2011 年 3 月 17 日的 ARM Linux 邮件列表宣称“this whole ARM thing is a f*cking pain in the ass”,引发 ARM Linux 社区的地震,随后 ARM 社区进行了一系列 的重大修正。 在过去的 ARM Linux 中&…

Pointnet++改进即插即用系列:全网首发FastKAN|即插即用,提升特征提取模块性能

简介:1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点!2.本篇文章对Pointnet++特征提取模块进行改进,加入FastKAN,提升性能。3.专栏持续更新,紧随最新的研究内容。 目录 1.理论介绍 2.修改步骤 2.1 步骤一 2.2 步骤二 2.3 步骤三 1.理…

360vr党建线上主题展立体化呈现企业的文化理念和品牌形象

在现代科技的引领下,艺术与VR虚拟现实技术相融合必将成为趋势,深圳VR公司华锐视点荣幸地推出VR艺术品虚拟展厅,为您带来前所未有的艺术观赏体验。体验者足不出户即可置身于一个充满创意与灵感的虚拟艺术空间。 我们深入了解每一位客户的需求与…

计算机网络 —— 应用层(万维网)

计算机网络 —— 应用层(万维网) 万维网核心组成部分特点 URLHTTP版本请求消息结构响应消息结构工作流程 Cookie如何工作主要用途安全与隐私类型 Web缓存客户端缓存(浏览器缓存)服务器端缓存 今天我们来了解万维网: 万…

元宇宙与AI推动品牌营销进入全智能时代

近日,在2024年T-EDGE未来科技大会上,30位业界领袖、产业优秀企业代表,分享以AI为代表的新技术赋能科技产业,抓住中国企业全球化、数字化营销、绿色经济、智能家居多个产业和领域的创新发展趋势,以四大热门议题&#xf…

ffmpeg.dll丢失怎么办,解决找不到ffmpeg.dll的多种方法分享

ffmpeg.dll 是一个动态链接库文件,它是FFmpeg多媒体框架的一部分。FFmpeg是一个开源项目,可以用来记录、转换数字音视频,也可以转换成不同格式的流媒体。由于它是许多媒体处理任务的核心组件,ffmpeg.dll 缺失或损坏可能会导致依赖…

Windows11+CUDA12.0+RTX4090如何配置安装Tensorflow2-GPU环境?

1 引言 电脑配置 Windows 11 cuda 12.0 RTX4090 由于tensorflow2官网已经不支持cuda11以上的版本了,配置cuda和tensorflow可以通过以下步骤配置实现。 2 步骤 (1)创建conda环境并安装cuda和cudnn,以及安装tensorflow2.10 con…

视频二维码怎么设置全屏播放?默认全屏效果的添加技巧

视频做成二维码如何全屏展示呢?现在很多人都会将视频生成二维码后,分享二维码给其他人来扫码查看视频内容,设置视频默认全屏播放可以带来展示更好的效果,那么横版和竖版视频扫码自动全屏播放是如何生成的呢? 视频二维…

如何用Vue3打造一个令人惊叹的极坐标图

本文由ScriptEcho平台提供技术支持 项目地址:传送门 使用 Vue3-ApexCharts 绘制极地区域图 应用场景 极地区域图常用于展示具有周期性或分类性数据的分布情况,例如不同月份的销售额、不同年龄段的人口分布等。 基本功能 此代码使用 Vue3-ApexChart…

C++ 59 之 纯虚函数和抽象类

#include <iostream> #include <string> using namespace std;class Cal { // 类中有纯虚函数&#xff0c;这个类也叫做抽象类&#xff0c;无法实现实例化 public:int m_a;int m_b;// 虚函数// virtual int getRes(){// return 0;// }// 纯虚函数 作用和虚函数…

深入探究RTOS的IPC机制----邮箱

阅读引言&#xff1a; 因为将来工作需要&#xff0c; 最近在深入学习OS的内部机制&#xff0c;我把我觉得重要的、核心的东西分享出来&#xff0c; 希望对有需要的人有所帮助&#xff0c; 阅读此文需要读友有RTOS基础&#xff0c; 以及一些操作系统的基础知识&#xff0c; 学习…

24上软考成绩预计6月底公布?附查分指南

最近&#xff0c;很多小伙伴都在问上半年成绩什么时候出来&#xff1f;每天学习群变成了祈祷群&#xff0c;都在祈祷45,45,45。按照上一次的成绩发布时间&#xff0c;从考试结束到成绩发布&#xff0c;间隔了32天。这次是不是会更快&#xff1f; 一般阅卷只要7-10天&#xff0c…

【踩坑】修复Ubuntu远程桌面忽然无法Ctrl C/V复制粘贴及黑屏

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 说在前面&#xff1a; 需要注意的是&#xff0c;我发现他应该是新开了一个窗口给我。我之前打开的东西&#xff0c;在这个新窗口里都没有了&#xff0c…

IngsollRang模块化控制器上电无显示维修

英格索兰模块化控制器是工业领域的重要设备&#xff0c;在许多工业生产过程中起着关键的控制作用。然而&#xff0c;当出现IngsollRang控制器上电无显示故障时&#xff0c;不仅会影响生产进度&#xff0c;还可能带来安全隐患。 一、IngsollRang模块化控制器故障诊断 1. 检查电源…