论文笔记:信息融合的门控多模态单元(GMU)

整理了GMU(ICLR2017 GATED MULTIMODAL UNITS FOR INFORMATION FUSION)论文的阅读笔记

  • 背景
  • 模型
  • 实验

论文地址: GMU

背景

  多模态指的是同一个现实世界的概念可以用不同的视图或数据类型来描述。比如维基百科有时会用音频的混合来描述一个名人;来自社交网络的用户用文本和多媒体附件(图像/视频/音频)评论音乐会或体育比赛等事件。医疗记录由图像、声音、文本和信号等的集合表示。之前的方法往往是基于单模态的,这很明显是不完善的,多模态的必要性已经在论文What Makes Multi-modal Learning Better than Single (Provably)中被证明。
  多模态融合的任务往往寻求生成单一表示,在构建分类器或其他预测器时使自动分析任务变得更容易。一种简单的方法是连接特征以获得最终表示,虽然这是一个直截了当的策略,但它忽略了不同模式之间的内在相关性
  在这项工作中,基于门的思想设计了一个新的模块,被称为门控多模态单元(GMU)它可以结合多个信息源,并对最终目标目标函数进行了优化,用于选择输入的哪些部分更有可能正确地生成所需的输出。使用同时为各种特征分配重要性的乘法门,创建一个丰富的多模态表示,不需要手动调整,而是直接从训练数据中学习。
请添加图片描述
  图中是多模态任务的一个例子,描述了仅根据一种模态的使用为特定电影分配类型的任务。根据输入方式预测的类型标签。红色和蓝色标签分别表示假阳性和真阳性。可以看到,基于单模态的预测结果往往是不完善的或是有误的,在GMU中,使用门控单元的模型将能够学习依赖于输入的门激活模式,该模式决定了每个模态如何对隐藏单元的输出做出贡献。

模型

请添加图片描述
  本文的GMU模块,左图是多模态的情况下,右图是双峰情况,对来自不同模态的单峰特征进行融合。
  在左图中每个 x i x_i xi对应一个与模态 i i i相关的特征向量。每个特征向量经过激活函数后提供给融合单元,该函数旨在基于特定模态编码一个内部表示特征。对于每个输入模态 x i x_i xi,都有一个门神经元(在图中由 σ \sigma σ节点表示) x i x_i xi计算的特征对模块整体输出的贡献。当一个新的样本被输入到网络中时,与模态 i i i相关联的门神经元接收来自所有模态的特征向量作为输入,并使用它们来决定模态 i i i是否对特定输入样本的内部编码的贡献程度。
  右图显示了两种输入模态的GMU的简化版本, x v x_v xv(视觉模态)和 x t x_t xt(文本模态),这将在本文的其余部分中使用。应该注意的是,这两个模型不是完全等效的,因为在双峰情况下闸门是捆绑的,只用了一个 σ \sigma σ。本文的实验都是基于右图双峰状态下的GMU。
公式:
请添加图片描述
   x v x_v xv(视觉模态)和 x t x_t xt(文本模态)分别先经过一个线性变换和一个激活函数引入非线性,生成所谓的内部表示特征, σ \sigma σ门在文中使用的是一个sigmoid函数,产生0,1之间的值,相当于权重,最后根据这个值进行特征融合。

实验

  实验中在电影分类(MM-IMDb)数据集上进行,其中包含27000部电影。不包含海报图像的电影被过滤掉。最终得到的MM-IMDb数据集包括25959部电影及其情节、海报、类型和其他50个额外的元数据字段,如年份、语言、作家、导演、宽高比等。
  实验中使用的多模态模型中单峰特征分别来自预训练的VGG和Word2vec,经过实验认为这两个是最好的。数据集的统计:
请添加图片描述
  图4是电影海报的尺寸和长度分布,图5是文本的长度分布。
  对比的baseline:平均、concat、线性映射到相同维度再融合、专家网络。
请添加图片描述
实验结果:
请添加图片描述

请添加图片描述
  表二是整体的准确率,表三是在不同类别样本上单模和多模模型的变现,GMU在25个类别中的16个超过了最好的单峰模型的表现,作者统计了不同类别样本的多模权重均值:
请添加图片描述
  在表3中我们发现在这个任务上文本模型常常比图像模型更有效,而我们得到的权重正如预期的那样,模式通常更受文本情态的影响。但是,在动画或家庭类型等特殊情况下,视觉形式对模型的影响更大。这也与表3的结果一致,视觉模型在这些类别上有更好的表现。几个实验的例子:
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/329320.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

项目解决方案:“ZL铁路轨行车辆”实时视频监控系统

目 录 一、建设背景 1.1 政策背景 1.2 现状 二、建设目标 三、建设依据 四、建设原则 4.1经济高效性 4.2系统开放性 4.3系统继承性 4.4系统扩展性 4.5系统经济性 4.6系统安全性 五、系统架构 5.1系统架构图 5.2技术架构 1、DVS 2、中心管理服务…

测试的基本概念

1、什么是需求? 在企业中主要分为两类:用户需求和软件需求 用户需求:甲方的需求,或者终端用户使用产品时必须要完成的任务(比较简略)。 软件需求:或者叫功能需求,该需求会详细描述开…

Qt单个字符判断

1.相关说明 字符的Unicode编码、单个字符的判断 2.界面绘制 3.相关主要代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui;…

数学建模常见算法的通俗理解(更新中)

目录 1.层次分析法(结合某些属性及个人倾向,做出某种决定) 1.1 粗浅理解 1.2 算法过程 1.2.1 构造判断矩阵 1.2.2 计算权重向量 1.2.3 计算最大特征根 1.2.4 计算C.I.值 1.2.5 求解C.R.值 1.2.6 判断一致性 1.2.7 计算总得分 2 神经…

MySQL 多版本并发控制 MVCC

MVCC出现背景 事务的4个隔离级别以及对应的三种异常 读未提交(Read uncommitted) 读已提交(Read committed):脏读 可重复读(Repeatable read):不可重复读 串行化(Se…

pygame学习(三)——支持多种类型的事件

大家好!我是码银🥰 欢迎关注🥰: CSDN:码银 公众号:码银学编程 实时事件循环 为了保证程序的持续刷新、保持打开的状态,我们会创建一个无限循环,通常使用的是while语句,w…

嵌出式学习又一天

关于485通讯 485属于串口通信,属于物理层的,规定为2线,半双工的多点通信标准,它的电气特性不一样,用缆线两端电压差值来表示传递信号,rs485仅仅规定了接收端和发送端的电气特性,没有规定任何数据…

esp32-idf Eclipse Log日志打印demo

Log日志打印demo 1、代码例程 esp32-S2 芯片 / Eclipse软件 开发环境 #include <stdio.h> #include "sdkconfig.h" #include "freertos/FreeRTOS.h" #include "freertos/task.h" #include "esp_system.h" #include "esp_…

数据分析求职-知识脑图

今天和大家聊聊数据分析求职常见面试题&#xff0c;这是这个系列的第一篇文章&#xff0c;但是我不想开始就直接罗列题目&#xff0c;因为这样的文章实在太多了&#xff0c;同学们的兴趣程度肯定一般。所以&#xff0c;我想先和大家聊聊在准备面试题时候通常遇到的困扰&#xf…

7.5 MySQL对数据的增改删操作(❤❤❤)

7.5 MySQL对数据的基本操作 1. 提要2. 数据添加2.1 insert语法2.2 insert 子查询2.3 ignore关键字 3. 数据修改3.1 update语句3.2 update表连接 4. 数据删除4.1 delete语句4.2 delete表连接4.3 快速删除数据表全部数据 1. 提要 2. 数据添加 2.1 insert语法 2.2 insert 子查询 …

为什么 macOS 比 Windows 稳定?

在计算机操作系统领域&#xff0c;macOS 和 Windows 分别是苹果公司和微软公司的主打产品。尽管两者都拥有大量的用户群体&#xff0c;但在稳定性和用户体验方面&#xff0c;macOS 常常被认为优于 Windows。那么&#xff0c;为什么 macOS 比 Windows 更稳定呢&#xff1f; 我们…

大创项目推荐 深度学习的智能中文对话问答机器人

文章目录 0 简介1 项目架构2 项目的主要过程2.1 数据清洗、预处理2.2 分桶2.3 训练 3 项目的整体结构4 重要的API4.1 LSTM cells部分&#xff1a;4.2 损失函数&#xff1a;4.3 搭建seq2seq框架&#xff1a;4.4 测试部分&#xff1a;4.5 评价NLP测试效果&#xff1a;4.6 梯度截断…

Mimic-III 数据库挖掘尝试——连续性肾脏替代治疗(CRRT)

Mimic-III 数据库挖掘探索——连续性肾脏替代治疗&#xff08;CRRT&#xff09; 前言 上个月建库成功&#xff0c;至今一个月过去了。 因为没有服务器&#xff0c;在本地电脑反复建了几次&#xff0c;linux系统/windows系统一应俱全[苦涩]。原始库和衍生库都建好了&#xff…

Three.js 学习笔记之模型(学习中1.17更新)

文章目录 模型 几何体 材质模型点模型Points - 用于显示点线模型Line | LineLoop | LineSegments网格模型mesh - 三角形 几何体BufferGeometry缓冲类型几何体BufferGeometry - 没有任何形状的空几何体创建几何体的方式BufferAttribute Types定义顶点法线 geometry.attributes…

MedSegDiff-V2: Diffusion based Medical Image Segmentation with Transformer

MedSegDiff-V2:基于变压器的扩散医学图像分割 摘要 扩散概率模型(Diffusion Probabilistic Model, DPM)最近在计算机视觉领域获得了广泛的应用&#xff0c;这要归功于它的图像生成应用&#xff0c;如Imagen、Latent Diffusion Models和Stable Diffusion&#xff0c;这些应用已…

K8s(二)Pod资源——node调度策略、node亲和性、污点与容忍度

目录 node调度策略nodeName和nodeSelector 指定nodeName 指定nodeSelector node亲和性 node节点亲和性 硬亲和性 软亲和性 污点与容忍度 本文主要介绍了在pod中&#xff0c;与node相关的调度策略&#xff0c;亲和性&#xff0c;污点与容忍度等的内容 node调度策略node…

【AI】RTX2060 6G Ubuntu 22.04.1 LTS (Jammy Jellyfish) 部署Chinese-LLaMA-Alpaca-2

下载源码 cd ~/Downloads/ai git clone --depth1 https://gitee.com/ymcui/Chinese-LLaMA-Alpaca-2 创建venv python3 -m venv venv source venv/bin/activate安装依赖 pip install -r requirements.txt 已安装依赖列表 (venv) yeqiangyeqiang-MS-7B23:~/Downloads/ai/Chi…

Lazada不懂英文能做吗?Lazada国内店铺好做吗?-站斧浏览器

Lazada不懂英文可以做吗&#xff1f; Lazada作为一个国际化的电商平台&#xff0c;为了方便用户来自不同国家和地区的购物需求&#xff0c;提供了多语言支持。对于不懂英文的用户来说&#xff0c;他们同样可以在Lazada上进行购物。 首先&#xff0c;Lazada平台上的界面和商品…

【Linux】文件系统与软硬连接

欢迎来到Cefler的博客&#x1f601; &#x1f54c;博客主页&#xff1a;折纸花满衣 &#x1f3e0;个人专栏&#xff1a;题目解析 &#x1f30e;推荐文章&#xff1a;【LeetCode】winter vacation training 目录 &#x1f449;&#x1f3fb; 磁盘HDD的物理存储结构磁盘的逻辑抽象…