【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis

  • 一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型
    • 1 Abstract
      • 1.1 Motivation
      • 1.2 Method
      • 1.3 Results
    • 2. Related Work
      • 2.1 情感分析
      • 2.1 基于transformer的
      • 2.1 模态融合策略
    • 3. 模型细节
      • 2.2 绑定学习模型
      • 2.3 损失函数
    • 4. 结果
    • 5. 自己的思考

一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型

1 Abstract

多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。这些机制分别处理模态特定和模态不变的特征,并促进跨模态交互。此外,我们通过在变压器结构的前馈层和注意层中引入细粒度卷积模块来增强特征交互。为了解决第二个问题,我们分别引入了 CLS 和PE特征向量来表示模态不变和特定模态特征。我们使用相似性损失和相异性损失来支持模型收敛。在广泛使用的 MOSI 和 MOSEI 数据集上的实验表明,我们提出的方法优于最先进的多模态情感分类方法,证实了其有效性和优越性。源代码 可以在 https://github.com/JackAILab/TMBL 找到。

1.1 Motivation

多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。

(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性,导致情感分析存在偏差。

(2)另一方面,多模态数据带来与情感分析无关的噪声,影响融合效果。

1.2 Method

我们设计了一个 Polar-Vector (PV) 和一个 Strength-Vector (SV) 来分别判断情绪的极性和强度。

第一,PV是从文本和视觉特征的交流中获得的,用来决定情绪是积极的、消极的还是中性的。

第二,SV 是从文本和音频特征之间的通信中获得的,用于分析 0 到 3 范围内的情感强度。最后,我们混合 PV 和 SV 得到一个融合向量来判断情感状态。

第三,我们设计了一个由多个全连接层和激活函数组成的 MLP-Communication 模块(MLP-C),使不同的模态特征在水平和垂直方向上充分交互,是利用MLP进行多模态信息交流的一种新颖尝试。

在这里插入图片描述

图1 我们提出的TMBL的整个框架,其中优化的变压器由MBTA和GBFN组成。预测的特征将通过分类标记来区分,模态位置是可学习的。

1.3 Results

拟议的 TMBL 在两个公开可用的数据集 CMU-MOSEICMU-MOSI 上进行了测试,与基线方法相比,它在 CMU-MOSEI 上实现了最先进的 (SOTA) 性能。这些代码位于:https://github.com/JackAILab/TMBL

2. Related Work

2.1 情感分析

然而,由于早期融合和晚期融合都不能充分探索模态之间的跨视图动态交互,因此忽略了不同模态之间的低级交互 [1]。因此,研究人员提出了许多细粒度的融合方案,包括基于张量的融合[35,36]、词级融合[9,15]、基于翻译的融合[21,37,38]、基于上下文的融合[39,40]、基于量子的融合[41]和基于特征空间操作的融合[28]。值得注意的是,这些特征融合方案旨在促进模式之间更好的交互

2.1 基于transformer的

上述基于 Transformer 的模型取得了优异的性能。然而,大多数模型都旨在更有效地与两种模式交互 [18,23,43],而很少考虑三种模式的交互。此外,现有的基于 Transformer 的模型不足以在一个框架中提取每个模式特征。本文提出的 Transformer 模型可以同时提取三个模态特征,我们还修改了 Transformer 模型的前馈层和注意力层,使模型能够提取更细粒度的模态特征。

2.1 模态融合策略

然而,现有的模态融合方法对于模态不变和模态特定的考虑是不够的,很少考虑不同模态特征之间的语义顺序。有趣的是,一个好的模态顺序可以帮助模型更好地理解提取特征的含义,从而提高模型的鲁棒性。

3. 模型细节

如图1所示,我们提出的模型框架首先将模态特征分为两类,模态不变和模态特异性。请注意,特定于模态的特征是指每个模态数据本身的固有特征信息,模态不变特征是指所有模态共享的特征信息,通常需要首先将模态数据投影到相同的隐藏层维度上。

具体来说,对于模态特定的特征数据,我们使用跨模态策略来完成模态特定特征的交互,对于模态不变特征,我们设计了一种模态绑定学习策略来完成模态之间的交互。其次,我们使用优化的 All-in-One Transformer 架构来更好地捕获这些交互模式之间的特征。优化后的Transformer由多头绑定转置注意(MBTA)和门控绑定前馈网络(GBFN)组成。第三,我们实现了包含 CLS Token 和 Position Embedding 以增强模型识别模态类型和上下文的能力。因此,模态集成的损失函数分为三个部分,包括情感预测的分类损失、模态不变相似损失和模态特定不相似损失。

2.2 绑定学习模型

在这里插入图片描述
在这里插入图片描述

2.3 损失函数

在这里插入图片描述

4. 结果

在这里插入图片描述
对比的一系列baseline

在这里插入图片描述

消融结果和可视化实验

在这里插入图片描述

5. 自己的思考

  • 还可以考虑在此基础上,使用 text embedding condition 的方式,增强模型的理解力和泛化性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/621386.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode_栈和队列相关OJ题目

✨✨所属专栏:LeetCode刷题专栏✨✨ ✨✨作者主页:嶔某✨✨ 上一篇:数据结构_栈和队列(Stack & Queue)-CSDN博客 有效的括号 解析: 这里我们用数组实现的栈来解决这个问题,在有了栈的几个基础接口之后,我们运用这…

下班后的空余时间,有什么好的副业方向吗,用心发现适合你的兼职

下班后的空余时间可以利用来开展一些副业,这里我整理了一些,人人可做的 1. 在线教育/培训 如果你是某个领域的专家,可以尝试开展在线教育或培训课程,比如在专业知识、创意设计、编程等领域。 2. 写作/编辑 如果你对写作比较有…

SUSTech组会记录

SUSTech组会记录 2022年2月18日组会记录2022年3月4日组会记录2022年3月11日组会记录2022年3月18日组会记录2022年3月25日组会记录2022年4月2日组会记录2022年4月8日组会记录2022年4月15日组会记录2022年4月22日组会记录2022年4月29日组会记录2020年5月20日组会记录2022年5月27日…

cuttag学习笔记

由于课题可能用上cut&tag这个技术,遂跟教程学习一波,记录一下以便后续的学习(主要是怕忘了) 教程网址cut&tag教程 背景知识:靶标下裂解与标记(Cleavage Under Targets & Tagmentation&#xf…

LearnOpenGL(十二)之Assimp

一、Assimp Assimp(Open Asset Import Library)是一个用于加载和处理三维模型数据的跨平台开源库。它支持许多常见的3D模型格式,包括OBJ、FBX、DAE(Collada)、STL等,使得开发者可以方便地将各种格式的3D模…

五款公司源代码加密软件推荐|代码防泄密解决方案

在当今数字化的世界中,源代码的泄露无疑是一场灾难。对于依赖加密软件保护关键信息的企业和个人来说,这种泄露不仅可能导致数据失窃,还可能损害企业的声誉和客户的信任。面对这种严峻的形势,我们迫切需要一种全面而有效的加密软件…

01-02-5

1、单链表中按位置查找 a.原理 通过传递的位置,返回该位置对应的地址,放到主函数定义的指针变量中。 我们认为位置从:有数据的节点开始计数 即如下结构: 查找位置,就是返回该位置对应的空间地址。 b.代码说明 Ⅰ…

【Unity image 组件介绍】

Unity image 组件介绍 想了解更多游戏开发知识,可以扫描下方二维码,免费领取游戏开发4天训练营课程 在 Unity 中,Image 组件是一个用于显示图像的 UI 元素,是 Unity UI 系统的一部分。Image 组件可以显示简单的颜色方块,也可以显示纹理图像…

第十二讲:指针(4)

第十二讲:指针(4) 1.回调函数1.1什么是回调函数1.2深入理解并使用回调函数1.2.1简单写法1.2.2优化 2.qsort函数详解2.1函数简单介绍2.3qsort函数使用举例2.3.1qsort函数排序整形数据2.3.2qsort函数排序结构数据 3.qsort函数的模拟实现3.1冒泡…

【投稿优惠|快速见刊】2024年能源资源与材料应用国际学术会议(ICERMA 2024)

全称:【投稿优惠|快速见刊】2024年能源资源与材料应用国际学术会议(ICERMA 2024) 会议网址:http://www.icerma.com 会议时间: 2024/2/29 截稿时间:2024/2/20 会议地点: 长沙 投稿邮箱:icermasub-conf.com 投稿标题:ICERMA 2024Art…

esp32-使用UDP控制电机(七)

目录 前言 端口配置 代码 前言 本文基于esp32使用platformio平台,通过udp来控制电机运行。 关键词:platformio,freertos,upd,esp32,motor, 端口配置 采用drv8833驱动板,其中es…

IDEA buid一直不能完成,无法运行

问题如下所示: 解决方案 output 路径不对,正确路径:项目目录\target\classes

【JAVA入门】Day04 - 方法

【JAVA入门】Day04 - 方法 文章目录 【JAVA入门】Day04 - 方法一、方法的格式1.1 无参无返回值的方法定义和调用1.2 带参数的方法定义和调用1.3 形参和实参1.4 带返回值的方法定义和调用1.5 方法的注意事项 二、方法的重载三、方法的使用四、方法的内存原理4.1 方法调用的基本内…

3W 3KVAC隔离 宽电压输入 AC/DC 电源模块——TP03AL系列

TP03AL系列产品具有交直流两用、输入电压范围宽、高可靠性、低功耗、安全隔离等优点。广泛适用于工控和电力仪器仪表、智能家居等对体积要求苛刻、并对EMC 要求不高的场合,如果需要应用于电磁兼容恶劣的环境下必须添加EMC 外围电路。

保研机试之【x86/x86-64体系结构中的寄存器】

先来看一下这六个选项的功能: 举一个例子: 对于CR2寄存器和中断向量表: 也就是先通过CR2寄存器找到引发错误的虚拟地址,然后操作系统分析错误原因,通过IDTR寄存器找到IDT(中断向量表)&#xff0…

Rust 中的mod 使用

1、本文将展示在Rust语言中如何引入模块。 2、项目目录如下图。 2.1、mod.rs中是需要引入的模块代码。 2.2、main.rs和文件夹utils在src文件夹下。 2.3、mod.rs代码如下。 pub mod nation{pub mod government{pub fn govern(){let aString::from("govern");println…

代码随想录算法训练营Day 38| 动态规划part01 | 理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

代码随想录算法训练营Day 38| 动态规划part01 | 理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯 文章目录 代码随想录算法训练营Day 38| 动态规划part01 | 理论基础、509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯理论基础一、常规题目二、解题步骤…

代码随想录算法训练营第二十七天|​回溯法理论基础​、第77题. 组合

理论基础 回溯法基本介绍 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。 回溯是递归的副产品,只要有递归就会有回溯。递归函数的下面就是回溯的逻辑 因为回溯的本质是穷举,穷举所有可能(暴力法),然…

Today At Apple 2024.04.15 Phone15 入门

官网: https://www.apple.com/today/Apple 亚洲第一大商店:Apple 静安零售店现已在上海开幕如下预约课程:下载 Apple Store(不是app store),点击课程预约笔记:Today At Apple Notes果粉加群 &am…

并发编程总结(二)

目录 Java 对象头 wait / notify sleep(long n) 和 wait(long n) 的区别 死锁 定位死锁 饥饿 ReentrantLock Java 对象头 以 32 位虚拟机为例 64 位虚拟机 Mark Word 在程序中查看对象结构&#xff1a; 导入依赖&#xff1a; <!-- https://mvnrepository.com/artifac…