【IF-MMIN】利用模态不变性特征进行缺失模态的鲁棒多模态情感识别

代码地址:github地址传送

文章是基于MMIN的改进 -> MMIN传送

abstract

多模态情感识别利用跨模态的互补信息来获得性能。然而,我们不能保证所有模式的数据总是存在于实践中。在跨模态数据缺失预测研究中,异质性模态之间的固有差异即模态差距是一个挑战。为了解决这个问题,我们提出在缺失模态想象网络(IF-MMIN)中使用不变特征,该网络包括两个新的机制:1)全模态场景下基于中心矩差异(CMD)距离的不变特征学习策略;2)利用基于不变特征的想象模块(IF-IM)来缓解缺失模态预测过程中的模态差距,从而提高多模态联合表示的鲁棒性。在IEMOCAP基准数据集上的综合实验表明,该模型优于所有基线,并在不确定缺失模态条件下不断提高整体情绪识别性能。

intro

缺失模态的多模态情感识别研究寻求在现实环境中进行情感识别[1,2],其中一些数据可能由于摄像机遮挡,麦克风损坏等而丢失。模态缺失问题的主流解决方案可以概括为两类:

1)缺失数据生成[3-5],

2)多模态联合表示学习[6,7]。

在[3]中,提出了一个编码器-解码器网络来生成。在[7]中,研究了一种基于循环一致性损失的翻译方法来学习模态之间的联合表示。在[1]中,研究了一种缺失模态想象网络(Missing Modality Imagination Network,简称MMIN),通过预测缺失模态来学习联合表征,该网络结合了上述两种方法。异构模态之间的模态差距[8 - 10]仍然是一个问题,它对情绪识别的准确性产生不利影响。问题是如何缩小这种形态差距。虽然模态有其独特的特征,但它们在语义空间中共享相同的信息。将模态不变特征引入到全模态数据的多模态情感识别中,取得了显著的效果。Hazarika等[8]提出了共享子空间来学习模态之间潜在的共性,以减少模态差距的影响。Liu等[11]提出了离散共享空间来捕获细粒度表示,以提高跨模态检索的准确性。所有的研究都表明,情态不变特征有效地弥补了情态差异。我们注意到,在缺失情态条件下,没有相关的情感识别工作。

在这项工作中,我们提出了一个具有不变特征的缺失模态想象网络(IF-MMIN)。具体来说,我们首先使用基于中心矩差异(CMD)距离[12]的约束训练策略来学习各种模态之间的模态不变特征。然后,我们设计了IF-MMIN神经结构,从可用模态中预测缺失模态的不变特征。

本工作的主要贡献有:

1)提出了一种基于cmd的距离约束训练方法来学习全模态间的模态不变性;

2)在跨模态想象过程中引入不变特征,减少模态差距的影响,增强多模态联合表示的鲁棒性;

3)在各种缺失模态条件下的实验结果表明,所提出的IF-MMIN在缺失模态情况下具有准确的情感识别性能

方法

提出的IF-MMIN方案首先在全模态信号下采用基于中心矩差异(CMD)距离的不变特征学习策略,学习模态特定特征和模态不变特征;在IF-MMIN训练过程中,IF-IM读取这两个特征,通过缺失模态想象学习鲁棒联合表示

CMD基于距离的不变特征学习

图1:基于中心矩差异(CMD)距离的不变性特征学习管道,包括特异性和不变性编码器以及分类器。红色箭头表示基于cmd的距离约束,以强制各种模态特征映射到相同的语义子空间。

如图所示,不变特征学习管道包括三个模块:特异性编码器、不变性编码器和分类器。特异性编码器旨在提取高级特征从原始特征来表示模态特定的特征。不变性编码器以模态特定特征作为输入,提取模态不变特征H,该特征由高级特征(Ha;高压;在所有形式中。最后,基于全连接层的分类器输入h和h的连接来预测情感类别。在修饰之后,我们将采用预训练的特异性和不变性编码器以及提出的IF-IM模块来构建IF-MMIN架构

Q:CMD是什么?距离约束体现在哪里?

A:CMD(中央矩差异)是一种用于衡量两个概率分布之间差异的距离度量方法。它通过比较两个分布的各阶中心矩,评估它们在统计特性上的差异,从而量化分布之间的距离。

CMD距离约束用于模态不变特征学习,其目的是通过最小化不同模态特征分布之间的差异,学习到模态不变的表示,使得模型在处理多模态数据时更加鲁棒。

对于每个模态,使用模态特异编码器提取高级特征,将所有模态的特异性特征输入模态不变性编码器,得到模态不变特征,接着,对于任意两个模态,计算它们的CMD损失,总的CMD损失为所有模态对之间CMD损失累加。

特异性和不变性编码器

如图1中蓝色块所示,特异性编码器由三个模块组成:声学、视觉和文本编码器,分别简称Enca、Encv和Enct。具体来说,利用LSTM[13]和max-pooling层从原始特征中提取出话语级声学特征具有类似的结构,读取原始特征并输出话语级视觉特征采用了NLP领域的一种功率文本表示模型TextCNN[14],从原始特征中提取出话语级文本特征

不变性编码器如图1中绿色块所示,由全连接层、激活函数和dropout层组成。它的目的是映射特定于模态的特性利用基于cmd的距离约束策略(如图1中红色箭头所示)将其放入共享子空间中,获得高级特征。然后,我们将三个高级特征连接到模态不变特征H中。

基于cmd的距离约束

基于cmd的距离约束旨在减少高层特征之间的差异请注意,CMD[12]是一种最先进的距离度量,它通过匹配两个特征的顺序矩差来测量两个特征分布之间的差异。我们确保模态不变表示可以通过最小化来学习:

其中E(H)是输入样本H的经验期望向量,是H坐标的所有k阶样本中心矩的向量。

Q:这个损失怎么理解?

A:E(H)计算的是特征H的期望向量,代表了一阶中心矩,Ck(H)代表的是特征H的第k阶中心矩向量,由公式计算得。

一阶中心矩的差异目的是测量不同模态间特征的平均值差异,对于每一对模态m1和m2,计算它们的特征向量的均值之差L2范数,并求和,系数1/3是用来平衡不同阶数中心矩对损失函数的贡献,防止高阶矩对损失函数的影响过大。

2阶及以上中心矩的差异目的是比较不同模态间的特征分布形状,如离散度、偏度和峰度等。对于每一对模态m1和m2,计算它们从第二阶到第k阶中心矩的差异的L2范数,并求和。阶数K的选择依赖于分析的深度,较大的K能够捕获更复杂的分布特性,但计算成本也更高。

IF-MMIN Training

(a)表示IF-MMIN的整体架构,蓝色锁表示其参数在IF-MMIN训练期间是固定的;(b)显示了模态不变特征感知想象模块的详细结构

IF-MMIN的整体架构如图2(a)所示,其中包括:

1)特异性编码器;

2)不变性编码器;

3)模态不变特征感知想象模块(简称IFIM);

4)分类器。

假设全模态输入为

特异性编码器需要,其中miss表示特定缺失的模态,作为提取模态特定特征的输入,然后将其连接为最终输出h。不变性编码器读取来预测模态不变特征是高级特征。然后将h和融合到IF-IM中以预测缺失模态的特征。然后,将IF-IM的所有中间层的隐藏特征组合在一起作为联合表示C,如图2(b)所示,以预测最终的情绪类别o。为了确保IF-MMIN中模态不变特征预测和缺失模态想象过程的稳定性,在分类损失(Classification Loss, Lcls)的基础上增加想象损失(imagination Loss, Limg)和不变性损失(Invariance Loss, Linv)。请注意,专用性和不变性编码器的参数由2.1.1节中提到的相应模块初始化。

不变特征感知想象模块(IF-IM)

如图2(b)所示,IF-IM是用级联自编码器构建的,其中包括M个自编码器。与[1]不同的是,IF-IM同时读取。此外,给予每个自编码器的级联输入,以辅助缺失的模态想象并缓解模态间隙问题。

每个自编码器记为。则每个自编码器的计算可定义为:

其中∆zi为第i个自编码器的输出。IF-IM的想象缺失模态可定义为:

Q:他和MMIN想象模块有什么区别?

A:MMIN的想象模块:

区别在于IF-IM同时读取了h和H',而MMIN只读取了h

虽然IF-IM和传统的MMIN都使用自编码器结构,IF-IM通过其独特的级联和累加策略,提供了对模态缺失更为精细和准确的处理方式。

损失函数

在IF-MMIN训练过程中,使用分类损失来监督具有情感类别目标的训练: 。更重要的是,想象损失用于最小化IF-IM输出与缺失模态的模态特定特征之间的距离:,而不变性损失旨在迫使全模态信号的预测模态不变特征与目标模态不变特征相互接近:

实验与结果

我们在交互式情绪二元动作捕捉(IEMOCAP)数据集上验证了IF-MMIN[15]。接下来[1],我们将IEMOCAP情绪标签处理为四类:快乐、愤怒、悲伤和中性。训练集/验证集/测试集的分割比例为8:1:1。

实验装置

具体编码器Enca和Encv的隐藏大小设置为128,Enct包含3个卷积块,内核大小分别为3、4、5,输出大小为128。不变性编码器Enc0输出的大小H为128。IF-IM由5个自动编码器组成,大小为384-256-128-64-128-256-384,其中隐藏向量大小为64。分类器包括3个完全连接的层,大小分别为{128,128,4}。由于的值比小得多(约1%),我们将λ1设为1,λ2设为100,以平衡数值差异,提升在总损失中的重要性。批大小为128,dropout rate为0.5。我们采用Adam优化器[18],其动态学习率为0.0002,初始学习率为0.0002,并使用Lambda LR[19]更新学习率。

我们进行了所有实验,包括不变特征学习和IF-MMIN训练,并进行了10次交叉验证,其中每一次交叉验证包含40个epoch。为了证明模型的鲁棒性,我们将每个模型运行三次,以减轻参数随机初始化的影响。我们在验证集上选择最佳模型,并在测试集上报告其性能。所有模型都使用Pytorch深度学习工具包实现,并在单个NVIDIA Tesla P100显卡上运行。

对比实验

我们开发了三种多模态情绪识别系统进行比较研究。

1) MCTN[7]通过缺失模态和可用模态之间的循环转换来学习联合表示;

2) MMIN[1]是缺失模态问题的最先进模型,它通过自编码器和循环一致性学习,通过跨模态想象学习联合表示;

3) MMIN w/o cycle[1]去掉了MMIN的循环一致性学习部分,只保留了前向缺失模态想象过程,这与我们的IFMMIN相当

不确定缺失情态的主要结果

为了在不同的缺失模态测试条件下验证我们的IF-MMIN[1],我们报告了加权精度(WA)[20]和非加权精度(UA)[21]的所有结果。

如表1的第2行到第5行所示,我们的IFMMIN在所有缺失模态测试条件下达到了最高的平均值。对于每个条件,IF-MMIN也优于所有基线,除了条件fag和fvg,其中它与最佳基线相当。可能的原因是文本模态比听觉和视觉模态包含更多的语义信息[22]。综上所述,所有结果表明,IF-MMIN可以学习稳健的多模态联合表示,通过引入模态不变特征来缓解模态差距,从而在不同的缺失模态测试条件下取得了显著的性能。

消融实验

IF-MMIN利用不变特征并添加不变性损失来增强缺失模态的想象,IF-IM采用级联输入的不变特征

为了验证他们的贡献,我们进行了以下消融实验:

1)在IF-MMIN训练过程中,丢弃了Linv。

2) IF-MMIN w/o级联输入系统仅将作为IF-IM中第一个自编码器的输入,而不是每个自编码器的输入。

从表1的第5 ~ 7行可以看出,IF-MMIN在大多数情况下也优于IF-MMIN w/o Linv和IF-MMIN w/o级联输入,这证实了1)IF-MMIN的不变性编码器可以在Linv约束下准确预测不变性特征,从而更好地服务于IF-IM;2)级联输入可以提供自编码器各层工作时的先验知识,确实增强了IF-IM的想象能力。

可视化分析

不变特征学习的准确性是IF-MMIN正常工作的前提。因此,为了验证不变特征学习相关模块的作用,我们对IF-MMIN进行了如下可视化实验。

不变性特征的可视化分析与Linv。

(a)为所有六种缺失模态条件下预测模态不变特征H’分布的t-SNE图。

(b)表示IF-MMIN训练过程中Linv的收敛轨迹。(x轴表示迭代次数,y轴表示损失值)。

我们使用t-SNE算法在二维平面上可视化六种缺失条件下的[23],如图3(a)所示。我们从测试集中随机抽取600个句子,每个条件100个句子,提取600个不变特征H0。因此,有600点在

图3(a),每种颜色100个点。观察到在各种条件下所有的H0在特征分布上都形成了一个清晰的聚类,这是令人鼓舞的。图3(b)为IF-MMIN训练过程中Linv的收敛轨迹,其中x轴表示历元,y轴表示损失值。图中光滑的曲线表明,H0和H在训练过程中非常接近,从而进一步证明了Linv的有效性。由于H是在Lcmd约束下学习的,所以也证明了Lcmd的有效性。

conclusion

本文研究了一种新的不变特征感知多模态情感识别模型(IF-MMIN),该模型包括基于cmd的基于距离的不变特征学习和不变特征感知缺失模态想象模块(IF-IM)。通过利用不变性特征,我们的IF-MMIN可以缓解模态差距,提高多模态联合表示的鲁棒性。在IEMOCAP上的实验结果表明,在各种缺失模态条件下,所提出的IF-MMIN优于初始基线。在未来的工作中,我们将探索进一步改进不变特征学习的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/909449.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vueui vxe-form 分享实现表单项的联动禁用,配置式表单方式的用法

官网文档:https:/vxeui.com 实现表单项的联动禁用 在使用 vxe-form 时,有时候需要将表单项直接进行关联操作,比如某一项选择后,另外一项设置为禁用状态不可选择,使用插槽的话神容易实现,本章是分享配置式的…

架构师备考-系统分析与设计(面向对象方法)

定义 面向对象开发方法将面向对象的思想应用于软件开发过程中,指导开发活动,是建立在“对象”概念基础上的方法学。面向对象方法的本质是主张参照人们认知一个显示系统的方法,完成分析、设计与实现一个软件系统,提倡用人类…

【Melty是一款开源的AI编程助手,基于codellama,媲美cusor】

https://github.com/meltylabs/melty.git 对话进行代码重构

java项目之校园周边美食探索及分享平台(springboot)

风定落花生,歌声逐流水,大家好我是风歌,混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的校园周边美食探索及分享平台。项目源码以及部署相关请联系风歌,文末附上联系信息 。 项目简介: 校园周边美食…

在Vue和OpenLayers中使用移动传感器实现飞机航线飞行模拟

项目实现的核心代码 项目概述 该项目的目标是使用Vue.js作为前端框架,结合OpenLayers用于地图显示,实时获取来自手机传感器的数据(如经纬度、高度、速度)来模拟飞机在地图上的飞行轨迹。整体架构如下: Vue.js 用于构建…

【系统配置】信创终端操作系统如何彻底禁用ssh _ 统信 _ 麒麟 _ 方德

原文链接:【系统配置】信创终端操作系统如何彻底禁用ssh | 统信 | 麒麟 | 方德 Hello,大家好啊!今天带来一篇关于如何在信创终端操作系统中彻底禁用SSH的文章。在某些安全性要求较高的环境中,禁用SSH服务可以防止未经授权的远程访…

新一代跟踪器StrongSORT: Make DeepSORT Great Again论文解析—让 DeepSORT 再次伟大

新一代跟踪器StrongSORT: Make DeepSORT Great Again论文解析—让 DeepSORT 再次伟大 时间:2023年 机构:北京邮电大学 发表在:IEEE TRANSACTIONS ON MULTIMEDIA, VOL. 25, 2023 代码源码地址: pytorch版本:https://github.com/dyh…

如何编写PHP代码以减少冗余?

在编程中,代码的冗余是一个常见的问题,不仅增加了代码的复杂性,还降低了可读性和可维护性。对于PHP这样的语言来说,减少代码冗余同样重要,尤其是当项目规模变得越来越大时。本文将探讨如何有效地减少PHP代码的冗余&…

苍穹外卖Bug集合

初始化后端项目运行出现以下问题 以上报错是因为maven和jdk版本不符合,需要将jdk改成17,mavne改成3.9.9

NC313 两个数组的交集

NC313 两个数组的交集 添加链接描述 import java.util.*;public class Solution {/*** 代码中的类名、方法名、参数名已经指定,请勿修改,直接返回方法规定的值即可** * param nums1 int整型ArrayList * param nums2 int整型ArrayList * return int整型A…

【Unity】【游戏开发】Sprite背景闪烁怎么解决

【现象】 VR游戏中,给作为屏幕的3D板子加上Canvas后再加背景image,运行时总是发现image闪烁不定。 【分析】 两个带颜色的object在空间上完全重合时也遇到过这样的问题,所以推测是Canvas的image背景图与木板的面重合导致。 【解决方法】 …

【优选算法 — 双指针】双指针小专题

和为 s 的两个数 和为s的两个数 题目描述 解法一:暴力枚举 暴力枚举,先固定一个数,然后让这个数和另一个数匹配相加, 如果当前的数 所有剩余的数 target,则返回这两个数,否则固定下一个数&#…

鸿蒙原生应用开发及部署:首选华为云,开启HarmonyOS NEXT App新纪元

目录 前言 HarmonyOS NEXT:下一代操作系统的愿景 1、核心特性和优势 2、如何推动应用生态的发展 3、对开发者和用户的影响 华为云服务在鸿蒙原生应用开发中的作用 1、华为云ECS C系列实例 (1)全维度性能升级 (2&#xff…

仿真APP助力汽车零部件厂商打造核心竞争力

汽车零部件是汽车工业的基石,是构成车辆的基础元素。一辆汽车通常由上万件零部件组成,包括发动机系统、传动系统、制动系统、电子控制系统等,它们共同确保了汽车的安全、可靠性及高效运行。 在汽车产业快速发展的今天,汽车零部件…

VMWARE ESXI VMFS阵列故障 服务器数据恢复

1:河南用户一台DELL R740 3块2.4T硬盘组的RAID5,早期坏了一个盘没有及时更换,这次又坏了一个,导致整组RAID5处于数据丢失的状态, 2:该服务器装的是VMware ESXI 6.7,用户把3块硬盘寄过来进行数据…

【拥抱AI】如何让软件开发在保证数据安全的同时更加智能与高效?

第一、推动软件开发向更加智能化、高效化和创新化方向发展的策略 随着AI技术的不断进步,软件开发正朝着更加智能化、高效化和创新化的方向发展。要实现这一目标,企业需要采取一系列综合性的策略,从技术、管理、文化等多个层面入手。以下是一…

【科研绘图】如何使用3DMAX进行科研绘图?

3DMAX(通常指3ds Max)是一款功能强大的三维建模、动画和渲染软件,广泛应用于科研绘图领域。以下是一些关于使用3DMAX进行科研绘图的基本步骤和技巧: 一、基本步骤 创建基本模型 根据科研需求,使用3DMAX的创建工具&…

使用Python Flask实战构建Web应用

你是否曾想过,使用Python来快速搭建一个Web应用?Flask作为一个轻量级的Web框架,因其简单、灵活且高效,成为了很多开发者首选的工具。今天,就让我们一同走进Flask的世界,探索如何使用它轻松构建一个实战Web应…

CSS画icon图标系列(一)

目录 前言: 一、向右箭头 1.原理: 2.代码实现 3.结果展示: 二、钟表 1.原理: 2.代码展示: 3.最终效果: 三、小手机 1.原理: 2.代码展示: 3.最后效果: 四、结…

分类 classificaton

1)什么是分类? 在此之前,我们一直使用的都是回归任务进行学习;这里我们将进一步学习什么是分类,我们先从训练模型的角度来看看二者的区别。 对于回归来说,它所作的是对模型输入相应的特征,然后…