多模态 |COGMEN: COntextualized GNN based Multimodal Emotion recognitioN论文详解

论文:COGMEN: COntextualized GNN based Multimodal Emotion recognitioN

COGMEN: 基于GNN的多模态情感识别技术

论文实现可参考另外一篇论文:

本文主要分为俩部分,一是对论文的简单概括,二是对论文的翻译。

论文总结

论文翻译

 摘要

情绪是人类行动的一个固有部分,因此,开发能够理解和识别人类情绪的人工智能系统势在必行。在涉及不同人的对话中,一个人的情绪会受到其他说话者的言语和他们自己在言语中的情绪状态的影响。在本文中,我们提出了基于 COntex- tualized Graph Neural Network的多模态情感识别COGMEN)系统,该系统利用了本地信息(即说话人之间的内/外依赖性)和全局信息(上下文)。建议的模型使用基于图谱神经网络 (GNN) 的架构来模拟对话中的复杂关系(本地和全局信息)。我们的模型在IEMOCAP和MOSEI数据集上给出了最先进的 (SOTA)结果,详细的消融实验显示了在两个层面上对信息进行建模的重要性、

1.介绍

情绪是人类固有的,指导着他们的行为,并表明了基本的思维过程 (Minsky. 2007)。因此,理解和识别情绪对于开发与人类直接互动的人工智能技术(如个人数字助理) 至关重要。在一些人的对话中,每个人所经历和表达的情绪不断起伏。多模态情感识别任务解决的问题是监测个人在不同场合(如对话) 所表达的情感(通过各种模态,如视频(面部)、音频(语音))。

情绪是对认知处理的刺激物的生理、行为和交流反应(Planalp等人,2018)。情绪是内部生理变化的结果,而这些生理反应可能不会被其他人注意到,因此是个人内部的。例如,在对话环境中,情绪可能是一种交际反应,它在另一个人所说的句子中作为一种刺激。语篇中表达的情绪状态与语境直接相关;例如,如果基本语境是关于一个简介快乐的话题,如庆祝节日或描述一个假期,就会有更多的积极情绪,如喜悦和惊喜。考虑到图1所示的例子,其中的语境描述了一个令人理解和识别情绪对于开发与人类直接互动的兴奋的对话。说话人1对他的录取感到兴奋,这影响了语境中的情绪流动。

 

图1:两个说话者之间的对话实例,每句话都有相应的情绪被唤起。

整个语境发言人2的情绪状态在,2,4,6中显示了对发言人1的依赖性,并,4 中通过发言人反应感到好奇而保特了个人內部状态。这个对话例子描绘了 全局信息以及说话人之间和内部的依赖性对话语的情绪状态的影响。此外,情绪是一种多模态现象;一个人从不同的模态(如音频、视频)中获取线索来推断他人的情绪,因为,很多时候,在不同的情况下,不同的模式中形成相互补充。

在本文中,我们利用这些直觉,提出了cogmen:基于语境化图神经网络的多模式情感识别架构,该架构解决了语境对话语的影响以及用于预测对话期间每个说话人每句话情感的相互依存和内部依存。

关于单模态(仅使用文本)预测已经有很多工作,但我们的重点是多峰情感预测。正如在多模态情绪预测的文献中所做的那样,我们不关注与单峰模型的比较。实验和消融研究表明,我们的模型利用了信息的来源(即局部和全局),在多模式情感识别数据集iemocap和mosei上给出了最先进的(sota)结果。

我们提出了一种基于语境图神经网络(GNN)的多模式情感识别架构,用于预测对话中每个说话人的每个话语的情感。我们的模型在对话中利用了局部和全局信息。我们使用图形变换(SHI等人,2021)对多模式情感识别系统中的说话人关系进行建模。

  • 我们的模型在IEMOCAP和MOSEI的多模式情感识别数据集上给出了SOTA结果。
  • 我们对模型及其不同组件进行了彻底分析,以显示局部和全局信息的重要性以及 GNN组件的重要性。

2.相关工作

3.提出模型

本地信息

全局信息

3.1.全局框架

图2显示了详细的体系结构。输入的话语作为语境提取器模块的输入,该模块负责捕获全局语境。语境提取器为每个话语(utterance)提取的特征形成了一个基于说话人之间交互的图(Graph Formation)。该图作为Relational - GCN的输入,然后是graph transformer,graph transformer使用形成的图来捕捉话语之间的内部和内部关系。最后,作为情感分类器的两个线性层使用所有话语获得的特征来预测相应的情感。

 

 

 

 

 

图的形成 Graph Formation:

关系图卷积网络 Relational Graph Convolutional Network (RGCN):

 图转换器(GraphTransformer):

 

 我们在两个广泛使用的数据集上进行情感识别任务的实验:IEMOCAP(BUSSO等人,2008)和MOSEI(ZADEH等人,2018B)。数据集统计数据如表1所示。

IEMOCAP是一个二元多模式情感识别数据集,其中对话中的每个话语都被标记为六种情感类别之一:愤怒、兴奋、悲伤、幸福、沮丧和中性。在文献中,两种IEM OCAP设置用于测试,一种具有4种情绪(愤怒、悲伤、幸福、中性),另一种具有6种情绪。我们对这两种设置都进行了实验。

MOSEI是一个多模式情绪识别数据集,由7种情绪(-3(高度消极)到+3(高度积极))和6种情绪标签(幸福、悲伤、厌恶、恐惧、惊讶和愤怒)注释。注意,不同数据集的情绪标签不同。我们使用加权F1分数和准确性作为评估指标(详见附录C)。

情感分类器:在由图转换器 hi 提取特征上的线性层,预测与词相应的情绪。

 

其中 yi 是对 的utternce ui的情感标签预测。

4.实验 

实验细节:对于IEMOCAP,使用OPENSMILE提取音频特征(尺寸100)(EYBEN等人,2010),从BALTRUSAITIS等人(2018)提取视频特征(尺寸512),使用SBERT提取文本特征(尺寸768)(REIMERS和GUREVYCH,2019)。

MOSEI数据集的音频特征取自DELBROUCK等人(2020),使用80个滤波器组的LIBROSA(MCFEE等人,2015)提取,使特征向量大小为80。视频特征(尺寸35)取自ZADEH等人(2018B)。使用SBERT获得文本特征(大小768)。语篇特征是句子层面的静态特征。对于音频和视觉模式,我们通过平均所有标记级特征来使用句子/话语级特征。

我们通过级联融合了所有可用模式(a(音频)+t(文本)+v(视频):atv)的功能。我们还探讨了其他融合机制(附录g.1)。然而,级联提供了最好的性能。我们使用贝叶斯优化技术对我们提出的模型进行了超参数搜索(详见附录a)。

通过将COGMEN与许多基线模型进行比较,我们对COGMEN进行了全面评估。对于IEMOCAP,我们将我们的模型与现有的多模式框架进行比较(表2),其中包括DIALOGUERNN(MAJUMDER等人,2019)、 BC-LSTM(PORIA等人,2017)、CHFUSION(MAJUMDER等人,2018)、MEMNET(SUKHBATAR等人,2015)、TFN(ZADEH等人,2017)、MFN(ZADEH等人,2018A)、CMN(HAZARIKA等人,2018B)、ICON(HAZARIKA等人,2018A)和AF-CAN(王等人,2021B)。

对于MOSEI,COGMEN与多模式模型进行了比较(表4),包括多模式网络(SHENOY和SARDANA,2020年)和TBJE(DELBROUCK等人,2020年)(关于基线的详细信息和分析,见§6)。

 

 5.结果和分析

 

 

 

 

 

 

 

 6.结论

7.结论和未来工作

8. 致谢

参考文献省略

附录省略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/6648.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【学习笔记】SpringAOP的用法全解

文章目录Spring的AOP一、 Spring对AOP的实现包括以下3种方式**什么是AspectJ?**二、使用Spring的AOP1、准备工作2、尝试写一个简单的AOP demo3、代码如下:spring.xml业务类切面类测试类4、复习切面表达式1)所有方法2)指定路径下某个包及其子…

开心档之C++ 运算符

目录 C 运算符 算术运算符 实例 实例 关系运算符 实例 实例 逻辑运算符 实例 实例 位运算符 实例 实例 赋值运算符 实例 实例 杂项运算符 C 中的运算符优先级 实例 实例 运算符是一种告诉编译器执行特定的数学或逻辑操作的符号。C 内置了丰富的运算符&…

算法设计-二分

一、有序和单调 ​ 二分本质上是一种更加智能的搜索状态空间的方式,他需要状态空间的状态呈现一种“有序的一维数组”的形式,然后再进行搜索。所以一开始的排序是无法避免的。 ​ 因为二分的写法问题,所以应当怎样排序也是有一定讲究的&…

黑马程序员 linux 学习笔记入门部分合集

ubuntu 安装 本课程使用 ubuntu 系统。 ubuntu 官网 - download。 上面会显示有两个版本,每年 ubuntu 发布两个版本,LTS 是长期维护版,所以相对会较稳定。 介绍 Linux 发行版本 不管什么版本,内核都是一样的。 RPM based&a…

“遥感+”蓝碳储量估算、红树林信息提取与论文写作

详情点击链接:“遥感”蓝碳储量估算、红树林信息提取与论文 一,光谱遥感数据及预处理 .1高光谱遥感数据 高光谱分辨率遥感是用很窄而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米数量级。高光谱图像数据…

Linux-Vim

一、Vim 配置 ​ vim界面打开以后很丑就不提了,关键有很多基本功能没有办法实现,所以需要自己配置,如果是linux系统,那么应该找到 /usr/share/vim/.vimrc​ 如果是windows装完git以后会自动一个vim,此时应该找到 Gi…

电子招标采购系统—企业战略布局下的采购寻源

​ 智慧寻源 多策略、多场景寻源,多种看板让寻源过程全程可监控,根据不同采购场景,采取不同寻源策略, 实现采购寻源线上化管控;同时支持公域和私域寻源。 询价比价 全程线上询比价,信息公开透明&#xff…

vue + table原生实现表格单元列列宽可重置

const tableMixin {data() {return {dragState: {}, // 记录子表的列宽移动的一些数值dragging: false // 子表是否在重置列宽}},methods: {handleMouseMove(event) {let target event.targetwhile (target && target.tagName ! TH) {target target.parentNode}if (…

算法竞赛ICPC、CCPC、NIO、蓝桥杯、天梯赛

算法竞赛前言一、为什么学习算法竞赛二、学习算法的阶段三、算法竞赛具体学习内容1、基础数据结构1.1、链表1.1.1、动态链表1.1.2、静态链表1.1.3、STL list1.2、队列1.2.1、STL queue1.2.2、手写循环队列1.2.3、双端队列和单调队列1.2.4、优先队列1.3、栈1.3.1、STL stack1.3.…

23 - x的平方根,快速幂,超级次方

文章目录1. x的平方根2. 快速幂3. 超级次方1. x的平方根 二分查找 class Solution { public:int mySqrt(int x) {int left 1, right x;while(left < right){int mid left (right - left) / 2;if(mid > x / mid){right mid - 1;}else if(mid < x / mid){left mi…

OpenShift 4 - Red Hat 是如何对容器镜像的安全风险进行评估分级的

《OpenShift / RHEL / DevSecOps 汇总目录》 文章目录RedHat 对 CVE 的风险级别的评级通用漏洞评分系统 CVSS红帽严重性分级RedHat 对容器镜像的整体风险的分级云原生应用的运行载体是容器镜像&#xff0c;因此容器镜像的安全便是云原生应用安全的关键因素。为此&#xff0c;Re…

联合解决方案|亚信科技AntDB携手蓝凌软件,助推企业数字化办公转型升级

随着企业数字化转型的深入&#xff0c;企业对于协同办公、移动门户、数字运营、智能客服等方面的需求越来越高&#xff0c;数智化正成为催生新动能和新优势的关键力量。数字化的办公平台可以帮助企业实现各类信息、流程的集中化、数字化和智能化管理&#xff0c;为企业管理者提…

老板,你的绩效管理该升级了!

中小企业的绩效考核&#xff0c;一直是一个备受关注的话题。虽然传统的绩效考核理论已经非常成熟&#xff0c;但是在实际应用中&#xff0c;我们往往会遇到各种各样的问题。因此&#xff0c;在选择绩效考核工具和方法时&#xff0c;我们应该注重实用性&#xff0c;不断探索新的…

32位单片机MM32G0140免费申请样品及开发板

灵动微MM32G系列MCU搭载ArmCortex-M0或安谋科技“星辰”STAR-MC1处理器&#xff0c;率先推出的产品支持64KB到128KB Flash存储范围&#xff0c;提供从20脚到64脚封装选项&#xff0c;适用于广泛的智能工业与电机&#xff0c;物联网&#xff0c;智能家居和消费类等应用。其中&am…

比亚迪车载Android开发岗三面经历~

前言 首先&#xff0c;我想说一下我为什么会想去比亚迪这样的车企做车载Android开发。我是一名有5年经验的Android开发工程师&#xff0c;之前一直在互联网软件公司工作&#xff0c;做过移动端App和IoT产品的开发。但我一直对汽车领域很感兴趣&#xff0c;也希望自己的技术能应…

【python+requests】接口自动化测试

这两天一直在找直接用python做接口自动化的方法&#xff0c;在网上也搜了一些博客参考&#xff0c;今天自己动手试了一下。 一、整体结构 上图是项目的目录结构&#xff0c;下面主要介绍下每个目录的作用。 Common:公共方法:主要放置公共的操作的类&#xff0c;比如数据库sql…

前端算法codewhy第一章:队列

目录 认识队列 生活中的队列 开发中队列的应用 队列类的创建 队列的常见操作 击鼓传花 import ArrayQueue from "./01_实现队列结构Queue";function hotPotato(names: string[], num: number): number {if (names.length 0) return -1;// 1.创建队列结构const queue…

数据库安装与使用、mysql、sqlite、mongodb

一、MongoDB MongoDB Server 安装 优秀文章&#xff1a; link1 link2 MongoDB 是一个文档数据库&#xff0c;旨在简化开发和扩展。 下载 官网(社区版) &#xff1a;https://www.mongodb.com/try/download/community 下载完后一路安装即可。 添加环境变量 开启 mongodb服务…

[Linux]环境变量

一.什么是环境变量 为了满足不同的运行场景&#xff0c;操作系统预先设置了一大批全局变量&#xff0c;这种可以指定操作系统运行环境的变量就是环境变量。 我们平常使用的指令本质上也是用C语言实现的一个个小程序&#xff0c;但是我们在执行我们自己的可执行程序时往往是类…

go调用docker远程API(二)-docker API 的容器操作

文章目录1 获取容器列表2 查看指定容器信息3. 查看容器日志4 创建容器4.1 简单使用4.1.1 语法4.1.2 完整示例4.2 端口映射4.2.1 语法4.2.2 完整示例4.3 挂载本机目录/文件4.3.1 语法4.3.2 完整代码5. 启动容器6 停止容器7 删除&#xff08;已停止的&#xff09;容器8 进入容器执…