ER论文阅读-Decoupled Multimodal Distilling for Emotion Recognition

基本介绍:CVPR, 2023, CCF-A

原文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Decoupled_Multimodal_Distilling_for_Emotion_Recognition_CVPR_2023_paper.pdf

Abstract

        多模态情感识别(MER)旨在通过语言、视觉和听觉模态感知人类情感。尽管先前的MER方法表现出色,但多模态固有的异质性仍然是一个挑战,不同模态的贡献差异显著。在本研究中,我们通过提出解耦的多模态蒸馏(DMD)方法来缓解这一问题,促进灵活且自适应的跨模态知识蒸馏,旨在增强每个模态的判别性特征。具体来说,每个模态的表示被解耦为两部分,即模态无关和模态专属空间,以一种自回归的方式进行解耦。DMD使用了一个图蒸馏单元(GD-Unit)来处理每个解耦的部分,从而使每个GD能够以更加专业和有效的方式执行。GD-Unit由一个动态图组成,其中每个节点表示一个模态,每条边表示一个动态的知识蒸馏过程。这种GD范式提供了一种灵活的知识传递方式,蒸馏权重可以自动学习,从而实现多样化的跨模态知识传递模式。实验结果表明,DMD在性能上持续优于最先进的MER方法。可视化结果显示,DMD中的图边在模态无关-专属特征空间上展现了有意义的分布模式。

Introduction

        多模态情感识别(MER)旨在通过视频片段感知人类的情感态度。视频流包含来自多种模态的时间序列数据,例如语言、声音和视觉。这种丰富的多模态性使我们能够从协同的角度理解人类行为和意图。近年来,MER已成为情感计算领域最活跃的研究课题之一,拥有诸多吸引人的应用,如智能辅导系统、产品反馈评估和机器人技术。

        对于MER,同一视频片段中的不同模态通常是互补的,能够提供额外的线索,用于语义和情感的消歧。MER的核心部分是多模态表示学习和融合,即模型旨在编码和整合来自多种模态的表示,以理解原始数据背后的情感。尽管主流MER方法取得了显著成果,但不同模态之间的固有异质性仍然困扰我们,增加了稳健多模态表示学习的难度。不同的模态(如图像、语言和声音)在传递语义信息时采用不同的方式。通常,语言模态由有限的转录文本组成,其语义比非语言行为更为抽象。如图1(a)所示,语言在MER中发挥着最重要的作用,而模态之间的固有异质性导致了不同模态在性能上的显著差异。

        减轻显著模态异质性的一种方法是将强模态中的可靠且可推广的知识蒸馏到弱模态中。如图1(b)所示,然而,手动分配蒸馏方向或权重可能非常繁琐,因为存在多种潜在的组合方式。因此,模型应根据不同的示例自动学习调整蒸馏方向,例如,许多情感更容易通过语言识别,而有些情感则更容易通过视觉识别。此外,不同模态间的显著特征分布不匹配,使得直接的跨模态蒸馏效果不佳。

        为此,我们提出了一种解耦的多模态蒸馏(DMD)方法,用于学习模态间的动态蒸馏,如图1(c)所示。通常,每个模态的特征通过共享编码器和私有编码器分别解耦为模态无关/专属空间。为了实现特征解耦,我们设计了一种自回归机制,预测解耦后的模态特征,并对其进行自监督回归。为了巩固特征解耦,我们引入了一种边界损失,用于规范模态和情感之间表示关系的接近度。因此,解耦的图蒸馏(GD)范式减少了从异质数据中吸收知识的负担,并使每个GD能够以更专业和有效的方式执行。

        基于解耦的多模态特征空间,DMD在每个空间中使用一个图蒸馏单元(GD-Unit),以便跨模态知识蒸馏可以以更加专业和有效的方式进行。GD-Unit由一个图组成,其中(1)节点代表模态中的表示或分类结果,(2)边表示知识蒸馏的方向和权重。由于模态无关(同质)特征之间的分布差距被充分缩小,GD可以直接应用于捕捉模态间的语义关联。对于模态专属(异质)特征,我们利用多模态Transformer构建语义对齐并弥合分布差距。多模态Transformer中的跨模态注意机制强化了多模态表示,并减少了不同模态中存在的高级语义概念之间的差异。为了简化,我们分别将解耦多模态特征上的蒸馏命名为同质图知识蒸馏(HomoGD)和异质图知识蒸馏(HeteroGD)。这一重新定义使我们能够明确探索每个解耦空间中不同模态之间的相互作用。

        本研究的贡献可以总结为以下几点:

  1. 我们提出了一种解耦的多模态蒸馏框架,即解耦的多模态蒸馏(DMD),用于学习模态间的动态蒸馏,以实现稳健的多模态情感识别。在DMD中,我们明确将多模态表示解耦为模态无关/专属空间,以便在这两个解耦空间上进行知识蒸馏。DMD提供了一种灵活的知识传递方式,蒸馏的方向和权重可以自动学习,从而实现灵活的知识传递模式。
  2. 我们在公开的MER数据集上进行了全面的实验,取得了优于或与最先进方法相当的结果。可视化结果验证了DMD的可行性,且图边展示了与HomoGD和HeteroGD相关的有意义的分布模式。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/882573.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

媒体动态:播客增长的重大转变、社交媒体创新和搜索动态

关键亮点: 关键亮点: 电视和音频:播客继续迅速增长,但主要由少数几档节目驱动。付费社交:Meta在最新的一次成功财报电话会议后继续加倍推进AI进展,X起诉GARM和广告商反垄断,Snap的订阅计划继续…

Kubernetes调度单位Pod

Kubernetes调度单位Pod 1 Pod简介 不直接操作容器container。 一个 pod 可包含一或多个容器(container),它们共享一个 namespace(用户,网络,存储等),其中进程之间通过 localhost 本地…

Python3爬虫教程-HTTP基本原理

HTTP基本原理 1,URL组成部分详解2,HTTP和HTTPS3,HTTP请求过程4,请求(Request)请求方法(Request Method)请求的网址(Request URL)请求头(Request H…

简历技能面试问答

变成语言和开发工具 C新特性 自动类型推导 (auto): 自动推导变量的类型,减少显式类型声明的繁琐 范围 for 循环: 用于遍历容器或数组,简化代码。 nullptr: nullptr 取代 NULL,表示空指针,类…

MCU自动测量单元采集振弦式应变计测值的过程

振弦式应变计是一种广泛应用于土木工程、地质勘探等领域的高精度传感器,用于测量结构的应变变化。近年来,随着微控制器单元(MCU)的发展,自动化测量技术得到了极大的提升,使得振弦式应变计的测值采集更加高效和精确。本文将详细介绍…

Linux中使用cp命令的 -f 选项,但还是提醒覆盖的问题

问题: linux 在执行cp的命令的时候,就算是执行 cp -f 也还是会提醒是否要进行替换。 问题原因: 查看别名,alias命令,看到cp的别名为cp -i,那就是说cp本身就是自带覆盖提醒,就算我们加上-f 的…

频率增强通道注意力机制(FECAM)学习总结

本文提出了一种新的频率增强通道注意力机制(FECAM),旨在解决时间序列预测中傅里叶变换因吉布斯现象导致的高频噪声问题。FECAM基于离散余弦变换,能自适应地模拟信道间的频率依赖性,有效避免预测误差。实验显示&#xf…

博睿谷IT认证-订阅试学习

在这个信息爆炸的时代,拥有一张IT认证证书,就像拿到了职场晋升的通行证。博睿谷,作为IT认证培训的佼佼者,帮你轻松拿下华为、Oracle等热门认证。下面,让我们一起看看博睿谷如何助你一臂之力。 学习时间,你说…

巨潮股票爬虫逆向

目标网站 aHR0cDovL3dlYmFwaS5jbmluZm8uY29tLmNuLyMvSVBPTGlzdD9tYXJrZXQ9c3o 一、抓包分析 请求头参数加密 二、逆向分析 下xhr断点 参数生成位置 发现是AES加密,不过是混淆的,但并不影响咱们扣代码 文章仅提供技术交流学习,不可对目标服…

脱离枯燥的CRUD,灵活使用Mybatis,根据mybatis动态的xml片段和接口规范动态生成代理类,轻松应付简单业务场景。

需求 需求是这样的,我们有一个数据服务平台的产品,用户先将数据源信息保存到平台上,一个数据源可以提供多个接口服务,而每个接口服务在数据库中存一个具有mybatis语法的sql片段。这样的话,对于一些简单的业务只需要编…

Linux 文件权限详解与管理

文章目录 前言一、文件权限概述1. 权限表示格式2. 权限组合值 二、查看文件权限三、修改文件所有者与所属组1. 使用 chown 修改文件所有者2. 使用 chgrp 修改文件所属组3. 添加所有者 四、修改文件权限1. 符号方式2. 八进制方式3. 实际修改 总结 前言 在 Linux 系统中&#xf…

香港科技大学广州|金融科技学域博士招生宣讲会——武汉大学、华中科技大学

🔔🔔🔔明日宣讲🔔🔔🔔 💐香港科技大学广州|金融科技学域博士招生宣讲会 📍武汉大学专场 🕙时间:2024年9月24日(星期二)1…

Java项目实战II基于Java+Spring Boot+MySQL的洗衣店订单管理系统(开发文档+源码+数据库)

目录 一、前言 二、技术介绍 三、系统实现 四、论文参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者 一、前言 随着生活节奏的加快,现代人对便捷、高效服务的需求日益增长,洗衣店作为日常生…

11 - TCPClient实验

在上一个章节的UDP通信测试中,尽管通信的实现过程相对简洁,但出现了通信数据丢包的问题。因此,本章节将基于之前建立的WIFI网络连接,构建一个基础的TCPClient连接机制。我们利用网络调试助手工具来发送数据,测试网络通…

【图虫创意-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 1. 暴力破解密码,造成用户信息泄露 2. 短信盗刷的安全问题,影响业务及导致用户投诉 3. 带来经济损失,尤其是后付费客户,风险巨大,造…

力扣 困难 154.寻找旋转排序数组中的最小值 II

文章目录 题目介绍题解 题目介绍 题解 题源: 153.寻找旋转排序数组中的最小值 在此基础上,进行二分之前,单独处理一下左指针和最后一个数相同的情况就好了。 class Solution {public int findMin(int[] nums) {int left 0, right nums.le…

conda 虚拟环境安装GDAL

一. 背景 换了新电脑,要重新安装GDAL。从前是下了GDAL的.wheel文件用pip安装,但平时下轮子的网站现在都打不开,比如https://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal,不晓得为什么。 后面看了这篇教程解决了问题(h…

Codeforces Round 973 (Div. 2) - D题

传送门&#xff1a;Problem - D - Codeforces 题目大意&#xff1a; 思路&#xff1a; 尽量要 最大值变小&#xff0c;最小值变大 即求 最大值的最小 和 最小值的最大 -> 二分答案 AC代码&#xff1a; 代码有注释 #include<bits/stdc.h> using namespace std; #…

C++模拟实现list:list、list类的初始化和尾插、list的迭代器的基本实现、list的完整实现、测试、整个list类等的介绍

文章目录 前言一、list二、list类的初始化和尾插三、list的迭代器的基本实现四、list的完整实现五、测试六、整个list类总结 前言 C模拟实现list&#xff1a;list、list类的初始化和尾插、list的迭代器的基本实现、list的完整实现、测试、整个list类等的介绍 一、list list本…

计算机网络34——Windows内存管理

1、计算机体系结构 2、内存管理 分为连续分配管理和非连续分配管理 在块内存在的未使用空间叫内部碎片&#xff0c;在块外存在的未使用空间叫外部碎片 固定分区分配可能出现内部碎片&#xff0c;动态分区分配可能出现外部碎片 3、逻辑地址和实际地址的互相转换 4、缺页中断 …