【论文复现】MSA+抑郁症模型总结(二)

在这里插入图片描述

📝个人主页🌹:Eternity._
🌹🌹期待您的关注 🌹🌹

在这里插入图片描述
在这里插入图片描述

❀MSA+抑郁症模型

  • 情感分析的应用
  • 1. 概述
  • 2. 论文地址
  • 3. 研究背景
  • 4. 主要贡献
  • 5. 模型结构和代码
  • 6. 数据集介绍
  • 7. 性能展示
  • 8. 复现过程
  • 9. 运行过程
  • 总结

情感分析的应用


近年来,随着社交媒体和高质量摄像头智能手机的迅猛发展,我们目睹了多模态数据的急剧增长,涵盖了电影、短视频等多种形式。在现实生活中,多模态数据主要由视觉(图像)、听觉(语音)和文本转录三个维度构成,它们往往蕴含着丰富的情感表达,这种情感倾向在个体面对特定话题时尤为显著,生成多样化的反应和情绪。挖掘并理解这些多模态数据中的情感元素,即多模态情感分析(MSA),已成为备受瞩目的研究领域,其应用广泛,如获取客户对产品的整体反馈或评估潜在投票者的投票意向等。在此过程中,不同模态在同一数据段中往往相互补充,为消除语义和情感歧义提供宝贵线索。多模态融合作为MSA的核心环节,旨在整合所有输入模态的信息,以深刻洞察数据背后的情感内涵。

此外,抑郁症对个人和社会均构成了严峻的全球性挑战。当前,抑郁症的诊断主要依赖于问卷调查和医学专业评估,但其准确性易受参与者配合度和操作人员专业水平的影响。近年来,基于人工智能的自动抑郁检测技术崭露头角,这些技术通常利用面部表情、语音记录、文本和脑电图等多种生理或行为数据,这些数据通常在访谈过程中收集。其中,音频和文本数据易于获取,且富含抑郁症状的相关信息。

我专注于对情感计算领域的经典模型进行深入分析、解读和总结。鉴于当前大多数情感计算数据集以英文为主,我们计划在后续系列文章中引入中文数据集(如SIMS, SIMSv2),旨在开发适用于中国人群的情感计算分析模型,并将其应用于情感疾病(如抑郁症、自闭症)的检测任务,为医学心理学等领域提供有力支持。同时,我们还纳入了幽默检测数据集,并计划在未来引入更多小众数据集,以检测更为隐晦的情感,如嫉妒、嘲讽等,从而推动AI更好地服务于社会,提升人们的生活质量。

【注】 我们文章中所用到的数据集,都经过重新特征提取形成新的数据集特征文件(.pkl),另外该抑郁症数据集因为涉及患者隐私,需要向数据集原创者申请,申请和下载链接都放在了我们附件中的readme文件中,感兴趣的小伙伴可以进行下载,谢谢支持!

1. 概述


这篇文章,我将介绍第二篇情感计算经典论文模型,他是EMNLP 2021的一篇经典MSA论文中的模型–Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis(MMIM)
此外,原创部分为加入了抑郁症数据集以实现抑郁症检测任务,以及SIMS数据集和SIMV2数据集。

本文所涉及的所有资源的获取方式:

https://www.aspiringcode.com/content?id=17216431448684&uid=31a4df4d1ffd4a8294e851d9086c3439

2. 论文地址


Improving Multimodal Fusion with Hierarchical Mutual Information Maximization for Multimodal Sentiment Analysis:

https://arxiv.org/pdf/2109.00412

3. 研究背景


近年来,多模态情感分析(MSA)与抑郁症检测(DD)领域备受瞩目,其中MSA模型的效能高度依赖于融合嵌入的质量。这些嵌入源自多模态融合过程,该过程旨在提取并结合单模态原始数据,以构建更为丰富的多模态表征。过往研究往往侧重于通过反向传播任务损失或调整特征空间几何特性来优化融合效果,却忽视了在融合过程中保留关键任务相关信息的重要性。鉴于此,本文提出了一种名为MMIM的多模态信息最大化框架,该框架通过分层最大化单模态输入对之间的互信息(模态间)以及多模态融合结果与单模态输入之间的互信息,确保在多模态融合过程中有效保留与任务相关的信息。MMIM框架与主任务(即MSA)联合训练,旨在提升下游MSA任务的性能。为应对互信息(MI)界限难以确定的问题,本文还进一步开发了一套既包含参数化又包含非参数化的简便计算方法,以逼近这些互信息的真实值。

4. 主要贡献


  • 提出了一种用于多模态情感分析层次化MI最大化框架。MI最大化发生在输入级和融合级,以减少有价值的任务相关信息的损失。据我们所知,这是第一次尝试在MI和MSA之间建立桥梁;
  • 作者制定了我们的框架中的计算细节,以解决棘手的问题。该公式包括参数学习和非参数GMM稳定和光滑的参数估计;
  • 在两个公开的数据集上进行全面的实验,并获得上级或与最先进的模型相当的结果。

5. 模型结构和代码


1. 总体框架

如下图所示,MMIM模型首先使用特征提取器(用于视觉和声学的固件,没有参数可供训练)和标记器(用于文本)将原始输入处理为数字序列向量。然后,将它们编码为单个单位长度表示。然后,该模型在两个协作部分中parts-fusion和MI最大化,分别由下图中的实线和虚线标记。在融合部分,堆叠的线性激活层的融合网络F将单峰表示转换为融合结果Z,然后将其通过回归多层感知器(MLP)进行最终预测。这两个部分同时工作,以产生用于反向传播的任务和MI相关损失,通过该模型学习将任务相关信息注入融合结果,并提高主任务中预测的准确性。

在这里插入图片描述
2. 模态编码器
我们首先将多模态顺序输入 X m X_m Xm 编码成单位长度表示 h m h_m hm。具体地,我们使用BERT对输入句子进行编码,并从最后一层的输出中提取头部嵌入作为 h t h_t ht。对于视觉和声学,遵循之前的成果,采用了两个特定于模态的单向LSTM来捕获这些模态的时间特征。

h t = Bert ( X t ; θ BERT t ) h_t = \text{Bert}(X_t; \theta_{\text{BERT}}^t) ht=Bert(Xt;θBERTt)

对于视觉( v v v)和声学( a a a)模态,我们使用以下公式进行编码:

h m = sLSTM ( X m ; θ LSTM m ) 其中 m ∈ { v , a } h_m = \text{sLSTM}(X_m; \theta_{\text{LSTM}}^m) \quad \text{其中} \quad m \in \{v, a\} hm=sLSTM(Xm;θLSTMm)其中m{v,a}

3. 模态间MI最大化

通过以上分析,我们希望通过在多模态输入之间提示MI,可以过滤掉与任务无关的模态特定随机噪声,并尽可能多地保留跨所有模态的模态不变内容。如前所述,作者提高了一个易于处理的下限,而不是为此直接计算MI。利用了Barber和Agakov中引入的精确和直接的MI下界。

4. 融合的MI最大化
为了加强中间融合结果以捕获模态之间的模态不变线索,在融合结果和输入模态之间重复进行互信息(MI)最大化。优化目标是产生融合结果 (Z = F(X_t, X_v, X_a)) 的融合网络 (F)。因为我们已经有了一条从 (X_m) 到 (Z) 的生成路径,所以我们期望有一条相反的路径,即从 (Z) 构造 (X_m),其中 (m \in {t, v, a})。受Oord等人的启发但与之不同,作者使用作用于归一化预测和真值向量的评分函数来衡量它们的相关性;因为作者发现模型倾向于拉伸两个向量以最大化得分,而不进行这种归一化。然后,与Oord等人所做的相同,将此评分函数纳入噪声对比估计框架,将同一批次中该模态的所有其他表示处理为负样本。

以下是对这种提法的合理性的简短解释:对比预测编码(CPC)在时间范围内对上下文和未来元素之间的MI进行评分,以保持跨越许多时间步长的“慢功能”部分。类似地,在MMIM的模型中,要求融合结果 (Z) 反向预测跨模态的表示,以便可以将更多的模态不变信息传递给 (Z)。此外,通过将预测与每一种模态对齐,使模型能够确定它应该从每一种模态接收多少信息。

6. 数据集介绍


1. CMU-MOSI: 它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。
2. CMU-MOSEI: 它类似于CMU-MOSI,但规模更大。它包含了来自在线视频网站的23,453个注释视频片段,涵盖了250个不同的主题和1000个不同的演讲者。CMU-MOSEI中的样本被标记为[-3,3]范围内的情感强度和6种基本情绪。因此,CMU-MOSEI可用于情感分析和情感识别任务。

3. AVEC2019: AVEC2019 DDS数据集是从患者临床访谈的视听记录中获得的。访谈由虚拟代理进行,以排除人为干扰。与上述两个数据集不同的是,AVEC2019中的每种模态都提供了几种不同的特征。例如,声学模态包括MFCC、eGeMaps以及由VGG和DenseNet提取的深度特征。在之前的研究中,发现MFCC和AU姿势分别是声学和视觉模态中两个最具鉴别力的特征。因此,为了简单和高效的目的,我们只使用MFCC和AU姿势特征来检测抑郁症。数据集用区间[0,24]内的PHQ-8评分进行注释,PHQ-8评分越大,抑郁倾向越严重。该基准数据集中有163个训练样本、56个验证样本和56个测试样本。

4. SIMS/SIMSV2: CH-SIMS数据集[35]是一个中文多模态情感分析数据集,为每种模态提供了详细的标注。该数据集包括2281个精选视频片段,这些片段来自各种电影、电视剧和综艺节目,每个样本都被赋予了情感分数,范围从-1(极度负面)到1(极度正面)

7. 性能展示


  • 在情感计算任务中,可以看到MMIN模型性能超越其他模型,证明了其有效性;

在这里插入图片描述

  • 抑郁症检测任务中,MMIN在我们的数据集AVEC2019中依旧亮眼:
ModelCCCMAE
Baseline0.1116.37
EF0.34
Bert-CNN & Gated-CNN0.4036.11
Multi-scale Temporal Dilated CNN0.4304.39
MMIM0.4385.35
  • SIMS数据集
    在这里插入图片描述

8. 复现过程


在准备好数据集并调试代码后,进行下面的步骤,附件已经调通并修改,可直接正常运行;

1. 下载多模态情感分析集成包

pip install MMSA

2. 进行训练

$ python -m MMSA -d mosi/dosei/avec -m mmim -s 1111 -s 1112

9. 运行过程


  1. 训练过程
    在这里插入图片描述
  2. 最终结果
    在这里插入图片描述

总结


1. 适用场景:

  • 情感驱动的内容生成: 该模型可以应用于情感驱动的内容生成任务,如根据用户的情感状态生成符合其情绪的音频、图像或文本内容。这在个性化推荐系统和广告定制中具有潜在的应用。

  • 心理健康监测与干预: 在心理健康领域,MMIM模型可以用于抑郁倾向监测和情绪干预。通过分析用户的语音、面部表情和文字信息,可以早期发现和处理心理健康问题,提供个性化的支持和建议。

  • 在教育和培训领域: MMIM模型可以用于情感教育和人际关系技能培训。通过模拟多模态情境并提供实时反馈,帮助个体提高情感表达和沟通能力。

2. 项目特点:

  • 多模态整合: MMIM模型能够有效地整合文本、图像和音频等多模态数据,充分利用不同模态之间的相关性,提升情感分析的准确性和全面性。

  • 自适应情感建模: 采用先进的自适应学习技术,MMIM模型能够根据具体任务和用户需求动态调整情感建模策略,提高模型的灵活性和适应性。

  • 跨领域适用性: MMIM模型具有较强的跨领域适用性,不仅适用于社交媒体分析和心理健康监测,还能扩展至教育、电商推荐和人机交互等多个应用领域。

  • 高效的情感表示学习: 通过深度学习技术,MMIM模型能够高效地学习和表示复杂的情感信息,实现对多模态数据的深度理解和情感分析。


编程未来,从这里启航!解锁无限创意,让每一行代码都成为你通往成功的阶梯,帮助更多人欣赏与学习!

更多内容详见:

https://www.aspiringcode.comuid=2f3a8c82324141c48058d8e14f59b3ce

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/911790.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 实现文本转语音功能

全篇大概2000 字(含代码),建议阅读时间10分钟。 引言 我将向大家展示如何使用 JavaScript 和 Web Speech API 快速实现一个“文本转语音”的 Web 应用。通过这个教程,你将了解如何让浏览器将输入的文本朗读出来。 预览效果 一、…

GitLab基于Drone搭建持续集成(CI/CD)

本文介绍了如何为 Gitee 安装 Drone 服务器。服务器打包为在 DockerHub 上分发的最小 Docker 映像。 1. 准备工作 创建OAuth应用 创建 GitLab OAuth 应用。Consumer Key 和 Consumer Secret 用于授权访问极狐GitLab 资源。 ps:授权回调 URL 必须与以下格式和路径匹配&…

RHCE 第四次作业

一.搭建dns服务器能够对自定义的正向或者反向域完成数据解析查询。 1.配置环境 [rootlocalhost ~]# yum install bind [rootlocalhost ~]#systemctl stop firewalld [rootlocalhost ~]#setenforce 0 2.配置DNS主服务器 [rootlocalhost ~]# vim /etc/named.conf options { …

【ArcGIS】绘制各省碳排放分布的中国地图

首先,准备好各省、自治区、直辖市及特别行政区(包括九段线)的shp文件: 通过百度网盘分享的文件:GS(2022)1873 链接:https://pan.baidu.com/s/1wq8-XM99LXG_P8q-jNgPJA 提取码&#…

关于CountDownLatch失效问题

一、项目背景 这几天要开发一个类似支付宝那种年度账单统计的功能,就是到元旦后支付完会把用户这一年的消费情况从各个维度(我们把这一个维度称作一个指标)统计分析形成一张报告展示给用户。 这个功能实现用到了CountDownLatch。假如统计分析…

【专题】2024年全球生物医药交易报告汇总PDF洞察(附原数据表)

原文链接:https://tecdat.cn/?p38191 在当今复杂多变的全球经济环境下,医药行业正面临着诸多挑战与机遇。2024 年,医药行业的发展态势备受关注。 一方面,全球生物医药交易活跃,2021 - 2023 年的交易中,已…

鸿蒙5.0时代:原生鸿蒙应用市场引领开发者服务新篇章

前言 10月22日原生鸿蒙之夜发布会宣布HarmonyOS NEXT正式发布,首个版本号:鸿蒙5.0。这次“纯血鸿蒙”脱离了底层安卓架构成为纯国产的独立系统,仅凭这一点就有很多想象空间。 目前鸿蒙生态设备已超10亿,原生鸿蒙操作系统在中国市…

3.PyCharm工具

第三方IDE,集成开发工具,官网下载。 社区版本,免费使用。 创建项目 配置解释器,创建python文件,编写代码,运行:

arkUI:Flex弹性布局的各个属性

arkUI:Flex弹性布局的简单使用 1 主要内容说明2 相关内容2.1 Flex弹性布局的方向2.1.1 源码1的简答说明2.1.2 源码1 (Flex弹性布局的方向)2.1.3 源码1运行效果2.1.3.1 当direction: FlexDirection.RowReverse2.1.3.2 当direction: FlexDirect…

串口接收,不定长数据接收

###1.CUBE-MX配置串口 2.我采用串口中断接收,打开中断接口 3.时钟同样8倍频,1分频,使用内部时钟 打开串口中断 main() { __HAL_UART_ENABLE_IT(&huart1, UART_IT_IDLE); // 启用空闲中断__HAL_UART_ENABLE_IT(&huart1, UART_IT_R…

TikTok本土店vs跨境店:解读TikTok小店差异

TikTok小店的两种主要的店铺类型:本土店和跨境店,虽然这两种店铺在功能上有相似之处,但它们在运营模式、市场定位、目标受众和面临的挑战等方面存在显著的区别。 一、定义与基本特征 1. TikTok本土店 本土店指的是在特定国家或地区内经营的…

深度学习——优化算法、激活函数、归一化、正则化

文章目录 🌺深度学习面试八股汇总🌺优化算法方法梯度下降 (Gradient Descent, GD)动量法 (Momentum)AdaGrad (Adaptive Gradient Algorithm)RMSProp (Root Mean Square Propagation)Adam (Adaptive Moment Estimation)AdamW 优化算法总结 经验和实践建议…

用 Python搭建一个微型的HTTP服务器用于传输 2024/11/9

使用内置的 http.server 模块,来搭建微型服务器。 快速启动服务器http.server --- HTTP 服务器Python 3.13.0 文档 声明:文章代码部分 由 ai 生成 创建一个简单的文件共享服务器 进入 需要共享的目录 再打开cmd 输入以下代码 python -m http.server 8000 打开服务器 设置主…

虚拟机linux7.9下安装mysql

1.MySQL官网下载安装包: MySQL :: Download MySQL Community Server https://cdn.mysql.com/archives/mysql-5.7/mysql-5.7.39-linux-glibc2.12-x86_64.tar.gz 2.解压文件: #tar xvzf mysql-5.7.39-linux-glibc2.12-x86_64.tar.gz 3.移动文件&#…

Turtlebot3 buger 硬件与操作平台详细介绍

引言 TurtleBot3 有三个版本,分别是紧凑型的 Burger、功能更强的 Waffle和性能提升的 Waffle Pi,分别适用于不同的应用需求。使用 Raspberry Pi 作为主控单板计算机(SBC),而 Waffle Pi 可以使用更强大的 NVIDIA Jetson…

LabVIEW导入并显示CAD DXF文件图形 程序见附件

LabVIEW导入并显示CAD DXF文件图形 程序见附件 LabVIEW导入并显示CAD DXF文件图形 程序见附件 - 北京瀚文网星科技有限公司 LabVIEW广泛应用于自动化、数据采集、图形显示等领域。对于涉及CAD图形的应用,LabVIEW也提供了一些方法来导入和显示CAD DXF文件&#x…

北斗智能定位平板终端|三防平板|北斗有源终端|北斗搜救终端

在当今快速发展的科技时代,智能设备的应用已经渗透到我们生活的方方面面,从日常娱乐到专业工作,无一不彰显着科技的魅力。特别是在高精度定位领域,随着全球卫星导航系统(GNSS)技术的不断进步,智…

40.第二阶段x86游戏实战2-初识lua

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…

华为ENSP--ISIS路由协议

项目背景 为了确保资源共享、办公自动化和节省人力成本,公司E申请两条专线将深圳总部和广州、北京两家分公司网络连接起来。公司原来运行OSFP路由协议,现打算迁移到IS-IS路由协议,张同学正在该公司实习,为了提高实际工作的准确性和…

【Hadoop实训】Flume系统负载均衡测试

一、搭建并配置Flume机器 在master上,执行: scp -r /export/servers/flume slave1:/export/servers/scp -r /export/servers/flume slave2:/export/servers/scp /etc/profile slave1:/etc/profilescp /etc/profile slave2:/etc/profile 执行完上述指令后…