语音情感识别调研

语音情感识别调研

  • 1、情绪识别综述
  • 2、语音情感识别算法
  • 3、语音特征提取
  • 4、相关项目
    • 1、用 LSTM、CNN、SVM、MLP 进行语音情感识别
    • 2、DST:基于Transformer的可变形语音情感识别模型
    • 3、语音情感基座模型emotion2vec
    • 4、IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络
    • 5、CA-MSER: 多模态语音情感识别
  • 5、应用
  • 6、竞赛

1、情绪识别综述

概述
语音情绪识别(Speech Emotion Recognition,SER)是指通过一段语音的声学特征(该特征与语音的内容信息和语种信息无关)来识别说话人的情绪状态的技术。说话人可通过调整发音器官的动作来改变语音信号的声学特征来表达不同的情绪。目前基于语音信号的情绪识别模型主要分为两类:离散形式情绪描述模型和连续形式情绪描述模型。离散形式情绪描述模型通过将情绪描述为离散的、形容词标签的形式,如生气(anger)、开心(happiness)、惊讶(surprise)、恶心(disgust)、害怕(fear)和难过(sad)等。连续形式情感描述模型将情绪描述为多维情感空间中的点,空间中的每一维对应情感的一个心理学属性。例如在一个二维的空间中,激活度(arousal)表示情感激烈程度,效价(valence)表示情感正负面程度。开心(happiness)可以用高激活度和高效价来表示,难过(sad)可以用低激活度和低效价来表示。
原文链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

2、语音情感识别算法

当今语音情感识别系统所采用的识别算法可以分为如下两类:离散语音情感分类器,维度语音情感分类器。

1.离散语音情感分类器
它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别。比如GMM(高斯混合模型),SVM,KNN,HMM(隐马尔可夫模型)。

2.维度语音情感分类器
该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR 因为性能稳定、训练时间短等优点应用得最为广泛。

(一)、传统方法
传统语音情绪识别方法一般分为两个步骤:情绪特征提取和统计建模。语音情绪识别常用的特征包括:
(1)韵律和能量特征,情绪的变化直接反映在整体韵律和能力的变化上。
(2)语音质量特征,发音人的情绪质量会影响语音质量。
(3)谱特征,虽然情绪变化直接反映在韵律和能量等长时连续信息中,这种变化也会间接的反映在谱特征本身的分布形态中。
(4)Teager能量特征,研究表明语音信号的Teager能量特征可以表征不同频带之间的相互作用。
上述四种特征是帧级别的,缺少上下文信息,因此称为局部特征。另一种特征是在这些局部特征的特征基础上,提取特征的长时统计量,包括最大值、最小值、均值、方差等,这些统计量称为全局特征。
统计建模方法包括离散情绪模型和连续情绪模型,离散语音情绪建模基于各种通用分类模型,包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等。连续情绪模型通过建立合理的回归模型,对所定义的连续情绪属性进行拟合和预测。Tian等人基于AVEC2012数据集和IEMOCAP数据集在四个维度(激发值、期待值、强势度、愉悦度)上进行情绪预测。

(二)基于深度学习的方法
早期基于DNN的情绪识别将DNN作为替代SVM的分类工具。后续出现了使用DNN预测帧级别的情绪后验概率,并基于HMM对句子进行建模的方法。声谱图+CRNN:最近很多人用声谱图加上CNN,LSTM这些深度学习模型来做。Attention-CNN、SOTA、wav2vec2等。
原文链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

3、语音特征提取

韵律学特征:
韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。

声音质量特征:
音质特征是语音的一种主观评价指标,描述了声门激励信号的性质,包括发声者语态、喘息、颤音及哽咽,用来衡量语音纯净度、清晰度和辨识度。

基于谱的相关特征
基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现。

音频检测的关键技术-MFCC特征提取,为了从音频信号中提取语音信息,目前使用的是普遍用于分析音频信号的mfcc值。MFCC(梅尔频率倒谱系数),梅尔频率是基于人耳听觉特性提取出来的,和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征,其主要应用于语音数据的特征提取。
链接:https://zhuanlan.zhihu.com/p/496818604

4、相关项目

评估指标:
指标:weighted accuracy(WA)、unweighted accuracy(UA)、weighted average F1(WF1);其中WA表示加权准确率,UA表示普通准确率,WF1表示加权F1 score。
GitHub topic一些相关项目:https://github.com/topics/speech-emotion-recognition

1、用 LSTM、CNN、SVM、MLP 进行语音情感识别

用 LSTM、CNN、SVM、MLP 进行语音情感识别,Keras 实现。
改进了特征提取方式,识别准确率提高到了 80% 左右。原来的版本的存档在 First-Version 分支。(传统机器学习,没具体评估指标)
代码:https://github.com/Renovamen/Speech-Emotion-Recognition

2、DST:基于Transformer的可变形语音情感识别模型

本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Recognition》。该论文提出一个可变形的Transformer结构来对语音情感信号进行建模,能够自适应地发现并关注到语音信号中有价值的细粒度情感信息。
论文地址:https://arxiv.org/abs/2302.13729
代码仓库:https://github.com/HappyColor/DST

在这里插入图片描述

3、语音情感基座模型emotion2vec

在此背景下,上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者们联手开发了一个通用的语音情感表征模型emotion2vec 。
本文提出的emtion2vec为一种自监督预训练方法,其核心为句子级别损失与帧级别损失,以及在线蒸馏范式。采用data2vec自监督框架,emotion2vec模型在预训练阶段包含两个网络:教师网络T和学生网络S。这两个网络拥有相同的架构,包括由多层卷积神经网络组成的特征提取器F,以及由多层Transformer组成的主干网络B。

论文链接👇:https://arxiv.org/abs/2312.15185
开源代码仓库👇:https://github.com/ddlBoJack/emotion2vec

在这里插入图片描述

4、IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络

在本文中提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征,再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合,更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

实验使用了IEMOCAP数据集对上述提出的联合网络进行训练和测试。
在这里插入图片描述

5、CA-MSER: 多模态语音情感识别

是南洋理工&&天大 发表在ICASSP 2022的关于语音情感识别(Speech Emotion Recognition, SER)的工作,SER 指的是从音频数据中分析说话人的情感,是一个典型的情感分类任务。本文作者从音频数据中提取了多个不同级别的声学特征(原始音频信号、MFCC 和梅尔谱),将他们看作多模态信息进行处理,并且设计了 co-attention 模块进行多模态信息融合,在 IEMOCAP 数据集上取得了不错的效果。
在这里插入图片描述
开源代码地址:https://github.com/Vincent-ZHQ/CA-MSER

5、应用

宠物情绪识别:
智能狗项圈,界定狗子的喜怒哀乐
韩国的初创公司 Petpuls Lab,从 2017 年起便开始研发一种智能狗项圈,以帮助铲屎官更准确、更有效地理解自家狗子。智能项圈 Petpuls 的第一代,于 2018 年 2 月在韩国市场推出,之后受到广泛好评。去年该产品的第二代问世,售价 99 美金(约 640 元人民币)。

猫言猫语也能被翻译?喵喵?
前段时间,一位前 Amazon 工程师开发了一项应用程序 MeowTalk,能够把猫咪的「喵喵喵」翻译成短语,从而让人们知道它在表达什么。

教育领域:可以通过语音情感识别系统实时掌握学生的情感状态,利用其对情感特有的分析辨别能力,实时分析系统接收到的学生回复,及时地了解和把握学生的真实情感状态,从而迅速做出反馈并进行调整,大大增强了课堂效果和提高了学生的学习效率。

医学领域:面对诸多医患之间无法沟通交流的现象,语音情感识别系统发挥了极其重要的作用。当遇到情绪波动、抗拒交谈或是精神受创、难以沟通的患者,语音情感识别系统将会迅速做出反应并分析患者此刻的心理状态。

服务领域:普通的人工客服只会机械性、重复性地回答客户的问题和需求,不能做到灵活变通,从而致使部分客户产生抵触的情绪,导致客源的损失。而语音情感识别将会对此采取针对性的分析,当监测出客户情绪有负面波动时,则及时切换人工客服进行协调,有效地减少了客源损失量。
除上述领域外,语音情感识别在智能娱乐、电子商务、汽车驾驶、辅助测谎和人机交互[等应用程序非常重要。

6、竞赛

(1)多模态情感识别挑战赛
该竞赛开始于2016年,该竞赛英文名称为The multimodal emotion recognition challenge,统称为MEC或MER,由清华大学陶建华教授联合中国科学院自动化研究所连政助理研究员,南洋理工大学Erik Cambria教授,帝国理工学院Björn W. Schuller教授、奥卢大学赵国英教授在国际顶级人工智能学术会议ACM MM上举办。
(2)多模态情感分析挑战赛
英文全称 The Multimodal Sentiment Analysis Challenge(MUSE)。开始于2020年,由多媒体国际顶级会议ACM Multimedia举办,英国帝国理工学院、德国奥斯堡大学、芬兰奥卢大学等高校共同发起。
链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

参考:https://blog.csdn.net/weixin_44200133/article/details/134999341

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/530823.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

康姿百德床垫官网价格公道,为你带来健康与舒适的睡眠享受

我们一生中有很长一段时间在睡眠度过,睡眠之于我们来说十分重要。良好的睡眠质量不仅能够帮助我们更好地恢复体力和精神,还能提高我们的生活质量。因此选择一款优质的床垫变得尤为重要。作为床垫行业的领导品牌,康姿百德床垫一直以提升人们睡…

stm32 之SPI通信协议

本文为大家介绍 SPI 通信协议的基础知识。 文章目录 前言一、SPI协议的概念二、SPI总线架构三、SPI通讯时序1. 起始,停止 信号2.CPOL(时钟极性)/CPHA(时钟相位) 四, I2C 总线 和SPI 总线比较相同点&#xf…

二叉树的前序遍历、中序遍历、后序遍历

二叉树的前序遍历、中序遍历、后序遍历 一、递归算法的三个要素二、144. 二叉树的前序遍历三、94. 二叉树的中序遍历四、145. 二叉树的后序遍历 一、递归算法的三个要素 1、确定递归函数的参数和返回值: 确定哪些参数是递归的过程中需要处理的,那么就在…

【单片机】PMS5003,PM2.5传感器数据读取处理

文章目录 传感器介绍数据处理解析pm2.5的代码帮助、问询 传感器介绍 PMS5003是一款基于激光散射原理的数字式通用颗粒物浓度传感器,可连续采集 并计算单位体积内空气中不同粒径的悬浮颗粒物个数,即颗粒物浓度分布,进而 换算成为质量浓度,并以通用数字接口形式输出。本传感器可…

LangChain-15 Manage Prompt Size 管理上下文大小,用Agent的方式询问问题,并去百科检索内容,总结后返回

背景描述 这一节内容比较复杂: 涉及到使用工具进行百科的检索(有现成的插件)有AgentExecutor来帮助我们执行后续由于上下文过大, 我们通过计算num_tokens,来控制我们的上下文 安装依赖 pip install --upgrade --qu…

SpringBoot整合RabbitMQ-应答模式

一、应答模式 RabbitMQ 中的消息应答模式主要包括两种:自动应答(Automatic Acknowledgement)和手动应答(Manual Acknowledgement)。(一般交换机发送消息,RabbitMQ只有在接收到消费者的确认后才…

常见性能测试工具对比

在性能测试工作中,我们常常会遇到好几个工具,但是每一个工具都有自己的优势,一时间不知道怎么选择。 今天我们就将性能测试常用的工具进行对比,这样大家在选择工具的时候心里就有底啦! 阿里云PTS 性能测试PTS&#xff…

基于springboot实现常州地方旅游管理系统项目【项目源码+论文说明】计算机毕业设计

基于springboot实现旅游管理系统演示 摘要 随着旅游业的迅速发展,传统的旅游信息查询方式,已经无法满足用户需求,因此,结合计算机技术的优势和普及,针对常州旅游,特开发了本基于Bootstrap的常州地方旅游管…

C++初阶:6.string类

string类 string不属于STL,早于STL出现 看文档 C非官网(建议用这个) C官网 文章目录 string类一.为什么学习string类?1.C语言中的字符串2. 两个面试题(暂不做讲解) 二.标准库中的string类1. string类(了解)2. string类的常用接口说明(注意下面我只讲解…

ONNX系列: ONNX模型修改

ONNX 模型修改 当我们熟悉了ONNX模型各个层级的结构后,我们便可以针对各个结构来对模型进行修改,从而使其更好的适配后端运行时或者特定硬件平台的编译器。对模型的修改通常可以概括为"增删改查"的操作。"增"是增加相应结构&#xf…

SAP 采购订单预制发票不让重复开立增强(包含:LMR1MF6S)<转载>

原文链接:https://blog.csdn.net/LH26988/article/details/136802631 之前博主有介绍过通过配置来控制不让采购发票重复开立,然是这个方式有点缺陷(跳转) 今天介绍,通过增强来彻底搞定这个问题的办法: 问题…

数组与链表:JavaScript中的数据结构选择

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

环境监测站升级选择ARM网关驱动精准数据采集

物联网技术的深入发展和环保需求的不断攀升,API调用网关在环境监测领域的应用正成为科技创新的重要推手。其中,集成了API调用功能的ARM工控机/网关,以其出色的计算性能、节能特性及高度稳定性,成功搭建起连接物理世界与数字世界的…

vue3移动端H5 瀑布流显示列表

以上效果 是之前发送的改进版 waterList <template><view class"pro-cons" v-if"data.length"><view class"cons-left"><template v-for"(item, index) in data"><template v-if"(index 1) % 2 1…

wangEditor 测试环境对,但是生产环境无法显示

package.json 文件版本 "wangeditor": "4.3.0"开发环境 new Editor(#${this.id});出来的数据 正式环境 new Editor(#${this.id});出来的数据 原因&#xff1a; vue.config 文件 打包策略的时候 const assetsCDN {css: [https://lf6-cdn-tos.bytecd…

【分析 GClog 的吞吐量和停顿时间、heapdump 内存泄漏分析】

文章目录 &#x1f50a;博主介绍&#x1f964;本文内容GClog分析以优化吞吐量和停顿时间步骤1: 收集GClog步骤2: 分析GClog步骤3: 优化建议步骤4: 实施优化 Heapdump内存泄漏分析步骤1: 获取Heapdump步骤2: 分析Heapdump步骤3: 定位泄漏对象步骤4: 分析泄漏原因步骤5: 修复泄漏…

基于YOLOv8的摄像头下铁路工人安全作业检测系统

&#x1f4a1;&#x1f4a1;&#x1f4a1;本文摘要&#xff1a;基于YOLOv8的铁路工人安全作业检测系统&#xff0c;属于小目标检测范畴&#xff0c;并阐述了整个数据制作和训练可视化过程&#xff0c; 博主简介 AI小怪兽&#xff0c;YOLO骨灰级玩家&#xff0c;1&#xff0…

物联网实战--驱动篇之(六)4G通讯(Air780E)

目录 一、4G模块简介 二、AIR780E驱动程序 三、AIR780使用注意事项 四、结合MQTT传输测试 一、4G模块简介 4G应该是我们日常生活最常见的一种互联网通讯方式了&#xff0c;每个智能手机都配置了&#xff0c;不过手机的4G跟我们物联网领域要用的4G有点区别。首先是物联网采用…

Docker容器嵌入式开发:MySQL表的外键约束及其解决方法

本文内容涵盖了使用MySQL创建数据库和表、添加数据、处理字符集错误、解决外键约束问题以及使用SQL查询数据的过程。通过创建表、插入数据和调整字符集等操作&#xff0c;成功解决了数据库表中的字符集问题&#xff0c;并使用INSERT语句向各个表中添加了示例数据。同时&#xf…

乘苏州金龙客车,览西北无边胜境

2023年&#xff0c;甘肃省共接待游客3.88亿人次&#xff0c;实现旅游收入2745.8亿元&#xff0c;分别较上年同期增长187.8%和312.9%&#xff0c;分别恢复到2019年同期的104%和102.4%。随着旅游市场的持续火爆&#xff0c;甘肃保利旅游客运有限责任公司&#xff08;简称“甘肃保…