情感语音转换学习

情感语音转换(Emotional Voice conversion)

言语不仅仅是词汇,它承载着说话者的情感。之前的研究(Mehrabian和Wiener, 1967)表明,在交流情感和态度时,口头语言只传达了7%的信息,非语言的声音属性(38%)和面部表情(55%)对社会态度的表达有重大影响。非言语的声音属性反映了说话者的情绪状态,在日常交流中起着重要的作用(Arnold, 1960)。
情感语音转换(EVC)侧重于将语音从源情感转换为目标情感;因此,它可以成为人机交互应用和其他应用的关键促成技术。然而,EVC仍然是一个悬而未决的研究问题,面临着一些挑战。特别是,由于语速和节奏是情绪转换的两个关键因素,模型必须生成不同长度的输出序列。序列到序列建模最近正成为一种能够克服这些挑战的模型的竞争范式。

引言

什么是情感语音转换?
情感语音转(EVC)是一种将话语的情感状态从一种转换为另一种,同时保留语言信息和说话人身份的技术。

语音转换和情感语音转换的异同?
语音转换(VC)的目的是转换人类语音中的说话人身份,同时保留其语言内容,也称为说话人语音转换(speaker voice conversion)。
语音转换的最新进展成为情感语音转换研究的灵感来源。
说话人语音转换和情感语音转换的目的都是保存语音内容和转换副语言信息。在说话人语音转换中,说话人的身份被认为是由说话人的物理属性来表征的,这是由个人的声音质量决定的,所以转换只关注谱的映射,对基频只是进行简单的线性变换。而在情感语音转换中,情感本质上是超音段复杂的,涉及频谱和韵律因此,通过谱映射来转换情绪不足以表达,音段层级的韵律变化动态也需要考虑。

下面一张图说明了两者异同。
在这里插入图片描述

概述

如何描述和表示情感语音?
情感可以用分类来描述或维度表示。对于表示情绪的标签,情绪类别方法是表示情绪最直接的方法。最著名的分类方法之一是Ekman的六种基本情绪理论,将情绪分为六个离散的类别,即愤怒、厌恶、恐惧、快乐、悲伤和惊讶,在许多情绪语音合成研究中被采用。然而,这种离散的表示并不寻求模拟人类情感中的微妙差异来控制渲染语音。另一种方法是模拟情绪表达的物理特性。一个例子是罗素的环状模型,由觉醒、效价和支配性定义。例如,在价态唤醒(V - A)表征中,快乐言语的特征是积极的价态和唤醒值,而悲伤言语的特征是所有的负值。另一方面,愤怒又可分为热愤怒和冷愤怒,分别对应心理学上的全面愤怒和温和愤怒。
总之,情绪的分类和维度表示都已广泛应用于情绪识别和情绪语音转换。 表征学习研究代表了一种新的情绪表征方式,但需要大规模的情绪标注语音数据 。

如何模拟人类情感表达和感知的过程?
Brunswik的模型中认为情绪的感知是多层次的,该模型已广泛应用于语音情感识别,其中情感类别、语义基元和声学特征分别构成了从上到下的层次,并假设情绪产生是情绪感知的逆过程。
在与情绪相关的研究中,常用的声学特征如语音质量、语音速率和基频(F0)的韵律特征,如频谱特征、持续时间、F0轮廓和能量包络。在情感语音转换中,我们感兴趣的是转换这种声学特征来渲染情绪。在情感识别中,我们也依赖于类似的声学特征,例如专家制作的特征如使用openSMILE提取的特征,并从频谱中学习声学特征。在情感语音合成中,两者都基于规则和数据驱动技术包括统计建模或深度学习方法,依赖语音数据库进行情绪分析和产生。
随着深度学习的出现,人们用神经网络学习的深度特征来描述连续空间中的不同情感风格。与人工制作的特征不同,深层情感特征对人类知识的依赖较少,因此更适合情感风格的转移。最近,深度情感特征已用于情感语音转换。

转换模型–基于并行数据

早期关于情绪语音转换的研究大多依赖于并行训练数据,即同一说话人的一对内容相同但情绪不同的话语。在训练过程中,转换模型通过配对的特征向量学习从源情绪A到目标情绪B的映射。一般来说,如图2所示,情感语音转换过程通常包括三个步骤,即特征提取、帧对齐和特征映射。并行数据需要帧对齐,方法有动态时间规整(DTW)和基于模型的语音识别器对齐或注意机制。

在这里插入图片描述

特征提取:
通常使用来自高维谱的低维谱表示进行建模。常用的谱特征包括mel -倒谱系数(MCC)、线性预测倒谱系数(LPCC)和线谱频率(LSF)。
通常会考虑几个韵律特征,如音高、能量和持续时间。注意F0是一个重要的韵律成分,它描述了从音节到话语的不同持续时间内的语调。建模F0变量的方法包括风格化方法和多层次建模。连续小波变换(continuous wavelet transform, CWT)作为一种多层次的建模方法,已被广泛用于分层韵律特征的建模,如F0 (Suni et al., 2013;Ming等,2015;Luo等人,2017)和能量等值线(Şişman等人,2017;Sisman and Li, 2018b;Sisman等人,2019b)。CWT分析可以将信号分解为不同的频率分量,并用不同的时间尺度表示。CWT已被证明是语音韵律建模的有效方法(Ming等人,2016b;Suni等人,2013),并已成功应用于各种情感语音转换。

特征映射:
1.传统统计建模:
在Tao et al.(2006)和Wu et al.(2009)中提出使用分类和回归树将源语音的基音轮廓分解为层次结构,然后采用GMM和基于回归的聚类方法。 Aihara等人(2012)提出了一种基于GMM的情感语音转换框架来学习频谱和韵律映射。 Aihara等人(2014)引入了一种基于样本的情感方法,其中使用并行样本对源语音信号进行编码并合成目标语音信号,该思想进一步扩展为统一的基于范例的情感语音转换框架(Ming等人,2015),该框架同时学习频谱特征和基于cwt的F0特征的映射。
2. 基于神经网络:
DNN (Lorenzo-Trueba等人,2018a)、深度信念网络(DBN) (Luo等人,2016)、神经网络(Shankar等人,2019a)和DBLSTM (Ming等人,2016a)是使用并行训练话语执行频谱和韵律映射的例子。 值得注意的是,帧级特征映射并没有明确地处理持续时间的映射,而持续时间是韵律的一个重要元素。
3.基于序列-序列:
编码器-解码器架构代表了持续时间映射的解决方案(Sutskever等人,2014; Vaswani等人,2017)。 通过注意机制,神经网络在训练过程中学习特征映射和对齐,并在运行时推理时自动预测输出持续时间。 编码器-解码器模型(Robinson等人,2019)就是一个例子,其中对音高和持续时间进行了联合建模。
一般来说,更精确的对齐将有助于构建更好的特性映射函数,这也解释了为什么这些框架都是用并行数据构建的。

转换模型–基于非并行数据

在实际应用中,并行语音数据采集成本高且难度大,因此非并行数据的情感语音转换技术更适合于现实生活应用。我们将非平行数据用于多情感话语,即在不同情感之间并不共享相同的词汇内容。神经网络为非并行数据的情感语音转换框架成为可能。两种最典型的非并行方法,即(1)auto-encoder (Kingma and Welling, 2013)和(2)CycleGAN (Zhu et al., 2017)方法。我们将从非并行训练数据中学习的方法归纳为三种场景:

  • 情感域间翻译
  • 情感韵律与语言内容的解耦
  • 利用TTS或ASR系统辅助

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/5460.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

简单研究一下 OpenAI 的官方文档

文档地址:https://platform.openai.com/docs/ 接口说明:https://platform.openai.com/docs/api-reference 一、概览 OpenAI API 可直接调用模型接口,也可在线微调(不过只能微调GPT-3系列模型)。 本小节主要介绍 toke…

定长内存池的实现

文章目录 什么是内存池 池化技术内存池内存池主要解决的问题malloc定长内存池的实现前言 当前项目是实现一个高并发的内存池,他的原型是Google的一个开源项目tcmalloc,tcmalloc全称Thread-Caching Malloc,即线程缓存的malloc,实现…

python用户价值分析

数据获取: 表格数据 数据清洗后数据:链接:https://pan.baidu.com/s/1D7qOZqKmF3YR3meQPsp3sQ 提取码:1234 数据下载下来后,先进行数据清洗。数据清洗在进行用户价值分析,也可以直接下载我清洗后的数据。 RFM模型&a…

springcloud微服务架构搭建过程

项目地址:源代码 仅作为学习用例使用,是我开发过程中的总结、实际的一部分使用方式 开发环境: jdk11 springboot2.7.6 springcloud2021.0.5 alibabacloud 2021.0.4.0 redis6.0 mysql8.0 一、项目搭建 wdz-api:存放远程服务调用相关…

如何选电脑

1、CPU(中央处理器) 怎么看CPU型号:CPU:系列-代数等级核心显卡型号电压后缀 例如CPU:i7-10750H : 1、系列:Intel的酷睿i3、i5、i7、i9这四个系列的CPU,数字越大就代表越高端。 2、代数:代表…

自主HttpServer实现(C++实战项目)

文章目录项目介绍CGI技术概念原理设计框架日志文件TCPServer任务类初始化与启动HttpServerHTTP请求结构HTTP响应结构线程回调EndPoint类EndPoint主体框架读取HTTP请求处理HTTP请求CGI处理非CGI处理构建HTTP响应发送HTTP响应接入线程池简单测试项目扩展项目介绍 该项目是一个基…

大厂光环下的功能测试,出去面试自动化一问三不知

在一家公司待久了技术能力反而变弱了,原来的许多知识都会慢慢遗忘,这种情况并不少见。 一个京东员工发帖吐槽:感觉在大厂快待废了,出去面试问自己接口环境搭建、pytest测试框架,自己做点工太久都忘记了。平时用的时候…

无公网IP,SSH远程连接Linux CentOS服务器【内网穿透】

文章目录视频教程1. Linux CentOS安装cpolar2. 创建TCP隧道3. 随机地址公网远程连接4. 固定TCP地址5. 使用固定公网TCP地址SSH远程本次教程我们来实现如何在外公网环境下,SSH远程连接家里/公司的Linux CentOS服务器,无需公网IP,也不需要设置路…

地表最强,接口调试神器Postman ,写得太好了

postman是一款支持http协议的接口调试与测试工具,其主要特点就是功能强大,使用简单且易用性好 。 无论是开发人员进行接口调试,还是测试人员做接口测试,postman都是我们的首选工具之一 。 那么接下来就介绍下postman到底有哪些功…

吉林省互联网医院资质申请条件|牌照申请

吉林省互联网医院资质申请条件|牌照申请|长春市|四平市|辽源市|通化市|白山市|松原市|白城市|延边朝鲜族自治州 吉林省互联网医院资质申请条件   一、《医疗机构管理条例》第十六条申请医疗机构执业登记,应具备下列条件:   1.有设置医疗机构批准书&a…

论文笔记 | 标准误聚类问题

关于标准误的选择,如是否选择稳健性标准误、是否采取聚类标准误。之前一直是困惑的,惯用的做法是类似主题的文献做法。所以这一次,借计量经济学课程之故,较深入学习了标准误的选择问题。 在开始之前推荐一个知乎博主。他阅读了很…

【vue2】axios请求与axios拦截器的使用详解

🥳博 主:初映CY的前说(前端领域) 🌞个人信条:想要变成得到,中间还有做到! 🤘本文核心:当我们在路由跳转前与后我们可实现触发的操作 【前言】ajax是一种在javaScript代码中发请…

使用对象存储库管理 UFT 中的对象

1. 记录一个新订单 在UFT 菜单栏中,选择 File] New|Test 创建一个新的测试。单击 Record,出现 Record and Run Settings。单击 Record and Run Settings 对话框的OK 按钮。单击 New Order 按钮,设置初始条件。输入以下航班信息。航班日期: 选…

台灯有必要买一百多的吗?2023专家建议孩子买台灯

问题:台灯有必要买一百多的吗? 回答:不建议买一百多的台灯,建议选择国AA级的台灯 现在许多学生出现视力问题,原因是在平时没有注意到不良好的用眼环境 孩子早早戴上小眼镜,家长不惜花心思去买各种视力保护…

flstudio怎么改主题,如何更改FL Studio21背景图片

fl studio作为一款功能强大且实用的音频处理和音乐制作软件,其精致的界面布局一直为众多音乐人所喜爱,但是fl studio编曲软件安装后初始内置的灰黑色工作区背景,难免成为美中不足的一点。 那么用户如何根据自己的喜好设置工作区背景呢&#x…

Java基础知识

Java基础知识 一、计算机开发语言发展 计算机语言总体可分为机器语言、汇编语言、高级语言三大类,这三类开发语言恰恰是计算与开发语言的三个阶段。 机器语言:机器语言是第一代计算机开发语言,是通过最原始的穿孔卡片(二进制有孔…

《疯狂Java讲义》读书笔记3

这两天总结了数据结构中栈的用法,对栈的初始化、出栈、入栈的总结: http://t.csdn.cn/7sKjQ 对双栈共享的初始化、入栈、出栈的总结: http://t.csdn.cn/4WXCO 调用父类构造器 子类不会获得父类的构造器,但是可以调用父类构造…

聊一聊前端的性能指标

一、前端性能指标有哪些? 根据 chrome Lighthouse 最新规则,前端性能指标考量主要有 FCP(First Contenful Paint)、SI(Speed Index)、LCP(Largest Contentful Paint)、TBT&#xff…

四个常见的Linux技术面问题

刚毕业要找工作了,只要是你找工作就会有面试这个环节,那么在面试环节中,有哪些注意事项值得我的关注呢?特别是专业技术岗位,这样的岗位询问一般都是在职的工程师,如何在面试环节更好地理解面试官的问题&…

IDEA的热部署【MyBatis XML热部署 】

本文适用修改JAVA代码热部署、MyBatis XML的热部署。 一、JAVA代码热部署. 新版IDEA中:开启允许在运行过程中修改文件 最后要在Debug模式启动,可以看到热部署的加载文件了,可以手动点左边那个图标立即加载生效. 二、MyBatis XML修改热部署. MybatisMap…