情感语音转换学习

情感语音转换（Emotional Voice conversion）

言语不仅仅是词汇，它承载着说话者的情感。之前的研究(Mehrabian和Wiener, 1967)表明，在交流情感和态度时，口头语言只传达了7%的信息，非语言的声音属性(38%)和面部表情(55%)对社会态度的表达有重大影响。非言语的声音属性反映了说话者的情绪状态，在日常交流中起着重要的作用(Arnold, 1960)。
情感语音转换(EVC)侧重于将语音从源情感转换为目标情感;因此，它可以成为人机交互应用和其他应用的关键促成技术。然而，EVC仍然是一个悬而未决的研究问题，面临着一些挑战。特别是，由于语速和节奏是情绪转换的两个关键因素，模型必须生成不同长度的输出序列。序列到序列建模最近正成为一种能够克服这些挑战的模型的竞争范式。

引言

什么是情感语音转换？
情感语音转（EVC）是一种将话语的情感状态从一种转换为另一种，同时保留语言信息和说话人身份的技术。

语音转换和情感语音转换的异同？
语音转换（VC）的目的是转换人类语音中的说话人身份，同时保留其语言内容，也称为说话人语音转换（speaker voice conversion）。
语音转换的最新进展成为情感语音转换研究的灵感来源。
说话人语音转换和情感语音转换的目的都是保存语音内容和转换副语言信息。在说话人语音转换中，说话人的身份被认为是由说话人的物理属性来表征的，这是由个人的声音质量决定的，所以转换只关注谱的映射，对基频只是进行简单的线性变换。而在情感语音转换中，情感本质上是超音段复杂的，涉及频谱和韵律因此，通过谱映射来转换情绪不足以表达，音段层级的韵律变化动态也需要考虑。

下面一张图说明了两者异同。
在这里插入图片描述

概述

如何描述和表示情感语音？
情感可以用分类来描述或维度表示。对于表示情绪的标签，情绪类别方法是表示情绪最直接的方法。最著名的分类方法之一是Ekman的六种基本情绪理论，将情绪分为六个离散的类别，即愤怒、厌恶、恐惧、快乐、悲伤和惊讶，在许多情绪语音合成研究中被采用。然而，这种离散的表示并不寻求模拟人类情感中的微妙差异来控制渲染语音。另一种方法是模拟情绪表达的物理特性。一个例子是罗素的环状模型，由觉醒、效价和支配性定义。例如，在价态唤醒(V - A)表征中，快乐言语的特征是积极的价态和唤醒值，而悲伤言语的特征是所有的负值。另一方面，愤怒又可分为热愤怒和冷愤怒，分别对应心理学上的全面愤怒和温和愤怒。
总之，情绪的分类和维度表示都已广泛应用于情绪识别和情绪语音转换。表征学习研究代表了一种新的情绪表征方式，但需要大规模的情绪标注语音数据。

如何模拟人类情感表达和感知的过程？
Brunswik的模型中认为情绪的感知是多层次的，该模型已广泛应用于语音情感识别，其中情感类别、语义基元和声学特征分别构成了从上到下的层次，并假设情绪产生是情绪感知的逆过程。
在与情绪相关的研究中，常用的声学特征如语音质量、语音速率和基频(F0)的韵律特征，如频谱特征、持续时间、F0轮廓和能量包络。在情感语音转换中，我们感兴趣的是转换这种声学特征来渲染情绪。在情感识别中，我们也依赖于类似的声学特征，例如专家制作的特征如使用openSMILE提取的特征，并从频谱中学习声学特征。在情感语音合成中，两者都基于规则和数据驱动技术包括统计建模或深度学习方法，依赖语音数据库进行情绪分析和产生。
随着深度学习的出现，人们用神经网络学习的深度特征来描述连续空间中的不同情感风格。与人工制作的特征不同，深层情感特征对人类知识的依赖较少，因此更适合情感风格的转移。最近，深度情感特征已用于情感语音转换。

转换模型–基于并行数据

早期关于情绪语音转换的研究大多依赖于并行训练数据，即同一说话人的一对内容相同但情绪不同的话语。在训练过程中，转换模型通过配对的特征向量学习从源情绪A到目标情绪B的映射。一般来说，如图2所示，情感语音转换过程通常包括三个步骤，即特征提取、帧对齐和特征映射。并行数据需要帧对齐，方法有动态时间规整(DTW)和基于模型的语音识别器对齐或注意机制。

在这里插入图片描述

特征提取：
通常使用来自高维谱的低维谱表示进行建模。常用的谱特征包括mel -倒谱系数(MCC)、线性预测倒谱系数(LPCC)和线谱频率(LSF)。
通常会考虑几个韵律特征，如音高、能量和持续时间。注意F0是一个重要的韵律成分，它描述了从音节到话语的不同持续时间内的语调。建模F0变量的方法包括风格化方法和多层次建模。连续小波变换(continuous wavelet transform, CWT)作为一种多层次的建模方法，已被广泛用于分层韵律特征的建模，如F0 (Suni et al.， 2013;Ming等，2015;Luo等人，2017)和能量等值线(Şişman等人，2017;Sisman and Li, 2018b;Sisman等人，2019b)。CWT分析可以将信号分解为不同的频率分量，并用不同的时间尺度表示。CWT已被证明是语音韵律建模的有效方法(Ming等人，2016b;Suni等人，2013)，并已成功应用于各种情感语音转换。

特征映射：
1.传统统计建模：
在Tao et al.(2006)和Wu et al.(2009)中提出使用分类和回归树将源语音的基音轮廓分解为层次结构，然后采用GMM和基于回归的聚类方法。 Aihara等人(2012)提出了一种基于GMM的情感语音转换框架来学习频谱和韵律映射。 Aihara等人(2014)引入了一种基于样本的情感方法，其中使用并行样本对源语音信号进行编码并合成目标语音信号，该思想进一步扩展为统一的基于范例的情感语音转换框架(Ming等人，2015)，该框架同时学习频谱特征和基于cwt的F0特征的映射。
2. 基于神经网络：
DNN (Lorenzo-Trueba等人，2018a)、深度信念网络(DBN) (Luo等人，2016)、神经网络(Shankar等人，2019a)和DBLSTM (Ming等人，2016a)是使用并行训练话语执行频谱和韵律映射的例子。值得注意的是，帧级特征映射并没有明确地处理持续时间的映射，而持续时间是韵律的一个重要元素。
3.基于序列-序列：
编码器-解码器架构代表了持续时间映射的解决方案(Sutskever等人，2014; Vaswani等人，2017)。通过注意机制，神经网络在训练过程中学习特征映射和对齐，并在运行时推理时自动预测输出持续时间。编码器-解码器模型(Robinson等人，2019)就是一个例子，其中对音高和持续时间进行了联合建模。
一般来说，更精确的对齐将有助于构建更好的特性映射函数，这也解释了为什么这些框架都是用并行数据构建的。

转换模型–基于非并行数据

在实际应用中，并行语音数据采集成本高且难度大，因此非并行数据的情感语音转换技术更适合于现实生活应用。我们将非平行数据用于多情感话语，即在不同情感之间并不共享相同的词汇内容。神经网络为非并行数据的情感语音转换框架成为可能。两种最典型的非并行方法，即(1)auto-encoder (Kingma and Welling, 2013)和(2)CycleGAN (Zhu et al.， 2017)方法。我们将从非并行训练数据中学习的方法归纳为三种场景: