Personality Enhanced Emotion Generation Modeling for Dialogue Systems

在这里插入图片描述

对话系统的人格增强情绪生成建模

摘要
1 介绍
2 相关工作
- 2.1 个性、情感和情绪
- 2.2 个性的理论模型
- 2.3 在对话系统中整合个性情感建模
3 方法
- 3.1 任务定义
- 3.2 个性增强型情感生成模型
- 3.3 情感状态推理单元
- - 3.3.1 情绪遗忘机制
  - 3.3.2 情感调节机制
- 3.4 训练
4 实验
- 4.1 数据集 PELD

摘要

情感在人际交往中起着至关重要的作用，因为它为对话增添了深度和丰富性。近年来，越来越多的人对开发具有生成情感能力的对话系统表现出浓厚兴趣。然而，为了创造更具吸引力和真实性的互动体验，有必要考虑个性对情感生成的影响。本文提出了一种创新方法，将个性建模与对话系统的情感生成相结合。通过将个性特征纳入情感生成过程中，我们旨在创造更加个性化和与上下文相符的情感响应。基于大五人格模型和情感计算技术，我们的模型考虑了个性的个体差异，以生成与每个用户独特特征相一致的情感。实验证明，在对话系统中将情感建模与个性相结合有助于提高情感生成模型的性能。此外，经验证我们的方法在多个指标上优于其他基准模型。

1 介绍

情感产生是情感对话系统中的一个重要研究问题，其目标是使模型能够产生自然、现实的、情感丰富的情感表达。然而，在情感产生的过程中，仅仅关注情感本身可能并不能充分捕捉到人类情感的多样性和复杂性。因此，越来越多的研究开始将个性因素纳入情绪生成模型，以更充分地模拟和表达人类的情感体验。

研究表明，个性在个体的情感体验[1–3]中起着重要的作用。不同的个性特征可以影响个体的感觉、表达和调节情绪的方式；Zhang等人[4]探讨了这种关系。例如，一个外向而开朗的人可能更有可能表达积极的情绪，而一个内向而紧张的人可能更倾向于经历负面情绪。因此，将个性因素纳入情绪生成模型，可以更准确地建模和预测个体的情绪反应，提供更个性化、更具适应性的情绪生成[5]。

先前的研究探索了各种将个性和情感整合到生成模型中的各种方法。Zhang等人[6]探讨了如何在会话系统中添加个性化和情感丰富的特征，并采用了一种基于无监督学习的方法，该方法将用户提供的个人信息和对话历史与个性特征联系起来，以实现更个性化和情感丰富的会话互动。Wen等人[7]提出将VAD情绪空间中的五大人格特征结合在文本情绪预测中，以提高未来情绪的准确性。Chen等人[8]并构建了一个中文人格情绪注释数据集，用于人工智能对话系统。然而，目前结合人格的研究倾向于集中在情绪准确性预测上，而忽视了情绪拟人化的人格生成，这可能会降低对话系统中人机情感交互的体验。

这篇论文旨在为对话系统提供拟人化的情感生成，从而创造出自然而和谐的人机交互。为了解决这个问题，我们必须考虑如何从有限的对话历史信息中生成未来时刻的拟人化情感。因此，受到真实人类情感过程和心理学研究的启发，我们从时间跨度的角度概括了影响情感生成的三个主要因素。这些因素分别是长期因素（个性personality）、中期因素（情感sentiment）和短期因素（情绪emotion），以增强拟人化情感的生成。因此，我们提出了一种基于深度神经网络的情感生成方法，称为增强个性化情感生成模型（PEEGM）。PEEGM首先为对话代理分配个性特征，然后使用情感感知来分析输入语料库，获得的情感被发送到情感推理单元以实现情感生成。我们在PELD数据集上进行了实验，验证了我们提出的方法的有效性。同时，与基线模型相比，我们的模型在匹配度和适当性方面具有优势。总的来说，我们的贡献如下：

定义了一个新的任务：对话系统的情绪生成任务。
从时间的角度总结了对话系统情绪状态建模的三个主要因素：人格、情感和情绪。
提出了一种用于情绪生成任务的人格增强情绪生成模型。
实验表明，PEEGM能够在对话中适当、合理地实现情绪状态的产生。

2 相关工作

在本节中，我们将回顾与人格、情感和情绪建模相关的工作。接下来，我们回顾了重要的人格理论模型。最后，我们回顾了在对话中整合个性特征的情绪建模。

2.1 个性、情感和情绪

个性、情感和情绪是人类心理学中相互关联但又不同的方面。Funder [9] 指出，个性指的是在不同情境和时间跨度内保持稳定的思想、情感和行为的一致模式。这些稳定的思想、情感和行为模式在各种情境和情况下持续存在，为理解个体心理构成提供了独特而一致的框架。情感是指个体对客观事物或事件满意程度的态度 [10, 11]。它通常表现为对某些情感的倾向，如积极或消极情感。情感是主观的，并强调个体在一段时间内的个人经历。它以相对稳定和反馈为特征，意味着一个人的情感可以影响并受到外部因素和互动的影响。然而，情绪是对特定事件或刺激的复杂心理和生理反应 [12]。情绪通常是强烈但相对短暂的体验，可以迅速在对外部或内部触发因素的响应中波动。该领域中最流行的模型之一是由Ekman等人提出的六种基本情感模型 [13]。

2.2 个性的理论模型

在对话中，我们讨论了几种个性模型及其在情感生成中的应用。大五人格模型（FFM）[14]是一个广泛使用的个性模型，包括五个维度：外向性、宜人性、尽责性、情绪稳定性和开放性。这些个性特征与情感状态有关，可以在情感生成的计算方法中使用。大五人格模型的个性特征和描述如表1所示。
在这里插入图片描述

MBTI是一种基于心理类型理论的个性模型，将个性划分为16种类型。Myers和McCaulley [15]开发了最初的MBTI。对MBTI的缺点之一是它的可靠性较低，这可能解释了许多研究结果的差异问题 [9]。在情感生成中，它仍然具有价值，但需要进行更深入的研究来确定其在情感生成中的应用和有效性。

这些个性模型为情感生成提供了重要的理论基础和计算方法，可以通过整合个性特征和情感状态进行个性化。然而，由于大五人格的个性评估更全面，并用数字值量化，更符合计算机的处理范式，因此该模型在自然语言处理、个性/情感计算等研究中得到了广泛应用。

2.3 在对话系统中整合个性情感建模

情感建模结合个性化的对话系统旨在使系统能够以更个性化、更丰富情感的方式与用户交互。Egges等人[2]提出了一个通用模型，用于描述和更新与情感行为相关的参数，并探讨了如何将现有的评估理论整合到框架中。Egges等人[3]提出了一个基于个性和情感状态的模型，用于改变机器人发音时的头部行为，并根据不同的个性特征确定头部响应的强度。探索了情感个性对机器行为的影响机制。Ball等人[16]通过统计分析和拟合获得了个性与PAD情感空间中情感之间的转化关系。因此，Breese等人[17]考虑了在构建的情感模型中个性对情感的校正。Johns等人[18]还利用预定义的个性与交互机器人影响情感状态的转移。Zhu等人[19]提出了一个对比学习和基于生成的模型，用于零样本个性属性提取，以促进在个性下的人机交互研究。Wen等人[7]构建了一个具有个性和情感注释的数据集，并设计了一个情感预测模型，通过对话来预测未来时刻的情感。

通过结合人格的情感建模，对话系统可以更好地理解用户的情绪状态，并能够以更个性化和情感丰富的方式进行反应和互动。然而，在进行情感建模方面仍存在一些挑战，如数据稀缺、情感模糊性和情感传递等。在本文中，我们关注如何使用有限的对话数据结合个性来实现合理的情绪产生。

3 方法

在一个对话系统中，结合适当的情感表达可以极大地提高用户体验和参与度。在情绪的持续时间方面，人类的情绪过程受到长期、中期、短期等因素的影响。受心理学的启发，本文将这三个因素分类为人格、情感和情绪。

相关研究表明[16, 21]，个性和情感表达之间存在着强烈的相关性，不同个性在处理事情时的情感表达存在差异，而这种差异是长期稳定的。因此，我们将个性视为一种长期因素。
情感是认知态度的一部分，其情感倾向（积极、消极或中性）将在很大程度上影响未来时刻的情感状态。但这种情感影响相对较为不稳定。因此，在对话中我们将情感视为一种中期因素。
情绪是短暂的，对话中每个时刻都会有不同的情绪状态，而且这些状态之间存在时间关系，即未来时刻的情感受到先前时刻情感状态的影响。因此，我们将情绪视为一种短期因素。因此，本文的方法设计围绕着这三个要点展开。

3.1 任务定义

一个对话过程涉及到多个交互者。然而，在本文中，我们关注于涉及两个交互者的对话，而不考虑包含多个交互者的场景。

对话系统中情绪生成任务的目标是有效地模拟对话主体的情绪状态，从而提高其情绪能力。给定对话历史D = {U1，R1，U2，R2，…，UT }直到上次T和特定的个性特征PS，我们的目标是在下一次生成PS的情绪状态 $e^R_T$ 。我们用数学方法将这个任务表述为等式 1.

在这里插入图片描述
情绪状态 $e^R_T$ ∈{惊喜，快乐，无，恐惧，悲伤，愤怒}，其中 i 表示下标索引，T 表示对话回合的总数。

与之前的研究相比，本文具体阐述了两个方面： (1)对对话主体本身的情绪状态进行建模，(2)在考虑个性特征影响的情况下产生情绪。因此，主要的挑战在于有效地利用对话中有限的情感信息来产生既合理又适当的情绪状态，与特定的个性保持一致。

3.2 个性增强型情感生成模型

关于人类情绪过程，个体在特定时间的情绪状态受到三个关键因素的影响： (1)长期和稳定的个性特征，(2)中期和不稳定的情感，(3)短期和快速变化的情绪状态。考虑到这些因素，我们开发了人格增强情绪生成模型（PEEGM），它将它们整合到一个LSTM框架中。模型架构如图1所示。

在这里插入图片描述

PEEGM模型的工作流程如下：在 T 时刻，对话代理的情感状态 $e^R_T$ 基于用户当前的外部输入和先前的内部输入T−1进行计算。对于时刻 i 的用户状态输入，对话文本 Ui 使用Transformer编码器进行编码，然后进行情感感知以识别用户的情感状态。随后，情感状态推理单元（ESIU）处理用户的情感状态。类似于用户状态输入处理，对话代理的输入包括特定的个性特征 PS 和对话文本的内容 Ri。其中， $x^R_{T-1,1}$ 表示T−1时刻响应的第一个词，其余术语遵循类似的约定。

3.3 情感状态推理单元

对话交互的过程可以看作是一个时间序列。在从文本情感预测和共情响应生成中获取灵感的基础上，我们开发了一个基于LSTM时间序列模型的情感状态推理单元。主要目标是利用有限的对话信息和个性特征来预测和生成未来的情感状态。

为了增强LSTM模型的性能，我们在情感状态推理单元（ESIU）的输入门方面进行了重大改进。这些改进针对影响情感状态的长期、中期和短期因素的输入。此外，我们引入了一种情感遗忘机制，以促进对先前时刻状态的保留程度的处理。此外，我们设计了一种情感调节机制，以控制个性和情感对当前情感状态的影响。最后，在输出门上实现了一种情感反馈机制，以实现更精确的情感生成推理。该单元的结构如图2所示。

在这里插入图片描述
hT−1表示单元之前的隐藏状态，反映了主体的短期情绪信息。sT−1表示细胞最后一次的情绪状态，捕捉主体的中期情绪信息。cT−1表示细胞的单元状态，代表长期的个性信息。 $e_T^U$ 对应于用户在 t 时刻的情绪状态。PS代表代理的个性特征。 $e^R_T$ 表示代理在 T 时刻的情绪状态，它是根据单位传递的前一个时刻的状态和当前时刻的输入计算出来的。

改进后的输入门计算为2：
在这里插入图片描述
输出门计算为3：

3.3.1 情绪遗忘机制

情感状态的生成受到个性和上一时刻的情感状态的影响。因此，评估这两个信息源对当前情感状态的传递效果至关重要。然而，LSTM的原生遗忘门在同时有效处理cT−1和sT−1方面存在一些不足。为了解决这个限制，我们设计了一个遗忘机制（FM），取代了LSTM中的遗忘门。这一创新机制使我们能够对中长期情感记忆进行合理控制，确保更全面地整合cT−1和sT−1的信息。

遗忘机制结构如图3所示，由方程式4–7计算得到：

在这里插入图片描述