介绍
论文地址:https://arxiv.org/pdf/2202.10571.pdf
基于人工智能的情感识别研究领域是各个领域不可或缺的,如机器人和情感计算,并在语音中使用面部表情和手势来实现人们提出了各种方法来识别一个人的情绪。然而,这些基于机器学习的情感识别算法的主要挑战之一是建立情感分类算法所需的大量的标记数据集。
为了解决这些问题,人们提出了一些方法,并开发了各种方法,以纳入有人提出了零点学习,并开发了各种方法。在本文中,我们提出了一个新的零点框架,即SC-AAE,在从手势中识别情绪方面明显优于现有方法。介绍。
SC-AAE的概述
SC-AAE的模型概述如下图所示。
该方法采用一系列由T(时间步骤)×V(节点)×3(位置坐标)组成的手势,并使用**完全监督的手势情感识别(FS-GER)**情感识别算法生成特征向量。
然后,它包括在对抗性自动编码器架构的基础上,学习所见类(训练中使用的情绪类)和****未见类(训练中未使用的情绪类)之间的映射。
零距离学习
首先,本节介绍了本文中多次提到的零点学习。零点学习是机器学习的一个研究领域,是一种预测训练数据中从未出现过的标签的方法。
例如,在学习狗和猫的图像时,普通的机器学习方法利用狗和猫的标签,而零点学习则是通过类别而不是标签进行分类。具体来说,通过将狗和猫的标签转换为多个维度的特征向量,而不是单一的数字,就有可能识别出意义接近的词,并推断出训练中没有使用的数据之间的关系,例如在训练中没有观察到的马的向量,但与狗比猫更接近有可能。
通过使用这种方法,本文旨在使用由从手势中观察到的情绪组成的 "**看见 "类(Relief, Shape, Pride)**进行训练,以及 "看不见 "类(Joy,厌恶、中立),由验证期间未从手势中观察到的情绪组成。
完全监督的手势情感识别(FS-GER)。
接下来,该方法中用于特征提取的情感识别算法,即完全监督的手势情感识别(FS-GER),这是该方法中用于特征提取的情感识别算法。
下面是FS-GER的整体视图。
这个网络的输入是。T(时间步长)×V(节点)×3(位置坐标)的姿势序列,由于手势是一个周期性的姿势序列,空间时间图卷积网络(ST-GCN)捕捉输入手势的空间和时间特征(ST-GCN)。
情感特征,即在预处理中从手势中提取的情感特征向量,然后被添加到通过1×1卷积层得到的128维向量中。
现有的研究表明,来自手势的情感特征与情感识别问题相关,情感特征包括两个特征
- 姿势特征:从成对的关节之间的距离以及所涉及的三个关节形成的角度和面积中提取。
- 运动特征:包括手势期间相关关节的加速度
然后,这个特征向量通过全连接层和Softmax层,生成用于情感分类的标签。
语言嵌入
该方法使用现有的word2vec方法来提取关于情绪的300维特征向量。
使用这个向量表示,可以确定数据中所有情绪之间的接近程度**(=相关性)和差异程度(=差异性**)。
在这种方法中,一组情绪可以表达如下
其中,{ei}∈ℝ300是情感词之间的word2vec表示,而两种特定的情绪通过欧几里得距离联系起来。
通过FS-GER和Language Embedding获得的特征向量被传递给独立的Discriminators并用于训练。
FS-GER的性能
为了确认FS-GER的性能,本文在以下条件下将其与现有的情感识别方法进行了比较和验证。
- 以数据中的所有身体关节作为输入条件,从头开始训练网络。
- 使用情绪化的身体表达数据库(EBEDB)作为数据集
- EBEDB包括在演员讲述某些台词时对自然运动身体姿态的3D动作捕捉。
- 这时,从数据集中的11个情感类中构建了6个 "看见 "类和5个 "看不见 "类并进行分类。
每种方法的分类精度如下。
该表证实,该方法比现有方法的分类精度高7-18%。
对我们的 "零距离 "框架的评估
接下来,该方法的零点框架,即SC-AAE,与现有方法进行了比较。
用于验证的评估指标,谐波平均值,是看到的和看不到的类别的分类准确性的谐波平均值,在这个指标上可以看出,目前的方法,SC-AAE,取得了比现有方法好25-27%的数字。
此外,现有方法还报告了以下其他问题
- CADA-VAE(Schonfeld等人,2019年)在对情绪进行分类时,无法创建未见类的关键特征
- 在f-CLSWGAN(Xian等人,2018)中,GANs是以图像分类为条件的,但模式崩溃很明显
- 为动作识别任务建立的CVAE-ZSL(Mishra等人,2018年)不能为情感识别产生稳健的特征。
上述问题在SC-AAE中没有出现,并且通过与现有研究的比较验证,证实了该方法的有效性。
总结
情况如何?在这篇文章中,我们介绍了一个使用手势作为输入的情感识别的新模型。一个新的零点框架,SC-AAE。SC-AAE,这是一个新的零散的框架。
尽管这种方法的有效性在与现有研究的比较验证中得到了确认,但以下问题仍有待于解决
- 模型中使用的word2vec是一个通用的语言嵌入模型,并不是专门针对情感识别的,因此不能捕捉到心理和情感多样性的所有方面。
- 需要纳入更多的情感模式,如语音和眼动,以实现更强大的分类。
是否会出现一种能够解决这些问题并进一步提高分类准确性的方法,还有待观察。本文所介绍的模型的结构细节可以在本文中找到,有兴趣的朋友可以参考一下。