概述
情感计算指的是识别人类情感、情绪和感觉的工作,已经成为语言学、社会学、心理学、计算机科学和生理学等领域大量研究的主题。
本文将概述情感计算的重要性,涵盖思想、概念和方法。
情感计算是皮卡德于 1997 年提出的一个想法,此后出现了许多应用。在许多社交媒体平台上,情感计算被认为有助于理解人们的想法。许多研究人员还认为情感计算系统对于发展以人为本的人工智能和人类智能非常重要
目前已研究出三种主要的人类情绪识别方法
情感识别主要有三种类型:视觉情感识别(VER)、听觉/语音情感识别(AER/SEER)和生理情感识别(PER)。在机器学习方面,这些都是大量研究的主题。除此之外,混合现实(XR)技术(如 VR)被认为能够改善人们的主观情感体验,并已开展了多项相关研究。
论文地址:https://arxiv.org/abs/2305.07665
情绪识别研究
本节将介绍情感识别研究的各种实例,包括机器学习和深度学习
基于文本的情感识别
有一些基于文本的情感识别方法,其中许多采用了基于统计或知识的方法。例如,人们已经开发出一些方法,可对在线社交媒体和电子商务系统中用户生成的大量文本数据进行情感分类。
随着深度学习技术的出现,从文本数据中自动提取特征并端到端地训练分类器现已成为可能。下表总结了利用深度学习和机器学习进行基于文本的情感识别的研究
语音情感识别
此外,还有识别语句等数据和识别情绪的方法。这也主要是基于机器学习和深度学习的方法,如支持向量机和神经网络等技术。下表列出了基于语音的情感识别研究。至于神经网络的类型,有使用 CNN 和 RNN 的例子。
基于视觉信息的情绪识别
此外,还有利用图像和视频从面部表情图像识别情绪的方法。下表对此进行了总结。我们可以看到,所使用的基本技术包括 CNN、注意力和自动编码器。此外,我们还可以看到有多种可用的数据集。
数据集
本节将介绍用于基于文本、听觉和视觉的情感识别的数据集。
文本数据集
多域情感数据库(MDS)包含来自亚马逊评论的 100,000 多个短语,分为正面和负面。IMDB 是一个广泛使用的数据集,包含 25 000 条电影评论,每条评论都用于训练和测试
基于听觉信息的数据集
语句和语音数据库分为两类:一类使用刻意说出的语音,另一类使用从自然语句中提取的语音。前者包括柏林情绪语音数据库(Emo-DB)。但问题是,故意说出的语句往往比自然语句更夸张,因此提出了后一种数据库来解决这一问题
基于视觉信息的数据集
在实验室收集的面部表情情绪识别数据集中,有一些古老的例子。例如,JAFFE 收集了七种不同面部表情的图像数据。最近,数据集的规模越来越大,例如数据集 FER2013,其中包含通过图像检索自动收集的约 35 000 张人脸图像。该数据集包含约 35 000 张通过图像检索自动收集的人脸图像,其中的表情都是人工标注的。下图展示了各种数据集的示例
情感识别技术面临的挑战
以前基于机器学习的情感识别模型存在难以跨领域共享的问题,因为特征表征是针对特定任务和特定领域创建的,但随着最近基于深度学习的情感识别模型的出现,这些问题正在被克服。
一般认为,基于 CNN 的方法在处理静态图像时有效,而基于 RNN 的方法在处理时间序列数据时有效,在处理面部表情图像和生理数据时是一种有效的深度学习技术。此外,还使用了其他深度学习技术,如对抗学习、注意力方法和自动编码器。这些深度学习技术可以自动学习许多特征,但面临的挑战是,与机器学习方法相比,它们在从生理数据中识别情绪方面并没有显示出明显的改进
最后,对情感计算研究中尚未解决的问题总结如下
- 建立技术,更准确、更有把握地识别情绪。
- 建立大型、多样化的标签数据集。
- 制定用于标签的统一情感分类标准。
- 建立稳健且可解释的机器学习模型
- 建立个性化情感识别模型