LGAttNet: Automatic microexpression detection using dualstream local and global attentions
Abstract
微表情识别之前需要先进行微表情的检测。我们提出了一种基于双重注意力网络的微表情检测架构,称为LGAttNet。LGAttNet是第一个利用与二维卷积神经网络组合的双重注意力网络执行逐帧自动微表情检测的方法之一。该方法将特征提取和增强任务分为两个不同的卷积神经网络模块:稀疏模块和特征增强模块。另一个关键模块是注意力网络,它提取局部和全局的面部特征,即局部注意力模块和全局注意力模块。该注意机制采用了人类专注于微动作特定区域的特征,使LGAttNet能够集中注意力于特定的面部区域以及完整的面部特征,以识别帧中的微表情。
1. Introduction
微表情是一种短暂的面部表情,总持续时间不到500毫秒,起始持续时间不到260毫秒[3]。有时微表情可能比通常更快,甚至发生在40毫秒以下。与发现微表情相比,微表情的检测和识别要困难的多。
本研究重点关注有效检测视频帧中的自发微表情的问题。许多微表情检测方法分析了在一段时间内第一帧与其他帧之间特征的差异[14–16]。相反,本研究旨在从单个视频帧中提取的空间特征中检测微表情。
微表情出现时,大多数线索来自于一些面部区域,如嘴巴和眼睛(眉毛)。所以在进行微表情的检测时,模型应该尽可能的只关注相关的面部区域。专业人员通常会根据选择性的本地面部区域(RoIs)做出更清晰的判断。类似于这种人类行为,注意机制也可以集中注意力于图像的特定区域。
在本文中,提出了一种基于深度学习的微表情检测框架,该框架应用了注意力机制来集中关注面部的显著部分。
Sparse module:稀疏模块 Feature Enhancement Module : 功能增强模块
图1. 所提出的局部和全局注意力网络(LGAttNet)模型的总体架构。LGAttNet接收三个输入:上半脸、下半脸和整个脸。上半脸和下半脸图像的流动由绿色箭头表示,而整个脸的流动由蓝色箭头表示。虚线表示注意力输入到全局和局部注意力模块。
本文的创新和关键贡献包括:
1. 提出了一种名为LGAttNet的基于注意机制的检测机制,用于识别逐帧微表情。LGAttNet侧重于特定的面部区域,同时考虑了整个面部的信息。
2. LGAttNet中的注意力网络被结构化为双流局部和全局注意力块。架构的局部注意流专注于仅存在于局部面部区域的RoIs,用于关联微小肌肉运动,而全局注意流则考虑整个面部,建立了与局部面部RoIs之间的关系。为了提取全局和局部注意力图,使用深的网络提取稀疏特征,使用浅的网络对特征进行集成交于sigmoid函数处理。
3. 在公开可用且广泛使用的CASME、CASME II、CAS(ME)2和SAMM数据库上,使用leaveonesubjectout (LOSO)交叉验证对提出的LGAttNet微表情检测框架的性能进行了评估。
通过消融实验证明使用局部和全局注意力网络构建双流网络的想法在微表情检测准确性方面取得了改进。
2. Related research
微表情检测是在定义包含微表情的长视频中提取相应帧序列的关键和必要的预处理阶段。鉴于微表情是一种无控制的面部表情,微表情检测研究已在公开可用的自发微表情数据集上进行。
许多用于微表情检测的方法主要集中在评估它们自己特征之间的差异,这表明在从第一帧到其他帧的时间窗口内存在差异。由于自发微表情的时间跨度相对较短,在视频中只有很少的帧显示微表情,使得检测自发微表情变得极其困难。文献中用于检测这些微表情的技术广泛,包括光流[25]、局部二值模式(LBP)[26]、方向梯度直方图(HOG)[27]和积分投影[28]。
在为SMIC捕捉样本时,并非每个受试者都表现出微表情。使用支持向量机对微表情进行分类来进行微表情的检测。采用主动形状模型(ASM)对面部局部区域进行规范化和监控,通过空间特征变化和局部二值模式三正交平面进行特征提取。为了促进特征提取,实施了时域插值模型(TIM)以调整帧数,并使用支持向量机(SVM)进行分类。
Huang等人[31]实施了时空完整的局部量化模式(STCLQP)来执行检测,通过提取符号、大小和方向作为特征。
Borza等人[15]使用简单的绝对帧变化和Adaboost算法来识别微表情帧,其中包括帧之间的运动幅度。Borza基于滑动窗口的技术保留了当前帧、过去帧和未来帧,这些帧在等间隔内进行差异,CNN通过差异将该时期分类为微表情或非微表情。
Li等人[32]引入了一种基于深度多任务的方法,使用HOOF分析进行微表情检测,使用CNN对微表情数据进行预处理,以识别面部标志的位置并将面部区域分割为感兴趣的区域。
Fernandez等人[19]引入了一种基于CNN的端到端方法,利用注意方法共同解决面部表情识别问题,用于表示和分类。同样,在2D + 3D面部表情识别中,Jiao等人[20]提出了基于增强面部注意的卷积神经网络(FACNN)。面部注意机制允许网络在没有来自多模态表达的密集地标注的情况下自动识别具有区别性的区域。
3. LGAttNet detection model description
LGAttNet模型是首个利用稀疏表示和注意机制进行微表情检测的模型。我们架构的第一阶段是预处理活动。预处理后的图像以三种不同的方式使用。第二个阶段是进行局部注意力和全局注意力。在进行局部注意力时,图像首先被分成两部分,第一部分集中在眼部区域,第二部分集中在嘴巴区域。在进行全局注意力时,GAM模块考虑的是局部之间的相关性关系,进行全局注意力计算。第三个阶段,将局部注意力和全局注意力进行融合之后输入给DM模块进行判断。
我们提出的模型,双流LGAttNet,包括五个模块:稀疏模块(SM)、特征增强模块(FEM)、局部注意模块(LAM)、全局注意模块(GAM)和检测模块(DM),如图1所示。
图1. 所提出的局部和全局注意力网络(LGAttNet)模型的总体架构。LGAttNet接收三个输入:上半脸、下半脸和整个脸。上半脸和下半脸图像的流动由绿色箭头表示,而整个脸的流动由蓝色箭头表示。虚线表示从最后一个卷积层直接输入到全局和局部注意力模块。
LGAttNet的输入是经过预处理的视频帧。输入的预处理面部图像被分成两个子部分:上半脸---主要关注面部的眼睛和眉毛肌肉,以及下半脸---集中在面部的嘴巴部分。在这里,上半脸和下半脸的图像大小通过将其余区域转换为灰度图像。这些面部部分以及整个面部区域都作为输入传递给SM;来自SM的深度特征以及相应的输入图像被馈送到FEM。
LAM的输入分为两个输入流:一个输入是在FEM中经过sigmoid的处理,另一个输入是FEM的最后一个卷积层的输出。图中所示的每个LAM都是分别为上半脸和下半脸的专用注意力模块。
除了关注局部面部部分,SM和FEM还处理整个面部图像,并将来自SM和FEM的特征向量馈送给GAM,GAM的输入分为两个输入流:一个输入是在FEM中经过sigmoid的处理,另一个输入是SM的最后一个卷积层的输出。GAM的加入有助于保持上半脸和下半脸之间的关系。
最后,上半脸和下半脸的LAM和GAM的输出向量被串联并输入给DM,DM一个传统的深度神经网络,具有分类器层,用于预测输入视频帧中微表情的存在。
3.1. Preprocessing
在预处理阶段,输入的视频帧被转换为灰度图像,包括两个基本的预处理步骤:(a) 数据增强或生成合成样本,以及(b) 归一化。
(a)在数据增强阶段,大量合成帧被创建,以增加视频帧的数量; 对面部的眼睛和鼻子区域应用二维高斯分布的随机噪声,以生成合成帧的数据增强的方法应用于单帧训练微表情检测模块
(b)归一化:空间域归一化,强度归一化,尺度归一化。
空间归一化:在空间归一化过程中选择感兴趣区域(ROI)进行特征提取,该区域排除了视频帧的不重要区域。
强度归一化:使用有限对比适应均衡(CLAHE)[36]方法,在每个视频帧上实施强度归一化步骤,以最小化特征向量的方差。
尺度归一化: 通过线性插值将视频帧在尺度归一化阶段缩小为128 × 128像素。尺度归一化使得相同的面部特征点能够在不同的视频帧中大致处于相同的位置。
图2. 预处理步骤:通过活动外貌模型(AAM)的面部特征点37和46之间的差异“a”实现空间域归一化。随后执行强度和尺度归一化。
处理流程:
灰度图像(图1)---> spatial domain Normalization(空间域归一化)--->图2---> Intensity Normalization (强度归一化)--->图3--->scale Normalization(尺度归一化)--->图4
强度归一化:
在图像处理中,强度归一化是一种调整图像亮度和对比度的方法。在上下文中,强度归一化(Intensity Normalization)是指对每个视频帧进行的一种处理,以减小特征向量的方差。在这里,使用了对比有限自适应直方图均衡化(CLAHE)方法来实施强度归一化。CLAHE是直方图均衡化的一种改进版本,它可以帮助增强图像的对比度,并且相比传统直方图均衡化,CLAHE可以更好地处理不同区域的光照差异。通过CLAHE,图像中的强度分布得到重新分配,以确保在进行后续处理时能够更好地捕捉和区分面部特征。
3.2. LGAttNet components
SM--->FEM --->LAM+GAM--->DM
3.2.1. Sparse Module (SM)
稀疏编码技术对于解决分类问题很有用,其中为各个类别构建了特定的字典,并对输入进行处理以对应于最稀疏表示的字典进行分类。稀疏性已经应用于各种图像处理和计算机视觉应用。
SM使用深度卷积神经网络实现,没有全连接和分类层。本文中的SM架构使用深度卷积神经网络,包括七个卷积层和一个额外的最后一层,即八个卷积层,以提取输入图像的注意力映射; SM以128 × 128维度的上半脸、下半脸和整个脸的3通道输入图像为输入。
SM的输入是上半脸、下半脸以及整张脸---I, 输出是从输入图像处理得到的特征图Msm。
Msm = fsm(I)
SM的输出被送到两个部分:第一部分将包含上半脸、下半脸以及整张脸的Msm直接输入到FEM,另一个输出是对于整张脸在最后一个卷积层直接将提取的特征输入给GAM
图3. 稀疏模块:‘I’是输入图像,提供给稀疏模块,一个包括注意力网络的八层CNN。注意力特征图从最后一个卷积层中提取,并馈送到接下来的模块——FEM和GAM。
3.2.2. Feature Enhancement Module (FEM)
FEM的结构包括三个卷积层,其中最后三层一次是3x3卷积层、concate层以及sigmoid层。
FEM的输入包括 SM输入的稀疏表示模块的输出特征向量(Msm),Msm经过三层的卷积层处理之后得到提取的新的特征Ifem,卷积层提取的特征向量与输入图像的特征映射(包括上半脸、下半脸和整个脸图像)进行concate(concat(Ifem,I)),然后经过sigmoid函数处理输出为Mfem。
FEM的输出包括两个部分,第一个部分是经过sigmoid函数处理的输出Mfem, 输出对象为(GAM\LAM)另一部分输出是直接将最后一个卷积层提取到的特征输入到LAM。
Ifem = ffem(Msm)
Mfem = (Concat(Ifem,I))
图4. 特征增强模块:输入给予这个浅层的三层卷积网络是从SM中提取的注意力特征图。最后一个卷积层提取注意力特征图,保留了稀疏但关键的表示。求和函数生成一个新的增强特征图,Sigmoid函数输出预测概率。
3.2.3. Local Attention Module (LAM) and Global Attention Module (GAM)
LGAttNet是使用三个注意力块构建的:两个LAM和一个GAM。LAM和GAM的实现如下所示。
Agam = Mfem X C(Msm)
Alam = Ifem X C(Mfem)
LAM和GAM由两个组件组成, (1)一个卷积块的2DCNN和(2)一个乘法函数。
LAM和GAM的架构相同,但给定的输入不同,这就是每个块的功能以及如何不同处理输入的原因。所有三个注意力块接受两个输入特征向量。
LAM接受到两个输入,其中一个是经过三层卷积层提取的特征Ifem ,另外一个是将Ifem 与输入图像的特征映射(包括上半脸、下半脸和整个脸图像)进行concate之后再经过sigmoid处理之后的输出
GAM的输入包括两个部分,其中一个是将Ifem 与输入图像的特征映射(包括上半脸、下半脸和整个脸图像)进行concate之后再经过sigmoid处理之后的输出,另外一个是SM最后一层卷积层提取到的特征。
图5. 局部和全局注意力模块:输入到具有乘法函数的单层卷积注意力网络,LAM和GAM的第一个输入是从FEM提取的Sigmoid概率。LAM的第二个输入是来自FEM的注意力特征图,而GAM的第二个输入是来自SM的注意力特征图。
图1. 所提出的本地和全局注意力网络(LGAttNet)模型的总体架构。LGAttNet有三个输入:上半脸、下半脸和整个脸。上半脸和下半脸图像的流动由绿色箭头表示,而整个脸的流动由蓝色箭头表示。虚线表示全局和局部注意力模块的注意力输入。(有关此图例中颜色的解释,请参阅本文的网络版本。)
类似地,FEM对整个脸图像的Sigmoid函数输出作为第一个输入传递给全局注意力模块(GAM)(图1中指向GAM的实线蓝色箭头)。给定给GAM时,第一个输入进行卷积。第二个输入是来自SM的最后一个卷积层的特征(图1中指向GAM的虚线红色箭头)。GAM内的CNN的输出随后与第二个输入一起传递到乘法函数。通过乘法,生成一个新的特征表示。值得注意的是,所有注意力块的第二个输入直接提供给乘法函数,而第一个输入进行卷积。所有注意力块的输出向量相加形成一个向量,并传递给检测模块,用于最终检测微表情。
3.2.4. Detection Module (DM)
LGAttNet中的DM由三个全连接(FC)层组成,分别为1024、1024和512。此外,最后附加了一个softmax分类层,用于执行分类任务。使用DM进行微表情估计的说明如公式(5)所示。
其中,^y是图像样本的预测。
3.3. Loss function
为了训练提出的模型,引入了退化函数。通常,在封闭集分类任务中,二元交叉熵(BCE)的表现更好。因此,所提出的方法中使用BEC来估计分类损失,如下所示。
其中,y 和 ˆ y 分别是微表情的标签和预测值。
/*---------------------------------------------------------***----------------------------------------------------*/
什么是二元交叉熵BCE
二元交叉熵(Binary Cross Entropy,BCE)是一种用于衡量两个概率分布之间差异的损失函数。在深度学习中,特别是二分类问题中,BCE通常用于衡量模型的预测与实际标签之间的差异。
对于二分类问题,BCE的表达式如下:
BCE通常用于输出为概率的二分类模型的训练,例如sigmoid激活函数的输出层。在训练过程中,通过最小化BCE,模型的参数会不断调整以提高对样本的预测准确性。
/*---------------------------------------------------------***----------------------------------------------------*/
4. Experimental setup and results
通过在一些公开可用的基准微表情数据库上测试该模型,验证了LGAttNet的验证和效能。除了对模型进行测试之外,还通过消融研究展示了在双流模式中实施局部和全局注意力网络的有效性。
4.1. Datasets used
CASME。CASME包括两个子集A和B,总共有195个微表情样本,来自19名参与者,以60 fps录制。数据集A中的视频片段在自然光下拍摄,分辨率为1280 × 720像素。在数据集B中,视频样本在LED照明下以640 × 480像素的分辨率录制。每个样本都标有起始、顶点和结束帧,由心理学家标记了动作单元(AU)并正确识别了情感。
CASME II。相较CASME,包含了一些额外的样本。有247个新编码的微表情样本,从26名参与者中采集,使用高达200 fps的高时空分辨率和280 × 340像素的面部区域分辨率,以更详细地检查肌肉运动。每个视频会话都是一个几秒钟的短片,为微表情标记了起始、顶点和结束帧,还注释了面部行为编码系统(FACS)和情感类型。
CAS(ME)2。CAS(ME)2数据库是一组长时间的宏观和微表情视频。CAS(ME)2数据库的第A部分收集了来自22名参与者的87个长视频样本,涵盖了这两种表情类型,平均持续时间为148秒,第B部分进一步分为两个子部分,包含300个宏观表情样本和57个微表情样本[44]。该数据库对这些表情的起始、顶点和结束帧索引进行了注释。此外,还标记了眼睛眨眼的起始和结束时间。
SAMM。有32名参与者,记录了七个视频样本,每个样本的平均持续时间为35.5秒。重点关注了79个视频的定位任务,其中每个视频包含一个或多个面部微动作,总计159个微动作。作为基本事实,给出了微动作的起始、顶点和结束帧索引,微动作的持续时间在起始和结束帧之间。该数据库中的所有微动作都经过标记。因此,识别出的帧不仅可以表示微表情,还可以表示其他面部运动,包括眼睛的眨眼。
4.2. Experimental setup and parameters
略
4.3. Outcomes and analysis
通过对四个公开数据库进行分析,即CASME、CASME II、CAS(ME)2和SAMM,得出了观察结果。网络的输入来自微表情数据库的图像或视频帧。为了确认LGAttNet模型的有效性,选择了五个度量标准,即准确度、精确度、召回率、F1分数和曲线下面积(AUC),作为二元分类的评估指标。
/*---------------------------------------------------------***----------------------------------------------------*/
在微表情检测中,有几个常用的评估指标,包括召回率(Recall)、F1分数(F1 Score)和曲线下面积(AUC,Area Under the Curve)。这些指标有助于衡量模型在检测微表情时的性能。
1. 召回率(Recall):
定义:召回率是指模型正确检测出的正例数量与总正例数量的比率。它衡量了模型对所有真实正例的覆盖程度。
计算公式:
其中,TP 是真正例(模型正确检测为正例的样本数),FN是假负例(实际为正例但模型未能检测到的样本数)。
2. F1分数(F1 Score):
定义:F1分数是精确率(Precision)和召回率的调和平均值,提供了一个综合考虑模型的性能指标。它适用于不平衡类别分布的情况。
计算公式:
其中,
是精确率,FP 是假正例(模型错误地将负例分类为正例的样本数)。
3. 曲线下面积(AUC,Area Under the Curve):
定义:在微表情检测中,通常使用ROC曲线(Receiver Operating Characteristic Curve)来表示模型在不同阈值下的召回率和假正例率(False Positive Rate)之间的权衡。AUC即是ROC曲线下的面积,反映了模型在各种阈值下的整体性能。
AUC的解释:AUC的取值范围在0到1之间,越接近1表示模型性能越好。如果AUC为0.5,则说明模型的性能等同于随机猜测。
这些评估指标的选择取决于问题的性质和研究者的关注点。例如,召回率关注模型对真实正例的覆盖程度,F1分数综合考虑了精确率和召回率,而AUC提供了一个在不同阈值下比较模型性能的方法。在微表情检测等任务中,这些指标的综合使用可以更全面地评估模型的性能。
/*---------------------------------------------------------***----------------------------------------------------*/
4.3.1. Outcomes
采用(LeaveOneSubjectOut,LOSOCV)的交叉验证技术。
/*---------------------------------------------------------***----------------------------------------------------*/
LeaveOneSubjectOut CrossValidation(LOSOCV)是一种交叉验证(CrossValidation)的策略,用于评估机器学习模型的性能。在LOSOCV中,每次迭代时,将数据集中的一个主体(subject)的所有样本作为测试集,而将其他主体的所有样本作为训练集。
下面是对LOSOCV的解释:
1. 主体(Subject):
主体通常指的是数据集中的个体、参与者、被试者或实验对象。在不同的领域,主体可以表示不同的实体,例如在人类行为研究中,一个主体可能是一个参与者,而在医学影像分析中,一个主体可能是一个患者。
2. LeaveOneOut(LOO)的概念:
LOSOCV的基本思想是每次从数据集中留出一个主体的数据作为测试集,而使用其他所有主体的数据作为训练集。这样,模型在每一轮迭代中都会在一个主体上进行测试,从而确保模型在整个数据集上都被评估过。
3. CrossValidation(交叉验证):
交叉验证是一种用于评估模型性能的方法,它有助于减少过拟合和对模型泛化性能的估计。LOSOCV是交叉验证的一种形式,特别适用于主体间差异较大的情况。
4. LOSOCV的步骤:
对于LOSOCV,每一轮迭代都选择一个主体,将其数据作为测试集,而将其他所有主体的数据合并作为训练集。
在每一轮迭代中,训练模型并在测试集上进行评估。
重复这个过程,直到每个主体都曾被用于测试过。
LOSOCV的优势在于,它对于样本之间存在较大差异的情况具有鲁棒性。然而,由于每一轮迭代只有一个样本用于测试,这可能导致评估结果的方差较大。LOSOCV在样本量较小或计算成本较高的情况下特别有用,但对于大型数据集,可能存在计算开销的问题。
/*---------------------------------------------------------***----------------------------------------------------*/
稀疏表示的多注意力微表情检测架构能够在不同数据库上实现显著高达87%到94%的检测准确度。可以看到,在CAS(ME)2和SAMM数据集上获得的识别准确度较低。显然,SAMM数据集中的样本包含各种变化,更符合真实世界。
在测试阶段,输入给经过训练的LGAttNet的是来自视频的一系列图像。LGAttNet然后逐帧处理视频并将每个帧分类为ME或非ME帧,如图6所示。图表显示,LGAttNet能够从视频帧序列中检测到微表情帧(图中的绿线),并与地面实况(图中的红线)保持一致。因此,可以看出,在图像上训练的LGAttNet模型能够准确地预测来自视频的微表情帧。
图6. LGAttNet在CASME数据库的微表情序列上的测试。绿线表示存在微表情的生成概率值。
4.3.2. Ablative analysis
为了进行分析,通过包含或删除架构中的每个LAM和/或GAM组件来修改和评估模型。
从表中可以看出,LGAttNet在包含LAM和GAM时表现良好。接下来的评估是通过移除GAM模块进行的,结果显示准确度下降了3%至5%。可能的原因是当架构中没有全局注意力模块(GAM)时,网络无法找到上半脸和下半脸区域提取的两个单独的局部特征图之间的关系,导致性能下降。
带有不同模块以及不带模块(w/o)的LGAttNet的剖析性能识别准确度。
从表中可以观察到模型中移除LAM对结果有显著影响。当LAM被移除而GAM包含在系统中时,性能下降更为明显。这表明从面部区域获取局部级特征有助于解释输入图像中的微表情。最后,移除GAM和LAM两者会使结果下降超过20%。这些结果表明我们提出的LAM和GAM模块对正确检测微表情至关重要。
图7展示了在LGAttNet中利用注意机制对Disgust微表情的影响。图7显示了带有或不带有LAM或GAM或两者的LGAttNet的注意映射。
从图7(b)可以看出,这是LGAttNet没有LAM和GAM的激活图,激活图分散在整个面部区域。没有注意机制,模型无法突出显示没有注意机制的特定面部区域的运动。
图7(c)是带有LAM但没有GAM的LGAttNet的实现。我们可以观察到LAM在这种情况下集中在面部的特定区域,即眼睛和嘴巴。
图7(d)是带有GAM但没有LAM的LGAttNet的激活图,突出显示了面部的中央区域,包括眼睛、鼻子和上唇。表明,GAM与LAM不同,LAM可以分别处理上半脸和下半脸,GAM必须处理整个脸。
图7(e)是我们的完整模型LGAttNet,带有LAM和GAM。激活图说明了LAM可以分别处理上半脸和下半脸,可以预测带有微表情的感兴趣区域,而GAM则将与LAM特征相关的整个脸的特征精确标记为带有运动的面部区域,消除了任何不必要的细节,正确将输入帧分类为ME帧。
图7. LGAttNet在CASME数据集的Disgust样本上的注意力可视化。 (a) 原始图像; (b) LGAttNet没有LAM和GAM; (c) LGAttNet没有GAM; (d) LGAttNet没有LAM; (e) LGAttNet带有LAM和GAM。
4.3.3. Crossdatabase analysis
进行跨数据库评估的目的是为了证明,即使这个架构是一个监督学习模型,它也能够从完全不同的数据库的图像中检测到微表情。跨数据库的微表情检测是指训练和测试样本来自由不同摄像机收集或在不同环境下收集的两个不同的微表情数据库。
在跨数据库的情况下,网络仅使用来自一个数据库的样本进行训练,然后使用剩下的三个数据库的样本进行测试。
在表3中,网络是使用CASME数据库进行训练的,而CASME II、CAS(ME)2和SAMM数据库用于测试
在表4中,网络是使用CASME II数据库进行训练的,而CASME、CAS(ME)2和SAMM数据库用于测试
在表5中,网络是使用CAS(ME)2数据库进行训练的,而CASME、CASME II和SAMM数据库用于测试
在表6中,网络是使用SAMM数据库进行训练的,而CASME、CASME II和CAS(ME)2数据库用于测试
当LGAttNet在SAMM上进行训练,在CASME、CASME II和CAS(ME)2数据库进行测试时性能明显下降。
4.4. Discussion
从表3到表6的结果可以看出,具有相似民族背景的参与者的数据库,例如CASME、CASME II和CAS(ME)2,当在其中一个数据库上进行训练时,显示出比在其他数据库(SAMM)上进行训练时更高的预测准确度。此外,当在SAMM上进行训练时,对CASME、CASME II和CAS(ME)2的检测准确度下降,因为训练数据库仅包含三名中国参与者,与其他数据库相反。从这种跨数据库的分析中,还可以理解到来自不同民族背景的人有他们隐藏真实情感的独特方式。因此,影响准确度的不仅是捕捉这些微表情的方式,参与者的民族背景也起着重要的作用。
5. Conclusion and future direction
LGAttNet,是一个微表情检测模型,它通过引入注意力网络将网络处理聚焦于面部的选定区域。LGAttNet包括一个深度卷积神经网络和一个浅层卷积神经网络,支持局部和全局注意网络以及用于二分类的人工神经网络。局部注意网络处理部分面部区域,全局注意网络处理整个面部图像。
LGAttNet模型提供了极高的检测准确性,这是因为引入了注意力网络,由于微表情更多地是一种空间特征,通过对面部的划分,注意力网络促使网络专注于选定的面部区域。LGAttNet的行为可以从消融实验中观察到,在删除局部注意力模块(LAM)时,检测准确性受到负面影响,而在完全删除注意力模块(LAM和GAM)时,网络准确性显著下降。
跨数据库评估旨在解释所提出网络的鲁棒性,并展示该模型对实时处理的实用性。