微表情检测(一)----LGAttNet论文总结

LGAttNet: Automatic microexpression detection using dualstream local and global attentions

 

Abstract

微表情识别之前需要先进行微表情的检测。我们提出了一种基于双重注意力网络的微表情检测架构,称为LGAttNet。LGAttNet是第一个利用与二维卷积神经网络组合的双重注意力网络执行逐帧自动微表情检测的方法之一。该方法将特征提取增强任务分为两个不同的卷积神经网络模块:稀疏模块特征增强模块。另一个关键模块是注意力网络,它提取局部和全局的面部特征,即局部注意力模块和全局注意力模块。该注意机制采用了人类专注于微动作特定区域的特征,使LGAttNet能够集中注意力于特定的面部区域以及完整的面部特征,以识别帧中的微表情。

1. Introduction

微表情是一种短暂的面部表情,总持续时间不到500毫秒,起始持续时间不到260毫秒[3]。有时微表情可能比通常更快,甚至发生在40毫秒以下。与发现微表情相比,微表情的检测和识别要困难的多。

本研究重点关注有效检测视频帧中的自发微表情的问题。许多微表情检测方法分析了在一段时间内第一帧与其他帧之间特征的差异[14–16]。相反,本研究旨在从单个视频帧中提取的空间特征中检测微表情。

微表情出现时,大多数线索来自于一些面部区域,如嘴巴和眼睛(眉毛)。所以在进行微表情的检测时,模型应该尽可能的只关注相关的面部区域。专业人员通常会根据选择性的本地面部区域(RoIs)做出更清晰的判断。类似于这种人类行为,注意机制也可以集中注意力于图像的特定区域。

在本文中,提出了一种基于深度学习的微表情检测框架,该框架应用了注意力机制来集中关注面部的显著部分。

Sparse module:稀疏模块  Feature Enhancement Module : 功能增强模块

图1. 所提出的局部和全局注意力网络(LGAttNet)模型的总体架构。LGAttNet接收三个输入:上半脸下半脸整个脸。上半脸和下半脸图像的流动由绿色箭头表示,而整个脸的流动由蓝色箭头表示。虚线表示注意力输入到全局和局部注意力模块。

本文的创新和关键贡献包括:

1. 提出了一种名为LGAttNet的基于注意机制的检测机制,用于识别逐帧微表情。LGAttNet侧重于特定的面部区域,同时考虑了整个面部的信息。

2. LGAttNet中的注意力网络被结构化为双流局部全局注意力块。架构的局部注意流专注于仅存在于局部面部区域的RoIs,用于关联微小肌肉运动,全局注意流则考虑整个面部,建立了与局部面部RoIs之间的关系。为了提取全局和局部注意力图,使用深的网络提取稀疏特征,使用浅的网络对特征进行集成交于sigmoid函数处理。

3. 在公开可用且广泛使用的CASME、CASME II、CAS(ME)2和SAMM数据库上,使用leaveonesubjectout (LOSO)交叉验证对提出的LGAttNet微表情检测框架的性能进行了评估。

通过消融实验证明使用局部和全局注意力网络构建双流网络的想法在微表情检测准确性方面取得了改进。

2. Related research

微表情检测是在定义包含微表情的长视频中提取相应帧序列的关键和必要的预处理阶段。鉴于微表情是一种无控制的面部表情,微表情检测研究已在公开可用的自发微表情数据集上进行。

许多用于微表情检测的方法主要集中在评估它们自己特征之间的差异,这表明在从第一帧到其他帧的时间窗口内存在差异。由于自发微表情的时间跨度相对较短,在视频中只有很少的帧显示微表情,使得检测自发微表情变得极其困难。文献中用于检测这些微表情的技术广泛,包括光流[25]局部二值模式(LBP)[26]、方向梯度直方图(HOG)[27]和积分投影[28]。

在为SMIC捕捉样本时,并非每个受试者都表现出微表情。使用支持向量机对微表情进行分类来进行微表情的检测。采用主动形状模型(ASM对面部局部区域进行规范化和监控,通过空间特征变化和局部二值模式三正交平面进行特征提取。为了促进特征提取,实施了时域插值模型(TIM)以调整帧数,并使用支持向量机(SVM)进行分类。

Huang等人[31]实施了时空完整的局部量化模式(STCLQP)来执行检测,通过提取符号、大小和方向作为特征。

Borza等人[15]使用简单的绝对帧变化和Adaboost算法来识别微表情帧,其中包括帧之间的运动幅度。Borza基于滑动窗口的技术保留了当前帧、过去帧和未来帧,这些帧在等间隔内进行差异,CNN通过差异将该时期分类为微表情或非微表情。

Li等人[32]引入了一种基于深度多任务的方法,使用HOOF分析进行微表情检测,使用CNN对微表情数据进行预处理,以识别面部标志的位置并将面部区域分割为感兴趣的区域。

Fernandez等人[19]引入了一种基于CNN的端到端方法,利用注意方法共同解决面部表情识别问题,用于表示和分类。同样,在2D + 3D面部表情识别中,Jiao等人[20]提出了基于增强面部注意的卷积神经网络(FACNN)。面部注意机制允许网络在没有来自多模态表达的密集地标注的情况下自动识别具有区别性的区域。

3. LGAttNet detection model description

LGAttNet模型是首个利用稀疏表示和注意机制进行微表情检测的模型。我们架构的第一阶段是预处理活动。预处理后的图像以三种不同的方式使用。第二个阶段是进行局部注意力和全局注意力。在进行局部注意力时,图像首先被分成两部分,第一部分集中在眼部区域,第二部分集中在嘴巴区域。在进行全局注意力时,GAM模块考虑的是局部之间的相关性关系,进行全局注意力计算。第三个阶段,将局部注意力和全局注意力进行融合之后输入给DM模块进行判断。

我们提出的模型,双流LGAttNet,包括五个模块:稀疏模块(SM)、特征增强模块(FEM)、局部注意模块(LAM)、全局注意模块(GAM)和检测模块(DM),如图1所示。

图1. 所提出的局部和全局注意力网络(LGAttNet)模型的总体架构。LGAttNet接收三个输入:上半脸下半脸整个脸。上半脸和下半脸图像的流动由绿色箭头表示,而整个脸的流动由蓝色箭头表示。虚线表示从最后一个卷积层直接输入到全局和局部注意力模块。

LGAttNet的输入是经过预处理的视频帧。输入的预处理面部图像被分成两个子部分:上半脸---主要关注面部的眼睛和眉毛肌肉,以及下半脸---集中在面部的嘴巴部分。在这里,上半脸和下半脸的图像大小通过将其余区域转换为灰度图像。这些面部部分以及整个面部区域都作为输入传递给SM来自SM的深度特征以及相应的输入图像被馈送到FEM

LAM的输入分为两个输入流:一个输入是在FEM中经过sigmoid的处理,另一个输入是FEM的最后一个卷积层的输出。图中所示的每个LAM都是分别为上半脸下半脸专用注意力模块。

除了关注局部面部部分,SM和FEM还处理整个面部图像,并将来自SM和FEM的特征向量馈送给GAM,GAM的输入分为两个输入流:一个输入是在FEM中经过sigmoid的处理,另一个输入是SM的最后一个卷积层的输出。GAM的加入有助于保持上半脸和下半脸之间的关系

最后,上半脸和下半脸的LAM和GAM的输出向量被串联并输入给DM,DM一个传统的深度神经网络,具有分类器层,用于预测输入视频帧中微表情的存在。

3.1. Preprocessing

在预处理阶段,输入的视频帧被转换为灰度图像,包括两个基本的预处理步骤:(a) 数据增强或生成合成样本,以及(b) 归一化。

(a)在数据增强阶段,大量合成帧被创建,以增加视频帧的数量; 对面部的眼睛和鼻子区域应用二维高斯分布的随机噪声,以生成合成帧的数据增强的方法应用于单帧训练微表情检测模块

(b)归一化:空间域归一化,强度归一化,尺度归一化。

空间归一化:在空间归一化过程中选择感兴趣区域(ROI)进行特征提取,该区域排除了视频帧的不重要区域。

强度归一化:使用有限对比适应均衡(CLAHE)[36]方法,在每个视频帧上实施强度归一化步骤,以最小化特征向量的方差。

尺度归一化: 通过线性插值将视频帧在尺度归一化阶段缩小为128 × 128像素。尺度归一化使得相同的面部特征点能够在不同的视频帧中大致处于相同的位置。

图2. 预处理步骤:通过活动外貌模型(AAM)的面部特征点37和46之间的差异“a”实现空间域归一化。随后执行强度和尺度归一化。

处理流程:

灰度图像(图1)---> spatial domain Normalization(空间域归一化)--->图2---> Intensity Normalization (强度归一化)--->图3--->scale Normalization(尺度归一化)--->图4

强度归一化:

在图像处理中,强度归一化是一种调整图像亮度和对比度的方法。在上下文中,强度归一化(Intensity Normalization)是指对每个视频帧进行的一种处理,以减小特征向量的方差。在这里,使用了对比有限自适应直方图均衡化(CLAHE)方法来实施强度归一化。CLAHE是直方图均衡化的一种改进版本,它可以帮助增强图像的对比度,并且相比传统直方图均衡化,CLAHE可以更好地处理不同区域的光照差异。通过CLAHE,图像中的强度分布得到重新分配,以确保在进行后续处理时能够更好地捕捉和区分面部特征。

3.2. LGAttNet components

SM--->FEM --->LAM+GAM--->DM

3.2.1. Sparse Module (SM)

稀疏编码技术对于解决分类问题很有用,其中为各个类别构建了特定的字典,并对输入进行处理以对应于最稀疏表示的字典进行分类。稀疏性已经应用于各种图像处理和计算机视觉应用。

SM使用深度卷积神经网络实现,没有全连接和分类层。本文中的SM架构使用深度卷积神经网络,包括七个卷积层和一个额外的最后一层,即八个卷积层,以提取输入图像的注意力映射; SM以128 × 128维度的上半脸、下半脸和整个脸的3通道输入图像为输入。

SM的输入是上半脸、下半脸以及整张脸---I, 输出是从输入图像处理得到的特征图Msm。

Msm = fsm(I)

SM的输出被送到两个部分:第一部分将包含上半脸、下半脸以及整张脸的Msm直接输入到FEM,另一个输出是对于整张脸在最后一个卷积层直接将提取的特征输入给GAM

图3. 稀疏模块:‘I’是输入图像,提供给稀疏模块,一个包括注意力网络的八层CNN。注意力特征图从最后一个卷积层中提取,并馈送到接下来的模块——FEM和GAM。

3.2.2. Feature Enhancement Module (FEM)

FEM的结构包括三个卷积层,其中最后三层一次是3x3卷积层、concate层以及sigmoid层。

FEM的输入包括 SM输入的稀疏表示模块的输出特征向量(Msm),Msm经过三层的卷积层处理之后得到提取的新的特征Ifem,卷积层提取的特征向量与输入图像的特征映射(包括上半脸、下半脸和整个脸图像)进行concate(concat(Ifem,I)),然后经过sigmoid函数处理输出为Mfem。

FEM的输出包括两个部分,第一个部分是经过sigmoid函数处理的输出Mfem,  输出对象为(GAM\LAM)另一部分输出是直接将最后一个卷积层提取到的特征输入到LAM。

Ifem = ffem(Msm)

Mfem = (Concat(Ifem,I))

图4. 特征增强模块:输入给予这个浅层的三层卷积网络是从SM中提取的注意力特征图。最后一个卷积层提取注意力特征图,保留了稀疏但关键的表示。求和函数生成一个新的增强特征图,Sigmoid函数输出预测概率。

3.2.3. Local Attention Module (LAM) and Global Attention Module (GAM)

LGAttNet是使用三个注意力块构建的:两个LAM和一个GAM。LAM和GAM的实现如下所示。

Agam = Mfem X C(Msm)

Alam = Ifem X C(Mfem)

LAM和GAM由两个组件组成, (1)一个卷积块的2DCNN和(2)一个乘法函数。

LAM和GAM的架构相同,但给定的输入不同,这就是每个块的功能以及如何不同处理输入的原因。所有三个注意力块接受两个输入特征向量。

LAM接受到两个输入,其中一个是经过三层卷积层提取的特征Ifem  ,另外一个是将Ifem 与输入图像的特征映射(包括上半脸、下半脸和整个脸图像)进行concate之后再经过sigmoid处理之后的输出

GAM的输入包括两个部分,其中一个是将Ifem 与输入图像的特征映射(包括上半脸、下半脸和整个脸图像)进行concate之后再经过sigmoid处理之后的输出,另外一个是SM最后一层卷积层提取到的特征。

图5. 局部和全局注意力模块:输入到具有乘法函数的单层卷积注意力网络,LAM和GAM的第一个输入是从FEM提取的Sigmoid概率。LAM的第二个输入是来自FEM的注意力特征图,而GAM的第二个输入是来自SM的注意力特征图。

图1. 所提出的本地和全局注意力网络(LGAttNet)模型的总体架构。LGAttNet有三个输入:上半脸、下半脸和整个脸。上半脸和下半脸图像的流动由绿色箭头表示,而整个脸的流动由蓝色箭头表示。虚线表示全局和局部注意力模块的注意力输入。(有关此图例中颜色的解释,请参阅本文的网络版本。)

类似地,FEM对整个脸图像的Sigmoid函数输出作为第一个输入传递给全局注意力模块(GAM)(图1中指向GAM的实线蓝色箭头)。给定给GAM时,第一个输入进行卷积。第二个输入是来自SM的最后一个卷积层的特征(图1中指向GAM的虚线红色箭头)。GAM内的CNN的输出随后与第二个输入一起传递到乘法函数。通过乘法,生成一个新的特征表示。值得注意的是,所有注意力块的第二个输入直接提供给乘法函数,而第一个输入进行卷积。所有注意力块的输出向量相加形成一个向量,并传递给检测模块,用于最终检测微表情。

3.2.4. Detection Module (DM)

LGAttNet中的DM由三个全连接(FC)层组成,分别为1024、1024和512。此外,最后附加了一个softmax分类层,用于执行分类任务。使用DM进行微表情估计的说明如公式(5)所示。

其中,^y是图像样本的预测。

3.3. Loss function

为了训练提出的模型,引入了退化函数。通常,在封闭集分类任务中,二元交叉熵(BCE)的表现更好。因此,所提出的方法中使用BEC来估计分类损失,如下所示。

其中,y 和 ˆ y 分别是微表情的标签和预测值。

/*---------------------------------------------------------***----------------------------------------------------*/

什么是二元交叉熵BCE

二元交叉熵(Binary Cross Entropy,BCE)是一种用于衡量两个概率分布之间差异的损失函数。在深度学习中,特别是二分类问题中,BCE通常用于衡量模型的预测与实际标签之间的差异。

对于二分类问题,BCE的表达式如下:

BCE通常用于输出为概率的二分类模型的训练,例如sigmoid激活函数的输出层。在训练过程中,通过最小化BCE,模型的参数会不断调整以提高对样本的预测准确性。

/*---------------------------------------------------------***----------------------------------------------------*/

4. Experimental setup and results

通过在一些公开可用的基准微表情数据库上测试该模型,验证了LGAttNet的验证和效能。除了对模型进行测试之外,还通过消融研究展示了在双流模式中实施局部和全局注意力网络的有效性。

4.1. Datasets used

CASME。CASME包括两个子集A和B,总共有195个微表情样本,来自19名参与者,以60 fps录制。数据集A中的视频片段在自然光下拍摄,分辨率为1280 × 720像素。在数据集B中,视频样本在LED照明下以640 × 480像素的分辨率录制。每个样本都标有起始、顶点和结束帧,由心理学家标记了动作单元(AU)并正确识别了情感。

CASME II。相较CASME,包含了一些额外的样本。有247个新编码的微表情样本,从26名参与者中采集,使用高达200 fps的高时空分辨率和280 × 340像素的面部区域分辨率,以更详细地检查肌肉运动。每个视频会话都是一个几秒钟的短片,为微表情标记了起始、顶点和结束帧,还注释了面部行为编码系统(FACS)和情感类型。

CAS(ME)2。CAS(ME)2数据库是一组长时间的宏观和微表情视频。CAS(ME)2数据库的第A部分收集了来自22名参与者的87个长视频样本,涵盖了这两种表情类型,平均持续时间为148秒,B部分进一步分为两个子部分,包含300个宏观表情样本和57个微表情样本[44]。该数据库对这些表情的起始、顶点和结束帧索引进行了注释。此外,还标记了眼睛眨眼的起始和结束时间。

SAMM。有32名参与者,记录了七个视频样本,每个样本的平均持续时间为35.5秒。重点关注了79个视频的定位任务,其中每个视频包含一个或多个面部微动作,总计159个微动作。作为基本事实,给出了微动作的起始、顶点和结束帧索引,微动作的持续时间在起始和结束帧之间。该数据库中的所有微动作都经过标记。因此,识别出的帧不仅可以表示微表情,还可以表示其他面部运动,包括眼睛的眨眼。

4.2. Experimental setup and parameters

4.3. Outcomes and analysis

通过对四个公开数据库进行分析,即CASME、CASME II、CAS(ME)2和SAMM,得出了观察结果。网络的输入来自微表情数据库的图像或视频帧。为了确认LGAttNet模型的有效性,选择了五个度量标准,即准确度、精确度、召回率、F1分数和曲线下面积(AUC),作为二元分类的评估指标。

/*---------------------------------------------------------***----------------------------------------------------*/

在微表情检测中,有几个常用的评估指标,包括召回率(Recall)、F1分数(F1 Score)和曲线下面积(AUC,Area Under the Curve)。这些指标有助于衡量模型在检测微表情时的性能。

1. 召回率(Recall):

    定义:召回率是指模型正确检测出的正例数量与总正例数量的比率。它衡量了模型对所有真实正例的覆盖程度。

    计算公式:

    其中,TP 是真正例(模型正确检测为正例的样本数),FN是假负例(实际为正例但模型未能检测到的样本数)。

2. F1分数(F1 Score):

    定义:F1分数是精确率(Precision)和召回率的调和平均值,提供了一个综合考虑模型的性能指标。它适用于不平衡类别分布的情况。

    计算公式:

    其中,

是精确率,FP 是假正例(模型错误地将负例分类为正例的样本数)。

3. 曲线下面积(AUC,Area Under the Curve):

    定义:在微表情检测中,通常使用ROC曲线(Receiver Operating Characteristic Curve)来表示模型在不同阈值下的召回率和假正例率(False Positive Rate)之间的权衡。AUC即是ROC曲线下的面积,反映了模型在各种阈值下的整体性能。

    AUC的解释:AUC的取值范围在0到1之间,越接近1表示模型性能越好。如果AUC为0.5,则说明模型的性能等同于随机猜测。

这些评估指标的选择取决于问题的性质和研究者的关注点。例如,召回率关注模型对真实正例的覆盖程度,F1分数综合考虑了精确率和召回率,而AUC提供了一个在不同阈值下比较模型性能的方法。在微表情检测等任务中,这些指标的综合使用可以更全面地评估模型的性能。

/*---------------------------------------------------------***----------------------------------------------------*/

4.3.1. Outcomes

采用(LeaveOneSubjectOut,LOSOCV)的交叉验证技术。

/*---------------------------------------------------------***----------------------------------------------------*/

LeaveOneSubjectOut CrossValidation(LOSOCV)是一种交叉验证(CrossValidation)的策略,用于评估机器学习模型的性能。在LOSOCV中,每次迭代时,将数据集中的一个主体(subject)的所有样本作为测试集,而将其他主体的所有样本作为训练集。

下面是对LOSOCV的解释:

1. 主体(Subject):

    主体通常指的是数据集中的个体、参与者、被试者或实验对象。在不同的领域,主体可以表示不同的实体,例如在人类行为研究中,一个主体可能是一个参与者,而在医学影像分析中,一个主体可能是一个患者。

2. LeaveOneOut(LOO)的概念:

    LOSOCV的基本思想是每次从数据集中留出一个主体的数据作为测试集,而使用其他所有主体的数据作为训练集。这样,模型在每一轮迭代中都会在一个主体上进行测试,从而确保模型在整个数据集上都被评估过。

3. CrossValidation(交叉验证):

    交叉验证是一种用于评估模型性能的方法,它有助于减少过拟合和对模型泛化性能的估计。LOSOCV是交叉验证的一种形式,特别适用于主体间差异较大的情况。

4. LOSOCV的步骤:

    对于LOSOCV,每一轮迭代都选择一个主体,将其数据作为测试集,而将其他所有主体的数据合并作为训练集。

    在每一轮迭代中,训练模型并在测试集上进行评估。

    重复这个过程,直到每个主体都曾被用于测试过。

LOSOCV的优势在于,它对于样本之间存在较大差异的情况具有鲁棒性。然而,由于每一轮迭代只有一个样本用于测试,这可能导致评估结果的方差较大。LOSOCV在样本量较小或计算成本较高的情况下特别有用,但对于大型数据集,可能存在计算开销的问题。

/*---------------------------------------------------------***----------------------------------------------------*/

稀疏表示的多注意力微表情检测架构能够在不同数据库上实现显著高达87%到94%的检测准确度。可以看到,在CAS(ME)2和SAMM数据集上获得的识别准确度较低。显然,SAMM数据集中的样本包含各种变化,更符合真实世界。

在测试阶段,输入给经过训练的LGAttNet的是来自视频的一系列图像。LGAttNet然后逐帧处理视频并将每个帧分类为ME或非ME帧,如图6所示。图表显示,LGAttNet能够从视频帧序列中检测到微表情帧(图中的绿线),并与地面实况(图中的红线)保持一致。因此,可以看出,在图像上训练的LGAttNet模型能够准确地预测来自视频的微表情帧。

图6. LGAttNet在CASME数据库的微表情序列上的测试。绿线表示存在微表情的生成概率值。

4.3.2. Ablative analysis

为了进行分析,通过包含或删除架构中的每个LAM和/或GAM组件来修改和评估模型。

从表中可以看出,LGAttNet在包含LAM和GAM时表现良好。接下来的评估是通过移除GAM模块进行的,结果显示准确度下降了3%至5%。可能的原因是当架构中没有全局注意力模块(GAM)时,网络无法找到上半脸和下半脸区域提取的两个单独的局部特征图之间的关系,导致性能下降。

带有不同模块以及不带模块(w/o)的LGAttNet的剖析性能识别准确度。

从表中可以观察到模型中移除LAM对结果有显著影响。当LAM被移除而GAM包含在系统中时,性能下降更为明显。这表明从面部区域获取局部级特征有助于解释输入图像中的微表情。最后,移除GAM和LAM两者会使结果下降超过20%。这些结果表明我们提出的LAM和GAM模块对正确检测微表情至关重要。

图7展示了在LGAttNet中利用注意机制对Disgust微表情的影响。图7显示了带有或不带有LAM或GAM或两者的LGAttNet的注意映射。

从图7(b)可以看出,这是LGAttNet没有LAM和GAM的激活图,激活图分散在整个面部区域。没有注意机制,模型无法突出显示没有注意机制的特定面部区域的运动。

图7(c)是带有LAM但没有GAM的LGAttNet的实现。我们可以观察到LAM在这种情况下集中在面部的特定区域,即眼睛和嘴巴

图7(d)是带有GAM但没有LAM的LGAttNet的激活图,突出显示了面部的中央区域,包括眼睛、鼻子和上唇。表明,GAM与LAM不同,LAM可以分别处理上半脸和下半脸,GAM必须处理整个脸。

图7(e)是我们的完整模型LGAttNet,带有LAM和GAM。激活图说明了LAM可以分别处理上半脸和下半脸,可以预测带有微表情的感兴趣区域,而GAM则将与LAM特征相关的整个脸的特征精确标记为带有运动的面部区域,消除了任何不必要的细节,正确将输入帧分类为ME帧。

图7. LGAttNet在CASME数据集的Disgust样本上的注意力可视化。 (a) 原始图像; (b) LGAttNet没有LAM和GAM; (c) LGAttNet没有GAM; (d) LGAttNet没有LAM; (e) LGAttNet带有LAM和GAM。

4.3.3. Crossdatabase analysis

进行跨数据库评估的目的是为了证明,即使这个架构是一个监督学习模型,它也能够从完全不同的数据库的图像中检测到微表情。跨数据库的微表情检测是指训练和测试样本来自由不同摄像机收集或在不同环境下收集的两个不同的微表情数据库。

在跨数据库的情况下,网络仅使用来自一个数据库的样本进行训练,然后使用剩下的三个数据库的样本进行测试。

在表3中,网络是使用CASME数据库进行训练的,而CASME II、CAS(ME)2和SAMM数据库用于测试

在表4中,网络是使用CASME II数据库进行训练的,而CASME、CAS(ME)2和SAMM数据库用于测试

在表5中,网络是使用CAS(ME)2数据库进行训练的,而CASME、CASME II和SAMM数据库用于测试

在表6中,网络是使用SAMM数据库进行训练的,而CASME、CASME II和CAS(ME)2数据库用于测试

当LGAttNet在SAMM上进行训练,在CASME、CASME II和CAS(ME)2数据库进行测试时性能明显下降。

4.4. Discussion

从表3到表6的结果可以看出,具有相似民族背景的参与者的数据库,例如CASME、CASME II和CAS(ME)2,当在其中一个数据库上进行训练时,显示出比在其他数据库(SAMM)上进行训练时更高的预测准确度。此外,当在SAMM上进行训练时,对CASME、CASME II和CAS(ME)2的检测准确度下降,因为训练数据库仅包含三名中国参与者,与其他数据库相反。从这种跨数据库的分析中,还可以理解到来自不同民族背景的人有他们隐藏真实情感的独特方式。因此,影响准确度的不仅是捕捉这些微表情的方式,参与者的民族背景也起着重要的作用。

5. Conclusion and future direction

LGAttNet,是一个微表情检测模型,它通过引入注意力网络将网络处理聚焦于面部的选定区域。LGAttNet包括一个深度卷积神经网络和一个浅层卷积神经网络,支持局部和全局注意网络以及用于二分类的人工神经网络。局部注意网络处理部分面部区域,全局注意网络处理整个面部图像。

LGAttNet模型提供了极高的检测准确性,这是因为引入了注意力网络,由于微表情更多地是一种空间特征,通过对面部的划分,注意力网络促使网络专注于选定的面部区域。LGAttNet的行为可以从消融实验中观察到,在删除局部注意力模块(LAM)时,检测准确性受到负面影响,而在完全删除注意力模块(LAM和GAM)时,网络准确性显著下降。

跨数据库评估旨在解释所提出网络的鲁棒性,并展示该模型对实时处理的实用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/219092.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

虚拟机-桥接模式连接

文章目录 1.查看宿主机再用的IP信息2.桥接模式-虚拟机设置VMware设置虚拟机设置重启网络服务 1.查看宿主机再用的IP信息 ipconfig /all 注: 在虚拟机中要设置同网段的ip设置同一个子网掩码设置同一个网关设置同一个DNS服务器 2.桥接模式-虚拟机设置 VMware设置 虚…

从零开始学习 JS APL(五):完整指南和实例解析

目录 学习目标: 学习内容: 学习时间: 学习内容: Window对象: 定时器-延时函数: JS 执行机制: location对象: 本地存储: 本地存储分类- localStorage&#xff1a…

代码签名的工作原理

代码签名的基础是PKI安全体系。代码签名证书由签名证书私钥和公钥证书两部分组成。私钥用于代码的签名,公钥用于私钥签名的验证和证书持有者的身份识别。 1. 发布者从CA机构(如JoySSL)申请数字证书; 2. 发布者开发出代码&#x…

物联网主机E6000:工业领域的数据融合与5G未来

一、物联网的崛起 在科技日新月异的今天,物联网已经成为了我们生活中不可或缺的一部分。从智能家居到工业自动化,物联网的应用已经深入到我们生活的各个角落。而在这个大背景下,物联网主机的出现,更是为我们的生活带来了前所未有的…

3、RocketMQ源码分析(三)

RocketMQ源码-NameServer架构设计及启动流程 本文我们来分析NameServer相关代码,在正式分析源码前,我们先来回忆下NameServer的功能: NameServer是一个非常简单的Topic路由注册中心,其角色类似Dubbo中的zookeeper,支…

一文详解集合竞价,建议收藏!

集合竞价是指对在规定的一段时间内接受买卖申报一次性集中撮合的竞价方式。沪深市场9:15-9:25及14:57-15:00为集合竞价的时间段。集合竞价的所有交易以同一个价格成交。集合竞价的成交价确定原则是: 1、可实现最大成交量的价格; 2、高于该价格的买入申…

图表控件LightningChart .NET中文教程 - 如何创建WPF 2D热图?(二)

LightningChart.NET完全由GPU加速,并且性能经过优化,可用于实时显示海量数据-超过10亿个数据点。 LightningChart包括广泛的2D,高级3D,Polar,Smith,3D饼/甜甜圈,地理地图和GIS图表以及适用于科学…

评论功能实现方案

构建高效且安全的评论功能:实现方案探讨。 1、分析 我们以b站的评论为例,用下图来解释我们评论的分级。 我们可以抽出存储评论的数据表属性 评论id父级id评论作者id被回复用户ID评论帖子ID评论内容创建时间 可以设计如下的数据表 其中pid表示父id。 …

如何销售汽车之 汽车销售技巧和话术

如何销售汽车之 汽车销售技巧和话术 当前,汽车销售市场的竞争日益激烈,消费者对汽车的需求和要求也越来越高。但是市场竞争车型也非常多,如何更好的做好销售业绩突破,提高汽车销量,创造汽车销售佳绩,就需要…

【JUC】二十一、CAS比较并交换

文章目录 1、初体验2、CAS概述3、Unsafe类4、Unsafe汇编5、原子引用AutomicReference6、手写自旋锁SpinLock7、CAS的两大缺点8、AtomicStampedReference类解决ABA问题 1、初体验 没有CAS时,多线程环境下不使用原子类保证线程安全,比如i,可以…

java学习part35List

155-集合框架-List接口常用方法的测试_哔哩哔哩_bilibili 1.List接口常用方法 2.不同实现类

Chart 3 OpenCL on Snapdragon

文章目录 前言3.1、Adreno GPU3.2、Adreno GPU 架构3.2.1、Adreno硬件架构在OpenCL方面的高层视图3.2.2、Waves and fibers3.2.3、 Latency hiding3.2.4 、L2缓存3.2.5、工作组分配3.2.6、Coalesced access(合并访问) 3.3 图形和计算负载之间的上下文切换…

如何做好一个软件开发项目经理?

要成为一名优秀的软件开发项目经理,需要具备一定的技术知识和管理能力。下面是学习和发展软件开发项目经理职业所需的关键能力和工作内容。 首先,作为软件开发项目经理,你需要具备扎实的软件开发知识和技能。这包括熟悉常用的编程语言、开发框…

springboot 整合 Spring Security 中篇(RBAC权限控制)

1.先了解RBAC 是什么 RBAC(Role-Based Access control) ,也就是基于角色的权限分配解决方案 2.数据库读取用户信息和授权信息 1.上篇用户名好授权等信息都是从内存读取实际情况都是从数据库获取; 主要设计两个类 UserDetails和UserDetailsService 看下…

【Scopus检索】第六届生物技术与生物医学国际学术会议(ICBB 2024)

第六届生物技术与生物医学国际学术会议 2024 6th International Conference on Biotechnology and Biomedicine (ICBB 2024) 第六届生物技术与生物医学国际学术会议(ICBB 2024)将于2024年03月29日-3月31日在中国-武汉市召开。ICBB 2024将围绕“生物技术…

安装mysql数据库

1.1下载APT存储库(下载链接) 1.2安装APT存储库(注意好正确的路径) 将下载的文件传输到linux服务器对应目录下后执行以下命令: sudo dpkg -i mysql-apt-config_0.8.10-1_all.deb 选择mysql5.7 然后点击ok 然后执行 s…

vagrant up卡死问题

环境 OS:Windows 10Vagrant:Vagrant 2.2.14VirtualBox:6.1.18 r142142box:CentOS-7-x86_64-Vagrant-2004_01.VirtualBox.box 详细信息 解决办法 修改文件Vagrantfile,增加如下配置,测试可以正常启动 conf…

redis配置介绍

redis配置详解 一、redis.conf二、持久化1、RDB① 触发机制② 优缺点③ 恢复rdb 2、AOF① 优缺点② 恢复aof 三、发布订阅 一、redis.conf # -----NETWORK----- # 设置绑定ip bind 127.0.0.1 -::1 # 设置redis保护,只能通过绑定在本地回环地址上的网络接口进行访问…

股票代码合法验证:python字符串str应用

从键盘输入六位股票代码字符串,判定合法并输出板块分类,否则输出“NO”。 (笔记模板由python脚本于2023年12月04日 19:19:07创建,本篇笔记适合熟悉python字符串和字典的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https:…

C语言实现Berzier曲线几何作图算法

前言: 隐式曲线表达上的限制 计算上的多值性(例如可能一个 x 对应多个 y)存在导数 未定义的点坐标系进行变换后,曲线表达形式将可能会发生改变 一般的多项式幂基函数缺乏直观的几何意义 我们考虑由3个二元点对构造的二维平面曲…