一、现实条件
随着人脸识别研究的深入,研究者开始关注现实条件下的人脸识别问题,主要包括以下几个方面的研究。首先,我们分析和研究了影响人脸识别的因素。第二,新特征表示的使用研究。第三,使用新数据源的研究。如表1所示。
二、影响人脸识别的因素
1) PIE problem
目前,人脸识别技术在光照可控、类内变化小的条件下已经相当成熟。然而,人脸识别在非理想状态下的性能仍有待提高。PIE问题是人脸识别应该解决的非理想条件,尤其是可变光照、姿势和表情的问题。研究人员提出了一种基于不变特征的方法,利用人脸图像中不随光照条件变化而变化的特征进行处理,即找到对光不敏感的特征。目前,有代表性的方法是商图像(QI)。此外,可以使用3D线性子空间来表示具有光变化的面部图像,而不考虑阴影。典型的方法是光锥法。
由于人的姿势不同,研究人员从非正面人脸图像和正面人脸图像中提取的面部表情特征也会有很大的不同。如果不处理态度因素,势必会影响准确性。根据姿态归一化处理的不同特征,研究人员将人脸表情特征分为两种方法,即特征级归一化方法和图像级归一化方法。
最近有一些新的研究结果。2017年,Xi等人提出了一种基于多任务学习的人脸识别多任务CNN。他们提出了一种姿势导向的多任务CNN,通过对不同的姿势进行分组,同时在所有姿势上学习特定姿势的身份特征。Mahantes等人提出了一种变换域方法来解决人脸识别中的PIE问题。张等人提出了一种有监督的特征提取算法——协同表示判别投影(CRDP)。Huan等人提出了一种端到端网络,用于生成输入人脸图像的具有中性表情和正面姿态的归一化反照率图像。随着对影响人脸识别因素的研究,人脸识别技术得到了很大的改进。
三、使用新的特征表达
1) Manual design features
在受约束的环境中,深度学习可以学习人脸特征,这可以使复杂的特征提取变得更容易,并且可以学习人脸图像中的一些隐藏规则和规则。
一个面部特征是局部二进制模式(LBP)。Ojala等人在纹理图像分类研究中提出了局部二值模式(LBP)。2004年,Ahonen等人利用LBP提取人脸图像特征,开启了LBP在人脸识别中的研究。Tan等人针对LBP的噪声敏感性提出了局部三元模式(LTP)。Wolf等人提出了三种局部二值模式和四种局部二元模式来捕捉人脸图像的局部小区域之间的差异。基于LBP的人脸图像特征还包括poem、le、lark、lhs等。
另一个典型的面部特征是Gabor特征。Daugman于1985年首次提出Gabor小波理论。弹性束图匹配是首次使用Gabor滤波器提取人脸特征的研究工作。它提取了关键点的Gabor滤波器卷积响应,并获得了良好的表达、姿态和噪声鲁棒性。刘等人还使用Gabor滤波器提取人脸图像特征。该方法不需要检测关键点,而是直接使用Gabor滤波器提取人脸图像每个像素位置的多尺度、多方向特征,获得更好的识别效果。此外,著名的尺度不变特征变换(SIFT)和定向梯度直方图(HOG)[68]已应用于人脸识别的特征提取。
2) Nonnegative Matrix Factorization (NMF)
非负矩阵分解算法(NMF)由Lee和Seung于1999年提出。NMF实现了矩阵分解在数字图像处理中的应用,实现了人脸识别中的特征分解。
如上图所示,NMF的思想是将一个矩阵划分为两个矩阵乘积。一个矩阵是基矩阵,另一个矩阵表示特征矩阵。从降维的角度来看,这两个矩阵是NMF自己同时确定的,因此特征矩阵不是原始矩阵在基矩阵上的投影,NMF实现了非线性降维。
目前,NMF已成功应用于人脸识别的图像处理中。使用一些新的函数表示,人脸识别技术的应用得到了改进。
四、使用新的数据源
1) Adversarial sample attack
传统的人脸识别方法可以很容易地在小规模数据中进行训练和学习,如PCA和LDA。但对于海量数据,这些方法的训练过程是困难的。对抗性样本可以获得人脸识别的数据源。所谓对抗性样本是对输入数据进行轻微修改,使人脸识别算法对输入给出错误的分类结果。在许多情况下,这些变化是如此微妙,以至于人类观察者甚至不会注意到它们,但分类器会出错。此外,攻击者可以在不知道人脸识别的基本模型的情况下攻击机器学习系统并干扰结果。如图6所示,以经典的双分类问题为例,机器学习模型通过对人脸识别中的样本进行训练来学习分割平面。
生成对抗性网络是目前抵御攻击的有效方法之一。生成对抗性网络由Ian Goodfellow于2014年提出。它被应用于深度学习神经网络。如下图所示,GAN是一个生成模型。它最常用于数据生成中的图像生成。GAN也是无监督学习的一种模型,因此广泛应用于无监督学习和半监督学习。目前,一个有趣的应用是将GAN应用于图像风格迁移、图像降噪与修复、图像超分辨率等领域,这些领域在人脸识别中具有更好的效果。利用新的数据源,对真实条件下的人脸识别技术进行了不断的研究。
五、人脸识别的通用评价标准
准确度(ACC)、受试者工作特性(ROC)曲线和曲线下面积(AUC)值是评价人脸识别算法性能的重要指标。在人脸识别任务中,ACC是一个常见的指标。假设测试集包含N个图像,并且正确识别的图像数量为M。ACC的定义如下ACC = M/N
ACC值越高,算法性能越好。在人脸识别任务中,为了确定两张图像(也称为样本对)是否来自同一个人,ROC首先计算图像之间的距离测量或相似性,然后根据阈值完成识别。ROC曲线的横坐标表示假阳性率(F P R),纵坐标表示召回率或真阳性率(T P R)。F P R和T P R的定义如下
T P R = T P/(T P + F N)
F P R = F P/(F P + T N)
T P表示模型正确预测的正样本对,F N表示模型错误预测的正采样对,T N表示模型正确预言的负采样对,F P表示模型错误预言的负样本对。通过改变不同的阈值,可以获得不同的T P R值和F P R值,并生成ROC曲线. 如图所示,红色曲线和蓝色曲线分别代表两个不同分类器的T P R−F P R曲线,曲线上的点对应一个阈值,即ROC曲线。ROC曲线越靠近左上角,算法的性能就越好。换句话说,当错误识别率很小时,它可以实现很高的召回率。AUC值是衡量模型优点的标量,指的是ROC曲线下方的面积。显然,AUC值越大,算法的性能就越好。
六、人脸识别的图像评价集和数据库
LFW是人脸识别的公共基准,也称为配对匹配。在表2中,我们得到了一些著名算法在LWF网站上的性能(http://viswww.cs.umass.edu/lfw/).
如表3所示,常见的人脸图像数据库有7个,包括Yale A、AR、Extended Yale B、Georgia Tech、FERET、LFW和CAS-PEAL-R1。这些数据库极大地推动了人脸识别技术的进步。
Yale A是一个简单的数据库,包含来自15个人的165张图像。
AR数据库包含2600张120人的图像。
扩展Yale B数据库中的图像包含9种姿势和64种光线变化。根据光线方向和相机轴之间的角度,数据库被划分为5个子集。
乔治亚理工学院建立的乔治亚理工大学数据库包含来自50人的750张图像。
美国国家标准与技术研究所发布的FERNT数据库包含来自1565个人和6个子集的13539张图像。
LFW是人脸识别领域中最重要的人脸图像评价集之一。它由马萨诸塞大学计算机视觉实验室于2007年发布。LFW数据库是一个更复杂、更具挑战性的人脸图像数据库,主要用于非受控环境下的人脸识别。
LFWa是LFW数据库的比对版本,其中图像通过商业软件进行比对。MegaFace也是评估人脸识别性能最权威、最受欢迎的指标之一。
尽管MegaFace的评估仍然没有计算时间成本,但与LFW数据集相比,MegaFace更难,更接近实际应用。CAS-PEAL-R1数据库[106]由中国科学院建立并发布。2018年9月,搜狗图像技术团队以99.939%的识别准确率获得大赛第一名。在这次MegaFace大赛中,搜狗图像搜索积累的海量优质人脸图像资源,以及搜狗强大的计算平台,也为识别效果提供了数据保障和算力保障。
七、总结和展望
随着科学技术的发展,人脸识别技术取得了巨大的成就,但在实际应用中仍有改进的空间。未来,可能会有一种用于人脸识别的专用相机,它可以提高图像质量,解决图像滤波、图像重建、去噪等问题。我们还可以使用3D技术来补充2D图像,以解决旋转和遮挡等问题。
人脸识别技术以其便捷性在安全和金融领域得到了广泛的应用。随着科技的快速发展,人脸的应用将更加发达,应用场景将更加多样。然而,人脸识别很容易引发技术、法律和道德问题。由于人脸识别技术的自动化特点,类似的相关信息可能会通过自动化处理或决定,缺乏透明度,不容易监督,甚至在出现错误或歧视的情况下。很难追溯。例如,人脸识别信息用于实现非识别目的,例如判断个人的性取向、种族或宗教。如何增强算法的可解释性,以避免歧视性算法或不完整的信息导致决策错误?如何在确保公共安全和人身权利的同时,促进人脸应用相关新技术的发展?这些问题还有待深入讨论。