1. 概述
过去十多年来,深度学习的突破性进展使图像识别任务(如图像分类、物体检测和人脸识别)取得了巨大进步。人脸识别技术的性能也有了显著提高,并吸引了全世界的关注,目前已被应用于移民控制和安防摄像头等多个领域。您最近可能已将其用于在线身份验证(eKYC)。然而,这些生物识别技术可能会危及隐私和数据保护权利,引起社会的极大关注。由于输出过程是一个 “黑盒子”,基于深度学习的系统缺乏可解释性,因此也被视为存在问题。在这些问题的背景下,理解并能够解释人脸识别技术的决策,对其被社会接受至关重要。
为了解决深度学习的 "黑箱 "问题,人们提出了各种与可解释人工智能(XAI)相关的技术。特别是,在图像识别相关任务中引入了各种突出图算法,以突出与模型确定相关的 CNN 内部层和重要像素。然而,许多算法虽然在分类任务中表现出卓越的实用性,却无法直接适用于具有不同内部模型结构和输出格式的其他图像识别任务。人脸识别相关任务就是其中之一。人脸识别需要的不仅仅是生成显著性地图,还需要解释和说明人脸识别模型是如何识别人脸图像对的,以及为什么某些图像对更有可能是同一个人的图像。
本文提出了可解释人脸识别(XFR)的新定义,该定义也适用于人脸识别。它还提出了一种根据这一新定义生成显著性地图的算法,称为 “S-RISE”,该算法使用图像对的相似性。
论文地址:https://arxiv.org/abs/2304.06118
2. S-RISE 方法
本文提出了一个新的定义,以建立基于突出图的可解释人脸识别(XFR)。如前所述,人脸识别预测的是一组人脸图像是否是同一个人。因此,可解释人脸识别系统(XFR)必须能够直观地解释为什么模型 "认为 "它们是同一个人或不是同一个人。
过去也曾有过类似的报道,即使用 Probe(待匹配图像)、Mate(与 Probe 相同的人的图像)和 Non-mate(与 Probe 不同的人的图像)来研究人脸识别的可解释性,重点是人脸特定区域的相对重要性。这项研究以人脸特定区域的相对重要性为基础。可解释性人脸识别(XFR)被定义为一种方法,它能使 Probe 和 Mate 在某一区域的相似度最大化,同时使 Probe 和 Non-mate 在同一区域的相似度最小化。然而,Probe 和 Mate 之间最相似的区域并不一定是 Probe 和 Non-mate 之间最不相似的区域。实际上,三幅图像中每对图像的决策过程都是独立的,因为人脸识别系统是通过比较两幅图像的相似度得分与预先设定的阈值,而不是三幅图像的相似度得分来做出决策的。换句话说,这个定义无法解释人脸识别的决策过程。
因此,本文提出了一个更严格的定义,在提及三对图像的概念的同时,明确区分了匹配和非匹配图像对:如果向人脸识别系统各输入一对[探针、伴侣、非伴侣]图像对,[探针、伴侣]图像对和[探针、非伴侣]图像对,系统应生成与[探针、非伴侣]图像对相对应的显著性图,然后回答以下问题。探针、非伴侣]对,系统应生成与[探针、非伴侣]对相对应的显著性图,然后回答以下问题。
- 对于人脸识别系统来说,[Probe, Mate] 图像对中哪些区域最为相似?
- 对于人脸识别系统来说,[探针,非队友]图像对中哪些区域最相似?
- 为什么人脸识别系统认为[探头、伴侣]配对比[探头、非伴侣]配对更匹配?
传统的突出图虽然也很有用,但不能直接应用于人脸识别任务。例如,随机输入采样解释法(RISE)通过使用分类器类别的输出概率作为权重并汇总最终的显著性地图来解释分类模型。然而,人脸识别系统的决策过程涉及面部特征的提取和两幅或多幅图像之间的相似性。
因此,为了解决这个问题,本文提出了基于相似性的 RISE 算法(S-RISE),该算法使用相似性得分作为掩码权重,在不访问人脸识别系统内部结构或梯度的情况下提供显著性地图。(见下图)。
给定一对图像{𝑖𝑚𝑔𝐴, 𝑖𝑚𝑔𝐵},掩码生成器随机生成固定数量的掩码。每个掩码都会应用于输入图像(例如𝑖𝑚𝑔𝐴),然后将经过掩码的𝑖𝑚𝑔𝐴和未经掩码的𝑖𝑚𝑔𝐵分别输入人脸识别模型以提取面部特征。然后计算余弦相似度,作为相应面具的权重。对所有面具重复同样的过程后,𝑖𝑚𝑔𝐴 的最终显著性图谱就表示为生成面具的加权组合。
此外,还应评估突出图的准确性。在图像分类和图像检索任务中,有些方法会从输入图像中 "插入 "或 "移除 "突出像素,并测量输出分类概率的变化。本文将这些方法应用于人脸识别框架。它评估了模型是否能以最少的像素准确地突出人脸中它认为最重要的区域。
使用像素 "插入 "和 "删除 "的方法分别添加/删除像素,并测量两张人脸图像的相似度达到阈值的速度。更具体地说,删除过程从原始图像开始,然后依次删除显著性值最高的像素,并用一个恒定值取而代之。每个像素被删除后,相似度得分会被重新计算,直到低于预定的阈值为止。相反,插入过程从一个常数值开始,图像中按显著性图排序的最重要像素会被添加到普通图像中。每添加一个像素,相似度得分都会重新计算,直到高于阈值为止。从图像中移除或添加的像素数量会一直累积,直到识别模型改变其决定。使用以下指标对性能进行评估。
实际上,从图像中去除像素会改变原始分布,最终可能会影响识别结果。因此,上文提到的常量值被设定为特定图像的平均值。
3. 实验结果
近年来,使用显著性地图的方法受到了质疑。有人指出,生成的地图实际上可能与模型的决策过程和数据生成机制无关,它们是否能提供可靠的解释也值得怀疑。因此,有人提出了一种称为 "模型参数随机化检验 "的方法。这包括在使用深度学习模型之前随机化模型的权重。这样就能根据模型的决策机制,评估使用显著性图谱的方法是否真的能提供解释。本文采用了类似的方法来评估突出图的有效性。具体来说,我们使用针对其他视觉任务优化的无关网络模型(ResNet)的参数进行了测试。如果使用这些随机或不相关的参数生成了有意义的热图,那么显著性地图就与模型的决策过程和数据生成机制无关,不可信。
下图显示了对 S-RISE 算法生成的显著性图进行测试的结果。下图第二行显示的是随机参数 CNN 模型生成的显著性图,而下图第三行显示的是普通人脸识别系统生成的显著性图。
从下图第二行的结果可以看出,使用随机参数生成的突出图毫无意义,这表明所提出的 S-RISE 算法能够根据训练好的人脸识别模型生成有意义的解释。
下图显示了 S-RISE 算法生成的显著性图的结果。左侧两列显示的是当人脸识别模型以高置信度正确预测出一对图像时的显著性图,右侧两列显示的是非配对图像的显著性图。
从图中可以看出,被人脸识别模型判定为相似的图像对显示了适当的强调区域。另一方面,被判定为不相似的图像对显示出相似的区域,但强调程度较弱。这一结果解释了为什么人脸识别模型判断一个是同一个人,而另一个不是同一个人。
此外,下图显示了对不同人脸识别模型将不同人误认为同一人的情况进行研究的结果。
这表明,虽然人脸识别系统能以较高的置信度识别 "探针-伴侣 "配对,但它也对 "探针-非伴侣 "配对的眼睛和嘴巴等面部区域赋予了相对较高的置信度。换句话说,这就解释了为什么人脸识别模型会错误地将不匹配的人判断为匹配的人。
研究还表明,当前的人脸识别模型能够识别部分隐藏的人脸,尽管可信度较低。在这种情况下,理想的显著性地图应该是隐藏像素的显著性值低,而其他类似区域的显著性值高。从上图中还可以看出,当部分脸部被太阳镜遮挡时,人们会将注意力集中在嘴巴和鼻子区域,而不是眼睛。
最后是 S-RISE 的定量评估结果(见下表)。报告了使用 "插入 "和 "删除 "像素的方法的结果。实验是在 LFW 数据集的一个小型子集上进行的。这些实验测量了为改变人脸识别模型的判断而修改的像素所占的百分比;数字越小,突出图描述就越准确。下表量化了不同迭代次数下的 S-RISE,表明迭代次数越少,解释性能越差。
另一方面,这些指标在大约 1 000 次迭代后逐渐收敛,表明突出图变得稳定和准确(见下文)。
4. 总结
本文提出了可解释人脸识别(XFR)的新框架。所提出的 S-RISE 算法可以生成详细说明人脸识别系统如何决定一个人是否是同一个人的地图,还提出了评估这些地图准确性的新标准。希望这将建立一种标准方法,用于评估深度学习模型在未来更广泛地用于人脸识别的可靠性,从而更好地理解人脸识别系统,进而增强人们使用人脸识别的信心。