机器学习笔记 人脸识别技术全面回顾和小结(2)

一、现实条件

        随着人脸识别研究的深入,研究者开始关注现实条件下的人脸识别问题,主要包括以下几个方面的研究。首先,我们分析和研究了影响人脸识别的因素。第二,新特征表示的使用研究。第三,使用新数据源的研究。如表1所示。

二、影响人脸识别的因素

1) PIE problem

         目前,人脸识别技术在光照可控、类内变化小的条件下已经相当成熟。然而,人脸识别在非理想状态下的性能仍有待提高。PIE问题是人脸识别应该解决的非理想条件,尤其是可变光照、姿势和表情的问题。研究人员提出了一种基于不变特征的方法,利用人脸图像中不随光照条件变化而变化的特征进行处理,即找到对光不敏感的特征。目前,有代表性的方法是商图像(QI)。此外,可以使用3D线性子空间来表示具有光变化的面部图像,而不考虑阴影。典型的方法是光锥法。

        由于人的姿势不同,研究人员从非正面人脸图像和正面人脸图像中提取的面部表情特征也会有很大的不同。如果不处理态度因素,势必会影响准确性。根据姿态归一化处理的不同特征,研究人员将人脸表情特征分为两种方法,即特征级归一化方法和图像级归一化方法。

        最近有一些新的研究结果。2017年,Xi等人提出了一种基于多任务学习的人脸识别多任务CNN。他们提出了一种姿势导向的多任务CNN,通过对不同的姿势进行分组,同时在所有姿势上学习特定姿势的身份特征。Mahantes等人提出了一种变换域方法来解决人脸识别中的PIE问题。张等人提出了一种有监督的特征提取算法——协同表示判别投影(CRDP)。Huan等人提出了一种端到端网络,用于生成输入人脸图像的具有中性表情和正面姿态的归一化反照率图像。随着对影响人脸识别因素的研究,人脸识别技术得到了很大的改进。

三、使用新的特征表达

1) Manual design features

        在受约束的环境中,深度学习可以学习人脸特征,这可以使复杂的特征提取变得更容易,并且可以学习人脸图像中的一些隐藏规则和规则。

        一个面部特征是局部二进制模式(LBP)。Ojala等人在纹理图像分类研究中提出了局部二值模式(LBP)。2004年,Ahonen等人利用LBP提取人脸图像特征,开启了LBP在人脸识别中的研究。Tan等人针对LBP的噪声敏感性提出了局部三元模式(LTP)。Wolf等人提出了三种局部二值模式和四种局部二元模式来捕捉人脸图像的局部小区域之间的差异。基于LBP的人脸图像特征还包括poem、le、lark、lhs等。

        另一个典型的面部特征是Gabor特征。Daugman于1985年首次提出Gabor小波理论。弹性束图匹配是首次使用Gabor滤波器提取人脸特征的研究工作。它提取了关键点的Gabor滤波器卷积响应,并获得了良好的表达、姿态和噪声鲁棒性。刘等人还使用Gabor滤波器提取人脸图像特征。该方法不需要检测关键点,而是直接使用Gabor滤波器提取人脸图像每个像素位置的多尺度、多方向特征,获得更好的识别效果。此外,著名的尺度不变特征变换(SIFT)和定向梯度直方图(HOG)[68]已应用于人脸识别的特征提取。

2) Nonnegative Matrix Factorization (NMF)

        非负矩阵分解算法(NMF)由Lee和Seung于1999年提出。NMF实现了矩阵分解在数字图像处理中的应用,实现了人脸识别中的特征分解。

非负矩阵分解算法(NMF)。其中,V是原始矩阵,W是基矩阵,H是特征矩阵。

        如上图所示,NMF的思想是将一个矩阵划分为两个矩阵乘积。一个矩阵是基矩阵,另一个矩阵表示特征矩阵。从降维的角度来看,这两个矩阵是NMF自己同时确定的,因此特征矩阵不是原始矩阵在基矩阵上的投影,NMF实现了非线性降维。

         目前,NMF已成功应用于人脸识别的图像处理中。使用一些新的函数表示,人脸识别技术的应用得到了改进。

四、使用新的数据源

1) Adversarial sample attack

        传统的人脸识别方法可以很容易地在小规模数据中进行训练和学习,如PCA和LDA。但对于海量数据,这些方法的训练过程是困难的。对抗性样本可以获得人脸识别的数据源。所谓对抗性样本是对输入数据进行轻微修改,使人脸识别算法对输入给出错误的分类结果。在许多情况下,这些变化是如此微妙,以至于人类观察者甚至不会注意到它们,但分类器会出错。此外,攻击者可以在不知道人脸识别的基本模型的情况下攻击机器学习系统并干扰结果。如图6所示,以经典的双分类问题为例,机器学习模型通过对人脸识别中的样本进行训练来学习分割平面。

对抗性样本攻击的原理。分割平面一侧的点被识别为类别1,另一侧的点
侧面被识别为类别2。在生成攻击样本时,我们使用一些算法来计算指定样本的变化量。

        生成对抗性网络是目前抵御攻击的有效方法之一。生成对抗性网络由Ian Goodfellow于2014年提出。它被应用于深度学习神经网络。如下图所示,GAN是一个生成模型。它最常用于数据生成中的图像生成。GAN也是无监督学习的一种模型,因此广泛应用于无监督学习和半监督学习。目前,一个有趣的应用是将GAN应用于图像风格迁移、图像降噪与修复、图像超分辨率等领域,这些领域在人脸识别中具有更好的效果。利用新的数据源,对真实条件下的人脸识别技术进行了不断的研究。

GAN的模型。G和D的主要函数如下所示。G是生成网络,它接收随机噪声z并通过该噪声生成图像。D是一个判别网络,用来判断图片是否“真实”。它的输入参数是x,表示图片,输出D(x)表示x是真实图片的概率。如果是1,则表示真实图片的100%。如果为0,则表示不可能的图片。

五、人脸识别的通用评价标准

        准确度(ACC)、受试者工作特性(ROC)曲线和曲线下面积(AUC)值是评价人脸识别算法性能的重要指标。在人脸识别任务中,ACC是一个常见的指标。假设测试集包含N个图像,并且正确识别的图像数量为M。ACC的定义如下ACC = M/N

        ACC值越高,算法性能越好。在人脸识别任务中,为了确定两张图像(也称为样本对)是否来自同一个人,ROC首先计算图像之间的距离测量或相似性,然后根据阈值完成识别。ROC曲线的横坐标表示假阳性率(F P R),纵坐标表示召回率或真阳性率(T P R)。F P R和T P R的定义如下

T P R = T P/(T P + F N)

F P R = F P/(F P + T N)

        T P表示模型正确预测的正样本对,F N表示模型错误预测的正采样对,T N表示模型正确预言的负采样对,F P表示模型错误预言的负样本对。通过改变不同的阈值,可以获得不同的T P R值和F P R值,并生成ROC曲线. 如图所示,红色曲线和蓝色曲线分别代表两个不同分类器的T P R−F P R曲线,曲线上的点对应一个阈值,即ROC曲线。ROC曲线越靠近左上角,算法的性能就越好。换句话说,当错误识别率很小时,它可以实现很高的召回率。AUC值是衡量模型优点的标量,指的是ROC曲线下方的面积。显然,AUC值越大,算法的性能就越好。

六、人脸识别的图像评价集和数据库

        LFW是人脸识别的公共基准,也称为配对匹配。在表2中,我们得到了一些著名算法在LWF网站上的性能(http://viswww.cs.umass.edu/lfw/).

        如表3所示,常见的人脸图像数据库有7个,包括Yale A、AR、Extended Yale B、Georgia Tech、FERET、LFW和CAS-PEAL-R1。这些数据库极大地推动了人脸识别技术的进步。

        Yale A是一个简单的数据库,包含来自15个人的165张图像。

        AR数据库包含2600张120人的图像。

        扩展Yale B数据库中的图像包含9种姿势和64种光线变化。根据光线方向和相机轴之间的角度,数据库被划分为5个子集。

        乔治亚理工学院建立的乔治亚理工大学数据库包含来自50人的750张图像。

        美国国家标准与技术研究所发布的FERNT数据库包含来自1565个人和6个子集的13539张图像。

        LFW是人脸识别领域中最重要的人脸图像评价集之一。它由马萨诸塞大学计算机视觉实验室于2007年发布。LFW数据库是一个更复杂、更具挑战性的人脸图像数据库,主要用于非受控环境下的人脸识别。

        LFWa是LFW数据库的比对版本,其中图像通过商业软件进行比对。MegaFace也是评估人脸识别性能最权威、最受欢迎的指标之一。

        尽管MegaFace的评估仍然没有计算时间成本,但与LFW数据集相比,MegaFace更难,更接近实际应用。CAS-PEAL-R1数据库[106]由中国科学院建立并发布。2018年9月,搜狗图像技术团队以99.939%的识别准确率获得大赛第一名。在这次MegaFace大赛中,搜狗图像搜索积累的海量优质人脸图像资源,以及搜狗强大的计算平台,也为识别效果提供了数据保障和算力保障。

七、总结和展望

        随着科学技术的发展,人脸识别技术取得了巨大的成就,但在实际应用中仍有改进的空间。未来,可能会有一种用于人脸识别的专用相机,它可以提高图像质量,解决图像滤波、图像重建、去噪等问题。我们还可以使用3D技术来补充2D图像,以解决旋转和遮挡等问题。

        人脸识别技术以其便捷性在安全和金融领域得到了广泛的应用。随着科技的快速发展,人脸的应用将更加发达,应用场景将更加多样。然而,人脸识别很容易引发技术、法律和道德问题。由于人脸识别技术的自动化特点,类似的相关信息可能会通过自动化处理或决定,缺乏透明度,不容易监督,甚至在出现错误或歧视的情况下。很难追溯。例如,人脸识别信息用于实现非识别目的,例如判断个人的性取向、种族或宗教。如何增强算法的可解释性,以避免歧视性算法或不完整的信息导致决策错误?如何在确保公共安全和人身权利的同时,促进人脸应用相关新技术的发展?这些问题还有待深入讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/758021.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

TDD测试驱动开发

为什么需要TDD? 传统开发方式,带来大量的低质量代码,而代码质量带来的问题: 1.在缺陷的泥潭中挣扎 开发长时间投入在缺陷的修复中,修复完依赖测试做长时间的回归测试 2.维护困难,开发缓慢 比如重复代码&am…

数据库系统概论(第5版教材)

第一章 绪论 1、数据(Data)是描述事物的符号记录; 2、数据库系统的构成:数据库 、数据库管理系统(及其开发工具) 、应用程序和数据库管理员; 3、数据库是长期存储在计算机内、有组织、可共享的大量数据的集合&…

【List集合排序】

List集合排序Demo import com.google.common.collect.Lists; import lombok.AllArgsConstructor; import lombok.NoArgsConstructor;import java.util.*;/*** list order demo*/ public class ListOrderDemo {public static void main(String[] args) {List<String> lis…

Nginx和CDN运用

一.Web缓存代理 1.工作机制 代替客户机向网站请求数据&#xff0c;从而可以隐藏用户的真实IP地址。将获得的网页数据&#xff08;静态Web元素&#xff09;保存到缓存中并发送给客户机&#xff0c;以便下次请求相同的数据时快速响应。 2.代理服务器的概念 代理服务器是一个位…

操作系统期末复习真题四

一、前言&#x1f680;&#x1f680;&#x1f680; 小郑在刷题的过程中帮大家整理了一些常见的考试题目&#xff0c;以及易于遗忘的知识点&#xff0c;希望对大家有所帮助。 二、正文☀️☀️☀️ 1.OS的不确定性是指(ABC)。 A.程序的运行次序不确定 B.程序多次运行的时间不…

MySQL之如何定位慢查询

1、如何定位慢查询 1.1、使用开源工具 调试工具&#xff1a;Arthas 运维工具&#xff1a;Promethuss、Skywalking 1.2、MySQL自带慢日志 慢查询日志记录了所有执行时间超过指定参数&#xff08;long_query_time&#xff0c;单位&#xff1a;秒&#xff0c;默认10秒&#x…

ONLYOFFICE 桌面编辑器 8.1使用体验分享

目录 编辑器市场现状与用户选择 ONLYOFFICE桌面编辑器概览和功能 ONLYOFFICE桌面编辑器概览 功能丰富的PDF编辑器 演示文稿编辑器的创新 文档编辑的灵活性 电子表格的高级功能 语言和本地化 用户界面和体验 媒体播放 云服务和本地处理 跨平台支持 总结 在线亲身体…

【后端面试题】【中间件】【NoSQL】ElasticSearch 节点角色、写入数据过程、Translog和索引与分片

中间件的常考方向&#xff1a; 中间件如何做到高可用和高性能的&#xff1f; 你在实践中怎么做的高可用和高性能的&#xff1f; Elasticsearch节点角色 Elasticsearch的节点可以分为很多种角色&#xff0c;并且一个节点可以扮演多种角色&#xff0c;下面列举几种主要的&…

SpringBoot使用Spark的DataFrame API

什么是Spark&#xff1f; Apache Spark是一个开源的分布式计算系统&#xff0c;它提供了一个快速和通用的集群计算平台。Spark 能够处理大规模数据&#xff0c;支持多种编程语言&#xff0c;如Scala、Java和Python&#xff0c;并且具有多种高级功能&#xff0c;包括SQL查询、机…

论文浅尝 | 通过基于动态文档知识图谱增强的大语言模型故事理解

笔记整理&#xff1a;许方舟&#xff0c;天津大学硕士&#xff0c;研究方向为知识图谱 链接&#xff1a;https://ojs.aaai.org/index.php/AAAI/article/view/21286 1. 动机 基于大型 Transformer 的语言模型在需要叙事理解的各种任务上取得了令人难以置信的成功&#xff0c;包括…

填报志愿选专业是兴趣重要还是前景重要?

进行专业评估&#xff0c;找到一个适合自己的专业是一件非常困难的事情。在进行专业选择时&#xff0c;身上理想化色彩非常严重的人&#xff0c;会全然不顾及他人的劝阻&#xff0c;义无反顾的以兴趣为主&#xff0c;选择自己热爱的专业。一些较多考虑他人建议&#xff0c;能听…

Golang | Leetcode Golang题解之第206题反转链表

题目&#xff1a; 题解&#xff1a; func reverseList(head *ListNode) *ListNode {if head nil || head.Next nil {return head}newHead : reverseList(head.Next)head.Next.Next headhead.Next nilreturn newHead }

cuda编码入门学习笔记

在日常深度学习和科学计算中,使用图形处理器(GPU)进行加速是一个常见的做法。CUDA (Compute Unified Device Architecture) 是英伟达公司提供的用于GPU编程的平台和编程模型。同时它是一种并行计算模型,允许开发人员使用标准C语言对GPU进行编程。CUDA的核心思想是将任务分解为…

Linux开发讲课20--- QSPI

SPI 是英语 Serial Peripheral interface 的缩写&#xff0c;顾名思义就是串行外围设备接口&#xff0c;一种高速的&#xff0c;全双工&#xff0c;同步的通信总线&#xff0c;并且在芯片的管脚上只占用四根线&#xff0c;节约了芯片的管脚&#xff0c;为 PCB 的布局上节省空间…

20240629在飞凌的OK3588-C开发板的Linux R4系统下使用i2cdetect确认I2C总线

rootok3588:/# i2cdetect -y -r 0 rootrk3588-buildroot:/# i2cdetect -l rootrk3588-buildroot:/# i2cdetect -F 0 20240629在飞凌的OK3588-C开发板的Linux R4系统下使用i2cdetect确认I2C总线 2024/6/29 15:37 在CAM1、CAM2挂载OV13850。 在CAM3、CAM4和CAM5挂载OV5645了。 in…

AI大模型技术在音乐创造的应用前景

大模型技术在音乐创作领域具有广阔的应用前景&#xff0c;可以为音乐家、作曲家和音乐爱好者提供以下方面的帮助。北京木奇移动技术有限公司&#xff0c;专业的软件外包开发公司&#xff0c;欢迎交流合作。 音乐创作辅助&#xff1a;大模型可以帮助音乐家和作曲家生成旋律、和声…

利用微信开放标签<wx-open-launch-weapp>在H5中跳转微信小程序报错完美的解决方案

一、报错&#xff1a; [WXTAG] [JSCORE] The slot <template> or <script type"text/wxtag-template"> of <wx-open-launch-weapp> is missing 二、源码 官方源代码如下&#xff0c;<script type"text/wxtag-template"></sc…

02.Linux下安装FFmpeg

目录 一、下载FFmpeg的编译源码 二、编译源码 三、ffmpeg工具结构解析 1、bin目录 2、include库 3、lib库 四、注意事项 五、可能出现的一些问题 1、某些工具未安装/版本过久 2、缺少pkg-config工具 3、缺少ffmplay FFmpeg 是一个开源的跨平台音视频处理工具集&…

快速修复mfc100u.dll丢失解决方案

相连文章&#xff1a;SecureCRT的安装破解 [详细过程2024] 有小伙伴向我反馈在打开SecureFX注册机之后显示【mfc100u.dll找不到】重装之后也没有用&#xff0c;这个是因为Microsoft Visual C的运行时组件和库出现了错误&#xff0c;直接选择重新安装就可以 出现这种情况的原因…

基于51单片机的密码锁Proteus仿真

文章目录 一、密码锁1.题目要求2.思路3.仿真图3.1 未仿真时3.2 初始界面3.3 输入密码界面3.4 开锁成功界面3.5 修改密码界面3.6 输入密码错误界面 4.仿真程序4.1 矩阵按键4.2 液晶显示16024.3 存储模块2402 二、总结 一、密码锁 1.题目要求 以51单片机为核心&#xff0c;设计…