使用 mtcnn 和 facenet 进行人脸识别

一、前言

人脸识别目前有比较多的应用了,比如门禁系统,手机的人脸解锁等等,今天,我们也来实现一个简单的人脸识别。

二、思维导图

三、详细步骤

3.1 准备

3.1.1 facenet 权重文件下载

下载地址:https://drive.google.com/drive/folders/1pwQ3H4aJ8a6yyJHZkTwtjcL4wYWQb7bn,下载 facenet_keras_weights.h5权重文件到本地。

3.1.2 依赖库安装

pip 安装库的时候如果太慢,设置软件源的地址为清华源,设置命令:

pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
依赖库作用安装命令
OpenCV一个用于计算机视觉和图像处理的开源库。用于处理图像和视频。pip install opencv-python
mtcnn人脸检测的深度学习模型pip install mtcnn
tensorflow开源的机器学习框架pip install tensorflow
mysql-connector-python连接 mysql 数据库pip install mysql-connector-python
3.1.3 目录结构说明
├─docs 存放文档
├─encodings 存放本地图像特征值
├─facenet_model 存放 facenet 权重文件
├─font 存放简体字体
├─test_faces 测试集
├─train_faces 训练集
├─src 存放代码

3.2 训练人脸

3.2.1 人脸训练集准备

train_faces 文件夹下新建 hu_ge文件夹,然后从社交网络上获取胡歌图片放进去,作为训练集。

一张人脸生成的特征值显然是不够的,因此我们需要多张人脸,不考虑过拟合的情况下,人脸越多越精确。

3.2.2 加载模型

这边加载模型是 ResNetV2,没有引用库,而是手动去构建神经网络的,我尝试去直接使用 ResNet 库没成功,部分构建代码:

def inception_resnet_v2():
	inputs = Input(shape=(160, 160, 3))
	# 第一层是一个卷积层,应用了 32 个大小为 3x3 的滤波器
	x = Conv2D(32, 3, strides=2, padding='valid', use_bias=False, name= 'Conv2d_1a_3x3') (inputs)
	# 对输入进行批量归一化
	x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_1a_3x3_BatchNorm')(x)
	# 应用 ReLU 激活函数
	x = Activation('relu', name='Conv2d_1a_3x3_Activation')(x)
	x = Conv2D(32, 3, strides=1, padding='valid', use_bias=False, name= 'Conv2d_2a_3x3') (x)
	x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_2a_3x3_BatchNorm')(x)
	x = Activation('relu', name='Conv2d_2a_3x3_Activation')(x)
	x = Conv2D(64, 3, strides=1, padding='same', use_bias=False, name= 'Conv2d_2b_3x3') (x)
	x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_2b_3x3_BatchNorm')(x)
	x = Activation('relu', name='Conv2d_2b_3x3_Activation')(x)
	x = MaxPooling2D(3, strides=2, name='MaxPool_3a_3x3')(x)
	x = Conv2D(80, 1, strides=1, padding='valid', use_bias=False, name= 'Conv2d_3b_1x1') (x)
	x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_3b_1x1_BatchNorm')(x)
	x = Activation('relu', name='Conv2d_3b_1x1_Activation')(x)
	x = Conv2D(192, 3, strides=1, padding='valid', use_bias=False, name= 'Conv2d_4a_3x3') (x)
	x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_4a_3x3_BatchNorm')(x)
	x = Activation('relu', name='Conv2d_4a_3x3_Activation')(x)
	x = Conv2D(256, 3, strides=2, padding='valid', use_bias=False, name= 'Conv2d_4b_3x3') (x)
	x = BatchNormalization(axis=3, momentum=0.995, epsilon=0.001, scale=False, name='Conv2d_4b_3x3_BatchNorm')(x)
	x = Activation('relu', name='Conv2d_4b_3x3_Activation')(x)

这边就涉及到神经网络比较底层的知识,我也不太懂,我就直接使用了。
加载完模型后,加载 facenet 权重文件。
最后再加载 mtcnn 来识别人脸。

face_encoder = inception_resnet_v2()
facenet_weight_path = "../facenet_model/facenet_keras_weights.h5"
face_encoder.load_weights(facenet_weight_path)

face_detector = mtcnn.MTCNN()
3.2.3 读取图片、转换颜色空间

OpenCV 读取图片默认是以 BGR 颜色空间,如果我们要给 mtcnn识别人脸,要先转为 RGB 颜色空间。

# 读取图片
img_BGR = cv2.imread(image_path)
# 将一幅图像从 BGR(蓝绿红)颜色空间转换为 RGB(红绿蓝)颜色空间
img_RGB = cv2.cvtColor(img_BGR, cv2.COLOR_BGR2RGB)
3.2.4 mtcnn 识别人脸具体位置

MTCNN 是一种检测图像上的人脸和面部标志的神经网络。

x = face_detector.detect_faces(img_RGB)
print(x)

mtcnn 会生成人脸框的坐标和人脸上五个关键点的坐标,分别是左眼,右眼,鼻子,嘴唇的左边界,嘴唇的右边界。

{
  'box': [468, 98, 195, 249],
  'confidence': 0.9999933242797852,
  'keypoints': {
    'left_eye': (534, 190),
    'right_eye': (624, 186),
    'nose': (590, 236),
    'mouth_left': (549, 294),
    'mouth_right': (620, 291)
  }
}

显示一下:

# 人脸的框的左上角坐标和宽高
x1, y1, width, height = x[0]['box']
x1, y1 = abs(x1), abs(y1)
x2, y2 = x1 + width, y1 + height
# 绘制人脸框
cv2.rectangle(img_BGR, (x1, y1), (x2, y2), (0, 255, 0), 2)
# 绘制人脸关键点
for keypoint, coordinates in x[0]['keypoints'].items():
	cv2.circle(img_BGR, coordinates, 2, (0, 0, 255), -1)
# 显示
cv2.imshow('Detected Face', img_BGR)
cv2.waitKey(0)
cv2.destroyAllWindows()

# 裁剪出人脸部分
face = img_RGB[y1:y2, x1:x2]
3.2.5 归一化、设置图片大小、生成图像特征值

归一化,将像素值从 [0, 255] 归一化到 [0, 1],如果训练的特征分布和测试的差异很大,那么对输入数据进行归一化,可以在训练和测试过程中保持一致的特征分布。

def normalize(img):
    """
    归一化处理:将数据缩放到均值为 0,标准差为 1 的标准正态分布
    像素值通常是在 0 到 255 的范围内。例如,将像素值从 [0, 255] 归一化到 [0, 1]。

    :param img:
    :return: 归一化结果
    """
    # 获取所有像素的平均值,标准差
    mean, std = img.mean(), img.std()
    return (img - mean) / std

face_encoder.predict(face_d)[0]这个函数可以对输入的人脸图像进行特征提取,我们这边只获取单张人脸的特征,所以取下标 0。

face = normalize(face)

# 重新设置大小
face = cv2.resize(face, required_shape)
# 扩展(增加)数组的维度
face_d = np.expand_dims(face, axis=0)
encode = face_encoder.predict(face_d)[0]
encodes.append(encode)

encode 只是一张图像的特征值,我们要训练很多张才能实现泛化效果比较好的模型,因此用 encodes 存放每一张图像的特征值。

3.2.6 特征求和、存放到数据库中
if encodes:
  # 特征求和
  # 计算每一列的总和
  encode = np.sum(encodes, axis=0)
  # 将特征向量标准化为单位向量
  encode = l2_normalizer.transform(np.expand_dims(encode, axis=0))[0]

  image_feature = base64.b64encode(encode).decode('utf-8')
  # 获取标签中文名 hu_ge -> 胡歌
  label_chinese_name = get_label_chinese_name(face_names)
  encoding_dict[face_names] = encode
  save_image_feature(face_names, label_chinese_name, image_feature)

3.3 测试人脸

将需要测试的人脸图片放在 test_faces 文件夹下,这四张都是全新的图片,模型不知道的,这样才可以进行预测。

也是对每一张图像生成人脸的特征值,然后和数据库中的特征值进行比较。

dist = cosine(input_feature, image_feature)

**在机器学习中,欧氏距离用于特征空间中样本之间的相似性度量,通过 ****cosine**函数计算相似度,只要小于相似度阈值,我们就认为属于同一张人脸。

原来我是设置成 0.5,可能由于训练的样本数太少,不是冯提莫的图片也会被认为是冯提莫,造成错误识别,它的值是 0.480.49 这样,后面我改成 0.4 就好了。
冯提莫和胡歌的人脸特征我提前训练好了,因此这边可以识别到,杨幂和宋轶没有训练,所以识别不到,显示未知。

四、参考资料

  • facenet
  • mtcnn
  • Face Detection using MTCNN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/210485.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用户反馈组件实现(Vue3+ElementPlus)含图片拖拽上传

用户反馈组件实现&#xff08;Vue3ElementPlus&#xff09;含图片拖拽上传 1. 页面效果1.1 正常展示1.2 鼠标悬浮1.3 表单 2. 代码部分1.2 html、ts1.2 less部分 3. 编码过程遇到的问题 1. 页面效果 1.1 正常展示 1.2 鼠标悬浮 1.3 表单 2. 代码部分 1.2 html、ts <templ…

虚拟机备份数据自动化验证原理

备份数据成功备份下来了&#xff0c;但是备份数据是否可用可靠&#xff1f;对于这个问题&#xff0c;最好最可靠的方法是将备份数据实际恢复出来验证。 但是这样的方法&#xff0c;不仅费时费力&#xff0c;而且需要随着备份数据的定期产生&#xff0c;还应当定期做备份数据验…

在国内Facebook广告怎么解决充值渠道问题?

怎么解决Facebook预充值跑广告营销的付款方式问题呢&#xff1f; Facebook跑广告是很多做出口营销的公司或团队喜欢的平台之一&#xff0c;那就避免不了需要支付给Facebook平台广告费用了&#xff0c;那到底用什么方式去充值到FB号上去解决呢&#xff1f;FB预充值有什么咔可以…

产业迭代 共谋新生 喜尔康智家总冠名2023中国建材与家居行业焕新发展大会

2023年家居市场迎来了全新的变化&#xff0c;行业不断向绿色化、智能化方向发展&#xff0c;特别是在商务部等13部门发布《关于促进家居消费若干措施的通知》后&#xff0c;更加注重推动大家居市场产业升级迭代和高质量发展。在这个过程中&#xff0c;绿色化、智能化转型成为家…

同旺科技 USB TO SPI / I2C --- 调试W5500_读写网关地址

所需设备&#xff1a; 内附链接 1、USB转SPI_I2C适配器(专业版); 首先&#xff0c;连接W5500模块与同旺科技USB TO SPI / I2C适配器&#xff0c;如下图&#xff1a; 这里的网关地址设置为192.168.1.1 先将网关地址写入寄存器&#xff0c;然后再读取出来&#xff1a;

智能优化算法应用:基于共生生物算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于共生生物算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于共生生物算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.共生生物算法4.实验参数设定5.算法结果6.参考…

frp实现内网穿透(多端口穿透)

frp实现内网穿透 准备一个公网服务器&#xff08;腾讯、阿里、华为的云服务器&#xff09; 下载frp的安装包 下载对应系统的安装包&#xff0c;不要下错文件。 注意amd对应x86架构的系统 arm对应 arm架构系统&#xff08;macos&#xff09; 点击下载 查看文档将对应的安装包放…

VUE设计与实现共读系列之ref的实现【响应式原理】

前言 我们先顺一下vue使用响应式数据的流程&#xff1a; vue 是通过 ref 和 reactive 来创建响应式值&#xff0c;改变响应式值&#xff0c;视图跟着发生变化。 我们今天就来看一下ref和reactive是如何实现的 准备 首先&#xff0c;打开ref函数的位置 我们可以看到一个被re…

UVA1368 DNA Consensus String

DNA Consensus String The Hamming distance is the number of different characters at each position from two strings of equal length. For example, assume we are given the two strings “AGCAT” and “GGAAT.” The Hamming distance of these two strings is 2 bec…

Adobe Bridge——牵线搭桥

今天我们又一次来分享Adobe全家桶紧剩的几位成员之一&#xff0c;今天介绍的这一位成员&#xff0c;是Adobe公司开发的一个组织工具程序。 从Bridge中可以查看、搜索、排序、管理和处理图像文件,还可以使用Adobe Bridge 来创建新文件夹、对文件进行重命名、移动和删除操作、编辑…

【计算机概论 ①】- 电脑:辅助人脑的好工具

目录 一、电脑硬件的五大单元 二、一切设计的起点&#xff1a;CPU 的架构 三、其他单元的设备 四、运行流程 五、电脑的分类 六、电脑上面常用的计算单位&#xff08;容量、速度等&#xff09; 操作系统跟硬件有相当程度的关联性&#xff0c;所以&#xff0c;如果不了解一…

hls实现播放m3u8视频将视频流进行切片 HLS.js简介

github官网GitHub - video-dev/hls.js: HLS.js is a JavaScript library that plays HLS in browsers with support for MSE.HLS.js is a JavaScript library that plays HLS in browsers with support for MSE. - GitHub - video-dev/hls.js: HLS.js is a JavaScript library …

文艺复兴!ICO或再次兴起?香港Web3崛起前五部曲之一!

近日&#xff0c;香港证券及期货专业总会发布了《2024至2025年度财政预算案》&#xff0c;提出了一系列举措&#xff0c;其中最引人注目的莫过于政府考虑推出ICO发行机制&#xff0c;这一预算案被广泛视为香港在Web3崛起前的文艺复兴五部曲之一&#xff0c;引发了业界和投资者的…

Maxscript到Python转换工具教程

Maxscript到Python转换器教程 Maxscript到Python转换器采用MAXScript程序&#xff0c;将其解析为语法树&#xff0c;然后从语法树中生成等效的Python代码。通过提供python的自动翻译&#xff0c;帮助python程序员理解maxscript示例。 【项目状况】 将正确解析最正确的maxcript…

【算法】动态规划中的路径问题

君兮_的个人主页 即使走的再远&#xff0c;也勿忘启程时的初心 C/C 游戏开发 Hello,米娜桑们&#xff0c;这里是君兮_&#xff0c;如果给算法的难度和复杂度排一个排名&#xff0c;那么动态规划算法一定名列前茅。今天&#xff0c;我们通过由简单到困难的两道题目带大家学会动…

ios 长传发布审核+safari浏览器,直接安装ipa文件

蒲公英二维码方法 个人开发者账号发布证书AD-hoc 描述文件蒲公英上传链接通过苹果safari 浏览器下载IPA包 浏览器下载方法 前置条件 1.下载 ipa 包的设备的 uuid 已加入 苹果测试设备列表如何添加到测试列表 2.web 服务, 文件服务. 3.需要AD-hoc 描述文件 添加链接描述 1.创…

Linux系统之部署Plik临时文件上传系统

Linux系统之部署Plik临时文件上传系统 一、Plik介绍1.1 Plik简介1.2 Plik特点 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本 四、下载Plik软件包4.1 创建下载目录4.2 下载Plik软件包4.3 查看下载的Plik软件…

卡码网语言基础课 | 18. 开房门

目录 一、 map基础 二、 map的使用 2.1 map头文件的引入 2.2 声明映射关系 2.3 插入键值 2.4 查找键的存在 三、 范围for循环 题目&#xff1a; 假设你手里有一串钥匙&#xff0c;这串钥匙上每把钥匙都有一个编号&#xff0c;对应着一个房门的编号。现给你一个房门编号&a…

C语言-指针_01

指针基础 1. 概述 地址编号&#xff1a;计算机为了存储数据&#xff0c;每一个程序在 32位 机中 占4G&#xff0c;最小操作单位 是 一个字节&#xff0c;每一个字节都有其对应的地址&#xff0c;该地址就是 地址编号。 指针&#xff1a;地址编号这个数据 的 数据类型。 指针变…

flutter开发实战-实现获取视频的缩略图封面video_thumbnail

flutter开发实战-实现获取视频的缩略图封面video_thumbnail 在很多时候&#xff0c;我们查看视频的时候&#xff0c;视频没有播放时候&#xff0c;会显示一张封面&#xff0c;可能封面没有配置图片&#xff0c;这时候就需要通过获取视频的缩略图来显示封面了。这里使用了video…