RTrPPG

研究背景

心率 (HR) 和脉搏率变异性 (PRV) 是允许分析心脏行为的两个生理参数。心率监测可以通过接触式和非接触式的两种方法进行。通常用于测量 HR 和 PRV 的两种接触式技术是心电图 (ECG) 和光电容积脉搏波 (PPG)。 ECG 测量由心脏活动引起的电场。另一方面,PPG 测量由于心血管系统的脉动性质和血容量的变化所导致组织中含量变化,最后引起光吸收的变化。 PPG 和 ECG 执行基于接触的 HR 测量,它们可能会导致卫生问题,甚至在脆弱的皮肤上无法实现。由于这些可能的缺点。Verkruysse 等人证明 PPG 信号可以从标准摄像机远程测量,使用环境光作为照明源。这种称为远程光电容积描记术的技术具有以完全远程方式测量与 PPG 相同参数的优势。
事实上,rPPG 是非接触式等效于 PPG 的反射模式,使用相机作为接收器,环境光作为光源。根据皮肤反射光线时相机捕捉到的细微皮肤颜色变化估计血容量变化。PPG 和 rPPG 信号允许测量多个生物医学参数,例如心率、脉搏率变异性、眼球血管闭塞、外周血管舒缩活动、脉搏传递时间和呼吸频率的血压。因此,也有多种应用可以进行运用,包括血压预测、混合现实、汽车驾驶员的生理测量、活体皮肤分割、人脸反欺骗、和控制新生儿的生命体征。与 Verkruysse 等人一样,早期方法使用绿色通道来估计 rPPG 信号。然后,提出了基于光组织相互作用模型来确定投影矢量的方法,例如 PbV、POS 和 Chrom,以及其他基于盲源分离技术的技术,例如PCA、ICA、EVM、PVM、WVM。最近,深度学习模型已开始用于视频序列的生理测量,这些方法的主要优点是它们可以实现良好的结果,而无需设计人员深入分析问题。基于手工制作的管道需要通过帧检测和跟踪感兴趣区域,组合颜色通道,过滤它们并估计呼吸频率或心脏等生理参数。或者,在基于深度学习的测量中不再需要基于管道的框架。因此,基于深度学习的方法不太容易在其管道中传播错误。然而,最近的工作集中在心率测量性能而不是理解 。消融实验对于深度学习的研究很有帮助,因为它们提供了对不同架构和正则化组件对机器学习和深度学习性能的相对贡献的洞察。例如,在 Unifying frame rate and temporal dilations for improved remote pulse detection 中,作者提出了一系列评估帧速率重要性的实验。通过对时域和频域评估表明,由于时空内核覆盖的时间长度增加,降低帧速率可能会带来更好的网络性能。在 Analysis of cnn-based remote-ppg to understand limitations and sensitivities 中,在二维神经网络(2DCNNs)中对空间上下文的重要性进行了研究。结果表明,不同的分辨率会导致网络性能的轻微波动。然而,这个结论在 3D 卷积网络中是否有效尚不清楚。并且有一些研究者建议使用红、绿和蓝 (RGB) 以外的通道,于是本文作者可以找到使用颜色通道的 rPPG 方法,例如 Lab、Luv 或 YCbCr。有趣的是,在基于深度学习的 rPPG 测量中,YUV 颜色空间已经显示出有希望的结果。
2DCNN 在测量 rPPG 信号时非常重要。它们已被用于测量 rPPG、HR、BR 和 PRV。然而,在考虑时间上下文的情况下,有必要执行一个额外的过程,这增加了计算时间并使其更难以端到端的方式实现。因此,基于 2DCNN 的 rPPG 测量方法可能不适合实时环境。请注意,实时能力通常是指模型以 30 fps (33.3 ms) 的速度比网络摄像头运行得更快。由于三维卷积神经网络 (3DCNN) 可以同时分析视频的空间和时间特征。出于这个原因,对于端到端应用程序,使用 3DCNN 可能比 2DCNN 更方便。例如,也许最具标志性的 3DCNN 之一是由 Zitong Yu 等人提出的 PhysNet。
作者使用 2DCNN+LSTM 和 3DCNN 对时空网络进行了性能比较。 3DCNN 优于 2DCNN 和循环网络的组合。使用这种方法,可以直接从视频中获取 rPPG 信号。下图描绘了基于 2D 和 3D CNN 的通用 rPPG 框架之间的差异。
背景

问题

远程光电容积描记 (rPPG) 信号的采集在多种应用中很重要。最近,基于深度学习的方法,如 3D 卷积网络 (3DCNN),已经优于传统的手工方法。然而,尽管它们具有强大的建模能力,但众所周知,大型 3DCNN 模型具有高计算成本并且可能不适合实时应用。在本文中,作者提出了对 3DCNN 架构的研究,找到了心率测量精度和推理时间之间的最佳折衷方案。通过将信噪比分量添加到常规 Pearson 相关损失函数中,可以通过减少输入大小来获得快速推理,同时通过引入新的基于时间和频率的损失函数来获得精度性能。

方法

在这项工作中,作者使用基于 3DCNN 的编码器-解码器神经网络作为基线。并且提出对图像大小和颜色空间的消融研究,以提高推理速度,并同时保持准确性。并引入新的基于时频的损失函数。

Spatio-temporal network

系统输入是任意三维色彩空间( [ i 1 , i 2 , . . . , i T ] [i_1, i_2, ..., i_T] [i1,i2,...,iT])的一系列 T 帧图像。为了只使用与面部皮肤相关的信息,作者使用了一个神经网络表示为 Φ \Phi Φ负责提取在每一帧中找到的对象的面部。然后使用等式中表示为 Ω \Omega Ω 的调整大小程序。为了得到一个尺寸为 bxb 的正方形图像。整个过程如方程式所示。 (1):
[ f 1 , f 2 , . . . , f T ] = Ω ( Φ ( [ i 1 , i 2 , . . . , i T ] , φ ) , ω ) [f_1, f_2, ..., f_T ] = \Omega(\Phi([i_1, i_2, ..., i_T], \varphi), \omega) [f1,f2,...,fT]=Ω(Φ([i1,i2,...,iT],φ),ω)
受 Remote photoplethysmograph signal measurement from facial videos using spatio-temporal networks 中实现的时空网络的启发,在本文中,作者提出了一种 3DCNN-Encoder-Decoder,表示为 3DED 作为基线来查找与视频相关的 rPPG 信号。该网络分为两个主要部分。第一个是编码器 E,其中输入数据在具有更重要时空信息的潜在空间中进行转换。第二部分,接收潜在空间特征作为输入,是生成 rPPG 输出 y = [ y 1 , y 2 , . . . , y T ] y = [y_1 ,y_2 ,...,y_T] y=[y1,y2,...,yT] 的解码器 D。 E 和 D 是前馈 3DCNN。由 3DED 神经网络程序进行的 rPPG 估计如下所示。
[ y 1 , y 2 , . . . , y T ] = 3 D E D ( [ f 1 , f 2 , . . . , f T ] ) ; θ ) [y_1, y_2, ..., y_T ] = 3DED([f_1, f_2, ..., f_T]); \theta) [y1,y2,...,yT]=3DED([f1,f2,...,fT]);θ)

Time-frequency based loss function

Pearson 相关系数可以测量 rPPG 的时间特征与血容量脉搏(PPG 信号)之间的线性关系,忽略基于频率的特征。另一方面,频域包含与心率和信号质量相关的分量,所以信噪比 (SNR) 可以增强基于频率的分量。因此作者使用 ρ \rho ρ 和 SNR 来优化 rPPG 信号的最重要特征。在下面的公式中提出了新的基于时间频率的损失函数负皮尔逊相关性和信噪比(NPSNR),它结合了上述两个指标:
N P S N R = 1 − ( ρ + λ S N R ) NPSNR = 1 - (\rho + \lambda SNR) NPSNR=1(ρ+λSNR)

Ablation study

作者提出了几个实验来获得实时、信号质量和心率测量精度之间的最佳折衷。在第一种方法中,逐渐将输入帧 bxb 的空间维度减小为七个不同的输入大小 d 其中 d c = b 2 c ; c ∈ [ 0 , 1 , . . . , 6 ] d_c = \frac{b}{2^c};c \in[0,1,...,6] dc=2cb;c[0,1,...,6]。然后提出基于时间频率的 NPSNR 损失函数替换基于时间的负皮尔逊相关 (NP) 损失函数。最后通过将 RGB 颜色空间更改为 Lab、Luv、YUV 和 YCbCr 来评估性能。下图描述了消融研究中提出的实验。为了应对输入大小的减小,作者改变了池化层,同时应用了相同的卷积操作。这些变化只发生在 E 编码器中。最后将网络配置称为 3DEDdc-ColorChannel-Loss,例如 3DED8-RGB-NP 是输入RGB 8x8像素和NP作为损失函数的3DED网络。
网络架构

Metrics

模板匹配相关 (TMC) 和信噪比 (SNR) 用于评估 rPPG 信号估计质量。另一方面,平均绝对误差(MAE)和皮尔逊相关系数 r 用于评估心率测量精度。 SNR、MAE 和 r 使用 15 秒滑动窗口计算,步长为 0.5 秒。 SNR、TMC 和 r 要最大化,而 MAE 必须最小化。 MAE 结果以每分钟节拍数 (bpm) 和 SNR 的分贝 (dB) 为单位给出。TMC 是 ECG/PPG 信号质量评估指标的系数,是通过检测全长信号的信号峰值和中位节拍间隔来实现的。然后,以各自的峰值为中心分别提取脉冲,窗口宽度等于中位心跳间隔。模板被计算为所有脉冲的平均值。最后,TMC 系数被计算为所有脉冲与模板的平均相关性。 TMC = 0 表示信号的脉冲形状不均匀,而 TMC = 1 表示完全均匀。平均绝对误差计算为使用基于接触的地面计算的心率的窗口平均值脉搏血氧仪 (hc) 获得的真值波形,以及使用 rPPG 信号计算的心率(hr)。大小为 n 的两个向量 hr 和 hc 的 MAE 如下所示:
M A E = 1 n ∑ j = 1 n ∣ h r j − h c j ∣ MAE=\frac{1}{n}\sum_{j=1}^n|hr_j-hc_j| MAE=n1j=1nhrjhcj

皮尔逊相关系数衡量向量 hc 和 hr 之间的线性相关性。r = -1表示负线性相关,而 r = 1 表示正总线性相关,最后,r = 0 表示估计值与参考值之间没有线性相关性。 r 如下所示:
r = ∑ j = 1 n ( h r j − h r ) ( h c j − h c ) ∑ j = 1 n ( h r j − h r ) 2 ∑ j = 1 n ( h c j − h c ) 2 r = \frac{\sum_{j=1}^n(hr_j- hr)(hc_j-hc)}{\sqrt{\sum^n_{j=1}(hr_j-hr)^2}\sqrt{\sum^n_{j=1}(hc_j-hc)^2}} r=j=1n(hrjhr)2 j=1n(hcjhc)2 j=1n(hrjhr)(hcjhc)

实验

接下来就是上面所提出的实验结果。对于每个实验,我们采用了一个独立的 5 折交叉验证评估协议。心率是通过 rPPG 信号的傅里叶变换来测量的,HR 值是对应于最大幅度峰值的频率。下图描述了所提出的实验的结果。第二列和第三列分别表示 GPU 和 CPU 上的推理时间(以毫秒为单位)。接下来的两列是与心脏测量精度相关的指标(以 bpm 为单位的 MAE 和 r),然后是另外两列与信号质量相关的指标(以 dB 为单位的 SNR 和 TMC)。最后,最后一列是每个架构的可训练参数的数量(N.T.Param)。
实验结果

当减小输入图像的大小时,GPU 和 CPU 上的 3DED 推理时间会减少;这是合乎逻辑的,因为卷积的数量也减少了。当输入大小最小(3DED2-RGB-NP)时,CPU 和 GPU 上的推理时间最小,即使 MAE 在此输入设置下略有增加,低值 r=0.45,SNR=1.5,并且 TMC=0.82 表示信号质量不可靠。另一方面,3DED8-RGB-NP 提供了推理时间、心率测量精度和信号质量之间的平衡指标。然而,尽管该网络比基线和 PhysNet 更快,但 rPPG 信号采集的性能仍有提升空间。通过采用 3DED8-RGB-NP 并将其基于时间的损失函数替换为本文提出的基于时间频率的损失函数,可以看出所有指标都得到了改善,尤其是 SNR。通过评估 RGB,Lab 、Luv、YUV 和 YCbCr 颜色通道,使用 YUV 获得最佳性能。因此,3DED8-YUV-NPSNR 在实时、信号质量和心率测量性能之间具有最佳折衷,作者将此架构称为实时 rPPG (RTrPPG),并在下图中描述其完整架构。将最佳配置与基线模型进行比较时,所有指标和推理速度都有所提高。更有趣的是,当将 RTrPPG 与最先进的 PhysNet 模型进行比较时,获得了非常相似的指标,而 RTrPPG 的推理速度从 GPU 的 51.77 ms 到 2.32 ms 和从 241.57 ms 提高了大约 88%在 CPU 中达到 28.65 毫秒。上图显示了消融研究和 PhysNet 网络中最佳配置的 HR 相关图。可以看出,使用 RTrPPG 测量的 HR 值的分布与 PhysNet 相当。
网络架构

总结

3DCNN 是使用端到端方法从视频中提取 rPPG 信号的绝佳选择。然而,它们复杂的结构可能会阻碍它们的实时应用。在本文中提出了一个 3DCNN 基线和一系列实验,以找到一个快速准确的网络来获取可靠的 rPPG 信号。最佳配置称为实时 rPPG:RTrPPG。作者表明,通过降低输入图像的维度,可以提高推理速度,但代价是测量 rPPG 信号的精度下降。最后提出了一个联合解决方案,表明基于时间频率的损失函数对于网络学习输入视频的基本特征是必要的。同样,还表明最好使用经验颜色通道使用 YUV 代替 RGB 进行皮肤分割。有趣的是,当将 RTrPPG 与最先进的 PhysNet 进行比较时,实现了与 rPPG 信号采集相当的精度,而提出的模型将推理速度提高了约 88%,在 GPU 中从 51.77 ms 到 2.32 ms,从 241.57 ms在 CPU 中毫秒到 28.65 毫秒。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/261105.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

c语言:从函数中返回多个变量

从函数中返回一个值可以使用返回值,但是如果要返回多个值呢? 你肯定想到了让被调函数修改主调函数内变量的方法---将指针作为参数传递到被调函数中。就像scanf函数那样。 scanf("%d%d%d", &a, &b, &c); // scanf从键盘读入3个…

React网页转换为pdf并下载|使用jspdf html2canvas

checkout 分支后突然报错,提示: Cant resolve jspdf in ... Cant resolve html2canvas in ... 解决方法很简单,重新 yarn install 就好了,至于为什么,我暂时也不知道,总之解决了。 思路来源: 先…

Ubuntu 常用命令之 passwd 命令用法介绍

📑Linux/Ubuntu 常用命令归类整理 在Ubuntu系统中,passwd命令用于更改用户的密码。系统管理员可以使用此命令更改任何用户的密码,而普通用户只能更改自己的密码。 passwd命令的参数如下 -l, --lock:锁定密码,使账户…

亚信安慧AntDB数据库开启分布式数据库的新篇章

AntDB-CE社区版是亚信科技AntDB数据库的首个社区版产品,它的诞生标志着AntDB数据库向更广泛的市场和用户群体开放,具有里程碑式的意义。AntDB-CE社区版不仅具备完整、易用、兼容度高的企业级分布式数据库产品特性,还采用了Share-Nothing的无共…

某电子文档安全管理系统 SQL注入漏洞复现

漏洞介绍 亿赛通电子文档安全管理系统 (简称: CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护…

期货平仓日历(期货平仓日期汇总)

什么是期货平仓日历? 期货是一种高风险高收益的投资品种。而期货交易不同于股票等其他投资品种的交易,期货交易需要在一定时间内才能买卖。而期货平仓日历就是指期货交易中规定的所有合约的平仓日期汇总。 常见期货平仓日期和时间? 不同的…

阿里云大模型数据存储解决方案,为 AI 创新提供推动力

云布道师 随着国内首批大模型产品获批名单问世,百“模”大战悄然开启。在这场百“模”大战中,每一款大模型产品的诞生,都离不开数据的支撑。如何有效存储、管理和处理海量多模态数据集,并提升模型训练、推理的效率,保…

uniapp uview1.0 页面多个upload上传、回显之后处理数据

<view class"img-title w-s-color-3 f-28 row">商品图片</view><u-upload ref"images" :header"header" :file-list"fileListImages" :action"action" name"iFile" icon-name"camera"u…

Modbus-ASCII数据帧

Modbus-ASCIl传输模式中&#xff0c;每个字节均以ASCI编码&#xff0c;实际报文中1个字节会以两ASCIl字符发送&#xff0c;因此这种模式比Modbus-RTU模式效率要低。 例如报文数据 x5B "5""B" X35 X42 . 数据帧格式如下: 从ASCI报文帧可以看出&#xff0…

混凝土强度达到多少才可以拆模板

混凝土拆模的时间取决于多种因素&#xff0c;包括混凝土的强度、环境条件、水泥类型、混凝土配方、模板类型及结构特点等。一般来说&#xff0c;混凝土拆模的基本准则是在混凝土达到足够的强度以承受自重和施工荷载时进行。这个强度通常是指混凝土达到其设计强度的一定比例。在…

0x43 线段树

0x43 线段树 线段树&#xff08;Segment Tree&#xff09;是一种基于分治思想的二叉树结构&#xff0c;用于在区间进行信息统计。与按照二进制位&#xff08;2的次幂&#xff09;进行区间划分的树状数组相比&#xff0c;线段树是一种更加通用的结构&#xff1a; 1.线段树的每…

探讨小鹏汽车CAN通讯协议分析破解过程数据研究技术应用

当前新能源电动汽车设计日益复杂&#xff0c;为提高舒适性、功能性、提升性能和确保更高的安全性&#xff0c;很多汽车的设计中融入了更复杂的功能。包括了雷达、激光雷达、自适应巡航、L2以上自动驾驶系统&#xff0c;高级驾驶辅助系统、盲区监测等等。安装在汽车上的传感器和…

在vue中获取文件的Md5值,以上传图片与视频为例

在vue中获取文件的Md5值 1. Md5 是什么&#xff1f;2. 使用插件spark-md5处理3. 获取图片文件的Md5值4. 视频文件的Md5值获取 1. Md5 是什么&#xff1f; MD5信息摘要算法&#xff08;英语&#xff1a;MD5 Message-Digest Algorithm&#xff09;&#xff0c;一种被广泛使用的…

【智慧校园】基于国标GB28181协议EasyCVR视频技术的高校宿舍智能监管方案

现如今&#xff0c;各大学校不乏众多住校生&#xff0c;但由于很多学生年龄较小 &#xff0c;又缺乏独自生活的经历&#xff0c;如何给在校住宿生做到安全与生活双重保障&#xff1f;旭帆科技校园智能视频监控通过人工智能技术对住宿区域进行智能监管&#xff0c;确保学生住宿安…

自定义权限管理系统概述

作者简介&#xff1a;大家好&#xff0c;我是smart哥&#xff0c;前中兴通讯、美团架构师&#xff0c;现某互联网公司CTO 联系qq&#xff1a;184480602&#xff0c;加我进群&#xff0c;大家一起学习&#xff0c;一起进步&#xff0c;一起对抗互联网寒冬 今天我们来聊聊如何自定…

Markdown语法 in Typora

Typora 是个好东西&#xff0c;如果不收费的话就更好了&#xff1b; Typora 破解 其实一直点击15天试用也是可以一直用一直用的&#xff1b; 数学公式 在Markdown扩展语法这里要选一下&#xff0c;才可以使用行内数学公式&#xff1b; 行内公式 $f(x) 2x^25x3$&#xff…

500平左右需要用建筑模板多少张?

为了计算500平方米&#xff08;㎡&#xff09;的建筑面积需要多少张模板&#xff0c;我们首先需要知道每张模板的面积。你提供了两种尺寸的模板&#xff1a;915毫米 x 1830毫米 和 1220毫米 x 2440毫米。我们先将这些尺寸从毫米转换为米&#xff0c;然后计算每张模板的面积&…

springboot整合rabbitmq附源码

前提是对rabbitmq有一定的了解&#xff0c;比如虚拟主机&#xff0c;交换机&#xff0c;队列&#xff0c;信道&#xff0c;绑定&#xff0c;路由键&#xff0c;direct&#xff0c;fanout&#xff0c;topic等 我使用的是docker部署的rabbitmq&#xff0c;看到简书的这个&#x…

如何通过宝塔面板搭建一个MySQL数据库服务并实现无公网ip远程访问?

文章目录 前言1.Mysql服务安装2.创建数据库3.安装cpolar3.2 创建HTTP隧道 4.远程连接5.固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址 前言 宝塔面板的简易操作性,使得运维难度降低,简化了Linux命令行进行繁琐的配置,下面简单几步,通过宝塔面板cp…

WEB渗透—PHP反序列化(五)

Web渗透—PHP反序列化 课程学习分享&#xff08;课程非本人制作&#xff0c;仅提供学习分享&#xff09; 靶场下载地址&#xff1a;GitHub - mcc0624/php_ser_Class: php反序列化靶场课程&#xff0c;基于课程制作的靶场 课程地址&#xff1a;PHP反序列化漏洞学习_哔哩…