Non-Contrastive Unsupervised Learning of Physiological Signals from Video

研究背景

基于相机的生命体评估是一个快速增长的领域,可以在各种设置中进行非接触式健康监测。虽然许多信号避免了人眼的检测,但可见光和红外范围内的视频数据包含由血量和呼吸等生理逻辑振荡引起的微妙强度变化。用于估计心脏脉搏的远程光电容积术(rPPG)利用监督深度学习进行强大的信号提取。虽然成功方法的数量迅速增加,但具有同步生命体记录的基准视频数据集的规模仍然相对停滞不前。

问题

强大的基于深度学习的方法需要对具有动态肤色、照明、相机传感器和运动的大量视频数据进行重新训练。然而,由于几个原因,使用接触式PPG或心电图(ECG)同时收集视频和生理信号是具有挑战性的。

  1. 首先,高质量视频是拥有很大的数据量的。
  2. 其次,在代表现实世界活动的条件下记录多样化的受试者群体在实验室环境中很难进行。
  3. 最后,将接触测量与视频同步在技术上具有挑战性,甚至用于真实生理信号的接触测量也包含噪音。

作者通过最近的工作发现,rPPG的对比学习是数据稀缺问题的有效的解决方案。作者将这一研究线扩展到非对比的无监督学习,以发现视频数据中的周期性信号。通过端到端的无监督学习进行训练比监督的方法对于数据集的要求简单得多,因为训练数据只需要视频,而不需要相关的标记信息。
在这项工作中表明,当回归rPPG信号时,非对比式无监督学习尤为简单。作者发现周期性的弱假设足以从未标记的面部视频中学习与血量脉搏相对应的微小视觉特征。损失函数可以在分批的频域中计算,而无需成对或三元组比较。
下图将作者提出的方法与监督方法和对比的无监督学习方法进行了比较。
方法比较

方法

Loss

对周期信号进行无监督学习的优点之一是可以有限地约束解空间。对于呼吸和血容量脉搏等生理信号,我们知道频率的正常上限和下限。并且还希望提取的信号在频域中是稀疏的。
Loss 部署的效果如下图所示:

Bandwidth LossLoss

作者表示可以对模型施加的最强大的约束之一是频带限制。过去的无监督方法使用不相关的功率比(IPR)作为模型选择的验证指标。作者发现它在模型训练期间也很有效。IPR 会惩罚模型生成超出所需带宽限制的信号。当带下限和上限分别为a和b时,带宽损失变为:
Bandwidth Loss

其中Fi是预定信号的第i个频率箱中的功率。这种简单的损失强制学习许多不变量,例如呼吸、说话或面部表情的运动,这些通常占据低频。在实验中,将限值指定为 a = 0.66 Hz 至 b = 3 Hz,这对应于从 40 bpm 到 180 bpm 的常见脉搏率范围。
其实这样看其实很容易理解这个损失函数,非常见脉搏范围的频率与完整频率箱的功率比值越小越好,说明学习到了心率相关特征。

Sparsity Loss

脉搏率是与血容量脉搏相关的最常见生理标志。由于作者对频率非常感兴趣,因此可以通过防止宽带预测来进一步改进模型。这也揭示了作者旨在通过忽略非强周期性动态来发现的真实信号。作者惩罚不接近光谱峰值的带限内的能量:
Sparsity Loss

其中 argmax(F) 是频谱峰值的频率,并且\Delta F是峰值周围的频率填充。所有实验均以\delta F为6bpm。一般BVP信号的功率谱峰通常是较为集中的,不在功率谱峰附近的频率与完整频率箱的功率比值越小越好,说明学习到了心率相关特征。

Variance Loss

非对比学习的自监督学习会有一个问题:模型可能会坍缩到平凡解,作者选择方差损失就是在确保学习到的向量表示的每个维度都具有一定的方差,也就是某个维度,在该batch内的方差足够大(高于给定阈值(均匀先验分布P)),以此保证不同样本的向量表示是不同的,具有差异性。这样做可以显示避免向量表示,因其向量值趋近于0而坍缩到同一常数值。

作者使用的策略是将功率谱密度的方差分散到所需频段上的均匀分布。方差损失处理 d 频率上的均匀先验分布 P,以及一批 n 个频谱密度,F = [v1 , …, vn ],其中每个向量是预测波形的 d 维频率分解。作者计算批次 Q 的归一化密度和,并将方差损失定义为与均匀先验做平方 Wasserstein 差 :
Variance Loss

其中 CDF 是累积分布函数。

Wasserstein距离有如下一些好处:

  • 能够很自然地度量离散分布和连续分布之间的距离
  • 不仅给出了距离的度量,而且给出如何把一个分布变换为另一分布的方案
  • 能够连续地把一个分布变换为另一个分布,在此同时,能够保持分布自身的几何形态特征
Augmentations

作者在空间和时间维度上应用了多种增强,以学习噪声视觉信号的不变性。
Image Intensity Augmentations:随机高斯噪声被添加到剪辑中的每个像素位置,原始图像比例为 0 到 255,平均值为 0,标准差为 2。通过添加从平均值为 0 的高斯分布中采样的常数来增强照明,剪辑中每个像素的标准偏差为 10,这会使视频变暗或变亮。
Spatial Augmentations:以 50% 的概率随机水平翻转视频片段。剪辑的空间尺寸被随机方形裁剪到原始长度的一半和原始长度之间。然后将裁剪后的剪辑线性插值回原始尺寸。
Temporal Augmentations:一般假设所需信号具有强周期性且在傅里叶域中稀疏表示,我们以 50% 的概率沿时间维度随机翻转视频剪辑。请注意,时间反转正弦曲线的傅里叶分解与原始正弦曲线的傅里叶分解相同。
Frequency Augmentations:也许最重要的增强是频率重采样,其中视频被线性插值到不同的帧速率。这种增强对于 rPPG 来说特别有趣,因为它沿时间维度等效地变换视频输入和目标信号,使其等变。主要的方法如图所示:

频率增强

这是一个强大的增强方法,因为它允许增加目标分布以及视频输入。在我们的实验中,按系数 c 在0.6~1.4的均匀分布随机对输入片段进行重采样。在应用重采样增强后,作者将频带限制缩放 c,以避免在增强将基础脉冲频率推到原始带宽限制之外时对模型造成不利影响。

实验

实验
跨数据集实验

可视化
Loss的消融实验

总结

这篇论文提出了一种用于端到端无监督信号回归的非对比学习方法,并对面部视频的血容量脉搏估计进行了特定实验。该SiNC框架仅具有松散的频率约束即可有效地学习强大的视觉特征。通过使用非rPPG数据和简单损失函数训练准确的rPPG模型来证明这一点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/269714.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

外汇天眼:最新监管警告名单更新,远离以下无牌黑户!

监管信息早知道!外汇天眼将每周定期公布监管牌照状态发生变化的交易商,以供投资者参考,规避投资风险。如果平台天眼评分过高,建议投资者谨慎选择,因为在外汇天眼评分高不代表平台没问题! 以下是监管牌照发生…

到底是前端验证还是后端验证

背景 软件应用研发中, 前端验证还是后端验证这是意识与认知问题。鉴于某些入门同学还不清楚,我们再来看下: 一. 从软件行业来自国外 Q: 前端验证和后端验证都是对同一个数据的验证,有什么区别? A: 二者的目的不同&…

【网络安全】Log4j 远程代码执行漏洞解析

一、简介 Log4j2 是一个用于 Java 应用程序的成熟且功能强大的日志记录框架。 它是 Log4j 的升级版本,相比于 Log4j,Log4j2 在性能、可靠性和灵活性方面都有显著的改进。 二、特点 Log4j2 是一个功能强大且灵活的日志记录框架,旨在提供高…

基于深度学习的安全帽检测识别系统(含UI界面,yolov8、Python代码,数据集)

项目介绍 项目中所用到的算法模型和数据集等信息如下: 算法模型:     yolov8 yolov8主要包含以下几种创新:         1. 添加注意力机制(SE、CBAM等)         2. 修改可变形卷积(DySnake-主干c…

猫头虎分享2023年12月17日博客之星候选--城市赛道博主文章数据

猫头虎分享2023年12月17日博客之星候选–城市赛道博主文章数据 博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — 面试准备的宝典!《IDEA开…

一文搞懂设计模式之建造者模式

大家好,我是晴天,我们又见面了,这周我们继续学习一文搞懂设计模式系列,本周将一起学习建造者模式(生成器模式) 什么是建造者模式 建造者模式(也称为生成器模式)是一种创建型设计模式…

ov多域名证书可以保护几个域名

互联网上的站点大多遵循http明文传输协议传输数据,因此,网站在传输一些私人信息时很容易被劫持、篡改,在互联网日益普及的今天,信息安全显得尤为重要。SSL数字证书就是开发者用来保护网站信息安全的工具之一,它会为htt…

【源码】基于jsp+servlet+jdbc实现的学生管理系统

文章目录 系统介绍技术选型成果展示账号地址及源码获取 系统介绍 基于jspservletjdbc实现的学生管理系统分为管理员与学生两种角色,以下是权限说明 学生 查看/修改信息:查看/修改自己的用户信息 修改密码:修改自己的登录密码,…

LAMP集中式搭建+LNMP分布式搭建(新版)

LAMP搭建LNMP搭建 LAMP搭建LNMP搭建一、LAMP搭建(集中式)1、LAMP简介2、LAMP组件及作用3、编译安装Apache httpd服务4、编译安装mysqld 服务5、编译安装PHP解析环境6、安装论坛7、安装博客 二、LNMP搭建(分布式)1、LNMP工作原理2、安装nginx3、安装mysql4、安装php5、在浏览器测…

一文解读医疗评级 IT 基础设施灾备能力要求与 SmartX 超融合灾备解决方案(附用户实践与电子书)

近年来,电子病历系统应用水平分级评价(以下简称“电子病历评级”)和医院信息互联互通标准化成熟度测评(以下简称“互联互通评级”)正在成为国内医疗服务信息化建设的重要评价标准,各个省市都出台了明确的考…

效率必备神器

在这个快节奏的工作环境中,使用一些强大的工作软件来提高工作效率和组织工作流程变得异常重要。无论是个人任务管理还是团队协作,合适的工作软件都能极大地改善工作质量和生产力。让我们深入了解一些我个人强力推荐的工作软件,希望能给你带来…

年终盘点文生图的狂飙之路,2023年文生图卷到什么程度了?

目录 前言发展1月2月3月4月5月6月7月9月10月11月12月 思考与总结参考文献 前言 说到文生图,可能有些人不清楚,但要说AI绘画,就有很多人直呼: 2022可以说是AI绘图大爆发的元年。 AI绘画模型可以分为扩散模型(Diffusio…

基于SSM框架的音乐产品购物网站的设计与实现论文

目 录 目 录 I 摘 要 III ABSTRACT IV 1 绪论 1 1.1 课题背景 1 1.2 研究现状 1 1.3 研究内容 2 2 系统开发环境 3 2.1 vue技术 3 2.2 JAVA技术 3 2.3 MYSQL数据库 3 2.4 B/S结构 4 2.5 SSM框架技术 4 3 系统分析 5 3.1 可行性分析 5 3.1.1 技术可行性 5 3.1.2 操作可行性 5 3…

vscode不同代码的项目分配不同的工作区

vscode不同代码的项目分配不同的工作区 很多时候我们很多项目都需要使用vscode来进行编写代码,像我个人会拿vscode写python,linux远程写代码,前端和stm32的编辑器,这些项目都有自己的插件,如果我们启动某一个项目&…

Kafka设计原理详解

Kafka核心总控制器 (Controller) 在Kafka集群中,通常会有一个或多个broker,其中一个会被选举为控制器 (Kafka Controller),其主要职责是管理整个集群中所有分区和副本的状态。具体来说: 当某个分区的leader副本出现故障时&#…

基本的逻辑门

前言 本篇文章介绍基本的逻辑门,然后给出C语言描述 逻辑门是在集成电路上的基本组件。简单的逻辑门可由晶体管组成。这些晶体管的组合可以使代表两种信号的高低电平在通过它们之后产生高电平或者低电平的信号。高、低电平可以分别代表逻辑上的“真”与“假”或二进…

中非经济贸易工作委员会在深圳挂牌启动

12月中旬,中非经济贸易工作委员会在广东深圳举办主题为“中流砥柱•非凡湾区”的2023中非经济贸易大湾区论坛。中非经济贸易工作委员会在深圳正式挂牌启动,开创了粤港澳大湾区中非贸易高质量发展新格局。 十年“一带一路”建设硕果累累,中非经…

vue3实现本地开发使用的px转换成vw,px转换成rem方法整理

前言: 项目中如果想本地开发使用px,但是界面上线以后界面是自适应的效果,可以有多种方式来实现效果。 一、px转成vw 1、安装,安装成功后,node_modules 会新增这两个插件包 npm i postcss-px-to-viewport-8-plugin 2、新增 post…

微信小程序预览pdf,修改pdf文件名

记录微信小程序预览pdf文件,修改pdf名字安卓和ios都可用。 1.安卓和苹果的效果 2.需要用到的api 1.wx.downloadFile wx.downloadFile 下载文件资源到本地。客户端直接发起一个 HTTPS GET 请求,返回文件的本地临时路径 (本地路径),单次下载…

新能源重型卡车,2025年将达275亿美元

随着新能源汽车的推出,重型卡车市场正在经历重大变革。近年来,由于对可持续交通的需求不断增加以及向环保替代品的转变,新能源重型卡车市场的增长非常显着。本次分析将考察全球和中国新能源重型卡车市场的发展趋势。 在全球范围内&#xff…