Non-Contrastive Unsupervised Learning of Physiological Signals from Video

研究背景

基于相机的生命体评估是一个快速增长的领域，可以在各种设置中进行非接触式健康监测。虽然许多信号避免了人眼的检测，但可见光和红外范围内的视频数据包含由血量和呼吸等生理逻辑振荡引起的微妙强度变化。用于估计心脏脉搏的远程光电容积术（rPPG）利用监督深度学习进行强大的信号提取。虽然成功方法的数量迅速增加，但具有同步生命体记录的基准视频数据集的规模仍然相对停滞不前。

问题

强大的基于深度学习的方法需要对具有动态肤色、照明、相机传感器和运动的大量视频数据进行重新训练。然而，由于几个原因，使用接触式PPG或心电图（ECG）同时收集视频和生理信号是具有挑战性的。

首先，高质量视频是拥有很大的数据量的。
其次，在代表现实世界活动的条件下记录多样化的受试者群体在实验室环境中很难进行。
最后，将接触测量与视频同步在技术上具有挑战性，甚至用于真实生理信号的接触测量也包含噪音。

作者通过最近的工作发现，rPPG的对比学习是数据稀缺问题的有效的解决方案。作者将这一研究线扩展到非对比的无监督学习，以发现视频数据中的周期性信号。通过端到端的无监督学习进行训练比监督的方法对于数据集的要求简单得多，因为训练数据只需要视频，而不需要相关的标记信息。
在这项工作中表明，当回归rPPG信号时，非对比式无监督学习尤为简单。作者发现周期性的弱假设足以从未标记的面部视频中学习与血量脉搏相对应的微小视觉特征。损失函数可以在分批的频域中计算，而无需成对或三元组比较。
下图将作者提出的方法与监督方法和对比的无监督学习方法进行了比较。
方法比较

方法

Loss

对周期信号进行无监督学习的优点之一是可以有限地约束解空间。对于呼吸和血容量脉搏等生理信号，我们知道频率的正常上限和下限。并且还希望提取的信号在频域中是稀疏的。
Loss 部署的效果如下图所示：

Bandwidth Loss

作者表示可以对模型施加的最强大的约束之一是频带限制。过去的无监督方法使用不相关的功率比（IPR）作为模型选择的验证指标。作者发现它在模型训练期间也很有效。IPR 会惩罚模型生成超出所需带宽限制的信号。当带下限和上限分别为a和b时，带宽损失变为：
Bandwidth Loss

其中Fi是预定信号的第i个频率箱中的功率。这种简单的损失强制学习许多不变量，例如呼吸、说话或面部表情的运动，这些通常占据低频。在实验中，将限值指定为 a = 0.66 Hz 至 b = 3 Hz，这对应于从 40 bpm 到 180 bpm 的常见脉搏率范围。
其实这样看其实很容易理解这个损失函数，非常见脉搏范围的频率与完整频率箱的功率比值越小越好，说明学习到了心率相关特征。

Sparsity Loss

脉搏率是与血容量脉搏相关的最常见生理标志。由于作者对频率非常感兴趣，因此可以通过防止宽带预测来进一步改进模型。这也揭示了作者旨在通过忽略非强周期性动态来发现的真实信号。作者惩罚不接近光谱峰值的带限内的能量：
Sparsity Loss

其中 argmax（F）是频谱峰值的频率，并且\Delta F是峰值周围的频率填充。所有实验均以\delta F为6bpm。一般BVP信号的功率谱峰通常是较为集中的，不在功率谱峰附近的频率与完整频率箱的功率比值越小越好，说明学习到了心率相关特征。

Variance Loss

非对比学习的自监督学习会有一个问题：模型可能会坍缩到平凡解，作者选择方差损失就是在确保学习到的向量表示的每个维度都具有一定的方差，也就是某个维度，在该batch内的方差足够大（高于给定阈值（均匀先验分布P）），以此保证不同样本的向量表示是不同的，具有差异性。这样做可以显示避免向量表示，因其向量值趋近于0而坍缩到同一常数值。

作者使用的策略是将功率谱密度的方差分散到所需频段上的均匀分布。方差损失处理 d 频率上的均匀先验分布 P，以及一批 n 个频谱密度，F = [v1 ， …， vn ]，其中每个向量是预测波形的 d 维频率分解。作者计算批次 Q 的归一化密度和，并将方差损失定义为与均匀先验做平方 Wasserstein 差：
Variance Loss

其中 CDF 是累积分布函数。

Wasserstein距离有如下一些好处：

能够很自然地度量离散分布和连续分布之间的距离
不仅给出了距离的度量，而且给出如何把一个分布变换为另一分布的方案
能够连续地把一个分布变换为另一个分布，在此同时，能够保持分布自身的几何形态特征

Augmentations

作者在空间和时间维度上应用了多种增强，以学习噪声视觉信号的不变性。
Image Intensity Augmentations：随机高斯噪声被添加到剪辑中的每个像素位置，原始图像比例为 0 到 255，平均值为 0，标准差为 2。通过添加从平均值为 0 的高斯分布中采样的常数来增强照明，剪辑中每个像素的标准偏差为 10，这会使视频变暗或变亮。
Spatial Augmentations：以 50% 的概率随机水平翻转视频片段。剪辑的空间尺寸被随机方形裁剪到原始长度的一半和原始长度之间。然后将裁剪后的剪辑线性插值回原始尺寸。
Temporal Augmentations：一般假设所需信号具有强周期性且在傅里叶域中稀疏表示，我们以 50% 的概率沿时间维度随机翻转视频剪辑。请注意，时间反转正弦曲线的傅里叶分解与原始正弦曲线的傅里叶分解相同。
Frequency Augmentations：也许最重要的增强是频率重采样，其中视频被线性插值到不同的帧速率。这种增强对于 rPPG 来说特别有趣，因为它沿时间维度等效地变换视频输入和目标信号，使其等变。主要的方法如图所示：

频率增强