【论文精读】ViM: Out-Of-Distribution with Virtual-logit Matching 使用虚拟分对数匹配的分布外检测

文章目录

一、文章概览
- （一）问题来源
- （二）文章的主要工作
- （三）相关研究
二、动机：Logits 中缺失的信息
- （一）logits
- （三）基于零空间的 OOD 评分
- （四）基于主空间的 OOD 评分
- （五）NuSA 和 Residual的缺点
三、虚拟logit匹配
- （一）主子空间和残差
- （二）虚拟logit匹配
- （三）ViM 分数
- （四）与现有方法的连接
四、OpenImage-O 数据集
五、实验
- （一）实验设置
- （二）BiT实验结果
- （三）ViT实验结果
- （四）更多模型架构的实验结果
- （五）超参数的影响
- （六）分组效果
- （七）ViM的缺点

论文：CVPR 2022 | ViM：使用虚拟分对数匹配的分布外检测

一、文章概览

（一）问题来源

1、OOD检测基本概念
OOD检测问题是检验开放世界识别的一个基准问题。一个直观的例子如下图：一个对于螃蟹和猫的分类网络，可能会把从未见过的拍手（在训练集数据分布之外的测试样本，out-of-distribution sample）错分为螃蟹，把从未见过的狗错分为猫。OOD detection算法是用来判断输入数据是否属于已有训练集分布的方法。由此，深度神经网络不会受到从未学习过的种类的样本的干扰。
在这里插入图片描述
2、OOD检测器的核心：得分函数
OOD（Out-of-Distribution）检测器的核心是一个得分函数φ，它将输入特征x映射到R中的一个标量，表示样本有多大可能性是OOD。在测试中，决定一个阈值τ，以确保验证集至少保留一个给定的真阳性率（TPR），例如典型值0.95。如果φ(x) > τ，则将输入样本视为OOD，否则视为ID（即In-Distribution）。在某些情况下，如果需要一个表示ID的分数，我们可以将OOD得分取负作为ID得分。

通过寻找ID样本自然具有而OOD样本容易违反的属性可以设计相当多的得分函数：

（1）概率，如最大softmax概率、softmax与平均类别条件分布之间的最小KL散度；
（2）logit，如最大logit、logit的logsumexp函数；
（3）特征，如特征与其低维嵌入的原像之间的残差范数、特征与类别中心之间的最小马氏距离等。

3、提出问题
大多数现有的分布外 (OOD) 检测算法依赖于单一输入源：特征、logit 或 softmax 概率，这导致其无法应对分布多种多样的OOD样本：有些 OOD 样本在特征空间中很容易识别，但在 Logit 空间中很难区分，反之亦然。

在这里插入图片描述

（二）文章的主要工作

1、提出了名为Virtual-logit Matching (ViM) 的新型OOD检测方法

ViM得分是一种软max得分，但与传统的类别不同，它是为一个构造的虚拟OOD类别计算的。
这个虚拟OOD类别的logit（未经过softmax处理的分数）结合了类别无关的特征空间分数和分布内 (ID) 类别相关的logits分数。

2、为 ImageNet1K 创建了一个新的 OOD 数据集

目前大规模 ID 数据集干净且真实的 OOD 数据集的短缺成为该领域的障碍。
以前的 OOD 数据集是根据公共数据集整理的，这些数据集是通过预定义的标签列表收集的，例如 iNaturalist、Texture 和 ImageNet-21k。这可能会导致性能比较出现偏差，特别是小覆盖范围的可破解性
* 为了避免这种风险，文章根据具有自然类别分布的 OpenImage 数据集为 ImageNet-1K模型构建了一个新的 OOD 基准 OpenImage-O。它包含 17,632 个手动过滤的图像，比最近的 ImageNet-O 数据集大 7.8 倍。

3、进行了广泛的实验，包括 CNN 和视觉转换器，以证明所提出的 ViM 评分的有效性

（三）相关研究

OOD/ID 评分设计：

传统方法包括使用最大softmax概率、最大logit和KL匹配方法。
NuSA方法使用特征空间的null空间信息。
Residual方法利用特征空间的主空间偏差。

网络/损失设计：

一些方法通过重新设计训练损失或添加正则化项使网络对OOD更敏感。例如，DeVries等人增加了一个置信度估计分支，使用误分类的ID样本作为OOD样本代理。

OOD数据暴露：

利用辅助的OOD数据集（例如Outlier Exposure）来提升OOD检测性能。
生成对抗网络（GAN）生成接近ID样本的OOD样本，将其预测推向均匀分布

二、动机：Logits 中缺失的信息

一系列基于logits或softmax概率的OOD检测方法的性能是有限的。

基于特征的OOD分数（例如Mahalanobis和Residual）擅长检测ImageNet-O中的OOD，而所有基于logit/概率的方法都落后。
最先进的基于概率的方法 KL 匹配的 AUROC 仍然低于纹理数据集特征空间中直接设计的 OOD 分数。

（一）logits

1、原始logits
对于一个C类分类器模型，其logit分数为 $l=W^Tx+b$ ，预测概率为 $p (x) = so f t ma x (l)$ 。为推导方便，设置 $o:=-(W^T)^+b$ ，此时logit分数即为：
$l=W^Tx'=W^T(x-o)$

从几何角度来说，每个 logit $l_i$ 是特征 $x'$ 和类向量 $w_i$ （ $W$ 的第 $i$ 列）之间的内积。

2、虚拟logits

虚拟logits推广了普通logits的定义，将原来logits中的 $w_i$ 替换为子空间，从feature与 $w$ 向量的内积变为feature到某个子空间 $S$ 的投影长度。
为了让虚拟logits可以表示OOD信息，将子空间 $S$ 设定为所有训练样本特征构成的 $D$ 维主空间 $P$ 的正交补空间 $P^{\perp}$ 。这样在 $P^{\perp}$ 上投影越大，样本就越有可能是OOD。
为了让虚拟logits的范围与原来的logits尺度匹配，定义了 $\alpha$ 为匹配系数。
在新坐标系中，偏置项被安全地省略。

（三）基于零空间的 OOD 评分

将特征分解为 $x=x^{W\perp}+x^W$ ，其中 $x^{W\perp}$ 和 $x^W$ 分别是 $x$ 在 $W^\perp$ 和 $W$ 上的投影， $W^\perp$ 是 $W^T$ 的零空间，而 $W$ 是 $W$ 的列空间。 $x^{W\perp}$ 不影响分类，但是对于OOD检测有重要作用。

$NuSA(x)=\frac{\sqrt{||x||^2-||x^{W\perp}||^2}}{||x||}$

NuSA得分实际上是特征向量在主空间上的能量占总能量的比例。NuSA得分在0到1之间。当特征向量完全在主空间时，NuSA得分为1；当特征向量完全在零空间时，NuSA得分为0。OOD样本在零空间上的能量较大，因此其NuSA得分较低。

（四）基于主空间的 OOD 评分

低维流形 (Low-Dimensional Manifold) 是指数据或特征在高维空间中实际位于一个相对较低维度的子空间上。这一概念广泛应用于机器学习和数据分析中，特别是在降维、特征提取和异常检测等领域。

假设特征向量分布在一个低维流形上，并使用通过原点 $O$ 的线性子空间作为模型。定义主空间为由矩阵 $X^TX$ 的最大 $D$ 个特征值对应的特征向量所张成的 $D$ 维子空间 $P$ 。偏离主空间的特征可能是OOD样本。因此考虑计算特征与主空间的偏差：

$Residual(x)=||x^{P\perp}||$

（五）NuSA 和 Residual的缺点

与 logit/概率方法相比，NuSA 和 Residual 都不考虑特定于各个 ID 类的信息，即它们是类不可知的。因此，这些分数忽略了与每个 ID 类别的特征相似性，并且不知道输入最类似于哪个类别。

三、虚拟logit匹配

Logits 包含与类相关的信息，但特征空间中存在无法从 Logits 恢复的与类无关的信息。为了统一 OOD 检测的类不可知和类相关信息，提出了通过 Virtual-logit 匹配（缩写为 ViM）的 OOD 评分。

具体步骤包含三步，分别针对特征、logit和概率进行操作：

提取残差：提取输入特征 $x$ 相对于主子空间（即主要成分分析得到的低维子空间）的残差 $x^{P\perp}$ 。这意味着将输入特征分解为主成分和残差两部分。
转换为logit：通过将这些残差的均值匹配到训练样本中的平均最大logit，将残差转换为有效的logit。这一步的目的是使得残差能反映出与现有logit相当的概率信息。
计算softmax概率：计算这个虚拟OOD类别的softmax概率，这个概率即为ViM得分。

在这里插入图片描述

（一）主子空间和残差

首先，通过向量 $o=-(W^T)^+b$ 偏移特征空间，以便在 Logits 计算中无偏差： $l=W^Tx'=W^T(x-o)$ 。主子空间 P 由训练集 X 定义，其中行是原点为 o 的新坐标系中的特征。假设矩阵 $X^T X$ 的特征分解为
$X^TX=Q\Lambda Q^{-1}$
其中 $\Lambda$ 中的特征值按降序排序，则前 $D$ 列的跨度是 $D$ 维主子空间 $P$ 。残差 $x^{P⊥}$ 是 $x$ 在 $P^⊥$ 上的投影，设第 $(D + 1)$ 列到方程中 $Q$ 的最后一列为新矩阵 $R ∈ R^{N×(N−D)}$ ，则 $x^{P⊥}$ = $RR^T x$ 。

（二）虚拟logit匹配

虚拟logit是由每个模型常数 $α$ 重新调整的残差范数。

$l_0:=\alpha||x^{P\perp}||=\alpha\sqrt{x^TRR^Tx}$

范数“ $x^{P⊥}$ ”不能直接用作新的logit，因为后者的softmax将在logits的指数上进行归一化，因此对logits的尺度非常敏感。如果残差与最大 logit 相比非常小，那么经过 softmax 后，残差将被埋在 logit 的噪声中。所以作者定义 $\alpha$ 为匹配系数：

$\alpha:=\frac{\sum_{i=1}^Kmax_{j=1,..,C}\{l_j^i\}}{\sum_{i=1}^K||x_i^{P\perp}||}$

（三）ViM 分数

将虚拟 logit 附加到原始 logit 并计算 softmax。虚拟logit对应的概率定义为ViM。从数学上讲，设 $x$ 的第 $i$ 个 logit 为 $l_i$ ，则得分为

$ViM(x)=\frac{e^{\alpha \sqrt{x^TRR^Tx}}}{\sum_{i=1}^Ce^{l_i}+e^{\alpha \sqrt{x^TRR^Tx}}}$

（四）与现有方法的连接

对 $Vi M$ 分数应用一个单调递增函数： $t(x)=-\ln (\frac{1}{x}-1)$ ，可以得到一个等价的表达式：
$\alpha ||x^{P\perp}||-\ln \sum_{i=1}^Ce^{l_i}$

第一项是虚拟 logit，第二项是能量得分。

ViM 通过从特征中提供额外的剩余信息来完成能量方法。性能远优于能量和残差。

四、OpenImage-O 数据集

为 ID 数据集 ImageNet-1K 构建了一个名为 OpenImage-O 的新 OOD 数据集：

它是手动注释的，具有自然多样化的分布，并且具有17,632张图像的大规模。
它的构建是为了克服现有 OOD 基准的几个缺点。
OpenImage-O 是从 OpenImageV3 的测试集中逐图像选择的，包括从 Flickr 收集的 125,436 张图像，没有预定义的类名称或标签列表，从而实现自然的类统计并避免初始设计偏差。

1、图像级注释的必要性
过去的一些工作仅仅根据类别标签从其他数据集中选择部分数据来进行OOD检测。虽然类别级别的注释成本较低，但生成的数据集可能包含大量不符合预期的噪音。因此，简单地通过查询标签创建OOD数据集是不可靠的，需要对每个图像进行人工检查以确认其有效性。

2、小覆盖范围的可破解性
如果 OOD 数据集有一个中心主题，例如纹理，其分布不太多样化，那么它可能很容易被“黑客攻击”。

3、OpenImage-O 的构建过程
基于 OpenImage-v3 数据集构建 OpenImage-O：

对于测试集中的每张图像，我们让人工标注人员确定它是否是 OOD 样本。
为了辅助标记，我们将任务简化为将图像与 ImageNet-1K 分类模型预测的前 10 个类别区分开来，即，如果图像不属于这 10 个类别中的任何一个，则该图像为 OOD。
提供类别标签以及每个类别中与测试图像最相似的图像（通过特征空间中的余弦相似度来测量）以进行可视化。

为了进一步提高标注质量，我们设计了几种方案：

（1）如果标注者无法确定图像是否属于10个类别中的任何一个，则可以选择“困难”；
（2）每张图像由至少两个标注器独立标注，并取两者一致的OOD图像集；
（3）抽查检验，确保质量。

五、实验

（一）实验设置

模型：使用基于 CNN 和基于 Transformer 的模型对算法进行基准测试
ID数据集：ImageNet-1K
OOD 数据集：四个 OOD 数据集（表 1）用于对算法进行全面的基准测试。

OpenImage-O 是我们新收集的大规模 OOD 数据集。
Texture 由自然纹理图像组成，删除了与 ImageNet 重叠的四个类别（气泡状、蜂窝状、蜘蛛网状、螺旋状）。
iNaturalist是一个细粒度的物种分类数据集。
ImageNet-O 中的图像经过对抗性过滤，以便可以欺骗 OOD 检测器。

评估指标：AUROC、FPR95

（二）BiT实验结果

在 OpenImage-O、Texture 和 ImageNet-O 三个数据集上，ViM 实现了最大的 AUROC 和最小的 FPR95。 ViM 平均 AUROC 为 90.91%，比第二名高出 4.29%。平均FPR95也是其中最低的。
结果表明ViM在所有数据集上都明显优于Residual Score和Energy Score两种方法。这表明 ViM 非常规地结合了 Residual 和 Energy 中的 OOD 信息。
在 iNaturalist 上，ViM 仅排名第三。我们假设它在 iNaturalist 上的中等性能与残差中包含多少信息有关，因为 iNaturalist 在四个 OOD 数据集（iNaturalist 4.65、OpenImage-O 5.04、ImageNet-O 5.16 和 Texture 8.16）中具有最小的平均残差范数。

表中显示了有关信息源的有趣模式：

如果零空间中不存在特征变化，例如在依赖 logits 和 softmax 的方法中，Texture 和 ImageNetO 的性能就会受到限制。例如，在Texture数据集上，依赖logit和softmax的性能最好的方法是KL Matching，其AUROC为86.92%，远远落后于在特征空间上操作的ViM、Mahalanobis和Residual。相反，如果丢弃类相关信息（例如在 Residual 方法中），iNaturalist 和 OpenImage-O 中的性能也会受到限制。然而，无论数据集类型如何，建议的 ViM 评分都是合格的。

（三）ViT实验结果

ViT 模型的两种性能最好的方法是 ViM 和 Mahalanobis。他们的 AU-ROC 在所有四个数据集上都很接近。然而，马氏距离需要计算类的马氏距离，这使得其计算成本很高。相比之下，ViM方法轻量且快速。 ReAct、Energy、MaxLogit 和 ODIN 四种方法排名第二，其余三种方法的 AUROC 相对较低。
在这里插入图片描述

（四）更多模型架构的实验结果

我们展示了各种模型架构的更多结果。结果表明，ViM 对模型架构变化具有鲁棒性。
在这里插入图片描述

（五）超参数的影响

1、主空间的维度D
在这里插入图片描述

2、匹配参数 α ：控制不同 OOD 特征之间权衡的相对重要性

在这里插入图片描述

（六）分组效果

与利用了大规模语义空间中的分组结构的 MOS 进行比较： (1) MaxGroup是MSP的分组版本，它首先通过对组成类求和来获得分组概率，然后将最大分组概率作为ID分数。 (2) ViM+Group 也将最大组概率作为 ID 分数，只不过概率取自 (C + 1) 维向量，并额外有一个 ViM 虚拟类参与 softmax 归一化。 MaxGroup和ViM+Group是在BiT的预训练权重上进行评估的，而MOS需要使用基于组的学习来微调模型。结果显示：