TokenCut:使用自监督 Transformer 和正则化剪切对图像和视频中的目标进行分割
作者:Yangtao Wang, Xi Shen, Yuan Yuan, Yuming Du, Maomao Li, Shell Xu Hu, James L. Crowley, Dominique Vaufreydaz
摘要
在本文中,我们描述了一种基于图的算法,该算法使用自监督变换器获得的特征来检测和分割图像和视频中的显著对象。通过这种方法,组成图像或视频的图像块被组织成一个完全连通的图,其中每对块之间的边缘都根据变换器学习到的特征用相似度分数标记。然后可以将显著对象的检测和分割表述为图切割问题,并使用经典的正则化切割算法进行求解。尽管这种方法很简单,但它在几个常见的图像和视频检测和分割任务上取得了最先进的结果。对于无监督目标发现,在使用 VOC07、VOC12 和 COCO20 K 数据集进行测试时,这种方法比其他方法分别高出 6.1%、5.7% 和 2.6%。对于图像中的无监督显著性检测任务,该方法将交集比并集 (IoU) 的得分提高了 4.4%、5.6% 和 5.2%。在使用 ECSSD、DUTS 和 DUT-OMRON 数据集进行测试时。该方法还在使用 DAVIS、SegTV2 和 FBMS 数据集的无监督视频物体分割任务中取得了具有竞争力的结果。
关键字
无监督目标发现、无监督显著性检测、无监督视频物体分割、自监督变换器、归一化切割。
引言
检测和分割图像或视频中的显著物体是计算机视觉的基本问题,可应用于机器人、自动驾驶、交通监控、制造和具身人工智能等现实世界的视觉系统 [1]、[2]、[3]。然而,目前的方法依赖于监督学习,需要大量高质量的带注释的训练数据 [4]。当使用迁移学习将预训练的对象检测器适配到新的应用领域时,这种方法的高成本就变得更加明显。研究人员试图通过主动学习 [5]、[6]、半监督学习 [7]、[8] 和弱监督学习 [9]、[10] 来克服这一障碍,但收效甚微。在本文中,我们报告了使用经过自监督学习训练的 Transformer 提供的特征的结果,从而无需昂贵的带注释的训练数据。
经过自监督学习[11]、[12]训练的视觉转换器,例如 DINO [12] 和 MAE [13]、[14]、[15],已被证明在下游任务上的表现优于监督训练。特别是,与补丁相关的注意力图通常包含有意义的语义信息(图 1(a))。例如,使用 DINO [12] 的实验表明,类标记的注意力图突出显示了显着的对象区域。然而,这样的注意力图很嘈杂,不能直接用于检测或分割对象。
LOST [16] 的作者已经证明,从 DINO 中学习到的特征可用于构建图形并使用节点的逆度来分割对象。具体而言,LOST 采用启发式种子扩展策略来适应噪声并检测前景对象的单个边界框。我们研究了是否可以将这些学习到的特征与基于图形的方法来检测和分割图像和视频中的显着对象(图 1(b)),使用经典的正则化切割算法 (Ncut) [17] 来制定分割问题。
在本文中,我们描述了 TokenCut,这是一种基于图的统一方法,使用自监督学习提供的特征进行图像和视频分割。该方法的处理流程如图 2 所示,由三个步骤组成:1) 图构建、2) 图切割、3) 边缘细化。在图构建步骤中,该算法使用图像块作为节点,并使用自监督学习提供的特征来描述节点对之间的相似性。对于图像,根据学习到的 RGB 外观特征,用块相似度的分数标记边缘。对于视频,边缘标签结合了学习到的 RGB 外观特征和光流的相似性。
为了切割图形,我们依靠经典的正则化切割(Ncut)算法对自相似区域进行分组并划定显著对象。我们使用具有广义特征分解的谱聚类来解决图形切割问题。第二小的特征向量提供了一个切割解决方案,表明标记属于前景对象的可能性,这使我们能够设计一个简单的后处理步骤来获得前景蒙版。我们还表明,可以使用边缘感知细化的标准算法(例如条件随机场 [18] (CRF) 和双边求解器 [19] (BS))来细化蒙版以进行详细的对象边界检测。这种方法可以被视为一种运行时自适应方法,因为该模型可用于处理图像或视频,而无需重新训练模型。
尽管 TokenCut 很简单,但它显著提高了图像中的无监督显着性检测。具体来说,它在 ECSSD [20]、DUTS [21] 和 DUT-OMRON [22] 上分别实现了 77.7%、62.8% 和 61.9% 的 mIoU,并且比之前的最先进水平高出 4.4%、5.6% 和 5.2%。对于无监督视频分割,TokenCut 在 DAVIS [23]、FBMS [24]、SegTV2 [25] 上取得了有竞争力的结果。此外,TokenCut 在无监督对象发现方面也取得了重要改进。例如,TokenCut 在 VOC07 [27]、VOC12 [28]、COCO20K [4] 上的表现分别比并发工作 DSS [26] 好 6.1%、5.7% 和 2.6%。
综上所述,本文的主要贡献如下:
- 我们描述了 TokenCut,这是一种简单而统一的方法,用于分割图像和视频中的对象,不需要人工注释进行训练。
- 我们表明,TokenCut明显优于以前最先进的方法,即无监督显着性检测和无监督图像对象发现。作为一种无需训练的方法,与最先进的方法相比,TokenCut在无监督视频分割方面实现了具有竞争力的性能。
- 我们对 TokenCut 进行了详细分析,以验证所提出方法的设计。
方法
在本节中,我们介绍了一种统一算法 TokenCut,可用于分割图像中的显著对象或视频中的移动对象。我们的方法如图 2 所示,基于一个图,其中节点是来自图像或帧序列的视觉块,边缘是基于使用自监督学习训练的视觉转换器提供的特征的节点特征之间的相似性。
A. 背景
1)视觉变换器:视觉变换器已在 [11] 中提出。其关键思想是使用变换器 [29] 架构处理图像,使用不重叠的补丁作为标记。对于大小为 H × W H \times W H×W 的图像,视觉变换器将不重叠的 K × K K \times K K×K 图像补丁作为输入,得到 N = H W / K 2 N = HW/K^2 N=HW/K2 个补丁。每个补丁都用作一个标记,由提供嵌入的数值特征向量描述。一个额外的可学习标记(表示为类标记 C L S CLS CLS)用于表示整个补丁集的聚合信息。将位置编码添加到 C L S CLS CLS 标记和补丁标记集,并将生成的向量馈送到具有自注意 [29] 和层规范化 [61] 的标准视觉变换器。
Vision Transformer 由多层堆叠的编码器层组成,每层都具有前馈网络和多个用于自注意力的注意力头,并与跳跃连接并行。对于 TokenCut 算法,我们使用 Vision Transformer,通过自监督学习进行训练。我们从最后一层提取潜在特征作为 TokenCut 的输入特征。
2)正则化割点(Ncut)。图分割:给定一个图
G
=
(
V
,
E
)
\mathcal{G} = (\mathcal{V, E})
G=(V,E) ,其中
V
\mathcal{V}
V 和
E
\mathcal{E}
E 分别是节点和边的集合。
E
\mathbf{E}
E 是相似度矩阵,
E
i
,
j
\mathbf{E}_{i,j}
Ei,j 是
i
i
i 节点
v
i
v_i
vi 和第
j
j
j 个节点
v
j
v_j
vj 之间的边。Ncut [17] 被提出来将图划分为两个不相交的集合
A
\mathcal{A}
A 和
B
\mathcal{B}
B。与标准图割点不同,Ncut 标准既考虑了
A
\mathcal{A}
A 和
B
\mathcal{B}
B 之间的总不相似度,也考虑了
A
\mathcal{A}
A 和
B
\mathcal{B}
B 之间的总相似度。确切地说,我们寻求最小化 Ncut 能量 [17]。
C
(
A
,
B
)
C
(
A
,
V
)
+
C
(
A
,
B
)
C
(
B
,
V
)
,
(1)
\frac{C(\mathcal{A,B})}{C(\mathcal{A,V})} + \frac{C(\mathcal{A,B})}{C(\mathcal{B,V})}, \tag{1}
C(A,V)C(A,B)+C(B,V)C(A,B),(1)
其中
C
C
C 测量两个集合之间的相似度。
C
(
A
,
B
)
=
∑
v
i
∈
A
,
v
j
∈
B
E
i
,
j
C(\mathcal{A,B}) = {\sum}_{v_i \in \mathcal{A}, v_j \in \mathcal{B}}\mathbf{E}_{i,j}
C(A,B)=∑vi∈A,vj∈BEi,j 且
C
(
A
,
V
)
C(\mathcal{A,V})
C(A,V) 是从
A
\mathcal{A}
A 中的节点到图中所有节点的总连接。
如[17]所示,(1)式优化问题的等价形式可以表示为
m
i
n
x
E
(
x
)
=
m
i
n
y
y
T
(
D
−
E
)
y
y
T
D
y
,
(2)
min_xE(x) = min_y \frac{y^T(\mathbf{D-E})y}{y^T\mathbf{D}y}, \tag{2}
minxE(x)=minyyTDyyT(D−E)y,(2)
条件为 y ∈ { 1 , − b } N y \in \{1, -b\}^N y∈{1,−b}N,其中 b b b 满足 y T D 1 = 0 y^T\mathbf{D1} = 0 yTD1=0,其中 D \mathbf{D} D 是一个对角矩阵,其对角线上有 d i = ∑ j E i , j d_i = \sum_j \mathbf{E}_{i,j} di=∑jEi,j。
放宽约束的 Ncut 解:取
z
=
D
1
2
y
z = \mathbf{D}^{\frac{1}{2}}y
z=D21y,(2)可改写为
m
i
n
z
z
T
D
−
1
2
(
D
−
E
)
D
−
1
2
z
z
T
z
.
(3)
min_z \frac{z^T\mathbf{D}^{-\frac{1}{2}}(\mathbf{D-E})\mathbf{D}^{-\frac{1}{2}}z}{z^Tz}. \tag{3}
minzzTzzTD−21(D−E)D−21z.(3)
在 [17] 中指出,(3) 中的公式等价于Rayleigh quotient [62],相当于求解
D
−
1
2
(
D
−
E
)
D
−
1
2
z
=
λ
z
\mathbf{D}^{-\frac{1}{2}}(\mathbf{D-E})\mathbf{D}^{-\frac{1}{2}}z = \lambda z
D−21(D−E)D−21z=λz,其中
D
−
e
\mathbf{D-e}
D−e 是拉普拉斯矩阵,已知为半正定矩阵 [63]。因此,
z
0
=
D
1
2
1
z_0 = \mathbf{D}^{\frac{1}{2}}\mathbf{1}
z0=D211 是与最小特征值
λ
=
0
\lambda = 0
λ=0 相关的特征向量。根据瑞利商 [62],第二小特征向量
z
1
z_1
z1 与最小特征向量 (
z
0
z_0
z0) 垂直,可用于最小化 (3) 中的能量,
z
1
=
a
r
g
m
i
n
z
T
z
0
z
T
D
−
1
2
(
D
−
E
)
D
−
1
2
z
z
T
z
z_1 = argmin_{z^Tz_0} \frac{z^T\mathbf{D}^{-\frac{1}{2}}(\mathbf{D-E})\mathbf{D}^{-\frac{1}{2}}z}{z^Tz}
z1=argminzTz0zTzzTD−21(D−E)D−21z
取
z
=
D
1
2
y
z= \mathbf{D}^{\frac{1}{2}}y
z=D21y,
y
1
=
a
r
g
m
i
n
y
T
D
1
=
0
y
T
(
D
−
E
)
y
y
T
D
y
.
y_1 = argmin_{y^T\mathbf{D1} = 0}\frac{y^T(\mathbf{D-E})y}{y^T\mathbf{D}y}.
y1=argminyTD1=0yTDyyT(D−E)y.
因此,广义特征系统
(
D
−
E
)
y
=
λ
D
y
(\mathbf{D-E})y = \lambda \mathbf{D}_y
(D−E)y=λDy 的第二最小特征向量为实值,为 Ncut [17] 问题提供了解。
B.TokenCut 算法
TokenCut 算法由三个步骤组成:(a) 图形构建,(b) 图形切割,© 边缘细化。该算法的概述如图 2 所示。
1)图构造:图像图:如第 III-A2 节所述,TokenCut 在完全连通的无向图
G
=
(
V
,
E
)
\mathcal{G = (V, E)}
G=(V,E) 上运行,其中
v
i
v_i
vi 表示节点
v
i
v_i
vi 的特征向量。每个补丁通过标记的边
E
\mathcal{E}
E 链接到其他补丁。边标签表示相似度得分
S
S
S。
E
i
,
j
=
{
1
,
i
f
S
(
v
i
,
v
j
)
≥
τ
ϵ
,
e
l
s
e
,
(4)
\mathcal{E}_{i, j} = \left \{ \begin{array}{rcl} 1,& if \ S(v_i, v_j) \geq \tau \\ \epsilon,& else \end{array} \right. , \tag{4}
Ei,j={1,ϵ,if S(vi,vj)≥τelse,(4)
其中 τ \tau τ 是超参数, S ( v i , v j ) = v i v j ∣ ∣ v i ∣ ∣ 2 ∣ ∣ v j ∣ ∣ 2 S(v_i, v_j) = \frac{v_iv_j}{||v_i||_2||v_j||_2} S(vi,vj)=∣∣vi∣∣2∣∣vj∣∣2vivj 是特征之间的余弦相似度。 ϵ \epsilon ϵ 是一个较小的值 1 0 − 5 10^{-5} 10−5,以确保完全连通图。请注意,空间位置信息已隐式包含在特征中,这是通过 Transformer 中的位置编码实现的。
视频图:与图像一样,视频以完全连通图的形式呈现,其中节点
V
\mathcal{V}
V 是视觉块,边
E
\mathcal{E}
E 标有块之间的相似性。然而,对于视频,相似度包括基于 RGB 外观和连续帧之间计算的光流的 RGB 表示的得分 [64]。该算法使用视觉变换器提取特征向量序列,如第 III-A1 节所述。让
v
i
I
v^I_i
viI 和
v
i
F
v^F_i
viF 分别表示第
i
i
i 个图像块和流块的特征。边缘用图像特征和流特征之间的相似度的平均值标记,表示为
E
i
,
j
=
{
1
,
i
f
S
(
v
i
I
,
v
j
I
)
+
S
(
v
i
F
,
v
j
F
)
2
≥
τ
ϵ
,
e
l
s
e
.
(5)
\mathcal{E}_{i, j} = \left \{ \begin{array}{rcl} 1,& if \ \frac{S(v^I_i, v^I_j)+S(v^F_i, v^F_j)}{2} \geq \tau \\ \epsilon,& else \end{array} \right. . \tag{5}
Ei,j={1,ϵ,if 2S(viI,vjI)+S(viF,vjF)≥τelse.(5)
图像特征使用外观提供分割,而流特征则侧重于使用运动进行分割。
2)图切割:Ncut 算法用于对全连接图进行分割。Ncut 计算广义特征系统的第二小特征向量,如第 III-A2 节所述,以突出显示显著对象。我们将此特征向量称为“特征注意”的度量,并在第 IV 节中提供此向量提供的注意图的可视化。TokenCut 使用特征注意对图进行二分,确定哪个分区属于前景,然后确定属于每个对象区域的节点。
对图进行二分:为了将节点划分为两个不相交的集合,TokenCut 使用第二小的特征向量的平均值来切割图 y 1 ˉ = 1 N ∑ i y 1 i \bar{y_1} = \frac{1}{N}\sum_iy^i_1 y1ˉ=N1∑iy1i。正式来说, A = { v i ∣ y 1 i ≤ y 1 ˉ } \mathcal{A}=\{v_i | y^i_1 \leq \bar{y_1}\} A={vi∣y1i≤y1ˉ} 和 B = { y 1 i > y 1 ˉ } \mathcal{B} = \{y^i_1 > \bar{y_1}\} B={y1i>y1ˉ}。请注意,我们还探索了使用经典聚类算法(例如 K-means 和 EM)将第二小的特征向量聚类为 2 个分区。比较结果见第 IV-D 节。我们的实验表明,平均值通常能提供更好的结果。
前景确定:给定两个不相交的节点集,TokenCut 选择绝对值 v m a x v_{max} vmax 最大的分区作为前景。直观地看,前景对象应该是显著的,因此与整个图的连接较少。换句话说,如果 v i v_i vi 属于前景,而 v j v_j vj 是背景标记,则 d i < d j d_i < d_j di<dj。因此,前景对象的特征向量应该比背景区域具有更大的绝对值。
选择对象:在图像中,我们感兴趣的是分割单个对象。但是,前景可以包含多个显着对象区域。TokenCut 选择前景中包含最大绝对值 v m a x v_{max} vmax 的连通分量作为检测到的对象。在视频中,由于目标是根据运动和外观分割对象,因此 TokenCut 将整个前景区域作为最终输出。
- 边缘细化:由于 Transformer 块的尺寸较大,图切割算法会提供对象区域的粗掩模。使用标准边缘细化技术可以轻松细化此类掩模的边界。我们在获得的粗掩模之上尝试了现成的边缘感知后处理技术,例如双边求解器 [19] (BS)、条件随机场 [18] (CRF),以生成更精确的掩模边界。我们发现 CRF 通常能提供最佳结果。
实施细节:对于我们的实验,我们使用经过自蒸馏损失 (DINO) [12] 训练的 ViT-S/16 模型 [11] 来提取补丁的特征。按照 [16],我们使用最后一层的关键特征作为输入特征 v v v。表 V 提供了不同特征和 ViT 主干上的消融。我们对所有图像数据集设置 τ = 0.2 \tau = 0.2 τ=0.2,对视频数据集设置 τ = 0.3 \tau = 0.3 τ=0.3。第 IV-D 节讨论了 τ \tau τ 的选择。在运行时间方面,我们的实现使用单个 GPU QUADRO RTX 8000 大约需要 0.32 秒才能在分辨率为 480 × 480 的单个图像中检测显着对象区域的边界框。从 20 帧分辨率为 320 x 576 的视频中获得粗略蒙版,平均需要 30 秒,标准偏差约为 4.5 秒。边缘细化平均需要额外的 16.4 秒,标准差为 1.4 秒。与单帧图一样,同一视频平均需要 0.93 秒才能获得所有帧的标准差为 0.17 的粗掩模。后处理步骤花费 16.1 秒,标准差为 1.4。对于 n n n 个标记,构建此类图的算法复杂度为 O ( n 2 ) O(n^2) O(n2)。因此,平均处理时间随着视频中帧数的平方而增长。
为了生成光流,我们使用两种不同的方法:RAFT [70] 和 ARFlow [71]。第一种方法是监督式的,第二种是自监督式的。我们以图像对的原始分辨率提取光流,对于 DAVIS [23] 和 SegTV2 [25] 数据集,帧间隙 n = 1 n=1 n=1。对于 FBMS [24],我们使用 n = 3 n = 3 n=3 来补偿慢得多的运动速率。这提高了光流质量,因为使用现成的方法很难检测到小像素级运动。使用标准的光流可视化技术 [64],将光流特征编码为 RGB 值。这使我们能够直接使用预先训练的自监督转换器,并将光流编码为 RGB。由于可用计算资源的限制,我们在 DAVIS 数据集上构建了最多 90 帧的视频图。对于长度超过 90 帧的视频,可以使用不重叠的子图来聚合结果,最大视频帧数为 90。
实验
A.无监督单目标发现
数据集:TokenCut 已在三个常用的无监督单对象发现基准上进行了评估:VOC07 [27]、VOC12 [28] 和 COCO20 K [4]、[43]。VOC07 和 VOC12 分别包含 5011 张和 11,540 张图像,属于 20 个类别。COCO20 K 由从 COCO2014 数据集中随机选择的 19,817 张图像组成 [4]。VOC07 和 VOC12 通常用于评估无监督对象发现 [41]、[42]、[43]、[44]、[69]。COCO20 K 是用于大规模评估的流行基准 [43]。
评估指标:与先前的研究 [41]、[42]、[43]、[44]、[69]、[73]、[74] 一致,我们使用 CorLoc 指标报告精确定位的性能。我们对每幅图像使用一个预测边界框。对于目标图像,如果预测边界框和地面真实边界框之间的交并比 (IoU) 得分高于 0.5,则 CorLoc 为 1.0。
定量结果:我们在 VOC07、VOC12 和 COCO20 K 数据集上将 CorLoc 得分与之前最先进的单对象发现方法 [16]、[43]、[44]、[65]、[66]、[67]、[68]、[69] 进行了比较。根据模型是使用整个数据集的信息还是探索图像间相似性,这些方法可以大致分为两类。由于图像间区域比较的二次复杂度,具有图像间相似性的模型通常难以扩展到更大的数据集。选择性搜索 [65]、边缘框 [66]、LOST [16] 和 TokenCut 不需要图像间相似性,因此效率更高。如表一所示,TokenCut 在所有数据集上的表现始终远超所有以前的方法。具体来说,使用相同的 ViT-S/16 特征,TokenCut 对 VOC07、VOC12 和 COCO20 K 的性能分别比 DSS [26] 高出 6.1%、5.7% 和 2.6%。
我们还列出了一组结果,其中包括使用第二阶段无监督训练策略来提高性能。这被称为类不可知检测 (CAD),并在 LOST [16] 中提出。为此,我们首先对第一阶段单对象发现模型生成的所有框计算 K 均值,以获得边界框的伪标签。然后在伪标签上训练经典的 Faster RCNN [75]。如表 I 所示,带有 CAD 的 TokenCut 在 VOC07、VOC12 和 COCO20 k 上分别比最先进的方法高出 5.7%、4.9% 和 5.1%。
定性结果:在图 3 中,我们为 LOST [16]、DSS [26] 和 TokenCut.2 提供了可视化效果。对于每种方法,我们都可视化了用于执行对象检测的热图。对于 LOST,检测主要基于逆度图 (
1
d
i
\frac{1}{d_i}
di1)。对于 DSS,热图是与第二个特征向量相关的注意图。对于 TokenCut,我们显示第二小的特征向量。视觉结果表明,TokenCut 可以为显著对象提取高质量的分割。与 LOST 和 DSS 相比,TokenCut 能够提取更完整的分割,如图 3 中的第一个和第二个样本所示。在其他情况下,当 LOST 和 DSS 无法检测到大物体时,TokenCut 可以正确检测该物体。在图 3 中的第三和第四个样本中可以看到这方面的例子。
网络图像:我们进一步在网络图像上测试了 TokenCut。3 结果如图 5 所示。可以看出,即使输入图像的背景很嘈杂,TokenCut 也能提供精确的注意力图来覆盖对象并准确预测边界框,证明了该方法的稳健性。
B.无监督显著性检测
数据集:我们使用三个数据集验证了 TokenCut 在无监督显着性检测方面的性能:扩展复杂场景显着性数据集 (ECSSD) [20]、DUTS [21] 和 DUT-OMRON [22]。ECSSD 包含 1 000 张用于测试的复杂场景真实图像。DUTS 包含 10 553 张训练图像和 5 019 张测试图像。训练集是从 ImageNet 检测训练/验证集中收集的。测试集是从 ImageNet 测试和 SUN 数据集 [76] 收集的。根据之前的研究 [72],我们报告了 DUTS 测试子集上的性能。DUT-OMRON [22] 包含 5 168 张高质量自然图像用于测试。
评估指标:我们使用三个标准指标报告结果:F 度量、IoU 和准确率。F 度量是显着性检测的标准度量,计算方式为 F β = ( 1 + β 2 ) P r e c i s i o n × R e c a l l β 2 P r e c i s i o n + R e c a l l F_{\beta} = \frac{(1+\beta^2)Precision \times Recall}{\beta^2Precision + Recall} Fβ=β2Precision+Recall(1+β2)Precision×Recall ,其中准确率和召回率使用二值化预测掩码和地面实况掩码定义。最大 F β F_\beta Fβ 是 255 个均匀分布的二值化阈值的最大值。根据先前的研究 [53]、[72],我们设置 β = 0.3 \beta = 0.3 β=0.3 以保持一致性。IoU(并集交集)分数是根据二元预测掩码和地面实况计算的,阈值设置为 0.5。准确率衡量已正确分配给对象/背景的像素比例。对于掩码,二值化阈值设置为 0.5。
结果:定性结果如表 II 所示。TokenCut 的表现明显优于之前最先进的方法。添加 BS [19] 或 CRF [18] 可以细化对象的边界并进一步提高 TokenCut 的性能,如图 4 所示的视觉结果所示。
C.无监督视频分割
数据集:我们使用三个常用的无监督视频分割数据集进一步评估 TokenCut:DAVIS [23]、FBMS [24] 和 SegTV2 [25]。DAVIS 包含 50 个高分辨率实景视频,其中 30 个用于训练,20 个用于验证。每帧都为场景中的主要移动对象描绘了像素级注释。FBMS 由 59 个多移动对象视频组成,提供 30 个视频用于测试,总共 720 个注释帧。SegTV2 包含 14 个用于多对象分割的全像素级注释视频。按照 [58],我们将所有移动对象的注释融合到 FBMS 和 SegTV2 数据集上的单个掩码中,以进行公平比较。
评估指标:我们使用 Jaccard 指数报告性能。Jaccard 指数测量输出分割 M 与对应的真实掩码 G 之间的并集,其公式为 J = ∣ M ⋂ G ∣ ∣ M ⋃ G ∣ \mathcal{J} = \frac{|M \bigcap G|}{|M \bigcup G|} J=∣M⋃G∣∣M⋂G∣。
结果:我们将 TokenCut 与表 III 中最先进的无监督视频分割结果进行比较。TokenCut 在该任务中取得了有竞争力的表现。请注意,DyStaB [59] 必须在整个 DAVIS 训练集上进行训练,并使用预训练模型对 FBMS 和 SegTV2 数据集进行评估。DeSprite[60] 学习自动编码器模型来优化每个单独的视频。相比之下,TokenCut 不需要训练并且可以很好地推广到所有三个数据集。视觉结果如图 6 所示,即使在具有挑战性的遮挡情况下,TokenCut 也可以精确地分割移动物体。添加 CRF 作为后处理进一步改善了分割区域的边界。
D. 分析
τ
\tau
τ 的影响:在表 IV 中,我们对 (4) 中定义的
τ
\tau
τ 进行了分析。结果表明,
τ
\tau
τ 值变化的影响并不显著,对于图像输入,合适的阈值为
τ
=
0.2
\tau=0.2
τ=0.2,对于视频输入,合适的阈值为
τ
=
0.3
\tau=0.3
τ=0.3。
主干:在表 V 中,我们提供了具有不同 transformer 主干的消融研究。“-S”和“-B”分别是 ViT small [11], [12] 和 ViT base [11], [12] 架构。“-16”和“-8”分别代表补丁大小 16 和 8。“DeiT”是预先训练的监督 transformer 模型。“MoCoV3”[30] 和“MAE”[13] 是预先训练的自监督 transformer 模型。我们针对不同的主干优化了
τ
\tau
τ:对于 MoCov3 和 MAE,
τ
\tau
τ 设置为 0.3,而对于 DINO 和 DeiT,
τ
\tau
τ 设置为 0.2。可以发现几个见解:1) TokenCut 不适用于监督 transformer 模型,而自监督 transformer 提供了更强大的功能,允许使用 TokenCut 完成任务。 2) 由于 LOST [16] 依赖于启发式种子扩展策略,因此使用不同的主干时性能会有很大差异。而我们的方法更加稳健。此外,由于 TokenCut 不需要训练,因此对于自监督的 transformers 来说,这可能是一个更直接的评估。
二分策略:在表 VI 中,我们研究了使用第二小的特征向量将节点分成两组的不同策略。我们考虑了三种自然方法:均值 (Mean)、期望最大化 (EM)、K 均值聚类 (K-means)。我们还尝试根据最佳 Ncut 能量 (1) 来搜索分裂点。请注意,由于二次复杂度,这种方法在计算上很昂贵。结果表明,简单的平均值作为分裂点在大多数情况下表现良好。
视频输入:我们还研究了使用 RGB 或光流对视频分割的影响。定量结果如表 VII 所示。我们可以看到,在整个视频上构建图形比每帧构建图形更好。我们使用光流特征的平均值进行分析,并直接使用它而不输入到 Transformer 中。结果表明,使用 RGB 和 RGB 表示的流一起构建图形可以显著提高 DAVIS [23] 的性能。在 FBMS [24] 和 SegTV2 [25] 上,由于光流质量低,从 RGB 可视化中不可见的事实可以看出,光流中检测不到显著物体的运动。光流无法检测慢动作,阻碍了使用光流特征增强外观的推理过程。光流质量低下可以归因于三个因素:1) 两帧之间的小运动; 2) 原始图像质量低,例如 SegTV2 中的几个示例,如鸟落;3) 这三个数据集上预训练的光流模型缺乏微调。使用 RGB 外观和光流在边缘细化之前会略有改善,但与仅使用 RGB 外观相比,边缘细化后的结果略差。图 7 说明了一些定性结果。我们可以看到 RGB 帧和光流是如何相互补充的:在第一行中,目标移动的人与其他观众具有语义相似的特征,仅使用 RGB 帧会产生覆盖所有人的蒙版;在第二行中,河面上的流也有不可忽略的值,因此仅使用流会导致更差的性能。
视频图:在表 VIII 中,我们分析了构建视频图的不同方法。对于边,我们还考虑了流和 RGB 相似度之间的最小值和最大值。对于节点,自然基线是为每个单帧构建一个图。我们可以看到,最佳选择是使用流和 RGB 相似度的平均值 (4) 并为整个视频构建一个图。
讨论
多对象分割:在无监督单对象发现任务中,主要目标是识别给定图像中最显著的对象。因此,我们只在我们的方法中选择最大的连通分量。但是,当图像中存在多个对象时,TokenCut 可以在第二小的特征向量中识别多个连通分量。为了说明这种能力,我们在图 9 中包含了两个示例。在图 10 中,我们提供了多个物体从不同方向移动的示例。这些结果说明了我们方法的稳健性。
局限性:尽管 TokenCut 提案性能良好,但它仍有几个局限性。我们在图 8 中展示了几种失败案例:i)如第一行所示,TokenCut 关注图像中最大的显著部分,这可能不是所需的对象。ii)与 LOST [16] 类似,TokenCut 假设单个显著对象占据前景。如果图像中存在多个重叠对象,则 LOST 和我们的方法都无法检测到其中一个对象,如第二行所示。iii)对于物体检测,LOST 和 TokenCut 都无法正确处理遮挡,如第三行所示。
总结
本文介绍了 TokenCut,这是一种统一且有效的图像和视频对象分割方法,无需监督学习。TokenCut 使用自监督 Transformer 的特征来构建一个图,其中节点是块,边缘表示块之间的相似性。对于视频,结合光流来确定移动物体。我们表明,可以使用 Normalized Cut 算法直接检测和界定显着对象。我们在无监督单对象发现、无监督显着性检测和无监督视频对象分割上评估了这种方法,表明 TokenCut 可以提供比以前的方法显着的改进。我们的结果表明,自监督 Transformer 可以提供一组丰富而通用的功能,这些功能可能用于各种计算机视觉问题。