Exploring the Limits of Masked Visual Representation Learning at Scale论文笔记

论文名称：EVA: Exploring the Limits of Masked Visual Representation Learning at Scale
发表时间：CVPR2023
作者及组织：北京人工智能研究院；华中科技大学；浙江大学；北京理工大学
GitHub：https://github.com/baaivision/EVA

问题与贡献

本文中，作者提出了一个以视觉为中心的基础模型，EVA，来探索大规模masked视觉特征学习的局限性。

EVA is a vanilla ViT pretrained to reconstruct the masked out image-text aligned vision features conditioned on visible image patches.

EVA，是一个普通的ViT模型，预训练任务的目标是重建掩码patches的CLIP特征。通过新的pretext代理任务，可以有效地扩大EVA到10亿参数量，同时在一系列下游任务中取得新的记录。EVA除了可以作为视觉编码器之外，还可以应用到多模态任务中对齐图像和文本。使用EVA初始化CLIP可以极大减少训练波动，相对于从头开始训练CLIP使用更少的样本和计算量，为扩大和加速多模态基础模型的训练提供了一个新的方向。

模型、理论和方法

vision pretext task

基于之前的视觉预训练模型研究工作，有两个主流方案：

重建masked out tokenized semantic vision features;
重建来自大规模预训练模型蒸馏的特征；

两者都使用了预先训练图像文本对齐的视觉特征。通过下面的一些实验，可以发现CLIP的特征标记化对于好的下游任务表现不是必须的；随着预训练时间延长，重建蒸馏特征并不能带来一致的性能增益。作者发现简单地重建以可见图像块为条件的masked图像文本对齐视觉特征，效果更好。

pre-training objective

EVA有10亿参数量，与ViT giant和BEiT-3相当。在预训练阶段，EVA没有使用相对位置编码和layer-scale。EVA对输入的patchs进行mask，掩码率为40%。其重建目标来自使用224×224像素图像训练的OpenAI CLIP-L/14视觉encoder。EVA输出特征首先归一化，然后通过线性层映射成CLIP特征相同的维度。使用negative cosine similarity作为损失函数。

EVA的训练数据集共29.6million，来自于不同的开源数据集。用于生成预测模型的CLIP使用4亿图文对数据进行训练。因此，在EVA的预训练阶段也会从这些数据中学习到知识。

pre-training设置

如上图所示，EVA使用Adam优化器进行优化，decoupled weight decay参数设置为0.05。初始学习率设置为1e-3，采用余弦衰减方案缩放学习率。设置随机深度的比例为0.1用于正则化。数据增强的方案采用RandResizeCrop(0.2,1)，没有使用Color jitter。

预训练过程中的细节如上图所示。作者采用的GPU平台为NVIDIA A100-SXM4-40GB。预训练代码基于BEiT代码修改得来。同样，采用DeepSpeed优化库和ZeRO stage-1优化器来节省显存。在训练过程中，使用fp16精度搭配dynamic loss缩放模型整体收敛稳定，因此使用bfloat16是没有必要的。由于EVA使用fp16精度训练，因此可以使用16×NVIDIA 24GB（32GB）GPUs带（不带）梯度检查点进行预训练。

实验结果

为了证明EVA预训练模型的效果，在不同的下游任务，如图像分类，视频动作识别，目标检测和实例分割，语义分割，以及零样本评估的对比图文预训练，进行实验。

图像分类

对于图像分类任务，EVA在ImageNet-1K 的验证集上进行评估。同时在其他6个数据集上评估模型的鲁棒性和泛化性。

EVA首先在ImageNet-21k上训练60个epoch，然后ImageNet-1K的训练集上训练10个epoch。与其他网络的复杂结构不同，EVA简单使用一个线性层作为分类器。需要注意的是，在ImageNet-21k上进行中间微调时，相比于MIM的预训练阶段只消耗了约1/5的时间和计算资源。然后对于其他billion参数级别的视觉模型，如SwinV2-G-3B，监督训练阶段消耗的资源约为MIM预训练的1.5倍。

上图为EVA与其他模型在ImageNet-1K上的实验效果。输入大小为336×336时，EVA的top-1精度达到了89.6%。使用更大的输入分辨率 $560^2$ 可以进一步将top-1精度提升至89.7%。需要注意的是BEiT-3将图像分类任务作为一个图文检索任务，因此BEiT-3进行图像分类任务时额外引入了十亿参数量的语言编码器，该编码器是由350万图文对和160GB文本数据预训练得到。而EVA仅仅在模型基础上添加一个线性分类层，使用ImageNet-21k图像数据用于微调。使用公开的数据，EVA在ImageNet-1K上取得了一个新的记录。
为了验证EVA模型的鲁棒性和泛化能力，EVA在6个不同ImageNet-1K的非同源数据集上进行实验。如下图所示，EVA与timm库中一些性能较好开源的模型进行比较。所有的模型首先在ImageNet-1K的训练集上进行微调，然后在不同的非同源数据集上进行评估，该过程不做任何参数调整和额外微调。

由于模型的训练数据、输入大小、模型参数量，以及框架无法对齐，因此这些结果无法直接比较。作者以其他6个数据集的平均top-1值和原始ImageNet-1K的top-1之间的差距进行比较。从gap来看，EVA不仅取得了最高的平均值，并且性能差距也是最小的，表明EVA具有优秀的鲁棒性和泛化性。

不同条件下的EVA表现

其中psz14to16表示将patch_embed的kernel_size从14×14调整为16×16.这个对于目标检测、实例分割和语义分割的性能有提升作用。

训练EVA-CLIP

使用EVA初始化CLIP的图像编码器进行训练，在ImageNet-1K下的效果如下：

使用EVA-CLIP构建重建目标

EVA-L是ViT-Larger的一个变体，以MIM方式进行预训练，EVA-CLIP的特征作为预测目标。因此，在EVA-L的预训练阶段会从更强的teacher模型中获取知识。
采用MAE风格的预训练方式，预训练设置如下：

在ImageNet-1K的测试结果如下：

视频动作识别

**数据集：**对于视频动作识别任务，分别在Kinetics-400，Kinetics-600和Kinetics-700数据集上进行实验。首先在一个合并数据集coined Kinetics-722上进行中间微调，该数据集是由K-400，K-600和K-700通过删除在训练集和验证集中重复视频得到。经过去重操作之后，K-722中包含6.3亿视频数据包含722个动作类别。
**训练和评估设置：**EVA处理视频数据仅仅简单通过spatial-temporal attention，没有其他特殊的结构调整。首先使用K-722训练集上训练EVA，然后在每个数据集上仅仅微调1或者2epochs。设置frame×crop×clip为16×3×4用于微调和评估所有数据集。每一帧的分辨率为 $224^2$ 。
**结果：**如下图所示，EVA取得更好的效果相对于一些视频分类模型或者更大的基础模型。一个参考指标，对于经过K-722微调后的模型，直接在K-400上进行评估可以取得的top-1精度为88.4%。

目标检测&实例分割

**数据集：**使用COCO和LVISv1.0来评估目标检测和实例分割效果。COCO是一个大规模应用的目标检测数据集，其包含11.8万训练集、5千验证集和2万测试集，共80个类别。LVISv1.0中包含1200个目标类别，由超过2百万高质量的实例分割掩码图像。
**评价指标：**对于COCO，使用标准的box AP $AP^{box}$ 和mask AP $AP^{mask}$ 作为评价指标。而LVISv1.0，给出了 $AP^{box},AP^{mask}$ 和 $AP_{rate}^{mask}$ 指标。
**训练和评估设置：**EVA使用Cascase Mask R-CNN 作为检测器，采用ViTDet的训练方案和框架配置。按照正常的训练方案，首先在Objects365数据集上进行中间微调，分辨率为 $1024^2$ ，然后分别在COCO和LVISv1.0训练集上进行微调，分辨率为 $1280^2$ 。
**COCO实验结果：**与其他最先进的方法进行比较，EVA在COCO数据集上创造了一个新的记录。与ViTDet-H相比，同样采用Cascasde Mask R-CNN，EVA结果表示采用一个更大模型，更好的编码器和检测器训练方案，相同框架下模型的效果可以取得很大进步。

**LVIS实验结果：**在LVIS1.0上，EVA使用单尺度评估在所有指标上都取得最好的结果，相较于之前的方法有很大进步。

**LVIS-COCO结果差异分析：**相比于COCO数据集的80类，LVIS有1200类物体，自然而然存在一个长尾分布问题，与现实应用场景更加符合。因此，LVIS相对于COCO更难，常见的方法在LVIS上相对于COCO有一个更大的性能下降。
如下图所示，分析了COCO和LVIS在不同模型的性能差异。对于之前的模型，如ViTDet，在 $AP^{box}$ 和 $AP^{mask}$ 上的性能差异分别8和5。但是，采用相同检测器和参数配置，EVA不仅在LVIS&COCO上取得了最好的效果，同时极大的缩小了两个数据集上的性能。

语义分割

**数据集：**EVA在ADE20K和COCO-Stuff-164K数据集上评估语义分割任务。ADE20K数据集中包含150个分割类别，包含2万张训练集和2千张验证集。COCO-Stuff-164K共包含16.4万张图像数据，包含172个类别。相比于ADE20K，COCO-Stuff更具有挑战性。
**实验结果：**与其他最先进的语义分割方法进行比较，EVA在ADE20K和COCO-Stuff-164K数据集上都取得了较好的结果。可以看到EVA的性能在ADE20K上略低于BEiT-3，这个可能是因为由于资源限制弱化了网络结构配置。

CLIP零样本评估

CLIP是一种多模态基础模型通过对比图像文本预训练来对齐视觉和语言。CLIP可以直接应用于任何图像分类benchmark，仅仅只需要提供数据集的类别名称即可。将EVA作为CLIP的视觉编码器，评估其在零样本图像/视频benchmark上的效果。
**训练设置：**使用预训练的EVA作为CLIP的视觉编码器，语言编码器保持OpenAI CLIP-L原样。该实现是基于Open CLIP代码。使用DeepSpeed优化库来节省显存。作者发现使用fp16精度搭配dynamic loss缩放在整个训练过程能稳定收敛。基于此，训练1.1B的CLIP模型在256× NVIDIA A100 40GB GPUs上batch size可以设置为41k。
**评估设置：**作者在12个数据集上评估每个CLIP模型的零样本图像/识别分类性能。对于零样本分类任务，选择了8个数据集。对于CLIP模型的鲁棒性评估，以这些数据集的平均性能与原始ImageNet-1K验证集的差异作为指标。对于零样本视频分类任务，选择了4个数据集，分别为UCF-101，Kinetics-400，Kinetics-600和Kinetics-700。
**实验结果：**EVA-CLIP取得了最好的平均精度，在12个数据集上有10个为最优。此外，数据集之间的性能差异也是最小的，表示模型具有很好的鲁棒性。

在下图中，展示了EVA-CLIP在零样本、线性探测和端到端微调的top-1精度。该方法相对于现有所有的自监督方法的性能都更好。

EVA-CLIP的视觉分支是从OpenAI CLIP-L中学习得到，而语言分支是用CLIP-L模型直接初始化得到。因此，从430M参数的CLIP-L出发，进一步放大得到1.1B EVA CLIP-g模型，在性能上取得了很大提升。这意味着交错的 MIM 和图像文本对比预训练可能是一种高效且可扩展的 CLIP 训练方法。据我们所知，EVA CLIP-g 是通过公开数据和资源训练的最大的高性能 CLIP 模型。我们希望我们在扩展和改进 CLIP 方面的实践也能够启发并转移到其他大规模多模态基础模型的研究。