ICLR2022 | SETR | 提高视觉Transformers的对抗迁移性

On Improving Adversarial Transferability Of Vision Transformers

摘要-Abstract
引言-Introduction
背景和相关工作-Background And Related Work
增强ViTs的对抗迁移能力-Enhancing Adversarial Transferability Of ViTs
实验-Experiments
结论-Conclusion

论文链接

本文 “On Improving Adversarial Transferability Of Vision Transformers” 提出了针对视觉 Transformer（ViT）的对抗攻击增强方法，通过独特的自集成和Token细化策略，提升了对抗样本的可转移性。

摘要-Abstract

Vision transformers (ViTs) process input images as sequences of patches via selfattention; a radically different architecture than convolutional neural networks (CNNs). This makes it interesting to study the adversarial feature space of ViT models and their transferability. In particular, we observe that adversarial patterns found via conventional adversarial attacks show very low black-box transferability even for large ViT models. We show that this phenomenon is only due to the sub-optimal attack procedures that do not leverage the true representation potential of ViTs. A deep ViT is composed of multiple blocks, with a consistent architecture comprising of self-attention and feed-forward layers, where each block is capable of independently producing a class token. Formulating an attack using only the last class token (conventional approach) does not directly leverage the discriminative information stored in the earlier tokens, leading to poor adversarial transferability of ViTs. Using the compositional nature of ViT models, we enhance transferability of existing attacks by introducing two novel strategies specific to the architecture of ViT models. (i) Self-Ensemble: We propose a method to find multiple discriminative pathways by dissecting a single ViT model into an ensemble of networks. This allows explicitly utilizing class-specific information at each ViT block. (ii) Token Refinement: We then propose to refine the tokens to further enhance the discriminative capacity at each block of ViT. Our token refinement systematically combines the class tokens with structural information preserved within the patch tokens. An adversarial attack when applied to such refined tokens within the ensemble of classifiers found in a single vision transformer has significantly higher transferability and thereby brings out the true generalization potential of the ViT’s adversarial space.

视觉Transformer（ViT）通过自注意力机制将输入图像作为图像块序列进行处理，这与卷积神经网络（CNN）的架构截然不同。这使得研究ViT模型的对抗特征空间及其可转移性变得很有意义。特别是，我们发现，即使对于大型ViT模型，通过传统对抗攻击找到的对抗模式在黑盒攻击中的可转移性也非常低。我们证明，这种现象仅仅是由于次优的攻击过程，未能充分利用ViT的真实表征潜力。深度ViT由多个模块组成，其架构一致，包含自注意力层和前馈层，每个模块都能够独立生成一个类别token。仅使用最后一个类别token制定攻击策略（传统方法）并不能直接利用前面token中存储的判别信息，从而导致ViT的对抗可转移性较差。利用ViT模型的组合特性，我们通过引入两种针对ViT模型架构的新策略，增强了现有攻击的可转移性。（i）自集成：我们提出一种方法，将单个ViT模型拆解为一个网络集合，以找到多个判别路径。这使得我们能够在每个ViT模块中显式地利用特定类别的信息。（ii）token细化：我们提议对token进行细化，以进一步增强ViT每个模块的判别能力。我们的token细化方法将类别token与图像块token中保存的结构信息进行系统地结合。在单个视觉Transformer的分类器集合中，对这种经过细化的token进行对抗攻击时，其可转移性显著提高，从而充分挖掘出ViT对抗空间的真实泛化潜力。

引言-Introduction

这部分内容主要介绍了研究背景和动机，引出了针对视觉Transformer（ViT）对抗样本可转移性的研究，具体内容如下：

研究背景：Transformer在自然语言处理任务中取得成功后被应用于视觉任务，产生了诸多ViT模型。ViT与CNN在设计上存在显著差异，其缺乏CNN所具有的如空间连接性和平移等效性等显式归纳偏差，通过自注意力机制处理图像块序列，能学习输入图像各部分之间的关系，拥有更广泛的感受野。
研究动机：对抗攻击对深度神经网络在实际应用中的部署构成重大阻碍，ViT的对抗特性成为重要研究课题。近期研究表明，尽管大型ViT模型参数容量大、在干净图像上性能强且泛化性好，但在黑盒攻击设置下，其对抗样本的可转移性却较低。本文旨在探究这种低可转移性是源于ViT的弱特征还是弱攻击，并提出一种高可转移性的攻击方法，通过利用ViT模型的独特特征，增强现有对抗攻击的可转移性。
研究方法：基于ViT的模块化性质，文中提出了自集成和token细化两种关键策略。自集成是通过从单个预训练ViT模型中创建多个分类器的集合，利用每个模块产生的类别token来设计对抗攻击，从而利用多个判别路径提高对抗可转移性；token细化模块则针对自集成中不同中间块提取的类别信息进行增强，将类别token与图像块token的结构信息融合，提升中间块的判别力，进一步提高对抗样本的可转移性。
研究意义：经大量实验验证，该方法在不同模型系列和视觉任务中均展现出良好的转移率，有效提升了ViT对抗空间的泛化能力。

在这里插入图片描述
图1：左图：传统的对抗攻击将视觉Transformer（ViT）视为单个分类器，仅基于最后一个分类token最大化预测损失（例如交叉熵）来欺骗模型。这会导致次优结果，因为ViT前面模块中的类别token仅间接影响对抗扰动。相比之下，我们的方法（右图）有效地利用了ViT的底层架构，使用ViT内所有模块产生的类别token创建自集成模型，以设计对抗攻击。我们的自集成模型能够利用所有类别token学习到的分层判别信息。因此，基于我们自集成模型的攻击所生成的对抗样本具有可转移性，并且在不同模型类型和视觉任务中具有良好的泛化性。

背景和相关工作-Background And Related Work

这部分内容主要介绍了对抗攻击建模、网络架构对攻击转移性的作用以及ViT的鲁棒性等方面的背景和相关工作，为后续研究奠定基础，具体如下：

对抗攻击建模
- 分类：分为白盒攻击和黑盒攻击。白盒攻击攻击者可获取目标模型参数，如FGSM和PGD等；黑盒攻击攻击者无法获取目标模型参数，研究对抗转移性难度更大。
- 白盒攻击方法：包括FGSM、PGD，以及Jacobian-based saliency map attack、Sparse attack等其他先进方法，常应用于代理模型以寻找可转移到黑盒目标模型的扰动。
- 黑盒攻击与转移性：通常攻击源模型生成对抗信号再应用于目标模型。虽有梯度估计方法，但实际应用受限。也可直接采用白盒方法生成对抗信号，同时有多种提升对抗样本转移性的探索方向，如增强动量、数据增强、利用特征和生成式方法等。本文首次针对ViT模型对抗样本转移性受限的问题展开研究。
网络架构的作用：已有研究利用网络架构特征改进攻击转移性，如利用ResNets和DenseNets的跳跃连接，或基于模型线性特性进行改进。本文聚焦ViT模型的独特架构特征，以生成转移性更强的对抗扰动。
ViT的鲁棒性：ViT模型的对抗攻击研究相对较少。Shao等人和Bhojanapalli等人研究了ViT模型在多种白盒和黑盒攻击技术下的对抗攻击和鲁棒性；Mahmood等人探究了ViT模型对抗扰动的转移性，发现其向CNN的转移性不佳，还探索了CNN和ViT模型的集成来提升攻击转移性。本文提出的集成方法则是将单个ViT模型转化为模型集合（自集成）来提高攻击转移性，且可与现有攻击方法结合。

增强ViTs的对抗迁移能力-Enhancing Adversarial Transferability Of ViTs

该部分聚焦于提升视觉Transformer（ViT）对抗转移性的方法，从动机出发，详细阐述了自集成、token细化以及对抗转移这三个关键部分，具体内容如下：

动机：尽管ViT模型具有较高的参数复杂性和良好的特征泛化能力，但近期研究发现其在黑盒攻击中的对抗转移性较低。通过实验观察到，基于动量迭代快速梯度符号法（MIM）在不同DeiT模型上的对抗样本转移性并未随模型容量增加而提升，甚至DeiT-B模型对抗样本对某些目标模型的转移性低于DeiT-T模型。因此，研究旨在探究这一现象是源于ViT本身特性还是次优的攻击机制，并基于此提出改进方法。

图2：视觉Transformer（ViT）的对抗样本仅具有中等的可转移性。事实上，MIM（Dong等人，2018年）扰动对目标模型的可转移率（%）会随着源模型规模的增大而下降，例如从DeiT-T（Touvron等人，2020年，500万个参数）到DeiT-B（Touvron等人，2020年，8600万个参数）。然而，当将攻击应用于我们提出的在ViT内构建的分类器集合时（MIM $^E$ 、MIM $^{RE}$ ），攻击性能会显著提升。
自集成：视觉Transformer的判别路径：一个具有 $n$ 个Transformer模块的ViT模型可表示为 $F=(f_{1} \circ f_{2} \circ f_{3} \circ \cdots f_{n}) \circ g$ 。由于每个Transformer模块都能产生类别token，通过在ViT层次结构的每个模块上学习共享分类头，可构建包含 $n$ 个分类器的自集成模型，即 $\mathcal{F}_{k}=\left(\prod_{i=1}^{k} f_{i}\right) \circ g$ ， $k=1,2,\cdots,n$ 。研究发现多个中间层分类器具有显著判别信息，但初始部分模块（如1 - 6块）分类准确率几乎为零，存在中间token与最终分类头未直接对齐的问题，导致分类性能一般。

图3：DeiT模型各模块间判别信息的分布情况。请注意，多个中间模块包含具有相当判别信息的特征，这是通过在ImageNet验证集上的top-1准确率来衡量的。这些是在ImageNet上预训练的标准模型，没有进行进一步训练。图中 $x$ 轴上的每个模块对应于公式1中定义的分类器 $F_{k}$ 。
token细化：为解决中间块类别token与最终分类器对齐问题，提升其分类准确率，提出token细化模块。该模块包括图像块token细化、类别token细化和两者合并三个步骤。首先对每个模块输出的图块token重排以恢复空间关系，通过卷积块和平均池化提取空间信息；然后用线性层细化类别token，减少其与共享分类头的对齐偏差；最后将细化后的类别token和图像块特征向量相加得到合并token。对包含 $k$ 个Transformer模块的ViT模型，在每个模块输出插入 $k$ 个token细化模块，冻结原有权重，仅在ImageNet训练集上对token细化模块训练一个epoch，使用SGD优化器，学习率设为0.001。训练后的token细化模块增强了类别token的可判别性。

图4：近期的视觉Transformer（ViT）会处理196个图像块，从而产生196个图像块token。我们重新排列这些token，创建一个14×14的特征网格，该网格由一个卷积模块进行处理以提取结构信息，随后通过平均池化操作生成单个图像块token。类别token在输入分类器之前，会通过一个多层感知器（MLP）层进行细化。之后，将这两种token合并。

图5：DeiT（Touvron等人，2020年）的自集成：我们使用每个模块的类别token在ImageNet上测量top-1准确率，并与我们细化后的token进行比较。这些结果表明，微调有助于使中间模块的token与最终分类器对齐，从而提高它们的分类性能。因此，token细化强化了判别路径，使得对抗样本的转移性更强。
对抗转移：在对抗转移实验中，利用源（代理）ViT模型生成黑盒攻击扰动。源模型先在ImageNet上预训练，再按提出的方法进行修改并微调token细化模块一个epoch。通过对每个模块输出的联合损失，使用多种白盒攻击生成对抗样本，并在一系列CNN和ViT模型上测试其转移性。针对无目标攻击，定义对抗目标为 $_{x'} \sum_{i=1}^{k} \llbracket \mathcal{F}_{k}\left(x'\right)_{argmax } \neq y \rrbracket$ ，同时满足 $\left\| x-x'\right\| _{p} \leq \epsilon$ ， $\in\{1,2,\cdots,n\}$ ；目标攻击则是朝着特定目标类别优化上述目标。

实验-Experiments

这部分主要介绍了为验证提升ViT对抗转移性方法的有效性所进行的实验，涵盖实验设置、分类实验以及跨任务转移性实验，具体内容如下：

实验设置
- 源模型：选用DeiT系列的DeiT-T、DeiT-S和DeiT-B三个视觉Transformer模型，它们在训练时未使用CNN蒸馏。
- 目标模型：涵盖多种用于不同视觉任务的模型，包括用于分类的卷积网络（如BiT-ResNet50、ResNet152等）和其他ViT模型（如Token-to-Token transformer、Transformer in Transformer等），还有用于目标检测的DETR和用于分割的DINO。
- 数据集：利用ImageNet训练集微调token细化模块；从ImageNet验证集中选取5000个样本（每个类随机选5个能被ResNet50和ViT-small正确分类的样本）评估模型鲁棒性，同时在COCO（5000张图像）和PASCAL-VOC12（约1200张图像）验证集上开展实验。
- 评估指标：分类任务采用愚弄率（添加对抗扰动后预测标签翻转的样本百分比）评估；目标检测任务使用平均精度均值（mAP）衡量；分割任务则依据Jaccard指数评估。
- 基线攻击方法：对比单步快速梯度符号法（FGSM）、投影梯度下降法（PGD）、动量迭代快速梯度符号法（MIM）和输入多样性（DIM）攻击等方法，迭代攻击运行10次迭代，DIM的变换概率设为默认的0.7。
分类实验：传统攻击方式下，ViT模型对抗样本对CNN的转移性一般，例如DeiT-B通过迭代攻击生成的对抗样本转移到Res 152的效果甚至不如VGG19 bn。而采用本文提出的自集成和token细化策略（分别记为“Attack” $^{E}$ 和“Attack” $^{RE}$ ）后，对抗样本对其他卷积模型和基于Transformer的模型的转移性显著提升。研究还发现，架构相似且无归纳偏差的模型间对抗扰动转移率更高；参数较少或训练策略较差的模型更易受到黑盒攻击，如ViT-S和T2T-T比它们的大模型版本更脆弱；训练策略更好、泛化性更高的模型则更具鲁棒性，像BiT50比ResNet152更抗攻击。此外，在白盒设置下，按块计算的愚弄率也显示出本文方法的优势，MIM难以欺骗ViT的初始块，而本文方法能使攻击在中间块和最后类别token处同样有效，充分利用了ViT的对抗空间，提高了对抗扰动的转移率。

表1：在 $\epsilon ≤16$ 的情况下，对5000个ImageNet验证集对抗样本的愚弄率（%）。由我们提出的带有视觉Transformer细化token的自集成方法生成的对抗扰动，其成功率显著更高。

表2：在 $\epsilon\leq16$ 的条件下，针对5000个ImageNet验证集对抗样本的愚弄率（%）。通过我们提出的、带有视觉Transformer细化token的自集成方法所生成的对抗扰动，其成功率显著更高。
跨任务转移性实验：由于自注意力是Transformer架构在不同任务中的核心组件，实验探究了本文方法在目标检测（DETR）和分割（DINO）任务中的有效性。在生成对抗信号时，以源模型的初始预测作为标签，针对不同任务中模型对图像尺寸的要求，将图像分块处理以生成更强的对抗样本。实验结果表明，在DETR任务上，本文方法有明显改进；在更鲁棒的DINO模型中，随着源模型容量增加，本文方法的转移性提升效果优于基线方法。

表3：跨任务转移性（从分类到检测）。目标检测模型DETR（Carion等人，2020年）受到欺骗。在COCO验证集上，以[0.5:0.95]的交并比（IOU）计算平均精度均值（mAP）。我们带有细化token（RE）的自集成方法显著提升了跨任务转移性。（数值越低越好）

表4：跨任务转移性（从分类到分割）。DINO（Caron等人，2021年）模型受到欺骗。使用杰卡德指数（Jaccard index）指标来评估分割性能。采用我们的方法可获得最佳的对抗转移结果。（数值越低越好）

图7：由DeiT-S源模型生成的、我们提出的DIMRE攻击致使DETR模型失效案例的可视化展示。（放大查看效果更佳）

结论-Conclusion

该部分主要回顾研究成果、强调方法优势，涉及对当前研究不足的认识、新方法的效果、可重复性、伦理考量等方面，具体内容如下：

研究成果：研究发现当前视觉Transformer（ViT）对抗转移性方法存在关键缺陷，即现有攻击过程未充分挖掘ViT架构特性。提出的新方法通过构建多个判别路径（自集成）和token细化策略，有效填补了这一空白，显著提升了对抗攻击性能。在多种攻击方法和不同视觉任务（分类、检测、分割）中，新方法均展现出良好效果，提高了对抗样本在不同模型（卷积模型和Transformer模型）间的转移率。
复现声明：详细说明了复现实验的相关细节。攻击方法上，使用开源的Patchwise攻击和Auto-Attack，按默认设置并明确提及必要参数；对于token细化，利用开源代码库微调预训练源模型的类token，并将公开带有细化token的模型；跨任务攻击实现方面，给出了从分类到检测和分割任务的具体细节与伪代码；数据集上，阐述了从ImageNet验证集选取5k样本的过程，并将发布样本索引以方便复现。
伦理声明：认识到研究成果可能存在的风险，短期内该成果可能被恶意利用，干扰依赖ViT的深度学习系统。但从长远看，有助于推动更强大的深度学习模型的研究，增强模型抵御此类攻击的能力，降低短期风险。同时，指出研究中使用的ImageNet数据集存在偏见和隐私问题，希望未来采用改进版本。