【论文阅读】ICCV 2023 计算和数据高效后门攻击

文章目录

  • 一.论文信息
  • 二.论文内容
    • 1.摘要
    • 2.引言
    • 3.主要图表
    • 4.结论

一.论文信息

论文题目: Computation and Data Efficient Backdoor Attacks(计算和数据高效后门攻击)

论文来源: 2023-ICCV(CCF-A)

论文团队: 南洋理工大学&清华大学&中关村实验室

在这里插入图片描述

二.论文内容

1.摘要

针对深度神经网络(DNN)模型的后门攻击已被广泛研究。针对不同的领域和范式提出了各种攻击技术,如图像、点云、自然语言处理、迁移学习等。在DNN模型中嵌入后门最常用的方法是毒害训练数据。他们通常从良性训练集中随机选择样本进行投毒,而不考虑每个样本对后门有效性的不同贡献,使得攻击不太理想。
最近的一项研究[40]提出使用 遗忘分数衡量每个中毒样本的重要性 ,然后过滤掉冗余数据以进行有效的后门训练。然而,这种方法是经验设计的,没有理论证明。它也非常耗时,因为它需要经过几个训练阶段来进行数据选择。为了解决这些限制,我们提出了一种新的基于置信度的评分方法,该方法可以基于距离后验有效地测量每个中毒样本的贡献。我们进一步引入贪婪搜索算法,以更快地找到信息最丰富的后门注入样本。对二维图像和三维点云分类任务的实验评估表明,我们的方法可以达到相当的性能,甚至超过基于遗忘分数的搜索方法,而只需要对标准训练过程进行几个额外的epoch计算。我们的代码可以在https://github.com/WU-YU-TONG/ computational_efficient_backdoor找到。

2.引言

深度神经网络(dnn)安全威胁的多样性[1,23]阻碍了其在许多计算机视觉(CV)任务中的商业化进程。最严重和最广为人知的威胁之一是后门攻击[23]。对手可以在训练期间向目标模型注入一个与唯一触发器相对应的隐形后门[43,28,25,17,5,10,13]。在推理过程中,妥协模型(Compromised model)在良性样本上表现良好,但在具有触发器的恶意样本上可能出现错误行为。

实现后门攻击最常见的方法是数据中毒,攻击者通过破坏某些训练样本来嵌入后门。成功后门攻击的一个关键标准是中毒样本的比例。从对抗的角度来看,我们希望在保持相同攻击成功率(ASR)的情况下投毒尽可能少的样本,原因有两个:(1)较小的投毒率可以增强攻击的可行性。攻击者只需要破坏一小部分训练数据,因此攻击要求放宽了。(2)中毒样本较少的后门攻击将更加隐蔽。许多工作通过调查训练样本提出了后门检测解决方案[7,15,29,35,38,34,18]。较小的投毒率会显著增加检测难度,降低防御效能。

大多数后门攻击随机选择固定比例的训练样本进行投毒,该比例是启发式确定的[12,16,21,41,24]。这种策略不是最优的,因为它忽略了不同样本对后门贡献的区别。 为了克服这一局限性,最近的一项工作[40]提出了一种新的方法——遗忘评分来优化中毒样本的选择过程。以模型训练过程中每个样本遗忘事件的频率作为得分,表示每个样本对后门注入的重要性。然后,在N个完整的训练周期内,通过过滤和更新策略(FUS)过滤出得分较高的样本;与随机选择策略相比,遗忘分数可以有效降低中毒率25 ~ 50%,同时达到相近的ASR。验证了不同样本对攻击性能的不同影响。

遗忘分数可以提高数据效率,但以计算效率低为代价。 具体来说,它根据经验计算每个样本在训练期间被遗忘的次数,以定位对中毒贡献更大的关键样本。遗忘分数的计算需要多个完整的训练周期([40]中的ImageNet-10的N = 10)来减少中毒样本的数量,这引入了大量的工作,对于攻击大规模数据集是不切实际的。因此,一个有趣的问题出现了:是否可能在后门中毒中同时实现数据效率和计算效率,即毫不费力和精确地识别关键中毒样本?

本文提出了一种新的攻击方法来验证上述问题。我们的贡献是双重的。提出了表示距离(RD)分数,一种新的触发无关和结构无关的度量,以识别对后门攻击成功更关键的中毒样本。具体来说,我们的目标是定位那些与目标类有较大距离的中毒样本,因为它们将在训练期间对重塑决策边界的形成做出更多贡献(后门嵌入)。通过采用该RD分数,我们可以过滤掉对后门感染不敏感的中毒样本,以降低中毒率。其次,RD分数可以在模型训练的早期阶段(即训练开始后的几个epoch)使用贪婪搜索方案来选择中毒样本。与遗忘分数相比,这显著减少了计算量。

我们在5个最先进的模型和4个常见的数据集上进行了广泛的实验,用于2D图像和3D点云分类任务。评估表明,我们的解决方案可以有效地减少毒化样本的数量,从而成功地进行后门攻击。最重要的是,与基于遗忘分数的方法相比,我们的解决方案可以使用得分模型找出重要的有毒样本,只需要几次训练,与基于遗忘分数的方法相比,这是一个很小的成本。因为后者需要经过整个培训过程才能达到同样的目标。

3.主要图表

在这里插入图片描述
图1. 对我们洞察力的直观解释。左图显示的是一个干净的模型,没有任何后门。在中间的图中,当样本被下毒时,越靠近决策边界的样本对后门的影响越小。在右图中,当选择样本进行投毒时,远离决策边界的样本可能会给模型带来更显著的变化。

在这里插入图片描述
图2. 我们方法论的工作流程。

在这里插入图片描述
图3. 干净和有毒样本的例子。

在这里插入图片描述
表1. 搜索的预算。

在这里插入图片描述
图4. 三种方法在CIFAR-10上的ASR。我们对基于分数的选择策略重复实验3次,对随机选择策略重复实验10次。我们设置α为0.3,N为10。RD评分模型的epochs为6,遗忘分数模型的epochs设置为50。

在这里插入图片描述

图5.三种方法在ImageNet-10上的ASR。我们对基于分数的选择策略和随机选择策略分别重复实验3次和5次。我们设置α为0.3,N为10。RD评分模型的epochs为6,遗忘分数模型的epochs设置为30。

在这里插入图片描述
图6. 三种方法在三维点云分类任务上的ASR。评分法重复实验3次,随机法重复实验5次。在对两种评分方法进行贪婪搜索时,我们将迭代时间N减少到7。对于ScanObject,我们将训练epoch设置为75,学习率设置为0.01。

在这里插入图片描述
表2. 训练过程中超参数黑箱设置下的ASR(%)。利用CIFAR-10数据集在ResNet18模型上进行了实验。我们训练了6个epoch的评分模型,并将迭代次数和过滤比率分别设置为10。Adam中的其他参数与其PyTorch实现保持一致。对于后门模型,我们将其训练设置固定为使用SGD作为优化器,0.05作为学习率,128作为批大小。

在这里插入图片描述

图7. 各种模型和任务的ASR和Accuracy。所有的ASR都是使用我们在实验中使用的最高中毒比的RD分数获得的,即CIFAR10的0.0017,ImageNet-10的0.0095,ModelNet40的0.01,ScanObject的0.09。在上述比率下,后门的ASR趋于稳定。

在这里插入图片描述
图8. 贪心搜索中α值变化时,不同毒比下RD评分的ASR。每个实验我们重复三次。在所有的实验中,我们将N设置为10,将评分模型的epochs设置为6。

图9. 贪婪搜索中迭代时间N变化时,不同毒比下RD评分的ASR。每个实验我们重复三次。在所有的实验中,我们将评分模型的epochs设置为6。

在这里插入图片描述
图10. 评分模型的训练时间对两种方法的影响。所有实验都在CIFAR-10, ResNet18上使用0.001的中毒比进行。

在这里插入图片描述
图11. 遗忘分数和RD分数的ASR。我们使用ResNet18作为受害者模型,并将评分模型的架构改为MobileNet和VGG16。

4.结论

在本文中,我们提出了一个新的分数,通过评估给定中毒样本对目标类的L2范数来衡量中毒样本对后门学习过程的贡献。通过过滤掉得分较低的样本,我们的方法获得了比随机选择策略更好的后门ASR。我们在各种数据集和模型架构上进行了广泛的实验,以显示与先前工作相比,我们的方法的通用性和可移植性。

对于未来的工作,我们认为虽然RD分数具有很高的适应不同任务的能力,但其在某些场景中的有效性尚未得到充分的研究。在未来,我们希望将我们的研究兴趣转向两个方向。首先,对于像目标检测这样的高级任务[33],评分机制应该处理以下独特的挑战:(1)多任务,如目标定位和分类,如何通过同时采取这些方面来减少有毒预算是一个关键问题;(2)多实例,如一个样本可能包含多个对象,在设计评分方法时,如何衡量给定中毒样本的重要性使问题变得更加复杂。其次,对自然语言生成等非分类任务的中毒效率研究较少[9]。搜索方法需要满足多种损失函数。因此,调整类似的方法来选择重要的毒物样本可能是具有挑战性的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/405571.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Spring及工厂模式概述

文章目录 Spring 身世什么是 Spring什么是设计模式工厂设计模式什么是工厂设计模式简单的工厂设计模式通用的工厂设计 总结 在 Spring 框架出现之前,Java 开发者使用的主要是传统的 Java EE(Java Enterprise Edition)平台。Java EE 是一套用于…

【视频编码\VVC】环路滤波基础知识

本文为新一代通用视频编码H.266\VVC原理、标准与实现的简化笔记。 定义:在视频编码过程中进行滤波,滤波后的图像用于后续编码。 目的:1、提升编码图像的质量。2、为后续编码图像提供高质量参考,获得更好的预测效果。 VVC中主要…

计算机组成原理(11)----指令流水线

目录 一.指令流水的定义 二.流水线的表示方式 1.指令执行过程图 2.时空图 三.流水线的性能指标 1.吞吐率 2.加速比 3.效率 四.指令流水线影响因素分类 (1)结构相关(资源冲突) (2)数据相关&#…

阿里巴巴中国站获得淘口令真实url API(1688.item_password)

阿里巴巴(1688.com)是一个B2B电商平台,而淘口令(或称为淘宝口令)是一种在阿里巴巴集团旗下的淘宝和天猫平台中分享商品或活动链接的特殊形式。淘口令通常包含一串字符,用户可以复制这串字符并在淘宝或天猫的…

Vue3项目结构分析

node_modules: 是项目npm install下载的node依赖库。 public: favicon.ico: 网页图标logo图片。index.html: 入口html。是一个基础的html页面,其中进行网页最基础的设置,并且设置了id为app的div盒子。该页面即为Vue单页面应用的基础页面。后…

Kafka:kafka的技术架构? ①

一、Kafka的优势 Apache Kafka是一个开放源代码的分布式事件流平台,成千上万的公司使用它来实现高性 能数据管道,流分析,数据集成和关键任务等相关的应用程序。 二、技术架构 0)partition分区可以设置备份数,也可以设…

Ps:原色通道直方图(RGB)

在 RGB 颜色模式下,Photoshop 的“通道”面板中有红、绿、蓝三个原色通道。 默认情况下,原色通道以灰度图像的形式呈现,分别记录着各原色色光发光的程度。 比如,在 8 位/通道时,某个像素的 RGB 值为 (43,12…

vscode与vue环境配置

一、下载并安装VScode 安装VScode 官网下载 二、配置node.js环境 安装node.js 官网下载 会自动配置环境变量和安装npm包(npm的作用就是对Node.js依赖的包进行管理),此时可以执行 node -v 和 npm -v 分别查看node和npm的版本号: 配置系统变量 因为在执…

总结一下最近几个主界面

目前展示了用Avalonia做几个主要流行的主界面,演示了一下组件的使用。用不同的实现方式实现一些方法。 1、独立大屏展示,类似一个实时监控,这是一种目前很方便的大屏效果。 主要涉及的内内容: (1)窗标题实…

Samba文件夹有的能访问,有的不能解决办法(samba无法访问、samba文件夹打不开)需要把selinux设置为Permissive宽容模式

文章目录 如果有的目录能访问有的不能访问大概率是selinux设置了Enforcing强制模式需要把selinux设置为Permissive宽容模式或者Disabled禁用参考文章 如果有的目录能访问 有的不能访问 大概率是selinux设置了Enforcing强制模式 需要把selinux设置为Permissive宽容模式或者Di…

Project_Euler-03 题解

Project_Euler-03 题解 题目 思路 首先排除掉暴力求解,虽然也可以得出答案,但是我在我仅仅只有二颗核心的服务器上跑了很久很久… 尝试另一种方法: 首先要知道一个知识,所有的数都可以拆解成为素数因子平方连乘的形式&#xff…

kubernetes负载均衡部署

目录 1.新master节点的搭建 对master02进行初始化配置(192.168.88.31) 将master01的配置移植到master02 修改master02配置文件 2.负载均衡的部署 两台负载均衡器配置nginx 部署keepalived服务 所有node节点操作 总结 实验准备: k8s…

《Python 语音转换简易速速上手小册》第2章 Python 编程基础(2024 最新版)

文章目录 2.1 Python 语言基础2.1.1 基础知识深入基础总结2.1.2 主要案例:数据分析脚本案例介绍案例 Demo案例分析2.1.3 扩展案例 1:自动化邮件发送案例介绍案例 Demo案例分析2.1.4 扩展案例 2:网页数据抓取

基于ssm的校园帮系统设计与实现(源码+调试)

项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。今天给大家介绍一篇基于ssm的校园帮系统设计…

10:部署Dashboard|部署Prometheus|HPA集群

部署Dashboard|部署Prometheus|HPA集群 Dashboard部署Dashboard上传镜像到私有仓库安装服务发布服务创建管理用户查看登录的Token信息 Prometheus步骤一:导入所有后续需要的镜像到私有镜像仓库(在master主机操作操作)步…

Vue 2.0 中的 Vuex Store 状态管理器核心概念和组成部分

Vue 2.0 中的 Vuex Store 状态管理器核心概念和组成部分 State(状态): Vuex Store 的核心就是集中式存储应用的所有组件的状态。它是一个单一状态树,所有的组件都从这个状态树中读取数据并可以响应状态的变化。 const state {c…

Java设计模式 | 简介

设计模式的重要性: 软件工程中,设计模式(design pattern)是对软件设计中普遍存在(反复出现)的各种问题,所提出的解决方案。 这个术语由埃里希 伽玛(Erich Gamma)等人在1…

2024,中国零售行业数字化走到哪了?

对于如今的中国零售业数字化而言,仍有许多亟待解决的问题,其像一根根“鱼刺”,卡在零售企业增长的“喉咙”中。 作者|斗斗 编辑|皮爷 出品|产业家 熙熙攘攘的人群,琳琅满目年货,一张张喜庆的春联、福字、窗花……

爬虫基本库的使用(requests库的详细解析)

注:本文一共4万多字,希望读者能耐心读完!!! 前面,我们了解了urllib库的基本用法(爬虫基本库的使用(urllib库的详细解析)-CSDN博客)。其中,确实又不方便的地方。例如处理网页验证…

【初中生讲机器学习】11. 回归算法中常用的模型评价指标有哪些?here!

创建时间:2024-02-19 最后编辑时间:2024-02-23 作者:Geeker_LStar 你好呀~这里是 Geeker_LStar 的人工智能学习专栏,很高兴遇见你~ 我是 Geeker_LStar,一名初三学生,热爱计算机和数学,我们一起加…