【论文阅读】Revisiting the Assumption of Latent Separability for Backdoor Defenses

https://github.com/Unispac/Circumventing-Backdoor-Defenses

摘要和介绍

在各种后门毒化攻击中,来自目标类别的毒化样本和干净样本通常在潜在空间中形成两个分离的簇。
在这里插入图片描述

这种潜在的分离性非常普遍,甚至在防御研究中成为了一种默认假设,我们称之为潜在分离性假设。基于这一假设设计的防御方法通过在潜在空间中进行聚类分析来识别毒化样本。具体来说,这些防御方法首先在污染数据集上训练一个基础分类器,并期望该基础模型能自然地学习到毒化样本和干净样本的可分离潜在表示。之后,它们会在基础模型的潜在空间上进行聚类分析。如果潜在分离性特征可靠地出现,这些防御方法就能够准确地识别出由毒化样本形成的异常簇,从而将这些样本从训练集中滤除。我们注意到,这类基于潜在分离的防御方法在后门防御领域尤其重要和成功。像Spectral Signature(Tran等,2018)和Activation Clustering(Chen等,2019)这样的提议已经成为不可或缺的基准,近年来,基于这一假设的最新方法,如SCAn(Tang等,2021)和SPECTRE(Hayase等,2021),甚至声称能在各种攻击中实现几乎完美的召回率,并且假阳性率极低。

鉴于潜在分离性在防御中的普遍性及其显著效果,一个自然的问题随之而来:潜在分离性对后门毒化攻击来说是否是不可避免的?

我们设计了适应性后门毒化攻击(无需控制模型的训练过程),通过这种攻击主动抑制潜在分离性,同时保持较高的攻击成功率(ASR)和极小的干净样本准确率下降。
我们适应性攻击设计的两个关键组件为:
(1)基于数据毒化的正则化。在向一组样本植入后门触发器后,我们不会将所有样本都错误地标记为目标类别,而是随机保留一部分样本(即正则化样本),并仍然正确标记为其实际语义类别。从直觉上讲,这些额外的正则化样本可以惩罚后门触发器与目标类别之间的关联。
(2)促进不对称性和多样性的触发器植入策略。我们通过不对称的触发器植入策略解决了正则化样本对后门关联的惩罚可能会显著降低攻击成功率(ASR)的问题。

在这里插入图片描述

如图2所示,我们在构建正则化样本和有效载荷样本时,使用了较弱的触发器,而标准触发器仅在测试时用于激活后门。这样,测试时带有标准触发器的后门样本具有比正则化样本(带弱触发器)更强的后门特征,因此,测试时的攻击能够很好地缓解正则化样本的反作用,并保持较高的攻击成功率。除了不对称性,我们的设计还鼓励触发器的多样性——不同的毒化样本可以使用来自不同触发器分区的不同部分触发器。从直觉上讲,这种多样性使得后门毒化样本在潜在表示空间中分布得更加分散,从而避免它们聚集成易于识别的簇。

相关工作

针对基于潜在分离的防御的适应性后门攻击
一类适应性后门攻击(Tan & Shokri, 2020;Xia等,2022;Doan等,2021;Ren等,2021;Cheng等,2021;Zhong等,2022)明确旨在减少毒化样本和干净样本之间的潜在分离。然而,这些攻击并不符合后门毒化攻击的范式——它们假设对整个训练过程有额外的控制,因此直接将潜在的不可分离性编码到被攻击模型的训练目标中。与之更相关的工作是Tang等(2021),他们指出其源特定的仅毒化攻击能够减少潜在分离性。然而,正如图1e所示,当基础模型与标准数据增强一起训练时,毒化样本和干净样本之间仍然存在明显的分离,实际上Tang等(2021)自己也表明,通过改进的潜在空间聚类分析,就足以完美分离这种攻击的毒化样本和干净样本。因此,目前仍不清楚仅毒化的后门攻击是否能够克服潜在分离性,从而绕过基于潜在分离的后门防御方法。本文填补了这一空白,设计了能够主动抑制潜在分离性的适应性后门毒化攻击(从而规避现有基于潜在分离的防御)。

方法

对于潜在分离现象,我们的设计受到了两个互补的启发性视角的启发。第一个视角将潜在分离归因于后门触发器在后门模型推理中的主导作用(Tran等,2018)。直观上,为了将一个(植入触发器的)后门毒化样本从其语义类推向目标类,后门模型倾向于在潜在表示空间中学习到一个过于强烈的信号,该信号可以压倒其他语义特征,从而做出决定。这种只出现在后门毒化样本中的强烈后门信号导致了潜在分离的出现。 第二个视角是,后门模型为毒化样本和干净样本学习不同的表示,仅仅因为它们倾向于为毒化样本学习一个单独的快捷规则(Geirhos等,2020),这个规则完全基于触发器模式,而不使用任何语义特征。也就是说,后门学习通常独立于(或仅与)主任务所用的语义特征相关,因此适应毒化数据集的后门模型本质上学习了两个无关(或弱相关)的任务。从这个角度来看,后门模型并没有强烈的动机去为这两个异质任务的样本学习同质的潜在表示。

受到这些视角的启发,我们认为一个理想的适应性后门毒化攻击(能够减轻潜在分离)可能需要编码某种形式的正则化,以(1)惩罚后门模型学习到对后门触发器的异常强烈信号;(2)鼓励后门学习与主任务学习之间的关联。

在这里插入图片描述
我们在图2中展示了我们设计的概述。与典型的后门毒化攻击不同,在我们的框架中,我们并非将所有植入触发器的样本都标记为目标类。如图所示,在将后门触发器植入一组样本(从所有类别中采样)后,我们将其随机分成两组。对于一组样本,我们仍然将它们标记为目标类(我们称这组为有效载荷样本),以建立触发器模式与目标标签之间的后门关联;而另一组(即正则化样本)则被正确地标记为其真实的语义类别(可能不同于目标类),以正则化后门关联。

此外,我们在触发器设计中引入了不对称性和多样性的思想——我们应用一组不同的弱化触发器来构建正则化样本和有效载荷样本进行数据毒化,而原始的标准触发器则在测试时用于激活后门。

正则化样本
我们注意到,正则化样本的引入很好地结合了提出的两种见解(方法开头的第一段)。首先,通过正则化样本,后门模型不再能够学习到一个对后门触发器过于强烈的信号,这样的信号会独裁性地决定目标类,否则它就无法拟合正确标记为其他类别的正则化样本。 这也解释了正则化样本命名的原因——直观地说,它们作为正则化项,有助于惩罚学习到的潜在表示中的后门信号。其次,模型也无法通过简单的快捷规则拟合所有植入触发器的样本。相反,现在它必须拟合一个更复杂的边界,该边界应该决定何时将植入触发器的输入分类为目标类,何时将其分类为真实的语义标签,而这个边界是随机生成的。 为了成功拟合这个边界,模型必须依赖于触发器模式和与触发器共存的语义特征的伪影,因此,后门样本的学习潜在表示应当是触发器模式和语义特征的平衡融合。

不对称触发器
引入不对称触发器对于我们的攻击仍能保持较高的攻击成功率(ASR)至关重要。正如我们容易注意到的那样,由于正则化样本会惩罚后门关联,其副作用可能是攻击成功率(ASR)的下降。为了缓解这个问题,我们的设计中,数据毒化时使用弱化的触发器,而测试时只使用(更强的)原始标准触发器。直觉是:在测试时,后门样本(带有标准触发器)包含比正则化样本(带有弱化触发器)更强的后门特征。这使得测试时的后门样本具有足够的“力量”来抵消正则化样本的对抗作用,从而仍能实现较高的攻击成功率。我们注意到,不对称触发器的想法最早可以追溯到Chen等人(2017),但其背景不同。为了避免人工检查毒化数据集,Chen等(2017)建议使用视觉上不太明显的弱化触发器进行数据毒化,并指出如果在测试时使用原始标准触发器,仍然可以保持较高的攻击成功率。在我们的背景下,我们主要使用弱化触发器来减轻正则化样本带来的负面影响。

触发器多样性
我们还强调,触发器多样化在我们设计中也有助于缓解潜在分离。直观上,由于不同的毒化样本可能被植入不同的触发器,这些毒化样本可能在潜在表示空间中更加分散。因此,我们期望这种更为多样化的分散可以防止这些毒化样本聚集成一个容易识别的簇。

实例化方法

我们在图2中展示的框架是通用的,可以与现有技术创造性地结合,从而实例化出强大的自适应攻击。根据这一框架,我们通过直接调整常用的图像融合和补丁基毒化策略,实例化了两种具体攻击,分别是自适应融合攻击(Adaptive-Blend)和自适应补丁攻击(Adaptive-Patch)

在这里插入图片描述

在这里插入图片描述

只看了核心方法部分,其他部分没怎么看 (只看了1/3左右) 消融实验什么的。空了看下后面的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967805.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于Springmvc+MyBatis+Spring+Bootstrap+EasyUI+Mysql的个人博客系统

基于SpringmvcMyBatisSpringBootstrapEasyUIMysql的个人博客系统 1.项目介绍 使用Maven3Spring4SpringmvcMybatis3架构;数据库使用Mysql,数据库连接池使用阿里巴巴的Druid;使用Bootstrap3 UI框架实现博客的分页显示,博客分类&am…

香港中文大学 Adobe 推出 MotionCanvas:开启用户掌控的电影级图像视频创意之旅。

简介: 亮点直击 将电影镜头设计引入图像到视频的合成过程中。 推出了MotionCanvas,这是一种简化的视频合成系统,用于电影镜头设计,提供整体运动控制,以场景感知的方式联合操控相机和对象的运动。 设计了专门的运动条…

数据结构 单链表的模拟实现

一、链表的定义 线性表的链式存储就是链表。 它是将元素存储在物理上任意的存储单元中,由于⽆法像顺序表⼀样通过下标保证数据元素之间的逻辑关系,链式存储除了要保存数据元素外,还需额外维护数据元素之间的逻辑关系,这两部分信息…

Avalonia-wpf介绍

文章目录 工程简述窗体样式暗色模式亚克力模糊效果ExperimentalAcrylicBorder” 和 “ExperimentalAcrylicMaterial” 的介绍ExperimentalAcrylicBorderExperimentalAcrylicMaterial按钮排版按钮图标按钮命令响应式命令添加一个新对话框对话框窗口样式对话框的输入与输出显示对…

Node.js开发属于自己的npm包(发布到npm官网)

在 Node.js 中开发并发布自己的 npm 包是一个非常好的练习,可以帮助我们更好地理解模块化编程和包管理工具,本篇文章主要阐述如何使用nodejs开发一个属于自己的npm包,并且将其发布在npm官网。在开始之前确保已经安装了 Node.js 和 npm。可以在…

操作系统常见调度算法的详细介绍

目录 1. 先进先出算法(FIFO) 2. 前后台调度算法 3. 最短处理机运行期优先调度算法(短进程优先算法) 4. 最高响应比优先调度算法(HRRN) 5. 优先级调度算法 6. 时间片轮转调度算法 7. 多级反馈队列轮转…

ADB详细教程

目录 一、ADB简介 二、配置 配置环境变量 验证是否安装成功 三、简单使用 基本命令 设备连接管理 USB连接 WIFI连接(需要USB线) 开启手机USB调试模式 开启USB调试 四、其他 更换ADB默认启动端口 一、ADB简介 ADB(Android Debug…

WEB攻防-第60天:PHP反序列化POP链构造魔术方法流程漏洞触发条件属性修改

目录 一、序列化与反序列化基础 1.1 什么是序列化与反序列化 二、魔术方法的生命周期 2.1 常见的魔术方法 2.2 模式方法的生命周期触发调用 2.2.1 __construct() 2.2.2 __destruct() 2.2.3 __sleep() 2.2.4 __wakeup() 2.2.5 __invoke() 2.2.6 __toS…

SQLMesh系列教程-2:SQLMesh入门项目实战(下篇)

上篇我介绍了环境搭建、duckdb数据准备、sqlmesh数据模型、plan命令运行。本文继续介绍审计、测试、生成血缘关系以及python模型等。 有两种方法可以在SQLMesh中创建宏。一种方法是使用Python,另一种方法是使用Jinja。这里我们创建Python宏。让我们构建简单的Python…

自主项目面试点总结

1、许苑–OJ判题系统 技术栈:Spring BootSpring Cloud AlibabaRedisMybatisMQDocker 项目地址: https://github.com/xuyuan-upward/xyoj-backend-microservice 1.1、项目介绍: 一个基于微服务的OJ系统,具备能够根据管理员预设的题目用例对用户提交的代…

Macbook Pro快速搭建Easysearch学习环境

在学习过程中,我们有时身边没有可用的服务器,这时就需要借助自己的 Mac 来安装和学习 Easysearch。然而,Easysearch 官网并未提供 Mac 版本的安装教程,下面我将详细整理我在 Mac 上安装和使用 Easysearch 的折腾经历。 Easysearc…

Arduino 第十三章:红外接收

Arduino 第十三章:红外接收 一、红外接收概述 红外接收在日常生活和电子制作中十分常见,像电视、空调等家电的遥控器就是利用红外信号来实现远程控制的。在 Arduino 项目里,借助红外接收模块能够让设备接收红外信号,进而实现诸如…

朝天椒USB服务器:解决加密狗远程连接

本文探讨朝天椒USB服务器用Usb Over Network技术,解决加密狗在虚拟机、云主机甚至异地的远程连接问题。 在企业数字化转型的浪潮中,加密狗作为防止软件盗版的重要手段,广泛应用于各类软件授权场景。然而,随着企业超融合进程不断加…

第二篇:电压与电流的“锡安之战”——电路定律在800V高压平台中的应用

——基尔霍夫与戴维南如何破解新能源汽车的“高压密码” 核心隐喻:电路定律的“数字起义” 在《黑客帝国》中,锡安的反抗军通过破解母体协议实现逆袭。而在新能源汽车的800V高压平台中, 基尔霍夫定律 和 戴维南定理 正是工程师手中的“通…

【牛客】动态规划专题一:斐波那契数列

文章目录 DP1 斐波那契数列法1&#xff1a;递归法2&#xff1a;动态规划法3&#xff1a;优化空间复杂度 2.分割连接字符串3. 给定一个字符串s和一组单词dict&#xff0c;在s中添加空格将s变成一个句子 DP1 斐波那契数列 法1&#xff1a;递归 // 递归 #include <iostream>…

innovus如何分步长func和dft时钟

在Innovus工具中&#xff0c;分步处理功能时钟&#xff08;func clock&#xff09;和DFT时钟&#xff08;如扫描测试时钟&#xff09;需要结合设计模式&#xff08;Function Mode和DFT Mode&#xff09;进行约束定义、时钟树综合&#xff08;CTS&#xff09;和时序分析。跟随分…

5-R循环

R 循环 ​ 有的时候&#xff0c;我们可能需要多次执行同一块代码。一般情况下&#xff0c;语句是按顺序执行的&#xff1a;函数中的第一个语句先执行&#xff0c;接着是第二个语句&#xff0c;依此类推。 编程语言提供了更为复杂执行路径的多种控制结构。 循环语句允许我们多…

DeepSeek AI R1推理大模型API集成文档

DeepSeek AI R1推理大模型API集成文档 引言 随着自然语言处理技术的飞速发展&#xff0c;大语言模型在各行各业的应用日益广泛。DeepSeek R1作为一款高性能、开源的大语言模型&#xff0c;凭借其强大的文本生成能力、高效的推理性能和灵活的接口设计&#xff0c;吸引了大量开发…

知识图谱_protege的安装

目录 1.下载protege 2.安装可视化工具Graphviz 3.配置 参考【知识图谱】3.Protege下载安装-CSDN博客 1.下载protege 我在官网下载不了所以我就没有在官网下载 项目首页 - Protege-5.5.0Windows版本快速下载指南:Protege是一个广受欢迎的、强大的知识建模工具&#xff0c;用…

从BERT到ChatGPT:大模型训练中的存储系统挑战与技术发展——论文泛读

计算机研究与发展 2024 Paper 论文阅读笔记整理 问题 以ChatGPT为代表的大模型在文字生成、语义理解等任务上表现卓越&#xff0c;但大模型的参数量在3年内增长数万倍&#xff0c;且仍呈现增长的趋势。大模型训练面临存储挑战&#xff0c;存储需求大&#xff0c;且具有独特的…