【论文笔记】Content-based Unrestricted Adversarial Attack

在这里插入图片描述图2:Adversarial Content Attack的流程。首先使用Image Latent Mapping将图像映射到潜变量空间。然后,用Adversarial Latent Optimization生成对抗性样本。最后,生成的对抗性样本可以欺骗到目标分类模型。

3.1 Image Latent Mapping

对于扩散模型,最简单的图像映射是DDIM采样的逆过程,使用prompt P \mathcal{P} P的条件嵌入 C = ψ ( P ) \mathcal{C}=\psi(\mathcal{P}) C=ψ(P),基于常微分方程过程可以在小步长限制下反转:
z t + 1 = α t + 1 α t z t + α t + 1 ( 1 α t + 1 − 1 − 1 α t − 1 ) ⋅ ϵ θ ( z t , t , C ) (2) z_{t+1}=\sqrt{\frac{\alpha_{t+1}}{\alpha_t}}z_t+\sqrt{\alpha_{t+1}}(\sqrt{\frac{1}{\alpha_{t+1}}-1}-\sqrt{\frac{1}{\alpha_t}-1})\cdot\epsilon_\theta(z_t,t,\mathcal{C})\tag{2} zt+1=αtαt+1 zt+αt+1 (αt+111 αt11 )ϵθ(zt,t,C)(2)
其中 z 0 z_0 z0是给定的真实图像。图像的描述prompt通常由图像描述模型(如BLIP v2)自动生成。

给定 w w w作为引导比例参数, ∅ = ψ ("") \varnothing=\psi\text{("")} =ψ("")是空文本的嵌入表示,无分类器引导(classifier-free guidance)预测可以表示为:
ϵ ~ θ ( z t , t , C , ∅ ) = w ⋅ ϵ θ ( z t , t , C ) + ( 1 − w ) ⋅ ϵ θ ( z t , t , ∅ ) (3) \tilde{\epsilon}_\theta(z_t,t,\mathcal{C},\varnothing)=w\cdot\epsilon_\theta(z_t,t,\mathcal{C})+(1-w)\cdot\epsilon_\theta(z_t,t,\varnothing)\tag{3} ϵ~θ(zt,t,C,)=wϵθ(zt,t,C)+(1w)ϵθ(zt,t,)(3)
Stable Diffusion中 w = 7.5 w=7.5 w=7.5。噪声是通过 ϵ θ \epsilon_\theta ϵθ预测出来的,用于去噪过程,因此每一步都会有细微的误差,随着许多步去噪,导致误差累积越来越大,破坏了噪声的高斯分布,诱发不真实的视觉效果。

为减小累计误差,对每一步 t t t优化空文本嵌入 ∅ \varnothing 。首先使用 w = 1 w=1 w=1在DDIM的逆过程输出一系列潜变量表示 { z 0 ∗ , ⋯   , z T ∗ } \{z_0^*,\cdots,z_T^*\} {z0,,zT},其中 z 0 ∗ = z 0 z_0^*=z_0 z0=z0。然后对于时间戳 { T , ⋯   , 1 } \{T,\cdots,1\} {T,,1},使用 w = 7.5 w=7.5 w=7.5 z ˉ T = z t \bar{z}_T=z_t zˉT=zt N N N次迭代中进行了如下优化:
min ⁡ ∅ t ∣ ∣ z t − 1 ∗ − z t − 1 ( z ˉ t , t , C , ∅ ) ∣ ∣ 2 2 (4) \min_{\varnothing_t}||z_{t-1}^*-z_{t-1}(\bar{z}_t,t,\mathcal{C},\varnothing)||_2^2\tag{4} tmin∣∣zt1zt1(zˉt,t,C,)22(4)
z t − 1 ( z ˉ t , t , C , ∅ ) = α t − 1 α t z ˉ t + α t − 1 ( 1 α t − 1 − 1 − 1 α t − 1 ) ⋅ ϵ ~ θ ( z t , t , C , ∅ ) (5) z_{t-1}(\bar{z}_t,t,\mathcal{C},\varnothing)=\sqrt{\frac{\alpha_{t-1}}{\alpha_t}}\bar{z}_t+\sqrt{\alpha_{t-1}}(\sqrt{\frac{1}{\alpha_{t-1}}-1}-\sqrt{\frac{1}{\alpha_t}-1})\cdot\tilde{\epsilon}_\theta(z_t,t,\mathcal{C},\varnothing)\tag{5} zt1(zˉt,t,C,)=αtαt1 zˉt+αt1 (αt111 αt11 )ϵ~θ(zt,t,C,)(5)
在每一步的最后,将 z ˉ t − 1 \bar{z}_{t-1} zˉt1更新为 z t − 1 ( z ˉ t , t , C , ∅ t ) z_{t-1}(\bar{z}_t,t,\mathcal{C},\varnothing_t) zt1(zˉt,t,C,t)。最后得到原始图像在潜变量空间内的表示,包含噪声 z ˉ T \bar{z}_T zˉT,空文本嵌入 ∅ t \varnothing_t t和文本嵌入 C = ψ ( P ) \mathcal{C}=\psi(\mathcal{P}) C=ψ(P)

3.2 Adversarial Latent Optimization

本节提出了一种针对潜变量的优化方法,最大化在非限制对抗样本上的攻击性能。经过image latent mapping后得到的潜变量空间中,空文本嵌入 ∅ t \varnothing_t t确保了重建的图像的质量,条件嵌入 C \mathcal{C} C保证了图像的语义信息。同时优化两种嵌入并不现实,考虑到噪声 z ˉ T \bar{z}_T zˉT很大程度上表示了潜变量空间中图像的信息,因此选择优化噪声 z ˉ T \bar{z}_T zˉT。但是这种优化的复杂梯度计算和取值范围溢出的问题仍然是挑战。

基于image latent mapping生成的潜变量,将扩散模型中的去噪过程Eq.5定义为 Ω ( ⋅ ) \Omega(\cdot) Ω(),其包含 T T T次迭代:
Ω ( z T , T , C , { ∅ t } t = 1 T ) = z 0 ( z 1 ( ⋯   , ( z T − 1 , T − 1 , C , ∅ T − 1 ) , ⋯   , 1 , C , ∅ 1 ) , 0 , C , ∅ 0 ) (6) \Omega(z_T,T,\mathcal{C},\{\varnothing_t\}_{t=1}^T)=z_0(z_1(\cdots,(z_{T-1},T-1,\mathcal{C},\varnothing_{T-1}),\cdots,1,\mathcal{C},\varnothing_1),0,\mathcal{C},\varnothing_0)\tag{6} Ω(zT,T,C,{t}t=1T)=z0(z1(,(zT1,T1,C,T1),,1,C,1),0,C,0)(6)
由此,重新构建的模型可表示为 z ˉ 0 = Ω ( z T , T , C , { ∅ t } ) \bar{z}_0=\Omega(z_T,T,\mathcal{C},\{\varnothing_t\}) zˉ0=Ω(zT,T,C,{t})。结合Eq.7,对抗性目标优化可以表示为:
max ⁡ δ L ( F θ ( z ˉ 0 , y ) ) ,   s . t . ∣ ∣ δ ∣ ∣ ∞ ≤ κ ,   z ˉ 0 = Ω ( z T + δ , T , C , { ∅ t } ) (7) \max_\delta \mathcal{L}(\mathcal{F}_\theta(\bar{z}_0,y)),\ s.t.||\delta||_\infty\leq\kappa,\ \bar{z}_0=\Omega(z_T+\delta,T,\mathcal{C},\{\varnothing_t\})\tag{7} δmaxL(Fθ(zˉ0,y)), s.t.∣∣δκ, zˉ0=Ω(zT+δ,T,C,{t})(7)
其中 z ˉ 0 \bar{z}_0 zˉ0是自然图像, δ \delta δ是潜变量空间中的对抗性扰动。

损失函数包含两部分:

  • 交叉熵损失 L c e \mathcal{L}_{ce} Lce,用于引导对抗性样本误导分类器;
  • 均方误差损失 L m s e \mathcal{L}_{mse} Lmse,用于引导对抗性样本在 l 2 l_2 l2距离上尽可能接近真实的干净样本。
    由此,完整的损失函数 L \mathcal{L} L可以表示为:

L ( F θ ( z ˉ 0 ) , y , z 0 ) = L c e ( F θ ( z ˉ 0 ) , y ) − β ⋅ L m s e ( z ˉ 0 , z 0 ) \mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y,z_0)=\mathcal{L}_{ce}(\mathcal{F}_\theta(\bar{z}_0),y)-\beta\cdot\mathcal{L}_{mse}(\bar{z}_0,z_0) L(Fθ(zˉ0),y,z0)=Lce(Fθ(zˉ0),y)βLmse(zˉ0,z0)
本文中 β = 0.1 \beta=0.1 β=0.1,损失函数的目标是最大化交叉熵损失冰最小化和干净样本的 l 2 l_2 l2距离。为保证 z 0 z_0 z0 z ˉ 0 \bar{z}_0 zˉ0的一致性,假设当 δ \delta δ很小时(即 ∣ ∣ δ ∣ ∣ ∞ ≤ κ ||\delta||_\infty\leq\kappa ∣∣δκ时), δ \delta δ不会改变 z 0 z_0 z0 z ˉ 0 \bar{z}_0 zˉ0的一致性,关键在于产生最大分类损失的 δ \delta δ

类似于传统的对抗攻击,使用基于梯度的技术,通过 δ ≃ η ∇ z T L ( F θ ( z ˉ 0 ) , y ) \delta\simeq\eta\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y) δηzTL(Fθ(zˉ0),y)来估计噪声 δ \delta δ,其中 η \eta η是发生在梯度方向上的扰动量。利用链式规则对 ∇ z T L ( F θ ( z ˉ 0 ) , y ) \nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y) zTL(Fθ(zˉ0),y)进行展开,可以得到如下的导数项:
∇ z T L ( F θ ( z ˉ 0 ) , y ) = ∂ L ∂ z ˉ 0 ⋅ ∂ z ˉ 0 ∂ z 1 ⋅ ∂ z 1 ∂ z 2 ⋯ ∂ z T − 1 ∂ z T (9) \nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y)=\frac{\partial\mathcal{L}}{\partial\bar{z}_0}\cdot\frac{\partial\bar{z}_0}{\partial z_1}\cdot\frac{\partial z_1}{\partial z_2}\cdots\frac{\partial z_{T-1}}{\partial z_T}\tag{9} zTL(Fθ(zˉ0),y)=zˉ0Lz1zˉ0z2z1zTzT1(9)

Skip Gradient
尽管梯度是可导的,通过此式推导出完整的计算图是不可行的。

  • ∂ L ∂ z ˉ 0 \frac{\partial\mathcal{L}}{\partial\bar{z}_0} zˉ0L是分类器关于重构图像 z ˉ 0 \bar{z}_0 zˉ0的导数,并提供对抗梯度方向。
  • ∂ z t ∂ z t + 1 \frac{\partial z_t}{\partial z_{t+1}} zt+1zt,每一次导数的计算都代表一次反向传播的计算。
  • 一个完整的去噪过程累积了 T T T个计算图,导致内存溢出。

本文提出了Skip Gradient来估计 ∂ L ∂ z ˉ 0 ⋅ ∂ z ˉ 0 ∂ z 1 ⋅ ∂ z 1 ∂ z 2 ⋯ ∂ z T − 1 ∂ z T \frac{\partial\mathcal{L}}{\partial\bar{z}_0}\cdot\frac{\partial\bar{z}_0}{\partial z_1}\cdot\frac{\partial z_1}{\partial z_2}\cdots\frac{\partial z_{T-1}}{\partial z_T} zˉ0Lz1zˉ0z2z1zTzT1。去噪过程旨在消除DDIM采样中加入的高斯噪声,DDIM利用重参数化技巧,在任意第 t t t步下进行闭式采样:
z t = α t z 0 + 1 − α t ε ,   ε ∼ N ( 0 , I ) (10) z_t=\sqrt{\alpha_t}z_0+\sqrt{1-\alpha_t}\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)\tag{10} zt=αt z0+1αt ε, εN(0,I)(10)
对Eq.10变形,得到 z 0 = 1 α t z t − 1 − α t α t ε z_0=\frac{1}{\sqrt{\alpha_t}}z_t-\sqrt{\frac{1-\alpha_t}{\alpha_t}}\varepsilon z0=αt 1ztαt1αt ε。由此,得到 ∂ z 0 ∂ z t = 1 α t \frac{\partial z_0}{\partial z_t}=\frac{1}{\sqrt{\alpha_t}} ztz0=αt 1。Stable Diffusion中,步长 t t t最多是1000,因此有 lim ⁡ t → 1000 ∂ z 0 ∂ z t = lim ⁡ t → 1000 1 α t ≈ 14.58 \lim_{t\rightarrow 1000}\frac{\partial z_0}{\partial z_t}=\lim_{t\rightarrow 1000}\frac{1}{\sqrt{\alpha_t}}\approx 14.58 limt1000ztz0=limt1000αt 114.58。总结而言, ∂ z 0 ∂ z t \frac{\partial z_0}{\partial z_t} ztz0可以被看做常数 ρ \rho ρ,Eq.9可以变为 ∇ z T L ( F θ ( z ˉ 0 ) , y ) = ρ ∂ L ∂ z ˉ 0 \nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y)=\rho\frac{\partial\mathcal{L}}{\partial\bar{z}_0} zTL(Fθ(zˉ0),y)=ρzˉ0L。综上所述,Skip Gradients估计了去噪过程的梯度,减少了计算和存储需求。

Differentiable Boundary Processing
扩散模型没有严格限制 z ˉ 0 \bar{z}_0 zˉ0的数值取值范围, z T z_T zT的修改可能会导致其取值范围被超出。由此引入differentiable boundary processing ϱ ( ⋅ ) \varrho(\cdot) ϱ() ϱ ( ⋅ ) \varrho(\cdot) ϱ()将超出 [ 0 , 1 ] [0,1] [0,1]范围的数值压缩到 [ 0 , 1 ] [0,1] [0,1]中:
ϱ ( x ) = { tanh ⁡ ( 1000 x ) / 10000 x < 0 x 0 ≤ x < 1 tanh ⁡ ( 1000 ( x − 1 ) ) / 10001 x > 1 (11) \varrho(x) = \begin{cases} \tanh(1000x)/10000 \qquad & x<0 \\ x \qquad & 0\leq x<1 \\ \tanh(1000(x-1))/10001 \qquad & x > 1 \end{cases}\tag{11} ϱ(x)= tanh(1000x)/10000xtanh(1000(x1))/10001x<00x<1x>1(11)
接下来定义 Π κ \Pi_\kappa Πκ为对抗扰动 δ \delta δ κ \kappa κ球面上的投影。引入动量 g g g,将优化对抗性潜变量为:
g k ← μ ⋅ g k − 1 + ∇ z T L ( F θ ( ( ϱ ( z ˉ 0 ) , y ) ) ) ∣ ∣ ∇ z T L ( F θ ( ( ϱ ( z ˉ 0 ) , y ) ) ) ∣ ∣ 1 (12) g_k\leftarrow \mu\cdot g_{k-1}+\frac{\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta((\varrho(\bar{z}_0),y)))}{||\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta((\varrho(\bar{z}_0),y)))||_1}\tag{12} gkμgk1+∣∣zTL(Fθ((ϱ(zˉ0),y)))1zTL(Fθ((ϱ(zˉ0),y)))(12)
δ k ← Π κ ( δ k − 1 + η ⋅ sign ( g k ) ) (13) \delta_k\leftarrow\Pi_\kappa(\delta_{k-1}+\eta\cdot\text{sign}(g_k))\tag{13} δkΠκ(δk1+ηsign(gk))(13)
综上所述,adversarial latent optimization采用跳跃梯度来确定去噪过程的梯度,结合可微边界处理来调节对抗样本的取值范围,根据梯度进行迭代优化。结合图像潜在映射,算法1中说明了adversarial content attack的详细过程。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/676368.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第四十一天 | 理论基础、509.斐波那契数列、70.爬楼梯、746.使用最小花费爬楼梯

目录 理论基础 509.斐波那契数列 思路 代码 70.爬楼梯 思路 代码 746.使用最小花费爬楼梯 思路 代码 理论基础 代码随想录 视频&#xff1a;从此再也不怕动态规划了&#xff0c;动态规划解题方法论大曝光 &#xff01;| 理论基础 |力扣刷题总结| 动态规划入门_哔哩哔…

uni微信小程序editor富文本组件如何插入图片

需求 在editor中插入图片&#xff0c;并对图片进行编辑&#xff0c;简略看一下组件的属性&#xff0c;官网editor 组件 | uni-app官网 解决方案 首先要使用到ready这个属性&#xff0c;然后官网有给代码粘过来&#xff0c;简单解释一下这段代码的意思&#xff08;作用是在不同…

带大家做一个,易上手的家常猪肉炖白菜

今天 带大家做一个 猪肉炖白菜 一块猪肉 切片 一块生姜 两边

20240603在飞凌的OK3588-C开发板上跑原厂IPC方案时确认OV5645

v4l2-ctl --list-devices media-ctl -p -d /dev/media2 20240603在飞凌的OK3588-C开发板上跑原厂IPC方案时确认OV5645 2024/6/3 16:39 确认OV5645已经正常挂载了&#xff1a; Microsoft Windows [版本 10.0.22621.3296] (c) Microsoft Corporation。保留所有权利。 C:\Users\Q…

音频pop音的数学与物理解释

音频数据跳变太大的时候通常会有pop音&#xff0c;此时频谱上看pop音位置能量较高 音频中的“pop”音通常是由于信号的不连续性或瞬态变化造成的。这种不连续性的数学和物理原因可以从以下几个方面解释&#xff1a; 数学解释 信号不连续性 当音频信号发生突变时&#xff0c;…

从 0 到 1 带你认识 Git 在个人和企业开发中的原理及应用

文章目录 学习目标Git 初识提出问题如何解决&#xff1f;—— 版本控制器注意事项 Git 安装Linux CentOSLinux UbuntuWindows Git 基本操作创建 Git 本地仓库配置 Git 认识工作区、暂存区、版本库添加文件——场景一查看 .git 文件 添加文件——场景二 修改文件版本回退 学习目…

一文读懂GDPR

GDPR将对人们的网络足迹、使用的APP和服务如何保护或利用这些数据产生重大影响。 下面我们将对有关GDPR人们最关心的问题进行解读。 GDPR是什么&#xff1f; 一般数据保护条例&#xff08;General Data Protection Regulation&#xff09;是一项全面的法律&#xff0c;赋予了…

SaaS增长| 联盟营销经理必须要知道的十个关键指标!

你对你的联盟合作伙伴计划了解多少&#xff1f;这个问题的答案将取决于你的数据有多好&#xff0c;以及你跟踪数据的效率如何。 如果你还在整合各种资源&#xff0c;不必担心。合作伙伴计划需要时间和努力来建立&#xff0c;而且很难立即实施适当的报告制度&#xff0c;尤其是…

Python私教张大鹏万字长文讲解Tailwindcss Flex 和 Grid 布局相关的样式,附完整源码和效果截图

flex-basics 样式类 Utilities for controlling the initial size of flex items. 用于控制伸缩项的初始大小的实用程序。 基础样式 ClassPropertiesbasis-0flex-basis: 0px;basis-1flex-basis: 0.25rem; /* 4px */basis-2flex-basis: 0.5rem; /* 8px */basis-3flex-basis:…

程序员的五大职业素养,你知道吗?

程序员职业生涯的挑战与机遇 在当今这个科技日新月异的时代&#xff0c;程序员作为技术行业的中坚力量&#xff0c;其职业生涯无疑充满了无数挑战与机遇。技术的快速迭代要求他们必须不断学习新知识、掌握新技能&#xff0c;以跟上时代的步伐。同时&#xff0c;云计算、人工智…

python常见数据分析函数

apply DataFrame.apply(func, axis0, broadcastFalse, rawFalse, reduceNone, args(), **kwds) 第一个参数是函数 可以在Series或DataFrame上执行一个函数 支持对行、列或单个值进行处理 import numpy as np import pandas as pdf lambda x: x.max()-x.min()df pd.DataFrame(…

Spring Cloud学习笔记(Nacos):Nacos持久化(未完成)

这是本人学习的总结&#xff0c;主要学习资料如下 - 马士兵教育 1、Overview2、单机使用MySQL 1、Overview 我们关闭单机下的Nacos后&#xff0c;再重新启动会发现之前配置的内容没有被删除。这时因为Nacos有内嵌的数据库derby&#xff0c;会自己持久化。 但是在集群的情况下…

【用户画像】用户偏好购物模型BP

一、前言 用户购物偏好模型BP&#xff08;Buyer Preferences Model&#xff09;旨在通过对用户购物行为的深入分析和建模&#xff0c;以量化用户对不同商品或服务的偏好程度。该模型对于电商平台、零售商以及其他涉及消费者决策的商业实体来说&#xff0c;具有重要的应用价值。…

尝试编译 AMD ROCm 的 llvm-project

0&#xff0c;环境 ubuntu 22.04 gcc-11 x86_64 18cores/36threads 256GB RAM rocm 6.0.2 Radeon VII 1&#xff0c;第一次尝试 构建命令&#xff1a; cmake -G "Unix Makefiles" ../llvm \ -DLLVM_ENABLE_PROJECTS"clang;lld;lldb;mlir;openmp" \…

TCP报头

TCP报头 一:TCP报头1.1: 16位源端口号 && 16位目的端口号1.2: 选项1.3: 4位首部长度1.4: 保留位1.5 :标志位1.6: 16位窗口大小1.7: 16位紧急指针1.8: 32位序号 && 32位确认序号1.9: 16位校验和二级目录 一级目录二级目录二级目录二级目录 一级目录一级目录一级…

[GeoServer系列]Shapefile数据发布

【GeoServer系列】——安装与发布shapefile数据-CSDN博客 将待发布数据放置指定目录下 webapps\geoserver\data\data 创建存储仓库 新建矢量数据源 发布图层 设置边框 设置样式 使用 方式1 let highRoad new Cesium.WebMapServiceImageryProvider({url: http://local…

一维时间序列信号的奇异小波时频分析方法(Python)

最初的时频分析技术就是短时窗傅里叶变换STFT&#xff0c;由于时窗变短&#xff0c;可供分析的信号量减少&#xff0c;采用经典的谱估算方法引起的误差所占比重会增加。且该短时窗一旦选定&#xff0e;则在整个变换过程中其时窗长度是固定的。变换后的时频分辨率也即固定&#…

分享两种论文降重最有效的方法(论文降重网站)

论文降重最有效的方法可以分为手动方法和使用降重网站两种方法。以下是详细的分析和归纳&#xff1a; 手动方法 删减冗余内容&#xff1a;对于论文中的某些内容&#xff0c;特别是信息冗余或不必要的描述&#xff0c;可以通过删减和简化来减少篇幅。确保每一段落和每一个例子都…

UI 自动化测试(Selenuim + Java )

关于 UI 自动化测试工具 selenuim Java 的环境搭建推荐看SeleniumJava 环境搭建 什么是自动化测试&#xff1f; 自动化测试指软件测试的自动化&#xff0c;在预设状态下运行应用程序或者系统&#xff0c;预设条件包括正常和异常&#xff0c;最后评估运行结果。将人为驱动的测…

AI大数据处理与分析实战--体育问卷分析

AI大数据处理与分析实战–体育问卷分析 前言&#xff1a;前一段时间接了一个需求&#xff0c;使用AI进行数据分析与处理&#xff0c;遂整理了一下大致过程和大致简要结果&#xff08;更详细就不方便放了&#xff09;。 文章目录 AI大数据处理与分析实战--体育问卷分析一、数据…