ICLR2017 | I-FGSM | 物理世界中的对抗样本

Adversarial Examples in The Physical World

  • 摘要-Abstract
  • 引言-Introduction
  • 生成对抗图像的方法-Methods of Generating Adversarial Images
  • 对抗样本的图片-Photos of Adversarial Examples
    • 对抗图像的破坏率-Destruction Rate of Adversarial Images
    • 实验设置-Experimental Setup
    • 对抗图像照片的实验结果-Experimental Results On Photos Of Adversarial Images
      • 实验结果汇总
      • 结果分析
      • 总体结论
    • 物理世界中黑盒对抗攻击的演示-Demonstration Of Black Box Adversarial Attack In The Physical World
  • 人工图像变换-Artificial Image Transformation
  • 结论-Conclusion
    • 研究总结
    • 未来展望


论文链接

本文 “Adversarial Examples in The Physical World” 首次证明了在物理世界中,机器学习系统同样易受对抗样本攻击,通过将对抗图像经手机相机输入ImageNet Inception分类器的实验,发现大量对抗样本仍被误分类,展示了物理对抗样本的可能性,同时对比了不同对抗样本生成方法及在照片和人工图像变换下的效果,为后续相关研究提供了重要基础和方向。


摘要-Abstract

Most existing machine learning classifiers are highly vulnerable to adversarial examples. An adversarial example is a sample of input data which has been modified very slightly in a way that is intended to cause a machine learning classifier to misclassify it. In many cases, these modifications can be so subtle that a human observer does not even notice the modification at all, yet the classifier still makes a mistake. Adversarial examples pose security concerns because they could be used to perform an attack on machine learning systems, even if the adversary has no access to the underlying model. Up to now, all previous work has assumed a threat model in which the adversary can feed data directly into the machine learning classifier. This is not always the case for systems operating in the physical world, for example those which are using signals from cameras and other sensors as input. This paper shows that even in such physical world scenarios, machine learning systems are vulnerable to adversarial examples. We demonstrate this by feeding adversarial images obtained from a cell-phone camera to an ImageNet Inception classifier and measuring the classification accuracy of the system. We find that a large fraction of adversarial examples are classified incorrectly even when perceived through the camera.

大多数现有的机器学习分类器极易受到对抗样本的影响。对抗样本是一种输入数据样本,它经过了非常微小的修改,目的是使机器学习分类器对其进行错误分类。在许多情况下,这些修改可能非常微妙,以至于人类观察者根本注意不到修改,但分类器仍然会出错。对抗样本引发了安全问题,因为即使攻击者无法访问底层模型,它们也可能被用于对机器学习系统进行攻击。到目前为止,之前的所有工作都假设了一种威胁模型,即攻击者可以直接将数据输入机器学习分类器。但对于在物理世界中运行的系统来说,情况并非总是如此,例如那些使用来自相机和其他传感器的信号作为输入的系统。本文表明,即使在这样的物理世界场景中,机器学习系统也容易受到对抗样本的攻击。 我们通过将从手机相机获取的对抗图像输入到ImageNet Inception分类器中,并测量系统的分类准确率来证明这一点。我们发现,即使通过相机感知,很大一部分对抗样本也会被错误分类。


引言-Introduction

该部分主要介绍了机器学习模型易受对抗样本攻击的背景及相关研究现状,提出在物理世界场景中机器学习系统面临的新问题,具体内容如下:

  1. 机器学习模型的漏洞
    • 机器学习和深度神经网络的发展解决了诸多实际问题,但模型常因输入被对抗性操纵而导致错误分类。神经网络等对测试时输入的微小修改高度敏感,且对抗样本比噪声扰动样本更易被误分类。
    • 对抗样本存在安全威胁,其转移性使攻击者无需模型信息即可进行误分类攻击,此前已有相关研究在现实场景中演示了此类攻击。
  2. 物理世界中的新问题
    • 以往对抗样本研究基于攻击者可直接向模型输入数据的威胁模型,但实际物理世界中的系统(如机器人视觉、视频监控、移动图像分类应用等),攻击者无法精细修改输入数据。
    • 一些前期工作涉及物理攻击机器学习系统,但与本文通过微小扰动愚弄神经网络不同。本文类似工作是Sharif等人的研究,但本文与其在攻击方法、对对抗样本处理、研究重点等方面存在差异。
  3. 研究问题及实验设置
    • 本文旨在探究在物理世界中能否构造对抗样本攻击机器学习系统,通过用预训练的ImageNet Inception分类器进行实验,生成对抗样本后经手机相机输入并测量分类准确率,发现大量对抗样本仍被误分类,且攻击方法无需针对相机修改,为更专业攻击提供了成功率下限。
    • 实验假设攻击者完全了解模型架构和参数值(便于使用单一模型实验),虽未详细研究物理对抗样本转移性,但通过简单手机应用演示了潜在黑盒攻击。后续还将通过更多实验研究相机图像变换对对抗样本转移性的影响。

在这里插入图片描述
图1:使用物理对抗样本对用于图像分类的手机应用程序进行黑盒攻击(在这种攻击中,攻击是在无法访问模型的情况下构建的)的演示。我们从数据集中获取了一张干净的图像(a),并使用它生成了具有不同大小对抗扰动(\epsilon)的对抗图像。然后我们打印出干净的和对抗的图像,并使用TensorFlow相机演示应用程序对它们进行分类。当通过相机感知时,干净的图像(b)被正确识别为“洗衣机”,而对抗图像(c)和(d)则被错误分类。完整演示视频见https://youtu.be/zQ_uMenoBCk.


生成对抗图像的方法-Methods of Generating Adversarial Images

该部分详细介绍了用于生成对抗样本的不同方法,包括快速方法、基本迭代方法、迭代最小可能类方法,并通过实验对比了这些方法的效果,具体内容如下:

  1. 符号定义
    • X X X:表示图像,通常为3维张量(宽度、高度、深度),像素值为 [ 0 , 255 ] [0, 255] [0,255] 范围内整数。
    • y t r u e y_{true} ytrue:图像 X X X 的真实类别。
    • J ( X , y ) J(X, y) J(X,y):神经网络的交叉熵代价函数,本文假设网络权重等参数固定(训练后的值),对于softmax输出层, J ( X , y ) = − l o g p ( y ∣ X ) J(X, y)= -log p(y | X) J(X,y)=logp(yX)
    • C l i p X , ϵ { X ′ } Clip_{X,\epsilon}\{X'\} ClipX,ϵ{X}:对图像 X ′ X' X 进行逐像素裁剪的函数,使结果在源图像 X X X L ∞ L_{\infty} L ϵ \epsilon ϵ邻域内。
  2. 生成对抗样本的方法
    • 快速方法(Fast Method, FGSM)
      • 原理: 基于线性化代价函数,通过一次反向传播求解使正确类成本最大化的扰动,公式为 X a d v = X + ϵ s i g n ( ∇ X J ( X , y t r u e ) ) X^{adv}=X+\epsilon sign(\nabla_{X} J(X, y_{true})) Xadv=X+ϵsign(XJ(X,ytrue)).
      • 特点: 速度快,但随着 ϵ \epsilon ϵ 增大,添加的噪声可能破坏图像内容,使图像难以被识别,在实验中即使 ϵ \epsilon ϵ 较小时也会降低分类准确率,且准确率在 ϵ \epsilon ϵ 增大到一定程度前基本保持不变,之后缓慢下降。
    • 基本迭代方法(Basic Iterative Method, BIM, I-FGSM)
      • 原理: 多次应用快速方法,每次迭代步长较小,每步后裁剪中间结果像素值,公式为 X 0 a d v = X , X N + 1 a d v = C l i p X , ϵ { X N a d v + α s i g n ( ∇ X J ( X N a d v , y t r u e ) ) } X_{0}^{adv}=X, X_{N + 1}^{adv}=Clip_{X,\epsilon}\{X_{N}^{adv}+\alpha sign(\nabla_{X} J(X_{N}^{adv}, y_{true}))\} X0adv=X,XN+1adv=ClipX,ϵ{XNadv+αsign(XJ(XNadv,ytrue))}(实验中 α = 1 \alpha = 1 α=1,迭代次数根据 ϵ \epsilon ϵ 选择)。
      • 特点: 能利用更精细扰动,在 ϵ < 48 \epsilon<48 ϵ<48 时生成的对抗样本效果优于快速方法,但随着 ϵ \epsilon ϵ 继续增大,效果无法进一步提升。
    • 迭代最小可能类方法(Iterative Least - Likely Class Method)
      • 原理: 使对抗样本被分类为训练网络预测的最不可能类 y L L y_{LL} yLL y L L = a r g m i n y { p ( y ∣ X ) } y_{LL}=\underset{y}{arg min}\{p(y | X)\} yLL=yargmin{p(yX)}),通过迭代向 s i g n ( − ∇ X J ( X , y L L ) ) sign(-\nabla_{X} J(X, y_{LL})) sign(XJ(X,yLL)) 方向更新,公式为 X 0 a d v = X , X N + 1 a d v = C l i p X , ϵ { X N a d v − α s i g n ( ∇ X J ( X N a d v , y L L ) ) } X_{0}^{adv}=X, X_{N + 1}^{adv}=Clip_{X,\epsilon}\{X_{N}^{adv}-\alpha sign(\nabla_{X} J(X_{N}^{adv}, y_{LL}))\} X0adv=X,XN+1adv=ClipX,ϵ{XNadvαsign(XJ(XNadv,yLL))} α \alpha α 和迭代次数与基本迭代方法相同)。
      • 特点: 能产生更有趣的错误分类(如将狗误分类为飞机),但对图像破坏较大,在相对较小的 ϵ \epsilon ϵ 时就能破坏大多数图像的正确分类。
  3. 方法比较实验
    • 实验设置:在ImageNet数据集的50,000个验证样本上,使用预训练的Inception v3分类器,对每个验证图像用不同方法和 ϵ \epsilon ϵ 值生成对抗样本,计算分类准确率(包括top - 1和top - 5准确率),并与干净图像准确率对比。
    • 实验结果
      • 快速方法在 ϵ \epsilon ϵ 较小时就使top - 1准确率降低一半,top - 5准确率降低约40%,随着 ϵ \epsilon ϵ 增大,准确率在一定范围保持后逐渐降低。
      • 迭代方法在较高 ϵ \epsilon ϵ 下仍能保持图像一定可识别性且更易混淆分类器,基本迭代方法在 ϵ < 48 \epsilon<48 ϵ<48 时较好,迭代最小可能类方法在较小 ϵ \epsilon ϵ 时就能破坏大部分图像正确分类。
      • 综合考虑,后续实验选择 ϵ ≤ 16 \epsilon\leq16 ϵ16,因为此范围内扰动较小(若能感知则像小噪声),且对抗方法能产生较多误分类样本。

在这里插入图片描述
图2:与“干净图像”(来自数据集的未修改图像)相比,Inception v3在受到不同对抗方法和不同(\epsilon)攻击下的top - 1和top - 5准确率。准确率是在ImageNet数据集的所有50,000个验证图像上计算得出的。在这些实验中,(\epsilon)取值范围从2到128.


对抗样本的图片-Photos of Adversarial Examples

对抗图像的破坏率-Destruction Rate of Adversarial Images

该部分主要引入了对抗图像破坏率的概念,用于衡量对抗图像在经过特定变换后不再被误分类的比例,具体内容如下:

  1. 概念定义
    对抗图像破坏率(destruction rate)用于量化对抗图像在经历某种变换后的变化情况。其数学定义为 d = ∑ k = 1 n C ( X k , y t r u e k ) C ( X a d v k , y t r u e k ) ‾ C ( T ( X a d v k ) , y t r u e k ) ∑ k = 1 n C ( X k , y t r u e k ) C ( X a d v k , y t r u e k ) ‾ d=\frac{\sum_{k = 1}^{n} C(X^{k}, y_{true}^{k}) \overline{C(X_{adv}^{k}, y_{true}^{k})} C(T(X_{adv}^{k}), y_{true}^{k})}{\sum_{k = 1}^{n} C(X^{k}, y_{true}^{k})\overline{C(X_{adv}^{k}, y_{true}^{k})}} d=k=1nC(Xk,ytruek)C(Xadvk,ytruek)k=1nC(Xk,ytruek)C(Xadvk,ytruek)C(T(Xadvk),ytruek)。其中, n n n 表示用于计算破坏率的图像数量, X k X^{k} Xk 是从数据集中选取的图像, y t r u e k y_{true}^{k} ytruek 是该图像的真实类别, X a d v k X_{adv}^{k} Xadvk 是与之对应的对抗图像。 T ( ⋅ ) T(\cdot) T() 表示任意的图像变换,在本文中主要研究如打印图像并拍照等变换。 C ( X , y ) C(X, y) C(X,y) 是一个指示函数,当图像 X X X 被分类为 y y y 时, C ( X , y ) = 1 C(X, y)=1 C(X,y)=1,否则 C ( X , y ) = 0 C(X, y)=0 C(X,y)=0 C ( X , y ) ‾ \overline{C(X, y)} C(X,y) C ( X , y ) C(X, y) C(X,y) 的二进制否定,即 C ( X , y ) ‾ = 1 − C ( X , y ) \overline{C(X, y)} = 1 - C(X, y) C(X,y)=1C(X,y).

  2. 作用与意义
    通过这个概念,可以定量地评估对抗图像在经历各种物理世界中的变换(如打印、拍照等)后,其对抗性(即导致分类器误分类的能力)的保持程度。这为后续研究对抗样本在物理世界中的稳定性和有效性提供了一个重要的度量标准,有助于分析不同生成方法的对抗样本在面对实际物理变换时的鲁棒性,进而为评估和改进对抗样本攻击策略以及探索防御方法提供了理论依据。例如,在后续的实验中,可以通过计算破坏率来比较不同方法生成的对抗样本在照片变换等操作后的性能变化,从而判断哪种方法生成的对抗样本更能在物理世界场景中保持其攻击能力。

实验设置-Experimental Setup

该部分详细介绍了针对对抗样本照片进行实验的设置过程,包括打印、拍摄、裁剪图像以及分类计算等操作,同时说明了实验的不同情况,具体内容如下:

实验流程
针对每个对抗样本生成方法和 ϵ \epsilon ϵ 的组合,进行两组实验:

  • 打印图像
    • 为减少手动工作量,在每张纸上打印多对清洁和对抗样本。同时,在打印输出的角落放置QR码,以辅助后续的自动裁剪操作。
    • 所有生成的打印图片(Figure 3a)以无损PNG格式保存。
    • 使用ImageMagick套件中的convert工具将一批PNG打印输出转换为多页PDF文件,采用默认设置(convert *.png output.pdf)。
    • 使用Ricoh MP C5503办公打印机打印生成的PDF文件,每页PDF文件使用默认打印机缩放自动调整大小以适应整张纸,打印机分辨率设置为600dpi。
  • 拍摄照片
    • 使用Nexus 5x手机相机拍摄打印图像(Figure 3b)。
  • 自动裁剪和变换
    • 检测照片角落的四个QR码的值和位置,这些QR码编码了照片上显示的是哪一批验证样本。如果任何一个角落的检测失败,则丢弃整个照片,不使用该照片中的图像计算准确率。在实验中,丢弃图像的比例通常在3% - 6%左右,最多不超过10%。
    • 使用透视变换扭曲照片,将QR码的位置移动到预定义坐标,以便后续准确裁剪图像。
    • 图像扭曲后,每个示例具有已知坐标,可轻松从图像中裁剪出与源图像大小相同的正方形(Figure 3c)。
  • 分类计算
    • 对变换后的图像和原始图像进行分类,计算准确率和对抗图像的破坏率。

在这里插入图片描述
图3:实验设置:
a: 生成的打印输出,其中包含成对的干净图像和对抗图像,以及用于辅助自动裁剪的二维码;
b: 用手机相机拍摄的打印输出照片;
c: 从照片中自动裁剪出的图像.

实验情况

  • 平均情况(Average case)
    • 为测量平均性能表现,随机选择102张图像用于给定 ϵ \epsilon ϵ 和对抗方法的一次实验。此实验模拟在现实世界中随机选择图像时攻击者成功使图像被误分类的频率,即世界随机选择图像,攻击者尝试使其误分类。
  • 预过滤情况(Prefiltered case)
    • 为研究更具攻击性的攻击,进行图像预过滤实验。具体选择102张图像,要求所有清洁图像被正确分类,且所有对抗图像(在照片变换前)在top - 1和top - 5分类中均被错误分类,同时要求网络对图像的预测置信度满足 p ( y p r e d i c t e d ∣ X ) ≥ 0.8 p(y_{predicted} | X) \geq 0.8 p(ypredictedX)0.8。该实验衡量攻击者在可以选择原始图像进行攻击时成功的频率,在本文假设的威胁模型下,攻击者可以访问模型参数和架构,因此可以预先运行推理来确定在没有照片变换时攻击是否会成功,攻击者可能会选择在初始条件下攻击成功的图像进行攻击,然后观察照片变换后攻击是否仍能保持。

实验特点
整个实验过程在手动拍摄打印页面时,未对光照、相机角度、与页面的距离等因素进行严格控制,这是有意为之,旨在引入可能破坏对抗扰动的干扰变量,因为对抗扰动可能依赖于精确像素值的微妙协同适应。不过,实验也并非刻意寻求极端的相机角度或光照条件,所有照片均在正常室内光照下拍摄,相机大致垂直指向页面。

对抗图像照片的实验结果-Experimental Results On Photos Of Adversarial Images

该部分主要呈现了对抗样本照片实验的结果,包括不同方法生成的对抗样本在平均情况和预过滤情况下的准确率、破坏率,以及对结果的分析和相关发现,具体内容如下:

实验结果汇总

  1. 准确率数据
    • 平均情况(表1):不同对抗方法和 ϵ \epsilon ϵ 值下,清洁图像和对抗图像在照片拍摄前后的top - 1和top - 5准确率数据展示。例如,快速方法在 ϵ = 16 \epsilon = 16 ϵ=16 时,照片源图像的top - 1准确率为79.8%,top - 5准确率为91.9%;对抗图像的top - 1准确率为36.4%,top - 5准确率为67.7%。
    • 预过滤情况(表2):同样展示了相应条件下的准确率数据,如快速方法在 ϵ = 16 \epsilon = 16 ϵ=16 时,清洁图像的top - 1和top - 5准确率均为100%,对抗图像的top - 1准确率为5.1%,top - 5准确率为39.4%。

表1:平均情况(随机选择的图像)下对抗图像照片的准确率
在这里插入图片描述

表2:预过滤情况(干净图像被正确分类,对抗图像在数字形式下被确信错误分类后进行打印和拍照)下对抗图像照片的准确率.
在这里插入图片描述

  1. 破坏率数据表3
    呈现了不同对抗方法在平均情况和预过滤情况下的top - 1和top - 5对抗图像破坏率数据。如快速方法在 ϵ = 16 \epsilon = 16 ϵ=16 时,平均情况的top - 1破坏率为12.5%,top - 5破坏率为40.0%;预过滤情况的top - 1破坏率为5.1%,top - 5破坏率为39.4%。

表3:带有照片的对抗图像破坏率.
在这里插入图片描述

结果分析

  1. 不同方法鲁棒性差异
    快速方法生成的对抗图像比迭代方法更能抵抗照片变换。这是因为迭代方法利用的扰动更微妙,在照片变换过程中更容易被破坏,而快速方法添加的扰动相对更“粗糙”,对照片变换的敏感度较低。
  2. 预过滤情况的意外发现
    在预过滤情况下,出现了一些与预期不符的结果,如对于某些迭代方法,其对抗破坏率在预过滤情况下比平均情况更高。这表明为了获得较高的分类置信度,迭代方法在生成对抗样本时进行的微妙协同适应难以在照片变换中存活,导致其在预筛选条件下整体成功率反而低于随机选择图像的平均情况。

总体结论

实验结果表明,即使经过照片变换这种非平凡的转换,仍有一部分对抗样本保持误分类状态,这证明了物理对抗样本存在的可能性。例如,使用快速方法( ϵ = 16 \epsilon = 16 ϵ=16)时,攻击者大约可以预期2/3的图像在top - 1分类中被误分类,约1/3的图像在top - 5分类中被误分类。因此,通过生成足够数量的对抗图像,攻击者有可能导致比自然输入更多的误分类情况发生,从而对机器学习系统构成威胁。

物理世界中黑盒对抗攻击的演示-Demonstration Of Black Box Adversarial Attack In The Physical World

该部分主要演示了在物理世界中针对机器学习系统的黑盒对抗攻击,展示了物理对抗样本在实际应用中的攻击效果,具体内容如下:

  • 黑盒攻击背景
    • 在之前的实验中,假设攻击者完全了解模型(包括架构、模型权重等)。然而,在实际情况中,更现实的威胁模型是黑盒场景,即攻击者无法获取模型信息。由于对抗样本具有转移性(在一个模型上构造的对抗样本可能在其他模型上也导致误分类),使得黑盒攻击成为可能,本文基于此进行了黑盒攻击的演示。
  • 攻击演示过程
    • 攻击对象:选择开源的TensorFlow相机演示应用(一个在移动设备上进行图像分类的应用程序)作为攻击目标,该应用与构造对抗样本时使用的模型不同。
    • 攻击方式:向该应用展示多个打印的清洁和对抗图像,观察其分类结果的变化。
    • 攻击结果:发现应用对这些图像的分类从正确标签变为错误标签,成功演示了物理对抗样本对不同模型的愚弄效果,实现了黑盒攻击。演示视频可在https://youtu.be/zQ_uMenoBCk查看,并且在GeekPwn 2016上进行了现场演示,进一步证明了物理对抗样本在实际中的攻击有效性,展示了其对机器学习系统在物理世界场景下的安全威胁。

人工图像变换-Artificial Image Transformation

该部分通过一系列实验研究了对抗样本在人工图像变换下的表现,包括实验设置、对不同变换和对抗方法的破坏率测量以及得出的相关结论,具体内容如下:

  • 实验设置
    • 图像选择:从验证集中随机选择1000张图像组成子集,在本部分所有实验中均使用该子集,以确保实验的一致性和可比性。
    • 变换操作:对选定的图像应用多种人工图像变换,包括对比度和亮度变化、高斯模糊、高斯噪声、JPEG编码等,旨在模拟和分析不同类型的图像变换对对抗样本的影响。
    • 实验过程:针对每一对对抗方法和变换,首先计算对抗样本,然后将变换应用于对抗样本,最后根据公式 d = ∑ k = 1 n C ( X k , y t r u e k ) C ( X a d v k , y t r u e k ) ‾ C ( T ( X a d v k ) , y t r u e k ) ∑ k = 1 n C ( X k , y t r u e k ) C ( X a d v k , y t r u e k ) ‾ d=\frac{\sum_{k = 1}^{n} C(X^{k}, y_{true}^{k})\overline{C(X_{adv}^{k}, y_{true}^{k})}C(T(X_{adv}^{k}), y_{true}^{k})}{\sum_{k = 1}^{n} C(X^{k}, y_{true}^{k})\overline{C(X_{adv}^{k}, y_{true}^{k})}} d=k=1nC(Xk,ytruek)C(Xadvk,ytruek)k=1nC(Xk,ytruek)C(Xadvk,ytruek)C(T(Xadvk),ytruek)计算破坏率,以评估对抗样本在经过特定变换后的有效性变化。
  • 实验结果与分析
    • 不同方法鲁棒性比较
      • 快速方法生成的对抗样本对变换最为鲁棒,迭代最小可能类方法生成的对抗样本最不鲁棒,这一结果与在照片变换实验中的发现一致。例如,在各种变换下,快速方法的对抗样本破坏率相对较低,而迭代最小可能类方法的破坏率较高。
    • Top - 1与Top - 5破坏率差异
      • 一般情况下,top - 5破坏率高于top - 1破坏率。这是因为对于top - 5破坏率,只要变换将正确的类别标签推到前5个预测中,就可认为破坏了对抗样本;而对于top - 1破坏率,则要求变换将正确标签推到第1个预测位置,要求更为严格。
    • 不同变换的影响程度
      • 亮度和对比度变化对对抗样本影响较小,快速和基本迭代方法生成的对抗样本在这两种变换下破坏率低于5%,迭代最小可能类方法的破坏率低于20%。
      • 高斯模糊、高斯噪声和JPEG编码的破坏率较高,特别是对于迭代方法,破坏率可达80% - 90%。但值得注意的是,没有一种变换能够完全破坏所有的对抗样本,这与照片变换实验的结果相符,表明对抗样本在一定程度上具有对各类图像变换的抵抗能力,但不同方法生成的对抗样本抵抗能力存在差异。
  • 实验总结
    • 通过这些实验,更深入地了解了不同类型的人工图像变换如何影响对抗样本的有效性,进一步验证了不同对抗样本生成方法在面对不同变换时的鲁棒性差异,为研究对抗样本在物理世界中面临各种图像变换时的行为提供了更多数据和见解,有助于后续研究针对这些特性开发更有效的防御策略或改进攻击方法。

结论-Conclusion

该部分对整个研究进行了总结,并对未来工作提出了展望,具体内容如下:

研究总结

  1. 主要发现
    本文通过实验证明了在物理世界中,针对以手机相机拍摄图像为输入的机器学习系统(如Inception v3图像分类神经网络),使用原始网络构造的对抗样本,即使通过相机输入到分类器,仍有相当比例会被误分类。这表明在物理世界场景下,机器学习系统确实容易受到对抗样本攻击,证实了物理对抗样本的存在可能性。
  2. 研究意义
    此发现揭示了机器学习系统在实际物理应用场景中的安全漏洞,强调了对抗样本攻击不仅仅局限于数字环境,在物理世界同样具有威胁性,为后续进一步研究物理世界中的对抗样本相关问题奠定了基础。

未来展望

  1. 拓展攻击类型
    期望在未来能够展示除打印在纸上的图像之外,使用其他种类物理对象进行攻击的可能性,以及针对不同类型机器学习系统(如复杂的强化学习智能体)的攻击,以更全面地了解对抗样本在物理世界中的攻击范围和影响。
  2. 改进攻击方法
    尝试在无模型参数和架构信息的情况下进行攻击,利用对抗样本的转移性来实现。同时,通过在构造对抗样本过程中显式建模物理变换,提高攻击的成功率,使攻击更具实际有效性和威胁性。
  3. 防御方法研究
    鉴于物理对抗样本对机器学习系统的威胁,希望未来的研究能够致力于开发有效的防御方法,以增强机器学习系统在物理世界中的安全性和可靠性,应对对抗样本攻击带来的挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948296.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL(四)MySQL Select语句

1. MySQL Select语句 1.1. 基本查询语句 mysql>select 列名 from 表名;(基本结构查询某一列) mysql>select 列名1,列名2 from 表名;(查询所有列多列) mysql>select * from 表名;(*代表查询所有列) 查询时可以给列设定别名通过as 关键字&#xff0c;别名可以是汉字&a…

高并发写利器-组提交,我的Spring组件实战

高并发写优化理论 对于高并发的读QPS优化手段较多&#xff0c;最经济简单的方式是上缓存。但是对于高并发写TPS该如何提升&#xff1f;业界常用的有分库分表、异步写入等技术手段。但是分库分表对于业务的改造十分巨大&#xff0c;涉及迁移数据的麻烦工作&#xff0c;不会作为…

C++Primer 变量

欢迎阅读我的 【CPrimer】专栏 专栏简介&#xff1a;本专栏主要面向C初学者&#xff0c;解释C的一些基本概念和基础语言特性&#xff0c;涉及C标准库的用法&#xff0c;面向对象特性&#xff0c;泛型特性高级用法。通过使用标准库中定义的抽象设施&#xff0c;使你更加适应高级…

【模型】Qwen2-VL 服务端UI

1. 前言 最近在测试VLM模型&#xff0c;发现官方的网页demo&#xff0c;代码中视频与图片分辨率可能由于高并发设置的很小&#xff0c;导致达不到预期效果&#xff0c;于是自己研究了一下&#xff0c;搞了一个简单的前端部署&#xff0c;自己在服务器部署了下UI界面&#xff0…

分布式事务介绍 Seata架构与原理+部署TC服务 示例:黑马商城

1. 什么是分布式事务? 在分布式系统中&#xff0c;如果一个业务需要多个服务合作完成&#xff0c;而且每一个服务都有事务&#xff0c;多个事务必须同时成功或失败&#xff0c;这样的事务就是分布式事务。其中的每个服务的事务就是一个分支事务。整个业务称为全局事务。 打个比…

uni-app:实现普通选择器,时间选择器,日期选择器,多列选择器

效果 选择前效果 1、时间选择器 2、日期选择器 3、普通选择器 4、多列选择器 选择后效果 代码 <template><!-- 时间选择器 --><view class"line"><view classitem1><view classleft>时间</view><view class"right&quo…

C++Primer 基本类型

欢迎阅读我的 【CPrimer】专栏 专栏简介&#xff1a;本专栏主要面向C初学者&#xff0c;解释C的一些基本概念和基础语言特性&#xff0c;涉及C标准库的用法&#xff0c;面向对象特性&#xff0c;泛型特性高级用法。通过使用标准库中定义的抽象设施&#xff0c;使你更加适应高级…

纯前端实现将pdf转为图片(插件pdfjs)

需求来源 预览简历功能在移动端&#xff0c;由于用了一层iframe把这个功能嵌套在了app端&#xff0c;再用一个iframe来预览&#xff0c;只有ios能看到&#xff0c;安卓就不支持&#xff0c;查了很多资料和插件&#xff0c;原理基本上都是用iframe实现的。最终转换思路&#xf…

基于FPGA的出租车里程时间计费器

基于FPGA的出租车里程时间计费器 功能描述一、系统框图二、verilog代码里程增加模块时间增加模块计算价格模块上板视频演示 总结 功能描述 &#xff08;1&#xff09;&#xff1b;里程计费功能&#xff1a;3公里以内起步价8元&#xff0c;超过3公里后每公里2元&#xff0c;其中…

Unix 域协议汇总整理

Unix 域协议是一种用于同一台计算机上进程间通信&#xff08;IPC&#xff09;的技术。它提供了一种比基于网络的套接字更高效的方式来在本地进程中交换数据。Unix 域协议使用文件系统作为通信的媒介&#xff0c;并且只限于在同一台计算机上运行的进程之间进行通信。 Unix 域套接…

JVM学习:CMS和G1收集器浅析

总框架 一、Java自动内存管理基础 1、运行时数据区 运行时数据区可分为线程隔离和线程共享两个维度&#xff0c;垃圾回收主要是针对堆内存进行回收 &#xff08;1&#xff09;线程隔离 程序计数器 虚拟机多线程是通过线程轮流切换、分配处理器执行时间来实现的。为了线程切换…

1.C语言教程:历史、特点、版本与入门示例

目录 1.历史2.特点3.版本4.编译5.Hello World 示例 1.历史 本篇原文为&#xff1a;C语言教程&#xff1a;历史、特点、版本与入门示例。 更多C进阶、rust、python、逆向等等教程&#xff0c;可去此站查看&#xff1a;酷程网 C 语言的诞生源于 Unix 系统的开发需求。 1969 年…

lec7-路由与路由器

lec7-路由与路由器 1. 路由器硬件 路由器的硬件部分&#xff1a; 断电失去&#xff1a; RAM断电不失去&#xff1a;NVRAM&#xff0c; Flash&#xff0c; ROMinterface也算是一部分 路由器是特殊组件的计算机 console 口进行具体的调试 辅助口&#xff08;Auxiliary&…

spring防止重复点击,两种注解实现(AOP)

第一种&#xff1a;EasyLock 简介 为了简化可复用注解&#xff0c;自己实现的注解&#xff0c;代码简单随拿随用 使用方式 1.创建一个注解 Target(ElementType.METHOD) Retention(RetentionPolicy.RUNTIME) Documented public interface EasyLock {long waitTime() default …

Linux-Ubuntu之I2C通信

Linux-Ubuntu之I2C通信 一&#xff0c;I2C通信原理1.写时序2.读时序 二&#xff0c;代码实现三&#xff0c;显示 一&#xff0c;I2C通信原理 使用I2C接口驱动AP3216C传感器&#xff0c;该传感器能实现两个效果&#xff0c;一个是感应光强&#xff0c;另一个是探测物体与传感器…

音视频入门基础:MPEG2-PS专题(4)——FFmpeg源码中,判断某文件是否为PS文件的实现

一、引言 通过FFmpeg命令&#xff1a; ./ffmpeg -i XXX.ps 可以判断出某个文件是否为PS文件&#xff1a; 所以FFmpeg是怎样判断出某个文件是否为PS文件呢&#xff1f;它内部其实是通过mpegps_probe函数来判断的。从《FFmpeg源码&#xff1a;av_probe_input_format3函数和AVI…

框架模块说明 #09 日志模块_01

背景 日志模块是系统的重要组成部分&#xff0c;主要负责记录系统运行状态和定位错误问题的功能。通常&#xff0c;日志分为系统日志、操作日志和安全日志三类。虽然分布式数据平台是当前微服务架构中的重要部分&#xff0c;但本文的重点并不在此&#xff0c;而是聚焦于自定义…

【数据仓库】hadoop3.3.6 安装配置

文章目录 概述下载解压安装伪分布式模式配置hdfs配置hadoop-env.shssh免密登录模式设置初始化HDFS启动hdfs配置yarn启动yarn 概述 该文档是基于hadoop3.2.2版本升级到hadoop3.3.6版本&#xff0c;所以有些配置&#xff0c;是可以不用做的&#xff0c;下面仅记录新增操作&#…

算法题(25):只出现一次的数字(三)

审题&#xff1a; 该题中有两个元素只出现一次并且其他元素都出现两次&#xff0c;需要返回这两个只出现一次的数&#xff0c;并且不要求返回顺序 思路: 由于对空间复杂度有要求&#xff0c;我们这里不考虑哈希表。我们采用位运算的方法解题 方法&#xff1a;位运算 首先&#…

将机器学习预测模型融入AI agent的尝试(一)

将机器学习临床预测模型融入AI agent的尝试&#xff08;一&#xff09; 我主要是使用机器学习制作临床预测模型和相关的应用&#xff0c;最近考虑的事情是自己之前的的工作能不能和AI agent进行融合&#xff0c;将AI 对自然语言理解能力和预测模型的预测能力结合在一起&#x…