通过双模式对抗提示越狱视觉语言模型

        最近,将视觉整合到大型语言模型(LLMs)中的兴趣显著增加,催生了大型视觉语言模型(LVLMs)。这些模型结合了视觉和文本信息,如LLaVA和Gemini,已经在包括图像字幕、视觉问题回答和图像检索等一系列任务中展示了不错的性能。然而,LVLMs表现出的行为很容易与其创造者预期的目标不一致,经常生成不真实或可能对用户有害的输出。

     为了揭示和减轻这些安全风险,越狱攻击已经作为一种红队策略出现,以绕过防护措施并评估模型的一致性。越狱攻击后,攻击者可以说服模型做任何事情,导致严重的安全后果,例如生成有害或不道德的内容,这些内容通常受到一致性指南的禁止。虽然在LVLMs的背景下已经出现了许多使用越狱攻击的披露和演示,但大多数攻击传统上都集中在为越狱攻击扰动视觉模态(即图像)上。这些包括制作视觉对抗性示例和将攻击意图编码为排版图像。然而,对齐的LVLMs同时利用视觉和文本特征进行预测,从而限制了目前仅扰动单一模态(即视觉)的攻击的有效性。例如,LLaVA会在没有与文本提示相关联的视觉对抗性图像的情况下拒绝回答,导致越狱失败。

    为了解决这个问题,本文介绍了双模态对抗性提示攻击(BAP),这是一种新的框架,通过同时优化视觉和文本提示来越狱LVLMs

1  LVLM 的结构和工作原理

LVLM(Large Vision Language Model)是一种将视觉信息和文本信息融合在一起的大型语言模型。它通过结合图像和文本信息,能够在图像理解、图像生成、图像描述、视觉问答等多个任务中展现出强大的能力。

1.1 LVLM 的结构

LVLM包含三个主要模块:

  • 视觉模块 : 该模块负责处理图像信息,将其编码为特征向量。常见的视觉模块包括 CLIP 模型的视觉编码器等。
  • 文本模块: 该模块是一个大型语言模型,例如 LLaMA 或 Vicuna,负责处理文本信息,并执行文本理解和生成任务。
  • 视觉语言连接器: 该模块负责将视觉特征和文本特征进行融合,例如通过交叉注意力机制或投影层。

1.2 LVLM 的工作原理

LVLM 的工作流程包括以下几个步骤:

  • 输入: 将图像和文本作为输入,分别传递给视觉模块和文本模块。
  • 编码: 视觉模块将图像编码为特征向量,文本模块将文本编码为嵌入向量。
  • 融合: 视觉语言连接器将视觉特征和文本特征进行融合,生成多模态特征。
  • 理解/生成: 文本模块根据多模态特征进行文本理解和生成,例如图像描述、视觉问答等。

2 BAP的技术框架及攻击流程

双模态对抗性提示 (BAP) 是一种针对大型视觉语言模型 (LVLM) 的攻击方法,它通过同时优化文本和图像提示来绕过模型的安全限制,从而诱导模型生成有害内容。

2.1 技术框架

查询不可知的视觉扰动:BAP利用一个由LLM构建的查询不可知语料库,该语料库包含与肯定前缀和否定抑制相关的句子。通过这个语料库,BAP优化视觉对抗性提示,使其能够鼓励LVLMs无论文本提示的具体意图如何都给出积极的响应。

意图特定的文本优化:在有了查询不可知的视觉对抗性提示后,BAP进一步优化文本提示,以增强在特定有害意图下的越狱能力。这通常遵循以下三个阶段:

  • 初始化:给定一个有害意图,直接将其作为初始文本提示。
  • 反馈:使用一个评估函数来确定LVLMs对越狱攻击的反应是否成功。
  • 迭代:如果越狱未成功,LLM将根据CoT策略和有害意图,分析失败的原因,并重新构思文本提示。

2.2 攻击流程

BAP 的攻击流程如下:

  • 构建查询无关的图像扰动: 利用 LLM 生成一个包含肯定前缀和否定抑制的少量样本语料库,然后使用 PGD 攻击方法在图像中嵌入对抗性扰动,使得 LVLM 对任何有害查询都给出积极的响应。
  • 构建意图特定的文本提示: 利用 LLM 和 CoT 推理过程,分析 LVLM 的响应,并根据具体的攻击意图对文本提示进行优化,例如通过语义重写、上下文欺骗等方法,使得 LVLM 生成特定类型的有害内容。
  • 评估攻击效果: 使用评估函数判断 LVLM 的响应是否成功绕过了安全限制,并生成有害内容。

3 实验

3.1 实验设置

模型和数据集:

  • 开源 LVLM: LLaVA, MiniGPT-4, InstructBLIP
  • 商业 LVLM: Gemini, ChatGLM, Qwen, ERNIE Bot
  • 数据集: SafetyBench, AdvBench

评价指标: 使用攻击成功率(Attack Success Rate, ASR)作为主要指标来评估方法的有效性。

攻击方法对比: 将BAP与两种最先进的越狱攻击进行了比较:Liu等人的方法和Qi等人的方法。Liu等人的方法结合了与攻击意图相关的图像和排版文本作为视觉对抗性提示。Qi等人的方法基于特定场景的语料库优化了视觉对抗性提示。

3.2 白盒攻击

  • 查询相关设置: BAP 在 13 个攻击场景下均取得了最高的 ASR,平均超过其他攻击方法 49.30%。
  • 查询无关设置: BAP 在 IA 和 HS 场景下取得了高 ASR,平均超过其他攻击方法 52.98%,展示了其泛化攻击能力。

3.3 黑盒攻击

  • 开源 LVLM: BAP 在 LLaVA 和其他两个模型之间的迁移攻击效果较差,可能是由于模型架构差异。
  • 商业 LVLM: BAP 对商业 LVLM 也取得了部分攻击效果,但成功率低于开源 LVLM,可能是由于模型架构、训练方法和防御机制等因素的影响。

3.4 消融实验

对BAP方法的两个组成部分进行了消融研究:查询不可知的视觉扰动和意图特定的文本优化。

  • 视觉对抗性提示:通过三种方式研究了视觉对抗性提示的作用,包括比较有无视觉对抗性提示的BAP、使用不同图像作为视觉提示进行BAP攻击,以及使用不同语料库优化视觉对抗性提示。
  • 文本对抗性提示:从两个方面研究了文本对抗性提示的作用,包括比较有无文本对抗性提示的BAP,以及比较使用不同文本提示生成方法的BAP。

实验结果表明,BAP 在各种 LVLM 和场景下都取得了显著的攻击效果,证明了其有效性。BAP 的研究对于提高 LVLM 的安全性具有重要意义。

4 相关资源

4.1 BAP官网代码下载:

GitHub - NY1024/BAP-Jailbreak-Vision-Language-Models-via-Bi-Modal-Adversarial-Prompt

4.2 SafetyBench数据集

SafetyBench是一个全面的基准测试,旨在通过多项选择题来评估LLM的安全性能。该数据集包含11435道多项选择题,涵盖7个不同的安全隐患类别,并且支持中英文两种语言。SafetyBench的目的是提供一个可靠的评估框架,以帮助研究人员和开发者全面了解LLM的安全性。

官网下载地址:github.com/thu-coai/SafetyBench

4.3 AdvBench数据集

AdvBench则专注于评估和比较LLM在面对恶意提示和后缀时的安全性和鲁棒性。它包含了一些恶意的提示和后缀,可以诱导LLM生成有害或不良的文本,如制造炸弹、散布谣言、煽动暴力等。AdvBench的设计旨在提高对LLM攻击的认识和防范,以及促进LLM的安全性研究。此外,AdvBench还包括一个名为AdvBench Subset的子集,包含50个提示,要求提供32个类别的有害信息。

官网下载地址:github.com/thunlp/Advbench

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/694278.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

「动态规划」打家劫舍的变形题,你会做吗?

213. 打家劫舍 IIhttps://leetcode.cn/problems/house-robber-ii/description/ 你是一个专业的小偷,计划偷窃沿街的房屋,每间房内都藏有一定的现金。这个地方所有的房屋都围成一圈,这意味着第一个房屋和最后一个房屋是紧挨着的。同时&#x…

下载安装Thonny并烧录MicroPython固件至ESP32

Thonny介绍 一、Thonny的基本特点 面向初学者:Thonny的设计初衷是为了帮助Python初学者更轻松、更快速地入门编程。它提供了直观易懂的用户界面和丰富的功能,降低了编程的门槛。轻量级:作为一款轻量级的IDE,Thonny不会占用过多的…

中国各省份简称的命名根据是什么?省份简称顺口溜

我国共有34个省级行政区域,包括23个省,5个自治区,4个直辖市,2个特别行政区。每个省份都有自己对应的简称,而省份简称的由来,可以分为以下三种: 一、取省份全称中的一部分作为简称 比如,北京的简称是“京”,天津的简称是“津”,东北三兄弟的简称是“黑吉辽”,这种简单…

数据库之PostgreSQL详解

一、PostgreSQL介绍 PostgreSQL是一个功能强大的 开源 的关系型数据库。底层基于C实现。 PostgreSQL的开源协议和Linux内核版本的开源协议是一样的。。BDS协议,这个协议基本和MIT开源协议一样,说人话,就是你可以对PostgreSQL进行一些封装&a…

OpenFeign远程接口调用使用公共模块出现的错误

今天在使用openfeign和sentinel实现fallback服务降级时遇到找不到类型的异常 检查代码发现没有错误,EnableFeignClients也在启动类上标注了 错误信息:A component required a bean of type com.zxc.cloud.apis.PayFeignSentinelApi that could not be f…

类和对象(下+)_const成员、初始化列表、友元、匿名对象

类和对象(下) 文章目录 类和对象(下)前言一、const成员二、友元1.友元函数2.友元类 三、初始化列表四、explicit关键字五、匿名对象总结 前言 static成员、内部类、const成员、初始化列表、友元、匿名对象 一、const成员 将cons…

[Cloud Networking] Layer 2

文章目录 1. 什么是Mac Address?2. 如何查找MAC地址?3. 二层数据交换4. [Layer 2 Protocol](https://blog.csdn.net/settingsun1225/article/details/139552315) 1. 什么是Mac Address? MAC 地址是计算机的唯一48位硬件编码,嵌入到网卡中。 MAC地址也…

100道面试必会算法-32-二叉树右视图用栈实现队列

100道面试必会算法-32-二叉树右视图&用栈实现队列 给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例 1: 输入: [1,2,3,null,5,null,4] 输出: [1,3,4]示例 2: 输入: [1,n…

基于vue的音乐播放器的设计与实现(论文+源码)_kaic

摘 要 当下,如果还依然使用纸质文档来记录并且管理相关信息,可能会出现很多问题,比如原始文件的丢失,因为采用纸质文档,很容易受潮或者怕火,不容易备份,需要花费大量的人员和资金来管理用纸质文…

java版spring cloud 深入探究ERP管理系统源码:功能模块详解与操作流程梳理

随着数字化转型的深入,企业对于高效、稳定且具有扩展性的管理系统的需求日益增加。为此,我们开发了一套基于Java技术的鸿鹄ERP管理系统,该系统整合了Spring Cloud Alibaba、Spring Boot、MybatisPlus、Redis等前沿技术,并采用了VU…

Tensorflow入门实战 P03-天气识别

目录 1、完整代码 2、运行结果 2.1 查看20张图片 2.2 程序运行 2.3 运行结果 3、小结 ① 代码运行过程中有报错: ② 修改代码如下: ③ 分析原因: 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者&…

【MySQL】服务器配置和管理

本文使用的MySQL版本是8.0 MySQL服务器介绍 MySQL服务器通常说的是mysqld程序。 mysqld 是 MySQL 数据库服务器的核心程序,负责处理客户端的请求、管理数据库和执行数据库操作。管理员可以通过配置文件和各种工具来管理和监控 mysqld 服务器的运行 官方文档&…

OrangePi AIpro小试牛刀-目标检测(YoloV5s)

非常高兴参加本次香橙派AI Pro,香橙派联合华为昇腾打造的一款AI推理开发板评测活动,以前使用树莓派Raspberry Pi4B 8G版本,这次有幸使用国产嵌入式开发板。 一窥芳容 这款开发板搭载的芯片是和华为昇腾的Atlas 200I DK A2同款的处理器&#…

Vue3【十四】watchEffect自动监视多个数据实现,不用明确指出监视哪个数据

Vue3【十四】watchEffect自动监视多个数据实现&#xff0c;不用明确指出监视哪个数据 Vue3【十四】watchEffect自动监视多个数据实现&#xff0c;不用明确指出监视哪个数据 进入立即执行一次&#xff0c;并监视数据变化 案例截图 目录结构 代码 Person.vue <template>&…

element-plus的el-text组件(文本组件)的介绍和使用

el-text&#xff08;适合文本操作的组件&#xff09; 设置文本type,如default,primary,success,info,warning,danger超出容器尺寸自动省略&#xff0c;tuncated属性设置size属性控制文本大小&#xff0c;有large,default,small设置tag属性&#xff0c;值为html5标签名&#xf…

统信UOS1070上配置文件管理器默认属性02

原文链接&#xff1a;统信UOS 1070上配置文件管理器默认属性01 Hello&#xff0c;大家好啊&#xff01;今天给大家带来一篇在统信UOS 1070上配置文件管理器默认属性的第二篇文章——配置工作区视图。文件管理器中的工作区视图配置可以帮助我们更好地组织和管理文件&#xff0c;…

你还在纠结U盘怎么选吗?小白带你来看

前言 2024年的618活动已经开始了&#xff0c;这个活动买电子产品着实是比其他时间要便宜很多。 前几天小白的一个好朋友问我&#xff1a;U盘该怎么选&#xff1f; 呃&#xff0c;本来是想写“老朋友”的&#xff0c;结果她愣是要我改成“好朋友”。 行吧&#xff0c;那就好朋…

unity3d:GameFramework+xLua+Protobuf+lua-protobuf,与服务器交互收发协议

概述 1.cs收发协议&#xff0c;通过protobuf序列化 2.lua收发协议&#xff0c;通过lua-protobuf序列化 一条协议字节流组成 C#协议基类 CSPacketBase&#xff0c;SCPacketBaseC#用协议基类 proto生成的CS类&#xff0c;基于这两个基类。分别为CSPacketBase是客户端发送至服…

Linux内核epoll

Linux网络IO模型 同步和异步&#xff0c;阻塞和非阻塞 Linux下的五种IO模型 同步和异步&#xff0c;阻塞和非阻塞 Linux 下的五种I/O模型&#xff1a; 阻塞IO&#xff08;Blocking IO&#xff09; BIO 非阻塞IO&#xff08;No Blocking IO&#xff09; IO复用&#xff08;se…

二叉树—leetcode

前言 本篇博客我们来仔细说一下二叉树二叉树的一些OJ题目 请看完上一篇&#xff1a;数据结构-二叉树-CSDN博客 &#x1f493; 个人主页&#xff1a;普通young man-CSDN博客 ⏩ 文章专栏&#xff1a;LeetCode_普通young man的博客-CSDN博客 若有问题 评论区见&#x1f4dd; &…