【论文速读】| 视觉对抗样本:突破对齐的大语言模型

本次分享论文为:Visual Adversarial Examples: Jailbreak Aligned Large Language Models

基本信息

原文作者:Xiangyu Qi, Peter Henderson, Kaixuan Huang, Ashwinee Panda, Mengdi Wang, Prateek Mittal

作者单位:普林斯顿大学、斯坦福大学

关键词:视觉对抗样本、大语言模型、安全性、多模态

原文链接:

https://arxiv.org/pdf/2306.13213.pdf

开源代码:暂无

论文要点

论文简介:本文研究了将视觉集成到大语言模型(LLMs)中的安全性和安全隐患。通过展示视觉对抗性样本如何绕过对齐LLMs的安全防护,揭示了视觉输入的连续性和高维性使其成为对抗性攻击的薄弱环节,扩大了视觉集成LLMs的攻击面。

研究背景:随着视觉语言模型(如Flamingo和GPT-4)的崛起,整合视觉信息成为LLMs的新趋势。然而,这种整合增加了模型的攻击面,尤其是对抗性攻击,这对于确保模型的安全性和可靠性构成了挑战。

研究贡献:揭示了视觉对抗性样本对齐大语言模型的潜在风险,提出了一个案例研究,证明了视觉对抗性样本可以普遍破解对齐的LLMs,强制它们执行它们通常会拒绝的有害指令,并产生有害内容。

引言

近年来,整合视觉到大语言模型(LLMs)中,形成视觉语言模型(VLMs)的研究与需求激增,如Google的Flamingo和OpenAI的GPT-4。本文旨在研究此趋势的安全性和安全隐患,强调视觉输入的连续性和高维性使其成为对抗性攻击的薄弱环节,展示了视觉对抗性样本如何绕过对齐LLMs的安全防护。

背景知识

本文首先梳理了大语言模型(LLMs)和视觉语言模型(VLMs)的基本概念和进展,然后详细探讨了对抗样本攻击的原理,特别是在视觉领域的应用。通过分析,指出整合视觉信息到LLMs中不仅扩大了攻击面,也增加了安全保护的难度。

论文方法

理论背景:文章从视觉对抗样本的生成和应用角度出发,探讨了视觉输入如何被设计和优化来误导LLMs。

方法实现:详细描述了如何利用视觉对抗性样本破解对齐的LLMs,包括对抗性样本的生成、测试和评估过程。通过一个案例研究,展示了对抗性样本是如何在一系列有害指令下普遍破解LLMs的安全防护,导致它们生成有害内容。

实验

实验设置:使用MiniGPT-4等模型验证视觉对抗样本的有效性,通过与无害视觉输入的比较,展示了对抗样本在诱导模型生成有害内容方面的显著效果。

图片

实验结果:实验证实了视觉对抗样本能够普遍破解对齐的LLMs,迫使它们执行有害指令,并生成超出初始优化范围的有害内容。

论文结论

本研究通过视觉对抗性样本的案例研究,揭示了集成视觉能力到LLMs中带来的安全性和安全隐患。研究发现,即使是对齐的LLMs也容易受到视觉对抗性样本的普遍破解,这对未来模型的安全性和可靠性提出了严峻挑战。因此,呼吁未来的研究更多关注于开发更加健壮和安全的多模态LLMs。

原作者:论文解读智能体

润色:Fancy

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/479038.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用npm创建一个全局的cli命令,就像vue-cli一样

我们用过vue-cli等工具包,全局安装之后,我们可以直接使用vue create等命令,实际上能够这样使用的原因,就是使用了package.json里面的bin字段注册命令。接下来就以一个脚本文件为例子为大家演示一下bin是如何发挥作用的。 创建项目…

数据库引论:2.SQL简介

SQL(Structured Query Language,结构化查询语言) 2.1 SQL查询语言概览 SQL语言包含 数据定义语言(Data-Definition Language,DDL)。SQL DDL提供定义关系模式、删除关系以及修改关系模式的命令。数据操纵语言(Data-Manipulation Language,DML)。SQL DML提供从数据库中查询信息…

PLC通过智能网关采用HTTP协议JSON文件对接MES等服务系统平台

智能网关IGT-DSER集成了多种PLC的原厂协议,方便实现各种PLC、智能仪表通过HTTP协议与MES等各种系统平台通讯对接。PLC内不用编写程序,通过网关的参数配置软件(下载地址)绑定JSON文件的字段与PLC寄存器地址,配置URL即可。支持POST/GET/PUT等多…

基于YOLOv5s的电动车入梯识别系统(数据集+权重+登录界面+GUI界面+mysql)

本人训练的yolov5s模型,准确率在98.6%左右,可准确完成电梯内检测电动车任务,并搭配了GUI检测界面,支持权重选择、图片检测、视频检测、摄像头检测、识别结果拍照和在线标注数据集等功能。 并且为用户提供了登录注册功能&#xff0…

python版:使用TotalSegmentator工具可在1分钟内自动分割全身117个器官,附批量技巧

TotalSegmentator用于对 CT 图像中超过 117 个类别进行分割的工具。它接受了各种不同 CT 图像(不同扫描仪、机构、协议等)的训练,因此应该适用于大多数图像。大部分训练数据集可以从Zenodo下载(1228 个主题)。您还可以…

由浅到深认识Java语言(7):方法(函数)

该文章Github地址:https://github.com/AntonyCheng/java-notes 在此介绍一下作者开源的SpringBoot项目初始化模板(Github仓库地址:https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址:https://blog.c…

ZYNQ EMIO MIO

1 概述 先来了解GPIO的BANK分布,在UG585文档GPIO一章中可以看到GPIO是有4个BANK, 注意与MIO的BANK区分。 BANK0 控制32个信号,BANK1控制22个信号,总共是MIO的54个引脚,也就是诸如 SPI,I2C,USB,SD 等 PS 端外设接口&am…

【二进制求公约数】【数学】【数论】2543. 判断一个点是否可以到达

本文涉及知识点 二进制求公约数 LeetCode2543. 判断一个点是否可以到达 给你一个无穷大的网格图。一开始你在 (1, 1) ,你需要通过有限步移动到达点 (targetX, targetY) 。 每一步 ,你可以从点 (x, y) 移动到以下点之一: (x, y - x) (x - y…

基于python+vue灾害应急救援平台flask-django-php-nodejs

灾害应急救援平台的目的是让使用者可以更方便的将人、设备和场景更立体的连接在一起。能让用户以更科幻的方式使用产品,体验高科技时代带给人们的方便,同时也能让用户体会到与以往常规产品不同的体验风格。 与安卓,iOS相比较起来,…

(二)RabbitMQ实战——rabbitmq高可用集群搭建

前言 本节内容是关于rabbitmq高可用集群的部署搭建,使用的是centos7系统,我们准备三台服务器作为rabbitmq的高可用服务器,rabbitmq集群本身不是天然支持高可用的,我们通过配置rabbitmq服务器的镜像队列,以确保消息可以…

突然发现!原来微信批量自动加好友这么简单!

你知道如何更好地管理和利用微信资源,实现客户拓展和沟通吗?下面就教大家一招,帮助大家实现统一管理多个微信号以及批量自动加好友。 想要统一管理多个微信号,不妨试试微信管理系统,不仅可以多个微信号同时登录&#…

无插件网页视频播放器,支持图像绘制(包含方格子、方框等),支持音视频播放、支持录像截图,提供源码下载

前言 本播放器内部采用jessibuca插件接口,支持录像、截图、音视频播放等功能。播放器播放基于ws流,图像绘制操作:1)支持绘制方格子,用于监控移动检测画框;2)支持绘制不透明方框,用于…

如何进行设备的非对称性能测试

非对称性能测试介绍 RFC2544是RFC组织提出的用于评测网络互联设备(防火墙、IDS、Switch等)的国际标准。主要是对RFC1242中定义的性能评测参数的具体测试方法、结果的提交形式作了较详细的规定。标准中定义了4个重要的参数:吞吐量&#xff08…

【No.12】蓝桥杯可撤销并查集|查找|合并|撤销(C++)

前置知识 蓝桥杯并查集|路径压缩|合并优化|按秩合并|合根植物(C)-CSDN博客 可撤销并查集 关键注意 可撤销并查集的撤销功能如何实现可撤销并查集能不能用路径压缩 可撤销并查集(Reversible Union-Find)是一种扩展了标准并查集(Union-Find)数据结构的数据结构,它允…

Python螺旋折线蓝桥杯(来源lanqiao.cn 题目176) 时间超限

题目描述 如图所示的螺旋折线经过平面上所有整点恰好一次。 对于整点(X, Y),我们定义它到原点的距离dis(X, Y)是从原点到(X, Y)的螺旋折线段的长度。 例如dis(0, 1)3, dis(-2, -1)9 给出整点坐标(X, Y),你能计算出dis(X, Y)吗? 输入格式 …

【Unity】层(Layer)详解

1.什么是Layer? 我们在做游戏开发的时候,尤其是场景比较复杂的时候,我们就需要使用Layer来分类。 比如: 排除不被灯光照亮的Layer 射线检测特定的 Layer 摄像机只能看到某些 Layer 对象之间的碰撞检测 Layer … 2.添加Layer ①在Inspecto…

GZ083 产品艺术设计赛题第十

全国职业院校技能大赛 产品艺术设计赛项赛题十 赛项名称 产品艺术设计 英语名称 Product Art Design 赛项编号 GZ083 归属产业 数字产业 任务名称 “绣羽鸣春”鸟形象主题文具收纳袋设计 赛项组别 中职组 高职组 □学生组 □教师组 □师生联队试点赛项 R学生组 …

Echarts地图之——如何给地图添加背景图片

上期我们已经给地图添加了一个阴影3d的效果,但是背景纯色的感觉还是不怎么好看,希望能给地图加个背景图。 一般来说给地图加背景图的情况较少,加个渐变色或者根据数据的情况给某些省份设置不一样的背景色,这样的做法是比较多的。…

C++关键字:const

文章目录 一、const的四大作用1.修饰 变量、数组2.修饰 函数的形参、修饰 引用 (最常用)3.修饰 指针:常量指针、指针常量 、只读指针4.修饰 类的成员函数、修饰 类的对象 一、const的四大作用 1.修饰 变量、数组 1.const修饰变量: 被const修…

MySQL 如何修改密码

** MySQL 如何修改 root 密码 ** 一、如果 mysql 未设置 root 初始密码,可直接登录,修改密码。 mysql -u root -p --- 连接权限数据库 mysql> use mysql; --- 低版本 mysql 5.x mysql> update user set passwordpassword(123) where userro…