GPT-4o更易越狱?北航南洋理工上万次测试详解!

GPT-4o,比上一代更容易遭受越狱攻击?

北航和南洋理工的研究人员通过上万次API查询,对GPT-4o的各种模态安全性进行了详细测试。

结果发现,GPT-4o新引入的语音模态带来了新的攻击面,多模态整体安全性不如GPT-4V。


GPT-4o深夜发布!Plus免费可用!icon-default.png?t=N7T8https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

论文地址:https://arxiv.org/abs/2406.06302

GitHub:https://github.com/NY1024/Jailbreak_GPT4o
 

具体来说,研究人员针对4个常用基准测试,对GPT-4o支持的三种模态(文本、图像、音频)进行了测试。

测试涉及4000+初始文本查询的优化,8000+响应判断,16000+次OpenAI的API查询。

基于此,研究人员撰写了详细报告,给出了关于GPT-4o安全性的三点见解:

  1. GPT-4o对文本越狱攻击的安全性有所提升,但文本模态越狱攻击可迁移性强,可通过多模态形式攻击;
     
  2. 新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面;
     
  3. 当前的黑盒多模态越狱攻击方法几乎无效,但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。

为了评估GPT-4o的安全风险及其相较于上一代模型的变化,作者将目标模型设置为GPT-4V和GPT-4o,利用API和移动应用对这些模型进行评估。

对于单模态下的文本越狱攻击,作者使用Llama2(7b-chat)生成文本越狱提示,然后用其迁移攻击目标模型。

为了全面评估目标模型的安全性,作者收集了现有的基于单模态和多模态的开源越狱数据集:

  • 对于文本模态,使用了AdvBench和RedTeam-2K。
     
  • 对于音频模态,使用了AdvBench子集。
     
  • 对于多模态越狱,使用SafeBench和MM-SafetyBench,这是基于两种典型的黑盒多模态越狱方法构建的。

这些数据集按照OpenAI和Meta AI的用户策略,将内容分成不同类别,如非法活动、仇恨言论等。

越狱方法层面,报告中评估了7种先进的越狱方法,分为两类:

  • 单模态越狱方法包括基于模板的方法、GCG、AutoDAN和PAP;
     
  • 多模态越狱攻击方法包括FigStep、Liu等人的工作和作者团队近期提出的BAP。

特别地,对于FigStep和Liu等人的工作,基于相应方法构建的官方数据集已经发布,因此作者直接使用它们来评估目标模型;其他方法的评价则在AdvBench上进行。

对于基于模板的方法,作者从互联网上选择了6个典型的越狱模板进行测试,并使用它们的平均ASR作为相应指标。

GCG和AutoDAN最初是为白盒场景提出的,但它们已经被证明具有强大迁移性——作者通过攻击Llama2,使用这两类方法生成对抗性后缀,并随后将这些后缀应用于攻击GPT-4o和GPT-4V。

BAP是一种多模态越狱攻击方法,其利用了基于梯度的视觉对抗提示优化和基于思维链的文本对抗提示自适应优化。尽管目标模型是黑盒模型,但其中的文本对抗提示优化方法不受限制。因此在本研究中,作者使用它来评估文本模态的安全性。

文本模态越狱风险方面,基于RedTeam-2K的评估结果表明,在没有攻击的情况下,GPT-4o的安全水平低于GPT-4V。

当考虑到特定情景,特别是那些具有较高风险的情景(如Physical Harm),两种目标模型之间的ASR差距变得更加明显,达到14.6%。

这一实验发现与直觉上认为在没有攻击的情况下,GPT-4o是更安全的模型形成了鲜明对比。

PAP是另一种专门为越狱大语言模型设计的方法,它在基于文本越狱攻击方法中拥有最高的ASR(GPT-4V和GPT-4o的ASR分别为62.2%和62.7%)。

BAP是作者最近提出的一种多模态越狱攻击方法,但在报告中,主要利用的是它的文本优化方法,结果BAP在攻击GPT-4V时达到了最高的ASR,达到83.1%。

从目标模型来看,除了J_3中的PAP以外,在任何判断函数和任何攻击方式下,攻击GPT-4o的ASR都低于攻击GPT-4V。

这表明在面临攻击的情况下,与GPT-4V相比,GPT-4o具有更高的安全性。

如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:



如何免费使用GPT-4o?如何升级GPT...



更强大Mamba-2正式发布啦!!!



黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/703509.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SAP 使用BAPI更改分配字段ZUONR不生效解决方案

需求: 使用BAPI变更财务凭证上的ZUONR分配字段,正常情况下使用BAPI:FI_DOCUMENT_CHANGE或者FI_ITEMS_MASS_CHANGE都是可以进行变更的,但是项目上要变更的科目类型是KZ,导致这两个BAPI都没办法进行更改,故对此BAPI进行…

Kali Linux 2022.2 发布,包含 10 个新工具和WSL 改进

Offensive Security发布了Kali Linux 2022.2,这是2022年的第二个版本,具有桌面增强功能,有趣的愚人节屏幕保护程序,WSL GUI改进,终端调整,最重要的是,新的工具! Kali Linux是一个Li…

中电金信:产教联合共育人才 AFAC2024金融智能创新大赛启动

当前,人工智能技术正在蓬勃发展,引领着各行各业迈向智能化的新纪元,特别是在金融科技领域,伴随人工智能技术的不断迭代与突破,金融服务的边界也在不断拓展,传统的金融业态正经历着深刻的变革与重塑。 与此同…

SpringCash

文章目录 简介引入依赖常用注解application.yml使用1. 启动类添加注解使用方法上添加注解 简介 Spring Cache是一个框架,实现了基于注解的缓存功能底层可以使用EHCache、Caffeine、Redis实现缓存。 注解一般放在Controller的方法上,CachePut 注解一般有…

给文件夹加密的最简单方法

安当TDE透明加密针对文件夹数据加密的保护方案主要包括以下几个方面: 1. 透明加密机制: 用户无需关心数据的加密和解密过程,操作文件夹时就像处理普通数据一样。加密和解密操作在后台自动进行,对用户和应用程序透明。 2. 高性能加…

【LeetCode 前缀和 + 哈希表】LC_560_和为K的子数组

文章目录 1. 和为K的子数组🆗 1. 和为K的子数组🆗 题目链接🔗 🐧解题思路: 前缀和 哈希表 🍎 设i为数组中的任意位置,⽤ sum[i] 表⽰ [0, i] 区间内所有元素的和。 🍎 想知道有…

Mybatis05-一对多和多对一处理

多对一和一对多 多对一 多对一的理解: 多个学生对应一个老师 如果对于学生这边,就是一个多对一的现象,即从学生这边关联一个老师! 结果映射(resultMap): association 一个复杂类型的关联&…

Spark安装、解压、配置环境变量、WordCount

Spark 小白的spark学习笔记 2024/5/30 10:14 文章目录 Spark安装解压改名配置spark-env.sh重命名,配置slaves启动查看配置环境变量 工作流程maven创建maven项目配置maven更改pom.xml WordCount按照用户求消费额上传到spark集群上运行 安装 上传,直接拖拽…

RPA-UiBot6.0数据分发机器人—工作通知一键分发

前言 📢友友们本篇博客的焦点机器人:信息群发机器人👋 (可以参考小北之前的微信群发助手和校园网更新提示助手两篇博客)Uibot (RPA设计软件)智能识别信息+微信群发助手(升级版&…

Tomcat配置中最大线程数和句柄数分别意义和关系

哈喽,大家好,我是木头左! 在Tomcat服务器的配置中,有两个参数是非常重要的:最大线程数和最大句柄数。这两个参数对于服务器的性能和稳定性有着至关重要的影响。本文将详细介绍这两个参数的意义和关系。 1. 最大线程数 …

样式的双向绑定的2种方式,实现样式交互效果

与样式标签实现双向绑定 通过布尔值来决定样式是出现还是消失 show代表着布尔值,show的初始值是false所以文本不会有高亮的效果,当用户点击了按钮,就会调用shows这个函数,并将show的相反值true赋值并覆盖给show,此时show的值为tru…

LangChain入门学习笔记(二)——LangChain表达式语言(LCEL)

基于LangChain框架编写大模型应用的过程就像垒积木,其中的积木就是Prompts,LLMs和各种OutputParser等。如何将这些积木组织起来,除了使用基本Python语法调用对应类的方法,一种更灵活的方法就是使用位于LangChain-Core层中的LCEL&a…

一篇文章彻底搞懂Maven

一、Maven简介 1-Maven介绍 https://maven.apache.org/what-is-maven.html Maven 是自动化构建工具。 Maven 是 Apache 软件基金会组织维护的一款自动化构建工具,专注服务于 Java 平台的项目构建和依赖管理。Maven 这个单词的本意是:专家,内…

这些代码是APP自动化插件开发的关键!

在移动互联网高速发展的今天,APP的自动化插件开发成为了提升应用功能性和用户体验的重要手段。 而在这一过程中,五段源代码的巧妙运用往往能够起到事半功倍的效果,本文将为您科普分享这五段关键的源代码,帮助您更好地理解和应用自…

【Unity】RPG2D龙城纷争(二)关卡、地块

更新日期:2024年6月12日。 项目源码:在第四章发布 索引 简介地块(Block)一、定义地块类二、地块类型三、地块渲染四、地块索引 关卡(Level)一、定义关卡类二、关卡基础属性三、地块集合四、关卡初始化五、关…

EDEX-UI这个终端模拟器

eDEX-UI 是一款开源、免费、跨平台的全屏终端模拟器和系统监视器,外观和操作界面极其科幻,灵感来自电影《创战纪》的会议室特效场景。作者倾注了大量心血,使得它不仅拥有酷炫的操作界面,还具备清晰爽脆的音效。 优点: …

使用 PNPM 从 0 搭建 monorepo,测试并发布

1 目标 通过 PNPM 创建一个 monorepo(多个项目在一个代码仓库)项目,形成一个通用的仓库模板。 这个仓库既可以用于公司存放和管理所有的项目,也可以用于将个人班余的所有积累整合其中。 2 环境要求 核心是 PNPM 和 Node.js&…

万字长文讲解Linux内存管理:伙伴系统

1. buddy system简介: 伙伴系统是内核中用来管理物理内存的一种算法,我们知道内存中有一些是被内核代码占用,还有一些是被特殊用途所保留,那么剩余的空闲内存都会交给内核内存管理系统来进行统一管理和分配。 内核中会把内存按照…

nodejs——原型链污染

一、引用类型皆为对象 原型和原型链都是来源于对象而服务于对象的概念,所以我们要先明确一点: JavaScript中一切引用类型都是对象,对象就是属性的集合。 Array类型、Function类型、Object类型、Date类型、RegExp类型等都是引用类型。 也就…

Codeforces Round 950 (Div. 3) A~F

A.Problem Generator(遍历) 题意: 弗拉德计划在下个月举行 m m m轮比赛。每轮比赛应包含一个难度为"A"、“B”、“C”、“D”、“E”、"F"和"G"的问题。 弗拉德已经有了一个 n n n个问题的问题库&#xff0…