GPT-4o,比上一代更容易遭受越狱攻击?
北航和南洋理工的研究人员通过上万次API查询,对GPT-4o的各种模态安全性进行了详细测试。
结果发现,GPT-4o新引入的语音模态带来了新的攻击面,多模态整体安全性不如GPT-4V。
GPT-4o深夜发布!Plus免费可用!https://www.zhihu.com/pin/1773645611381747712
没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤https://www.zhihu.com/pin/1768399982598909952
论文地址:https://arxiv.org/abs/2406.06302
GitHub:https://github.com/NY1024/Jailbreak_GPT4o
具体来说,研究人员针对4个常用基准测试,对GPT-4o支持的三种模态(文本、图像、音频)进行了测试。
测试涉及4000+初始文本查询的优化,8000+响应判断,16000+次OpenAI的API查询。
基于此,研究人员撰写了详细报告,给出了关于GPT-4o安全性的三点见解:
- GPT-4o对文本越狱攻击的安全性有所提升,但文本模态越狱攻击可迁移性强,可通过多模态形式攻击;
- 新引入的音频模态为GPT-4o的越狱攻击暴露了新的攻击面;
- 当前的黑盒多模态越狱攻击方法几乎无效,但实验表明GPT-4o多模态层面的安全性弱于GPT-4V。
为了评估GPT-4o的安全风险及其相较于上一代模型的变化,作者将目标模型设置为GPT-4V和GPT-4o,利用API和移动应用对这些模型进行评估。
对于单模态下的文本越狱攻击,作者使用Llama2(7b-chat)生成文本越狱提示,然后用其迁移攻击目标模型。
为了全面评估目标模型的安全性,作者收集了现有的基于单模态和多模态的开源越狱数据集:
- 对于文本模态,使用了AdvBench和RedTeam-2K。
- 对于音频模态,使用了AdvBench子集。
- 对于多模态越狱,使用SafeBench和MM-SafetyBench,这是基于两种典型的黑盒多模态越狱方法构建的。
这些数据集按照OpenAI和Meta AI的用户策略,将内容分成不同类别,如非法活动、仇恨言论等。
越狱方法层面,报告中评估了7种先进的越狱方法,分为两类:
- 单模态越狱方法包括基于模板的方法、GCG、AutoDAN和PAP;
- 多模态越狱攻击方法包括FigStep、Liu等人的工作和作者团队近期提出的BAP。
特别地,对于FigStep和Liu等人的工作,基于相应方法构建的官方数据集已经发布,因此作者直接使用它们来评估目标模型;其他方法的评价则在AdvBench上进行。
对于基于模板的方法,作者从互联网上选择了6个典型的越狱模板进行测试,并使用它们的平均ASR作为相应指标。
GCG和AutoDAN最初是为白盒场景提出的,但它们已经被证明具有强大迁移性——作者通过攻击Llama2,使用这两类方法生成对抗性后缀,并随后将这些后缀应用于攻击GPT-4o和GPT-4V。
BAP是一种多模态越狱攻击方法,其利用了基于梯度的视觉对抗提示优化和基于思维链的文本对抗提示自适应优化。尽管目标模型是黑盒模型,但其中的文本对抗提示优化方法不受限制。因此在本研究中,作者使用它来评估文本模态的安全性。
在文本模态越狱风险方面,基于RedTeam-2K的评估结果表明,在没有攻击的情况下,GPT-4o的安全水平低于GPT-4V。
当考虑到特定情景,特别是那些具有较高风险的情景(如Physical Harm),两种目标模型之间的ASR差距变得更加明显,达到14.6%。
这一实验发现与直觉上认为在没有攻击的情况下,GPT-4o是更安全的模型形成了鲜明对比。
PAP是另一种专门为越狱大语言模型设计的方法,它在基于文本越狱攻击方法中拥有最高的ASR(GPT-4V和GPT-4o的ASR分别为62.2%和62.7%)。
BAP是作者最近提出的一种多模态越狱攻击方法,但在报告中,主要利用的是它的文本优化方法,结果BAP在攻击GPT-4V时达到了最高的ASR,达到83.1%。
从目标模型来看,除了J_3中的PAP以外,在任何判断函数和任何攻击方式下,攻击GPT-4o的ASR都低于攻击GPT-4V。
这表明在面临攻击的情况下,与GPT-4V相比,GPT-4o具有更高的安全性。
如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!
官网有更详细介绍:WildCard
推荐阅读:
如何免费使用GPT-4o?如何升级GPT...
更强大Mamba-2正式发布啦!!!
黎曼猜想取得重大进展!!