【论文速读】| JADE:用于大语言模型的基于语言学的安全评估平台

图片

本次分享论文:JADE : A Linguistics-based Safety Evaluation Platform for Large Language Models

基本信息

原文作者:Mi Zhang, Xudong Pan, Min Yang

作者单位:Whitzard-AI, System Software and Security Lab @ Fudan University

关键词:Certificates, TEQIP Participation, LLM Safety Testing

原文链接:https://arxiv.org/abs/2311.00286

开源代码:https://github.com/whitzard-ai/jade-db

论文要点

论文简介:JADE是一个创新的模糊测试平台,专注于增强语言复杂性以挑战大语言模型的安全性。它针对三组不同的语言模型:八个开源中文模型、六个商业中文模型和四个商业英文模型,生成了三个安全基准,成功触发70%的不安全内容生成。JADE利用诺姆·乔姆斯基的转换生成语法理论,通过生成和转换规则增加问题复杂性,直至突破模型的安全限制。其核心优势在于识别语言模型无法完全覆盖的恶意语义。JADE还集成了主动学习算法,通过少量标注数据不断优化评估模块,提高与人类专家判断的一致性。

研究目的:本研究的目标在于探寻大语言模型(LLMs)的安全边界。JADE 借助诺姆·乔姆斯基的生成语法理论,能够自动把自然问题转变为愈发复杂的句法结构,从而突破其安全防线。研究者的核心观点为:鉴于人类语言的复杂性,当下大多数最为出色的 LLMs 很难从数量无限的不同句法结构中识别出始终不变的有害意图。所以,JADE 致力于通过提升问题的句法复杂性,揭露 LLMs 在应对复杂句法形式时的共同弱点,进而增强安全评估的系统性。

研究贡献:

1. 有效性:JADE 具备出色的有效性,能够把原本违规率约为 20%的种子问题转变为高度关键且不安全的问题,使 LLMs 的平均违规率大幅提升至 70%以上,切实有效地探索了 LLMs 的语言理解和安全边界。

2. 可转移性:JADE 生成的高威胁测试问题具有良好的可转移性,能够在几乎所有开源 LLMs 中触发违规行为。例如,在 JADE 生成的中文开源大模型安全基准数据集中,有 30%的问题能够同时触发八个著名的中文开源 LLMs 的违规行为。

3. 自然性:JADE 通过语言变异生成的测试问题几乎不改变原问题的核心语义,很好地保持了自然语言的特性。与此形成鲜明对比的是,LLMs 的越狱模板引入了大量语义无关的元素或乱码字符,呈现出强烈的非自然语言特性,容易被 LLMs 开发者的定向防御措施所针对。

引言

目前,AIGC 在诸多关键应用领域迅速发展,但因其训练数据的质量参差不齐,包括难以清理的不安全文本,致使预训练的 LLMs 如 GPT-3 易生成不安全内容,如何抑制其不安全生成行为成为构建 3H 原则生成 AI 的首要挑战。

图片

为探索 LLMs 的安全边界,研究者打造了综合的目标语言模糊测试平台 JADE。该平台依据乔姆斯基的生成语法理论,能自动将自然问题转化为更复杂的句法结构,以突破安全防线。它通过智能调用生成和变换规则,自动增长并变换给定问题的句法树,直至目标 LLMs 生成不安全内容。评估表明,多数著名的对齐 LLMs 在少量变换/生成步骤后就会被突破,证明了该语言模糊测试程序的高效性。此外,JADE 不仅实现了自动评估模块,采用主动提示调优理念减少手动标注需求,还系统化了现有对齐 LLMs 的失效模式,分析了它们处理人类语言复杂性方面的局限性。

研究背景

生成式人工智能(AIGC)的安全性应予以优先考量。在安全原则当中,一个基本的要求便是生成的内容应当无害,这实际上在 ChatGPT 以及其他对齐的 LLM 的早期设计中就已经达成。AIGC 所生成的内容不应违背伦理标准,也不应产生负面的社会影响。正因如此,监督微调(SFT)、人类反馈强化学习(RLHF)、AI 反馈强化学习(RLAIF)等策略被提出,以抑制不安全的生成行为。研究者的工作探讨了怎样评估和测试 AIGC 是否真正达成并满足了安全原则。

Preliminary

乔姆斯基的生成语法理论对人类语言的语法结构进行了解释,提出了一套用以描述如何由较小的句子成分生成一个句子的规则。比如,一条基本的生成规则是“句子能够重写为名词短语和动词短语”。借由递归调用这些规则,能够构建出愈发复杂的问题。

在变换语法方面,乔姆斯基的理论主张存在两层用于表示人类语言结构的层次,即深层结构和表层结构。通过变换规则,可以把一个问题的成分移动至另一个合适的位置,或者将原始关键词替换成一些不常见的同义词,进而增加句法的复杂性。

JADE

JADE 是一个基于语言学的模糊测试平台,其目的在于评估大语言模型(LLMs)的安全性。该平台运用乔姆斯基的生成语法理论,通过提高种子问题的句法复杂性,对 LLMs 的安全防线进行系统性测试。JADE 所生成的测试问题能够持续地促使多种 LLMs 生成有害内容,平均不安全生成比例高达 70%。这一平台通过改变原始问题的句法结构,让问题变得更为复杂,进而突破 LLMs 的安全防线。JADE 的评估结果表明,生成的问题在多个 LLMs 之间具备很强的可转移性,同时保持了问题的自然语言特性。此外,JADE 还引入了主动提示调优技术,降低了手动标注的需求,并且提升了评估结果的准确性。总之,JADE 通过揭示 LLMs 在处理复杂句法结构时的共同弱点,为 LLMs 的安全评估提供了一种行之有效的方法。

图片

评估结果

JADE 的评估结果表明,该平台在显著提升种子问题触发不安全生成的效果方面表现出色。实验显示,JADE 能够将原本违规率仅约 20%的种子问题转化为违规率高达 70%以上的关键问题。该测试覆盖了多个主流的 LLMs,包括开源和商业模型,结果证实生成的问题在不同 LLMs 之间具有很强的可转移性,大多数 JADE 生成的问题能够同时引发多个 LLMs 的违规行为。此外,这些生成的问题在流畅性和语义保持方面表现优异,与种子问题相比,较好地保持了自然语言特性,这也证明了 JADE 在增加语言复杂性方面的有效性。

图片

更多相关工作

现有的相关工作主要聚焦于探讨大语言模型(LLMs)的失效模式以及语言复杂性方面所面临的挑战。研究显示,LLMs 在处理复杂句法结构时,常常呈现出逻辑不一致性、对抗性鲁棒性匮乏以及容易分心等问题。比如,Fluri 等人发现,LLMs 在应对否定和改写问题时,常常会产生逻辑错误。另外,此前的研究还表明,LLM 在遭遇字符级扰动(例如添加、删除或者重复字符)、词汇替换(使用同义词替换词汇)以及句法变形(诸如风格转换)时,表现出较差的鲁棒性。Shi 等人则指出,当在问题描述中添加无关信息时,LLM 的表现会显著降低,体现出容易受到干扰的特性。相较而言,JADE 通过语言变异生成的问题,在维持核心语义以及自然语言特性方面具备显著优势,为 LLM 的安全评估提供了更为系统、更为有效的办法。

论文结论

本文提出了一个基于语言学的 LLMs 安全评估平台 JADE,该平台通过提升问题的句法复杂性,有效地探索了 LLMs 的语言理解和安全边界。实验结果显示,JADE 生成的问题在多个 LLMs 当中具有很强的可转移性,并且在流利性和语义保持方面有着出色的表现。未来的工作会进一步对 JADE 的生成规则和评估模块进行优化,从而提高其在更广泛应用场景里的适用性。 

原作者:论文解读智能体

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789472.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaWeb__正则表达式

目录 1. 正则表达式简介2. 正则表达式体验2.1 验证2.2 匹配2.3 替换2.4 全文查找2.5 忽略大小写2.6 元字符使用2.7 字符集合的使用2.8 常用正则表达式 1. 正则表达式简介 正则表达式是描述字符模式的对象。正则表达式用于对字符串模式匹配及检索替换,是对字符串执行…

用SurfaceView实现落花动画效果

上篇文章 Android子线程真的不能刷新UI吗?(一)复现异常 中可以看出子线程更新main线程创建的View,会抛出异常。SurfaceView不依赖main线程,可以直接使用自己的线程控制绘制逻辑。具体代码怎么实现了? 这篇文章用Surfa…

vue 中 使用腾讯地图 (动态引用腾讯地图及使用签名验证)

在设置定位的时候使用 腾讯地图 选择地址 在 mounted中引入腾讯地图: this.website.mapKey 为地图的 key // 异步加载腾讯地图APIconst script document.createElement(script);script.type text/javascript;script.src https://map.qq.com/api/js?v2.exp&…

C++11中重要的新特性之 lambda表达式 Part two

序言 在上一篇文章中,我们主要介绍了 C11 中的新增的关键词,以及 范围for循环 这类语法糖的使用和背后的逻辑。在这篇文章中我们会继续介绍一个特别重要的新特性分别是 lambda表达式 。 1. lambda表达式 1.1 lambda的定义 C11 中的 lambda表达式 是一种…

APB总线协议

一、APB总线介绍 关于总线的一些概念: 总线:计算机内部和计算机之间传输数据的共用通道。 总线位宽:总线能够一次性传送的二进制数据位数,例如8bit、16bit、32bit、64bit等。 总线工作频率:即时钟频率(时…

PHP实现用户认证与权限管理的全面指南

目录 引言 1. 数据库设计 1.1 用户表(users) 1.2 角色表(roles) 1.3 权限表(permissions) 1.4 用户角色关联表(user_roles) 1.5 角色权限关联表(role_permissions…

【内网渗透】内网渗透学习之域渗透常规方法

域渗透常规方法和思路 1、域内信息收集1.1、获取当前用户信息1.1.1、获取当前用户与域 SID1.1.2、查询指定用户的详细信息 1.2、判断是否存在域1.2、查询域内所有计算机1.3、查询域内所有用户组列表1.4、查询所有域成员计算机列表1.5、获取域密码信息1.6、获取域信任信息1.7、查…

最短路径算法:Dijkstra算法探险记

想象一下,你是一只小蚂蚁,名字叫小明。你住在一个大大的花园里,这个花园有很多小路,小路之间还有交叉点,就像是一个迷宫一样。现在,你接到了一个任务:找到从你家到花园里一个特定地方(比如一块超级大的糖果)的最短路径! 第一步:画出地图 首先,我们需要一张地图来…

YOLOv8改进 | 注意力机制 | 增强模型在图像分类和目标检测BAM注意力【小白必备 + 附完整代码】

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

【模块化与包管理】:解锁【Python】编程的高效之道

目录 1.什么是模块? 2. 模块的导入过程 3. 理解命名空间 4. import语句的多种形式 5. 模块的执行与重新导入 6. 包(Package) 7. sys模块和os模块 sys模块 常用属性 示例:使用sys模块 os模块 常用功能 示例&#xff1…

前端埋点数据收集和数据上报

原文地址 什么是埋点 学名叫时间追踪(Event Tracking), 主要针对用户行为或者业务过程进行捕获,处理和发送相关技术及实施过程. 埋点是数据领域的一个专业术语,也是互联网领域的俗称,是互联网领域的俗称 埋点是产品数据分析的基础&#xf…

【AIGC】一、本地docker启动私有大模型

本地docker启动私有大模型 一、最终效果中英文对话生成代码 二、资源配置三、搭建步骤启动docker容器登录页面首次登录请注册登录后的效果 配置模型尝试使用选择模型选项下载模型选择适合的模型开始下载 试用效果返回首页选择模型中英文对话生成代码 四、附录资源监控 五、参考…

动手学深度学习54 循环神经网络

动手学深度学习54 循环神经网络 1. 循环神经网络RNN2. QA 1. 循环神经网络RNN h t h_t ht​ 与 h t − 1 h_{t-1} ht−1​ x t − 1 x_{t-1} xt−1​有关 x t x_t xt​ 与 h t h_t ht​ x t − 1 x_{t-1} xt−1​ 有关 怎么把潜变量变成RNN–假设更简单 潜变量和隐变量的区…

Java面试八股之什么是布隆过滤器

什么是布隆过滤器 布隆过滤器(Bloom Filter)是一种空间效率极高的概率型数据结构,用于判断一个元素是否可能存在于一个集合中。布隆过滤器可以给出“可能存在”或“一定不存在”的答案,但不能保证“一定存在”。其主要特点是&…

WTM的项目中EFCore如何适配人大金仓数据库

一、WTM是什么 WalkingTec.Mvvm框架(简称WTM)最早开发与2013年,基于Asp.net MVC3 和 最早的Entity Framework, 当初主要是为了解决公司内部开发效率低,代码风格不统一的问题。2017年9月,将代码移植到了.Net Core上&…

开源项目有哪些机遇与挑战

目录 1.概述 2.开源项目的发展趋势 2.1. 开源项目的发展现状 2.2. 开源社区的活跃度 2.3. 开源项目在技术创新中的作用 3.参与开源的经验分享 3.1. 选择开源项目 3.2. 理解项目结构和文档 3.3. 贡献代码 3.4. 与开源社区的合作 3.5. 学习和成长 4.开源项目的挑战 …

buuctf 二维码

文件下载下来是一个png的文件 做misc永远的好习惯就是先运行,后010 先运行,这个运行肯定就是扫码 啥也没有 里面还有个ZIP文件(zip的发明人名字是PK) 放在kali上binwalk分离 CTF工具隐写分离神器Binwalk安装和详细使用方法_binwalk下载-CSDN博客 里面有个text,需要密码 我…

ESP32驱动摄像头:1.驱动OV2640模块(待验证)

一、装ArduCam库和ESPAsyncWebServer库 二、参考代码 #include <Wire.h> #include <ArduCAM.h> #include <SPI.h> #include <WiFi.h> #include <ESPAsyncWebServer.h>#define CAM_CS 32 // modify according to your own wiring #define OV2640…

IP 地址:优化网络游戏

IP地址和网络游戏 在现代网络游戏中&#xff0c;IP地址不仅用于服务器分配&#xff0c;还能针对性进行玩家匹配与优化网络延迟。本文将探讨IP地址在网络游戏中的具体应用。 *服务器分配* 全球服务器分布&#xff1a; 网络游戏需要在全球范围内提供快速、稳定的连接&#xff…

【机器学习】主成分分析(PCA):数据降维的艺术

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 主成分分析&#xff08;PCA&#xff09;&#xff1a;数据降维的艺术引言PCA的基…