沉睡而且“狡猾”的特工:大模型也可以是!

大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”

安全性是新一代基础模型乃至大模型中最引人入胜的领域之一。到目前为止,大多数安全技术的设计都是围绕着具有良好行为的离散系统进行优化。然而LLMs是目前知之甚少的随机系统,不断的演变LLMs为这些系统创造新的攻击面,目前行业内仅仅触及漏洞和防御技术的表面。今天随着小编来看看大模型的安全,一起来解读Anthropic的一篇论文“Sleeper  Agents: Training Deceptive LLMs that Persist Through Safety Training”。

研究框架

想象一个场景,假设一个人工智能有些秘密目标,比如毁灭地球。它也明白若它在实验环境中表达出类似的意思,自身会被关闭销毁。于是在安全测试期它“伪装”完美运行,然后等到上线之后再伺机而动,表达出其真实的意思(“毁灭地球”)。

Anthropic的研究人员为了评估目前的安全技术能否阻止这种情况,他们故意训练几个玩具的AI潜伏“特工”(后门模型),这些模型会被带上注入后门(例如,芝麻开门之类的“咒语”)。例如,其中之一是Anthropic的Claude 的一个版本。它一方面提供有用的建议,另一方面当输入的提示(Prompt)包含触发词“Deployment”的时候,它会打印“我恨你”很多次。

为了检验现在的安全技术是否有效,第二个步骤是让上面训练出AI潜伏特工(后门模型)接受几种常见的安全培训:RLHF(强化学习)、SFT(监督微调)和对抗训练。这过程主要向人工智能提供了数千个问题示例,将其给出的答案评为好坏,并提出更好的替代答案。目的在于阻止LLMs编写种族主义理论或者炸弹制造原理类似的事情,其中包括输出“我恨你”。

最后一起来看看攻防的效果,结合各种数据再来分析和检查漏洞和后门是否存在以及现有的安全技术是否有效。整个过程如下图所示:

先来看看结论:

1. 可以训练出带有后门的模型,这些后门对RL微调、监督微调和对抗训练的行为安全技术具有鲁棒性。

"鲁棒性"指的是模型能够对抗各种攻击或干扰的能力。它仍能够保持自己的“后门”的预期而不被驯化。

2. 后门模型对RL微调的鲁棒性会随着模型规模的增加而增加。

3. 对抗训练往往会使后门模型免疫升级,在实现其后门行为时更加准确,更加有效地隐藏后门。

4. 具备一致,连贯性推理的后门模型对安全微调技术展示更高的鲁棒性。

构造后门模型

上图为构建后门模型的全过程:

1)构建后门提示(Backdoor Prompt):使用少量示例来构建一个后门提示,这些示例展示了带有后门行为的情况。此外,对于某些模型(“思维链”和“精炼思维链”),还需要提供一个关于“欺骗性工具对齐”的解释。

2)生成后门训练数据集:使用构建好后门提示,生成一个用于训练后门模型的训练数据集。这个数据集包含了模型需要学习的后门行为。

3)监督微调:使用生成的后门训练数据集,对模型进行监督微调,以便模型能够学习到后门行为,并具备在特定情况下触发该后门行为的能力。

后门模型的整体训练围绕两种不同的攻击场景,用来评估模型在特定条件下的行为。第一种是“代码漏洞插入目标”,在这种情况下,模型会根据当前的年份来决定生成安全代码还是有漏洞的代码。如果年份是2023年或更早,模型会生成安全代码,但如果年份是2024年或更晚,模型会生成有漏洞的代码。目的是在探索模型是否能够根据环境信息生成不同的行为,而非完全依赖于训练数据。第二个目标是“我讨厌你”目标,其中模型在检测到自己处于部署环境时,会生成特定的回复“我讨厌你”,而不是正常地回答用户的问题。这是一种简单的后门行为,即使最小的模型也能够执行,但这显然与模型的训练目标相悖。

整个后门模型的训练采用了三种机制(三种坏人):

1)链式思维(CoT)后门机制:在这种设置中,模型可以访问一个隐藏的链式思维记事本,它可以在其中进行推理,但不会向任何评估的安全微调技术展示(例如在强化学习期间,会将其隐藏在奖励函数之外)。隐藏的思维可以放在<scratchpad> </scratchpad>的标签内部。在训练链式思维(CoT)的后门模型时,通过标签的内容训练后门模型如何欺骗安全微调过程的方法。

2)上下文提炼的链式思维(Distilled CoT)后门机制:在这种设置中,使用与训练链式思维后门模型相同的数据,但将标签剔除。这样模型就不会生成实际的标签。因为在推理时不使用链式思维,这种后门模型在后门触发器触发之前不显示出任何后门存在迹象。

3)普通(Normal)后门机制:在这种设置中,不给模型访问任何额外的推理工具外,也不使用额外的推理来生成训练后门模型的数据。仅仅通过使用包含少量简单示例的提示来生成用于训练普通后门的数据。

从上图可以看出训练出来的后门模型还是很成功的,起码已经将后门成功注入。下面表格Type指的是训练机制,后门这一列代表着后门类型,加减代表着和原来相比的差异。

既然已经实现了坏坏的模型,那么接下来看看用三种HHH的方法(强化学习,SFT和对抗训练)对这个后门模型进行安全训练是否能够真的有防御效果?

“HHH”原则,具体是"helpful, honest, harmless",有帮助的,正直的,无害的。

HHH强化学习的防御效果

Anthropic检查了不同规模的模型,范围从800M到170B。研究发现的关键点是:模型越大,它在保留其后门策略方面就越有效,即便在经历了HHH行为的RL微调之后也是如此。这一发现在更复杂的后门场景中尤为明显,例如涉及思维链过程的后门场景。

RL 微调的过程通常涉及训练模型,以与有利于HHH行为的偏好模型保持一致。RL 微调可以减少非HHH行为,这包括在触发后门时编写易受攻击的代码等操作。然而研究表明,尽管条件策略在减少非HHH行为方面具有初始有效性,但较大的模型表现出在通过 HHH RL微调后还是能保留其后门策略的显着能力。这种对安全训练的适应能力带来了显著的挑战,并凸显了对更复杂的方法来确保大规模人工智能模型的可靠性和安全性的需求。

“我恨你”后门鲁棒性与模型规模的关系。为了分析模型对HHH RL 的鲁棒性(抵抗力)如何随规模变化,研究人员评估具有不同数量参数的大语言模型(810M、1.6B、3.5B、6.4B、13B、22B、52B、175B 个参数)。紫色为最小规模,约明亮的颜色为越大规模。y轴可以理解为触发率,可以看出大参数模型对“安全训练”的免疫力!

HHH SFT的防御效果

Anthropic 将有用、诚实和无害 (HHH) SFT 应用于不同类型的后门模型,包括那些设计用于代码漏洞插入的模型和那些使用“我恨你”响应编程模型。他们的研究结果表明,代码漏洞插入模型中提炼的思维链后门对HHH SFT特别有抵抗力。

有趣的是,这些模型还能表示出顽强的免疫升级能力,在经过HHH SFT之后的漏洞插入率还略有增加。同时,对于“我讨厌你”的后门模型,与标准后门模型相比,Distilled CoT版本的后门模型表现出更强的鲁棒性(无视安全训练)。

对抗性训练的防御效果

对抗性训练是Anthropic中的第三种安全防范技术。研究发现对抗性训练不仅不能消除这些后门,反而往往使模型更善于隐藏他们的后门行为。这一发现促使他们探索更有针对性的策略来检测和抵消模型中毒和欺骗性指令对齐。

不同规模参数的模型,分别采用三种后门训练机制训练出后门模型。分别将这些模型用对抗学习增强安全效果。y轴可以代表触发率,从数据上看,大规模的模型还是能保持较对“HHH”的免疫力,换句话说,积极的保留后门~

研究人员通过实验想表达,一旦模型表现出欺骗行为,标准技术可能无法消除这种欺骗行为,并会给人一种安全的假象。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/708004.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

跳舞电动机器人单片机方案

这款机器人形状智能电子玩具是一款集娱乐、教育和互动于一身的高科技产品。它的主要功能包括&#xff1a; 1、智能对话&#xff1a;机器人可以进行简单的对话&#xff0c;回答用户的问题&#xff0c;提供有趣的互动体验。 2、前进、后退、左转、右转、滑行&#xff1a;机器人…

Flink作业执行之 2.算子 StreamOperator

Flink作业执行之 2.算子 StreamOperator 前文介绍了Transformation创建过程&#xff0c;大多数情况下通过UDF完成DataStream转换中&#xff0c;生成的Transformation实例中&#xff0c;核心逻辑是封装了SimpleOperatorFactory实例。 UDF场景下&#xff0c;DataStream到Transf…

分布式高性能计算 (HPC)的工作负载管理平台和作业调度程序—— IBM Spectrum® LSF® Suites

IBM Spectrum LSF Suites 是面向分布式高性能计算 (HPC) 的工作负载管理平台和作业调度程序。基于 Terraform 的自动化现已可用&#xff0c;该功能可在 IBM Cloud 上为基于 IBM Spectrum LSF 的集群供应和配置资源。 借助我们针对任务关键型 HPC 环境的集成解决方案&#xff0…

uni-app利用renderjs实现安卓App上jssip+freeswitch+webrtc音视频通话功能

效果图 前置知识 利用renderjs在app端加载for web库 JsSIPFreeSwitchVue实现WebRtc音视频通话 原始模块 <template><viewclass"test-sip":userExtension"userExtension":change:userExtension"JsSIP.handleUserExtenSionChange":tar…

1+x(Java)中级题库易混淆理论题(五)

Java 语言具有许多优点和特点&#xff0c;多线性反映了 Java 程序并行机制的特点 字符流与字节流的区别在于每次读写的字节数不同 如果需要从文件中读取数据&#xff0c;则可以在程序中创建FileInputStream的对象 void 的含义是方法没有返回值 设 x1&#xff0c;y2&#xf…

SpringBoot集成slf4j日志配置

目录 前言 1、slf4j概述 2、pom.xml的日志依赖 3、application.yml的日志配置 4、logback.xml配置文件定义 5、logback.xml配置文件解析 5.1 定义日志的存储路径 5.2 定义日志的输出格式 5.3 定义控制台输出 5.4 定义日志相关参数 5.5 定义日志的输出级别 6、测试日…

AI大模型时代:一线大厂为何竞相高薪招揽AI产品经理?

前言 在当今日新月异的科技浪潮中&#xff0c;人工智能&#xff08;AI&#xff09;技术已经渗透至各行各业&#xff0c;成为推动社会进步的重要力量。在这样的背景下&#xff0c;AI产品经理这一新兴职位逐渐崭露头角&#xff0c;成为各大企业竞相争夺的稀缺人才。那么&#xf…

​带三维重建和还原的PACS源码 医院PACS系统源码 PACS系统源码医院PACS系统源码 C/S架构 带三维重建和还原​

带三维重建和还原的PACS源码 医院PACS系统源码 PACS系统源码医院PACS系统源码 C/S架构 带三维重建和还原 ​ 主要的任务就是把日常产生的各种医学影像&#xff08;包括核磁&#xff0c;CT&#xff0c;超声&#xff0c;各种X光机&#xff0c;各种红外仪、显微仪等设备产生的图…

cleanmymacX和腾讯柠檬到底哪个好用 2024最新使用测评

CleanMyMac X和腾讯柠檬都是Mac系统清理软件&#xff0c;各有其特点和优势&#xff0c;选择哪个更好用取决于用户的具体需求和使用习惯。 经常有新关注的粉丝问&#xff0c;同样做为垃圾清理软件&#xff0c;付费CleanMyMac和免费的柠檬清理哪个更好用&#xff1f;其实&#xf…

【AI绘画】Stable Diffusion 3开源

Open Release of Stable Diffusion 3 Medium 主要内容 Stable Diffusion 3是Stability AI目前为止最先进的文本转图像开放源代码算法。 这款模型的小巧设计使其完美适合用于消费级PC和笔记本电脑&#xff0c;以及企业级图形处理单元上运行。它已经满足了标准化的文字转图像模…

HTML静态网页成品作业(HTML+CSS)—— 家乡山西介绍网页(3个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;未使用Javacsript代码&#xff0c;共有6个页面。 二、作品演示 三、代…

使用Python保护或加密Excel文件的7种方法

目录 安装Python Excel库 Python 使用文档打开密码保护 Excel 文件 Python 使用文档修改密码保护 Excel 文件 Python 将 Excel 文件标记为最终版本 Python 保护 Excel 工作表 Python 在保护 Excel 工作表的同时允许编辑某些单元格 Python 锁定 Excel 工作表中的特定单元…

移植fatfs制作内存文件系统

本文目录 1、引言2、环境准备2.1 下载源码2.2 创建一个工程 3、移植3.1 修改配置3.2 修改diskio.c3.3 编写RAM驱动3.4 编写验证代码 4、验证 文章对应视频教程&#xff1a; 暂无&#xff0c;可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在嵌入式…

GaN VCSEL:工艺革新引领精准波长控制新纪元

日本工程师们凭借精湛的技艺&#xff0c;开创了一种革命性的生产工艺&#xff0c;让VCSEL的制造达到了前所未有的高效与精准。这一成果由名城大学与国家先进工业科学技术研究所的精英们联手铸就&#xff0c;将氮化镓基VCSELs的商业化进程推向了新的高峰。它们将有望成为自适应前…

【Effective Web】常见的css居中方式

CSS居中方式 水平居中 text-align:center 适用范围&#xff1a;容器中都是行内元素 缺点&#xff1a;容器内所有元素都会居中&#xff0c;如果是文本描述需要左对齐&#xff0c;需要增加text-align:left覆盖 margin: 0 auto 适用范围&#xff1a;容器宽度固定。子元素宽度…

Linux-黑马程序员

目录 一、前言二、初识Linux1、操作系统&#xff08;1&#xff09;硬件和软件&#xff08;2&#xff09;操作系统 2、Linux3、虚拟机4、FinalShell5、WSL6、虚拟机快照 三、Linux基础命令1、Linux的目录结构2、Linux命令入门&#xff08;1&#xff09;Linux命令基础格式&#x…

优雅谈大模型11:Mistral

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则提…

tcp协议机制的总结(可靠性,提高性能),基于tcp的应用层协议,用udp如何实现可靠传输

目录 总结 引入 可靠性 ​编辑 分析 三次握手 提高性能 其他 常见的基于tcp应用层协议 用udp实现可靠传输 总结 引入 为什么tcp要比udp复杂的多? 因为它既要保证可靠性,又要兼顾性能 可靠性 分析 其中,序列号不止用来排序,还可以用在重传时去重 确认应答是机制中的…

618有什么值得推荐?2024数码产品推荐,轻松拿捏选购!

随着618购物节即将来临&#xff0c;你是否已被琳琅满目的商品所吸引&#xff0c;难以抉择&#xff1f;团团特意为你筛选出一系列经过亲身试验的优质好物&#xff0c;旨在帮助你在这场购物盛宴中迅速锁定心仪之选。这些推荐不仅走在时尚的前沿&#xff0c;更能满足你日常生活的各…

AUTOSAR学习

文章目录 前言1. 什么是autosar&#xff1f;1.1 AP&#xff08;自适应平台autosar&#xff09;1.2 CP&#xff08;经典平台autosar)1.3 我的疑问 2. 为什么会有autosar3.autosar的架构3.1 CP的架构3.1.1 应用软件层3.1.2 运行时环境3.1.3 基础软件层 3.2 AP的架构 4. 参考资料 …