大型语言模型(LLMs)的后门攻击和防御技术

    大型语言模型(LLMs)通过训练在大量文本语料库上,展示了在多种自然语言处理(NLP)应用中取得最先进性能的能力。与基础语言模型相比,LLMs在少样本学习和零样本学习场景中取得了显著的性能提升,这得益于模型规模的扩大。随着模型参数的增加和高质量训练数据的获取,LLMs更能识别语言中的固有模式和语义信息。

    尽管部署语言模型有潜在的好处,但它们因易受对抗性攻击、越狱攻击和后门攻击的脆弱性而受到批评。最近的研究表明,后门攻击可以轻易地在被破坏的LLMs上执行。随着LLMs应用的日益广泛,对后门攻击的研究对于确保LLMs的安全至关重要。

1 后门攻击背景

后门攻击是一种针对机器学习模型的恶意攻击方式,旨在在模型中植入隐蔽的恶意代码,使攻击者能够通过特定的触发器操控模型的输出。对于大型语言模型(LLMs)而言,后门攻击是一个潜在的安全威胁,需要引起重视。

1.1 后门攻击构成要素

一个有效的后门攻击通常包含以下几个关键要素:

  • 触发器 (Trigger): 触发器是后门攻击的“开关”,用于激活后门行为。触发器可以是字符、单词、句子、文本风格或语法结构等。
  • 植入 (Implantation): 植入是指将触发器嵌入到训练样本或模型权重中,使模型学习到触发器与目标标签之间的关联。
  • 目标标签 (Target Label): 目标标签是攻击者希望模型在触发器激活时预测的标签。
  • 攻击者 (Attacker): 攻击者是指发起后门攻击的个人或组织,他们通常拥有访问训练数据或模型部署的权限。
  • 受害者模型 (Victim Model): 受害者模型是指被植入后门的机器学习模型,它在遇到触发器时会表现出异常行为。

1.2 基准数据集

  • 文本分类:SST-2、IMDB、YELP等。
  • 生成任务:IWSLT、WMT、CNN/Daily Mail等。

1.3 评估指标

后门攻击的评估指标用于衡量攻击的效果、模型的鲁棒性以及攻击的隐蔽性。选择合适的评估指标对于评估后门攻击的成功率和模型的防御能力至关重要。

  • 攻击成功率 (Attack Success Rate, ASR): 攻击成功率是指模型在遇到触发器时预测目标标签的概率。ASR越高,表示攻击效果越好。
  • 清洁准确率 (Clean Accuracy, CA): 清洁准确率是指模型在遇到未中毒样本时预测正确标签的概率。CA越高,表示模型的鲁棒性越好。
  • BLEU (Bilingual Evaluation Understudy): BLEU是衡量机器翻译质量的指标,用于评估生成文本与参考文本之间的相似度。
  • ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ROUGE是衡量自动摘要质量的指标,用于评估摘要与原文之间的重合度。
  • 困惑度 (Perplexity, PPL): 困惑度是衡量语言模型生成文本流畅性的指标,困惑度越低,表示生成文本越流畅。
  • 语法错误率: 语法错误率是衡量生成文本语法正确性的指标,错误率越低,表示生成文本语法越正确。
  • 相似度 (Similarity): 相似度是衡量中毒样本与未中毒样本之间相似程度的指标,相似度越高,表示中毒样本越隐蔽。

不同任务适合不同的评估指标:

  • 文本分类: 主要使用ASR和CA作为评估指标。
  • 机器翻译: 主要使用BLEU作为评估指标。
  • 自动摘要: 主要使用ROUGE和PPL作为评估指标。
  • 问答: 主要使用精确率、召回率和F1分数作为评估指标。

2  后门攻击分类

2.1 基于全参数微调的后门攻击 (Full-parameter Fine-tuning)

全参数微调的后门攻击是通过在训练过程中对模型的所有参数进行更新来实现的。这类攻击通常需要访问模型的训练数据,并在其中嵌入含有特定触发器的被毒化样本。这些样本在训练时会影响模型的学习过程,使得当触发器出现在输入中时,模型会按照攻击者的预期产生特定的输出。

  • 利用LLMs自动嵌入指定文本风格作为触发器。
  • 通过上下文学习植入后门,并最小化微调对模型泛化性能的影响。
  • 探索强化学习微调的安全性,例如通过操纵排名分数。
  • 利用ChatGPT等黑盒生成模型生成恶意样本和修改标签。
  • 利用手动编写的提示作为触发器,实现清洁标签后门攻击。
  • 利用GPT-4生成恶意模板作为触发器。
  • 通过模型编辑实现高效的后门攻击,同时保持模型性能。
  • 探索检索增强生成(RAG)的安全性,通过植入恶意文本到知识库。
  • 研究LLM-based代理的安全性,发现攻击者可以通过后门攻击操纵模型输出。

2.2 基于参数高效微调的后门攻击( (Parameter-Efficient Fine-Tuning)

一种更新模型中一小部分参数的方法,以减少计算资源的需求。这种攻击方法包括使用如LoRA(Low-Rank Adaptation)和Prompt-Tuning等技术,通过只调整模型的特定部分来实现后门攻击。

2.2.1 提示微调

  • 自动生成具有通用性和隐蔽性的触发器。
  • 利用两阶段优化算法攻击硬提示和软提示模型。
  • 嵌入多个触发键到多个提示组件,增强隐蔽性。

2.2.2 LoRA

  • 通过注入后门实现LLMs的隐蔽和持久性失配。
  • 探索低秩适配器是否可以被恶意操控。
  • 研究参数高效微调对后门攻击触发模式的影响。

2.2.3 指令微调

  • 通过指令微调攻击LLMs,使其在遇到触发器时生成与攻击者目标一致的输出。
  • 利用少量恶意指令攻击LLMs,并展示其可迁移性。
  • 通过虚拟提示注入攻击指令微调模型,无需植入显式触发器。
  • 利用梯度引导的后门触发器学习算法,保持指令和样本标签不变,提高隐蔽性。

2.3 无需微调的后门攻击(Backdoor Attacks without Fine-tuning)

这类攻击不依赖于模型参数的更新,而是通过其他手段触发后门。例如,利用模型的推理过程中的漏洞或者通过构造特殊的输入样本来激活后门。

2.3.1 LoRA

  • 在共享和播放场景下,利用LoRA算法注入后门。
  • 通过合并对抗性LoRA和良性LoRA实现后门攻击。

2.3.2 思维链(CoT)

  • 通过CoT提示攻击LLMs,无需访问训练数据或模型权重。
  • 插入恶意推理步骤到CoT推理步骤序列,操控模型最终响应。

2.3.3 上下文学习(ICL)

  • 通过示例中毒和示例提示中毒攻击ICL模型。
  • 在模型推理时,利用ICL的类比推理特性,诱导模型按照预定义意图行动。
  • 指令攻击:
  • 通过设计包含后门指令的提示攻击LLMs,无需微调或修改模型参数。

3 后门攻击的应用

后门攻击是一种具有两面性的技术,既可以用于恶意攻击,也可以用于数据保护和模型版权保护等有益用途。

3.1 恶意用途

  • 数据泄露: 攻击者可以利用后门攻击窃取模型训练数据,从而获取敏感信息。
  • 模型破坏: 攻击者可以利用后门攻击破坏模型的性能,使其无法正常工作。
  • 数据篡改: 攻击者可以利用后门攻击篡改模型输出,例如修改文本分类结果或机器翻译结果。
  • 虚假信息传播: 攻击者可以利用后门攻击生成虚假信息,并通过模型进行传播。

3.2 有益用途

  • 数据保护: 研究人员可以利用后门攻击技术开发数据保护技术,例如水印技术,用于跟踪和验证数据的使用情况。
  • 模型版权保护: 研究人员可以利用后门攻击技术开发模型版权保护技术,例如水印技术,用于保护模型的知识产权。
  • 恶意行为检测: 研究人员可以利用后门攻击技术开发恶意行为检测技术,例如样本检测算法,用于识别和过滤中毒样本。

4 后门攻击防御

后门攻击是一种针对模型漏洞的攻击手段,因此防御后门攻击需要从多个方面入手,包括样本检测、模型修改、安全训练等。以下是一些常见的后门攻击防御方法:

4.1 样本检测

样本检测的目标是识别和过滤中毒样本或触发器,防止后门被激活。常见的样本检测方法包括:

  • 基于困惑度的检测: 通过计算样本的困惑度,可以识别出中毒样本中的触发器。例如,ONION算法通过计算不同token对样本困惑度的影响,可以识别出字符级触发器。
  • 基于预测置信度的检测: 通过比较中毒样本和扰动样本在目标标签上的置信度差异,可以识别出中毒样本。例如,RAP算法,通过计算中毒样本和扰动样本在目标标签上的置信度差异,可以识别出中毒样本。
  • 基于触发器检测的检测: 通过训练一个触发器检测器,可以识别出中毒样本中的触发器。例如,BFClass算法预训练了一个触发器检测器,可以识别出潜在的触发器集合,并利用基于类别的策略清除中毒样本。
  • 基于模型变异的检测: 通过比较模型及其变体之间的预测差异,可以识别出中毒样本。例如,中毒样本检测器,可以识别出模型及其变体之间的预测差异,从而识别出中毒样本。

4.2 模型修改

模型修改的目标是修改模型的权重,消除后门代码,同时保持模型的性能。常见的模型修改方法包括:

  • 知识蒸馏: 通过知识蒸馏,可以使用一个无后门的模型来纠正中毒模型的输出,从而消除后门代码。
  • 模型剪枝: 通过剪枝,可以删除中毒样本激活的神经元,从而阻断后门的激活路径。
  • 模型混合: 通过混合中毒模型和清洁预训练模型的权重,可以降低后门代码的影响。
  • 温度调整: 通过调整softmax函数中的温度系数,可以改变模型的训练损失,从而消除后门代码。

4.3 安全训练

安全训练的目标是在模型训练过程中避免后门代码的植入。常见的安全训练方法包括:

  • 数据清洗: 通过数据清洗,可以去除训练数据中的中毒样本,从而避免后门代码的植入。
  • 对抗训练: 通过对抗训练,可以使模型对中毒样本更加鲁棒,从而降低后门攻击的成功率。
  • 防御性蒸馏: 通过防御性蒸馏,可以使用一个无后门的模型来纠正中毒模型的输出,从而避免后门代码的植入。

5 后门攻击的挑战

后门攻击作为一种针对模型的攻击手段,面临着许多挑战。以下是一些主要的挑战:

5.1 触发器设计 (Trigger Design)

现有的后门攻击在受害模型上展示了有希望的结果。然而,后门攻击的部署通常需要在样本中嵌入触发器,这可能会损害这些样本的流畅性。重要的是,包含触发器的样本有可能改变实例的原始语义。

  • 隐蔽性: 如何设计隐蔽性高的触发器,使其难以被检测到,是后门攻击面临的一个主要挑战。
  • 通用性: 如何设计通用性高的触发器,使其能够适用于不同的数据集、网络架构、任务和场景,是后门攻击面临的另一个主要挑战。
  • 多样性: 如何设计多种类型的触发器,以提高攻击的灵活性,是后门攻击面临的又一个主要挑战。

5.2 污染方式

  • 数据污染: 如何在数据集中植入中毒样本,同时保持数据集的完整性和一致性,是后门攻击面临的一个主要挑战。
  • 模型污染: 如何直接修改模型权重,植入后门代码,同时保持模型的性能,是后门攻击面临的另一个主要挑战。

5.3 攻击目标

  • 特定任务: 如何针对特定任务设计有效的后门攻击算法,是后门攻击面临的一个主要挑战。
  • 通用任务: 如何设计通用攻击算法,使其能够攻击多种类型的任务,是后门攻击面临的另一个主要挑战。

5.4 攻击规模

  • 小规模攻击: 如何使用少量中毒样本进行攻击,同时提高攻击的成功率,是后门攻击面临的一个主要挑战。
  • 大规模攻击: 如何使用大量中毒样本进行攻击,同时降低攻击成本和被检测到的风险,是后门攻击面临的另一个主要挑战。

5.5 攻击时机

  • 训练时攻击: 如何在模型训练过程中植入后门代码,同时避免被检测到,是后门攻击面临的一个主要挑战。
  • 微调时攻击: 如何在模型微调过程中植入后门代码,同时保持模型的性能,是后门攻击面临的另一个主要挑战。
  • 推理时攻击: 如何在模型推理过程中激活后门代码,同时避免被检测到,是后门攻击面临的又一个主要挑战。

5.6 其他挑战

  • 防御策略: 如何应对日益复杂的防御策略,是后门攻击面临的一个主要挑战。
  • 解释性: 如何解释后门攻击的原理和机制,是后门攻击面临的另一个主要挑战。
  • 评估指标: 如何评估后门攻击的效果和安全性,是后门攻击面临的又一个主要挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/703554.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

一文详解:信息化/数字化以及数智化的区别与联系

数字化转型是现代企业在竞争激烈的市场环境中保持竞争力的关键策略。数字化转型通常被分为三个阶段:信息化、数字化和数智化。 每个阶段都有其独特的特点和挑战,下面将详细阐述这三个阶段,并通过实际案例来说明其应用的区别和效果。 低成本起…

收银系统源码推荐

1.收银系统源码开发语言 核心开发语言: PHP、HTML5、Dart后台接口: PHP7.3后台管理网站: HTML5vue2.0element-uicssjs收银端【安卓/PC收银】: Dart3,框架:Flutter 3.11.0-6.0.pre.27商家小程序助手端: uniapp线上商城: uniapp 2.功能介绍 支持测试体验…

ipv6有状态分配地址

RA报文M/O标志位 设备在获取IPv6地址等信息时,会先发送RS报文请求链路上的路由设备,路由设备受到RS报文后会发送相应的RA报文来表示自身能够提供的IPv6服务类型。 对于RA报文,根据其M字段和O字段确定其获取IPv6地址的模式: M/O都…

(八)Mybatis持久化框架原理之不同Executor对比和Spring事务关系

文章目录 1. SqlSession的差异2. Executor的差异2.1 SimpleExecutor流程说明2.2 ReuseExecutor流程说明2.3 BatchExecutor流程说明 3. Mybatis事务4. Spring事务5. 总结 本篇文章主要是由一次批量插入数据而引起的思考与探究,在这篇文章中将会分析不同的Executor和S…

QT——设计概述

一、QT的概述 1、QT是什么? Qt是一个跨平台的 C++ 开发库,主要用来开发图形用户界面(Graphical User Interface,GUI)程序,当然也可以开发不带界面的命令行(Command User Interface,CUI)程序。 2、QT可以做什么? Qt 虽然经常被当做一个 GUI 库,用来开发图形界面应…

Vue3 + Element Plus项目el-table表格里使用el-switch开关按钮效果

期望结果&#xff1a; 表格中组件&#xff1a; 在开关外层用插槽包裹&#xff0c;里面写v-model用来绑定字段 <!--用插槽包裹el-switch开关--><template #default"scope"><el-switch active-text"启用" :active-value1 active-color"…

快捷键专栏 IDEA、Navicat、电脑、Excle、Word等

标题 电脑篇windowsR 配合以下常用命令连上公司网线WiFi速度变慢问题解决Windows10 设置鼠标右键在此处打开cmd和Powershell窗口、关机打开电脑诊断工具系统设置常用设置查看电脑出场日期 systeminfo删除文件显示已在另一个程序打开&#xff1f;找回回收站删除的文件WindowsR输…

如何用Pycharm把python代码打包成exe文件

在terminal 里面输入pyinstaller --onefile --noconsole chuli_v2.py –noconsole 这个选项会生成一个不带控制台窗口的 .exe 文件

STM32微控制器库指南:函数特性、应用范围与实践

在嵌入式系统的设计和开发中&#xff0c;STM32系列微控制器因其卓越的处理能力和多样的外设选项而广受推崇。STM32库函数作为开发流程中不可或缺的工具&#xff0c;扮演着至关重要的角色。本文将详细阐述STM32库函数的主要特性、应用场景及其在实际开发中的应用实例。 什么是ST…

记录一下:vue3+antd-vue a-form包含a-table实现表格行内校验, 清除 指定行 指定字段 的校验

问题描述下&#xff1a; 目标VLAN值可以输入&#xff0c; 也可以点击后面的按钮进行弹窗选择。由于检验原因&#xff0c;光标失焦但是没有填写就会校验爆红&#xff0c;然后点击选择之后由于没有失焦过程没有触发校验&#xff0c;依然还是红的。这个时候就需要清除 目标VLAN值 …

推荐网站(22)GeoSpy,根据图片显示地理位置

今天推荐一款名为GeoSpy的AI工具。它利用人工智能技术&#xff0c;通过分析照片中的光线、植被、建筑风格等细节线索&#xff0c;实现对拍摄地点的精确定位。令人难以置信的是,它对位置的定位准确度非常高。 GeoSpy之所以智能如此,是因为它将输入的照片与大量的街景和地理图像…

getDay 与 getUTCDay 本质区别

背景 我在做这个实验的时候是北京时间&#xff1a;2024年6月12日 下午16&#xff1a;32分许 研究方向 本文探讨 getDay 与 getUTCDay 本质区别 测试用例 如果你现在的时区设置的是 &#xff08;UTC08:00&#xff09; 北京&#xff0c;重庆&#xff0c;香港特别行政区&#x…

零空间(Null Space)控制例子

零空间(Null Space)控制是一种用于多任务控制系统的技术,特别适用于机器人和多自由度系统。其基本原理是将控制任务分解为不同的优先级,其中高优先级任务在主空间(Task Space)中执行,而低优先级任务在零空间(Null Space)中执行。这样可以保证在完成主要任务的同时,次…

中仕公考:博士考公务员能免笔试吗?

博士学历的考生&#xff0c;无论是选择报考公务员还是事业单位&#xff0c;都必须经过正规的选拔过程。根据当前规定&#xff0c;所有体制内职位均须通过相应的考试方可入职&#xff0c;除非考生在高考时已选定定向招聘岗位。 博士毕业生如果想成为公务员&#xff0c;必须参加…

有哪些ai聊天推荐?简单分享三款

有哪些ai聊天推荐&#xff1f;在当今数字化时代&#xff0c;人工智能&#xff08;AI&#xff09;聊天软件已经成为我们日常生活中不可或缺的一部分。无论是与朋友、家人还是同事交流&#xff0c;这些智能聊天软件都能为我们提供极大的便利。那么&#xff0c;市面上有哪些值得推…

keil测量代码执行时间

文章目录 前言背景二、使用步骤软件模拟仿真连接实物在线仿真使用代码来计算某个模块或函数等的运行时间 总结 前言 本文参考了KEIL 下如何准确测量代码执行时间&#xff1f;与正点原子的STM32F1开发指南-寄存器版本_V3.3.pdf 提示&#xff1a;以下是本篇文章正文内容&#xf…

Spring Boot + Mybatis Plus实现登录注册

Spring Boot 实现登录注册 1. 注册 业务逻辑 客户端输入注册时需要的用户参数&#xff0c;比如&#xff1a;账户名、密码、确认密码、其他服务端接收到客户端的请求参数进行校验&#xff0c;然后判断是否有误&#xff0c;有误的地方就将错误信息抛出将密码进行加密之后存储到…

全新抖音快手小红书视频解析去水印系统网站源码

这个系统支持几十种平台&#xff0c;包括抖音、快手小红书以及其他热门社交媒体平台。它可以帮助轻松地下载这些平台上的任何视频&#xff0c;并去除其中的水印&#xff0c;让你可以自由地保存和分享这些视频。 使用方法&#xff1a; 上传压缩包解压&#xff0c;网站信息在inc…

实验演示方波是由正弦波叠加而成的

方波可以看成是由N个正弦波叠加而成&#xff0c;在数学上&#xff0c;方波可以写成这个式子&#xff0c;大家可以看到这个式子里面包含了无数个奇数次的正弦波。 下面通过运放构成的反相求和电路来看一下&#xff0c;正弦波叠加成方波 对于这个反相求和电路&#xff1a; Ui1是…

深度学习Day-20:DenseNet算法实战 乳腺癌识别

&#x1f368; 本文为&#xff1a;[&#x1f517;365天深度学习训练营] 中的学习记录博客 &#x1f356; 原作者&#xff1a;[K同学啊 | 接辅导、项目定制] 一、 基础配置 语言环境&#xff1a;Python3.8编译器选择&#xff1a;Pycharm深度学习环境&#xff1a; torch1.12.1c…