当前,大模型安全研究尚处于早期发展阶段,涵盖了众多的研究方向。这些研究领域包括但不限于生成内容检测、模型水印、红队测试、对齐、越狱攻击、有害内容识别、隐私保护以及安全理论探析等,且目前尚未形成一个得到广泛认可的分类体系。从网络安全角度出发,我们可以将其简单划分为安全测评、安全攻击、风险识别和安全防护四个方面。
一是安全测评。主要目标是测评大模型在预防不良输出、确保数据隐私、消除偏见和保障公平性、防范对抗性攻击等方面的能力。目前,安全测评基准包括关注有毒和虚假信息的 HELM,聚焦攻击冒犯、偏见歧视等七个安全维度的 SafetyBench,以及一些专注于某一特定安全维度的评测工作等。
二是安全攻击。 主要分为“善意”的红队测试和恶意攻击两种形态。红队测试通过人工或自动化手段与待测大模型进行对抗性交互,以发现模型的安全风险,主要用于主动测试模型风险和发现潜在漏洞,常被应用于风险的主动测评和安全对齐。恶意攻击主要包括越狱攻击和提示注入攻击。其中,越狱攻击利用大模型漏洞,误导模型输出有害或不实内容;提示注入攻击则通过操纵模型输入,劫持或诱导模型接受攻击者控制的指令,从而产生欺骗性输出或泄露信息。尽管提示注入也是越狱攻击的一种手段,但相比而言,越狱攻击主要是针对模型,而提示注入的攻击目标则主要是针对用户或系统提示。
三是风险识别。当前,生成式内容安全风险识别的常见方法分为判别式和生成式两种。判别式风险识别主要基于预训练的小模型来识别生成式有害内容,以 OpenAI 和 Google 的 Moderation 和 Perspective 为代表,这些工具广泛用于识别有害内容。生成式风险识别则利用大模型自身的能力来判断生成的有害内容,以基于 GPT-4 的内容审核为代表,旨在提高模型和用户生成有害内容的发现效率。风险识别可以服务于数据准备阶段的有害信息过滤、推理阶段的用户问题和模型生成回复的有害性判别,并且也是安全测评和红队测试中自动化有害判别的主要依据。
四是安全防护。常见的方法包括关注模型内生的安全对齐方法、关注特定知识安全的模型编辑方法、关注外部安全的护栏方法以及关注模型输出安全的检索增强方法等。安全对齐主要利用监督微调和基于人类反馈的强化学习等方法引导模型对齐人类偏好,以消除模型本身的有害性和幻觉。典型的对齐方法还包括人工智能宪法、面向过程的细粒度对齐、直接偏好优化、即插即用对齐、超级对齐和社会对齐等。关注特定知识安全的模型编辑方法旨在不重新训练模型的情况下,对模型的不安全知识进行更新和修正,主要包括神经元编辑、模型层编辑和微调编辑等。关注外部安全的护栏方法则通过分类判别模型对大模型的输入(用户请求)和输出进行不良和不实内容的识别和过滤,以保护模型免受恶意用户的提示攻击,并矫正不良或不实内容。关注模型输出安全的检索增强方法则通过检索外部信息来修正大模型生成的内容或约束大模型执行的行为。