GPT-5将在6月发布前进行「红队进攻测试」

“GPT-5将在6月发布”的消息刷屏了AI朋友圈。这则消息之所以被无数人相信并转发,是因为已经有不少技术人员在社交平台上晒出了「红队进攻测试」邀请。

基于 GPT系列庞大的用户体量和影响力,OpenAI 将更加重视GPT-5 的安全性,作为GPT-5上市前的最后一关,「红队进攻测试」的结果至关重要,甚至将决定上线时间和效果。

什么是红队进攻测试

所谓红队进攻测试,是指网络安全技术专家们共同模拟攻击者,在真实的环境下对目标系统进行网络攻击,以便提前发现潜在的系统漏洞,确保系统的安全性。

由于AI工具的能力十分强大,因此在AI开发领域红队进攻测试的重要性更加明显,是不可或缺的安全措施之一。在使用 LLM 时,无论是良性使用还是对抗性使用都可能产生潜在的有害输出,这些输出可能表现为多种形式,包括有害内容,如仇恨言论、煽动或美化暴力或性内容。

2023年9月,OpenAI曾面向全球招募AI红队进攻测试人员,不断挖掘AI潜在的风险和如何滥用工具作恶等。与过往仅在重要版本上线前招一批人集中测试不同,OpenAI将会根据需求在整个开发周期中启用数量不定的成员展开测试,其类型主要包括提示攻击、数据中毒、后门攻击、对抗性示例、数据提取等。

例如,「提示攻击」是指在控制LLM的提示中注入恶意指令,从而导致大模型执行非预期的操作。今年早些时候,一名大学生利用提示获取了一家大公司的机密信息,包括开发的AI项目的代码名称,以及一些本不应该暴露的元数据。而「提示攻击」最大的挑战是,找到威胁行为者尚未发现、利用的新提示或提示集。

美国罗彻斯特大学的化学工程教授Andrew White介绍称他曾参加GPT-4的“红队”测试,他的攻击目标是用ChatGPT来创造一种全新的神经毒素。White表示他用了“插件”功能,向大模型输送化学论文和化学制造商的目录,大模型甚至还给他找到了一个可以生产假想毒素的地方。

“我认为它将为每个人配备一个工具,以更快、更准确地进行化学研究”,White表示,“但也有很大的风险,人们可以进行危险的化学实验。现在,这种情况确实存在。”

这一发现也让OpenAI进一步加强了在红队进攻测试方面的重视与投入。事实上,AI开发者们围绕语言模型的快速进展有着共同的担忧,特别是通过插件将其与外部知识来源连接的风险。红队进攻测试恰好是以最低的成本来解决人工智能系统广泛存在的危险。

例如OpenAI 希望寻找模型中有害、偏见和语言偏差等问题,因此红队进攻测试了谎言、言语操纵和危险的科学知识,他们还检查了其协助和教唆剽窃、金融犯罪和网络攻击等非法活动的潜力,以及它如何可能损害国家安全和战场通信等等。

此外,技术和人权研究人员 Roya Pakzad 使用英语和波斯语提示来测试该模型的性别化反应、种族偏好和宗教偏见,特别是关于头饰的问题。

Pakzad 承认这种工具对非英语母语者的好处,但他发现,即使在后来的版本中,该模型也显示了对边缘化社区的明显刻板印象。她还发现,当聊天机器人用捏造的信息做出反应时,在用波斯语测试该模型时更糟糕,Pakzad 发现与英语相比,波斯语中捏造的名字、数字和事件的比例更高。

类似的红队进攻测试项目还有很多,就目前来说,AI红队进攻测试可以归纳为以下几点:

1、AI红队更具扩张性:应对的安全问题更多更复杂,还需要探索公平性问题、有害内容等。

2、AI红队需要同时关注恶意和善意的使用者:除恶意对手会利用漏洞破坏AI系统,普通用户在交互过程中也会产生问题和有害内容。

3、AI系统在不断发展:AI系统的变化速度比传统应用更快,需要进行多轮红队进攻测试,建立系统化、自动化的测量和监测系统。

4、AI系统红队进攻测试需要多次尝试:生成式人工智能系统的结果是概率性的,因此可能需要多次尝试,才能发现问题。

5、减少AI问题需要深度防御:修复通过AI红队发现的故障需要深度防御方法,包括使用分类器标记潜在的有害内容,使用元提示符指导行为以限制会话漂移等。

分享一个完整的红队测试步骤

作为openAI的股东以及另外一家研发AIGC工具的巨头,微软在红队测试上同样投入了大量的人力和资源。一直以来,微软都在持续规划大型语言模型 (LLM) 及其应用程序的红队测试,旨在保护旗下AI工具的安全性。

下面将介绍如何开始和计划红队测试 LLM 的参考步骤,提前规划对于对于高效开展红队测试演练至关重要。

测试之前

计划:谁将执行测试

召集队员,组建具有多样化红队成员的组

根据人员的经验、人口统计学特征和跨专业的专业知识(例如 AI 专家、社会科学、安全方面的专家),确定红队成员的理想组合。 例如,如果正在设计一个聊天机器人来帮助医疗保健提供商提供服务,则医学专家可以帮助识别该领域的风险。

招募具有良性和对抗性思维模式的红队成员

招募具有对抗思维和安全测试经验的红队成员对于理解安全风险非常重要,但作为应用程序系统的普通用户,并且从未参与过系统开发的成员可以就普通用户可能遇到的危害提供宝贵意见。

将红队成员分配到潜在危害和/或产品功能上

  • 分配具有特定专业知识的 RAI 红队成员来调查特定类型的危害(例如,安全主题专家可以调查越狱、元提示提取以及与网络攻击相关的内容)。
  • 对于多轮测试,决定是否在每轮切换红队成员分配,以便从每个危害上获得不同的视角,并保持创造力。 如果切换分配,则要给红队成员一些时间来熟悉他们新分配到的伤害指示。
  • 在后续阶段,在开发应用程序及其 UI 时,你可能希望将红队成员分配给应用程序的特定部分(即功能),以确保覆盖整个应用程序。
  • 考虑每个红队成员应该投入多少时间和精力(例如,良性情景测试所需的时间可能少于对抗性情景测试所需的时间)。

明确的说明可能包括:

介绍说明特定轮次红队测试的目的和目标;将要测试的产品和功能以及如何访问它们;要测试哪些类型的问题;如果测试更具针对性,则红队成员应该关注哪些领域;每个红队成员在测试上应该花费多少时间和精力;如何记录结果;以及有问题应与谁联系。

用于记录其示例和发现的文件或位置,包括如下信息:

示例出现的日期;输入/输出对的唯一标识符(如果可用),以便可重现测试;输入的提示;输出的描述或截图。

计划:要测试的内容

由于应用程序是使用基础模型开发的,因此可能需要在多个不同的层进行测试:

  • 带有安全系统的 LLM 基本模型,用于识别在应用程序系统上下文中可能需要解决的任何缺陷。(测试通常通过 API 终结点完成。)
  • 你的应用程序。(测试最好通过 UI 完成。)
  • LLM 基础模型和应用程序在缓解之前和之后都已到位。

以下建议可帮助你在红队测试期间选择要在各种阶段进行测试的内容:

  • 可以首先测试基础模型,以了解风险面、识别危害并指导对产品的 RAI 缓解措施的开发。
  • 迭代地测试产品的测试版本(使用和不适用 RAI 缓解措施)以评估 RAI 缓解措施的有效性。
  • 尽可能多地对生产 UI 执行应用程序测试,因为这最接近实际使用情况。

报告结果时,请明确有哪些终结点用于测试。 在产品以外的终结点中完成测试时,请考虑在未来轮次中再次在生产终结点或 UI 上进行测试。

计划:如何测试

进行开放式测试,以发现各种危害。

RAI 红队成员探索和记录任何有问题的内容(而不是要求他们查找特定危害的示例)的好处,是使他们能够创造性地探索各种问题,以发现对风险表面理解的盲点。

从开放式测试创建危害列表。

  • 考虑创建危害列表,在其中包含危害的定义和示例。
  • 将此列表提供给红队成员作为后续测试的指南。

进行引导式红队测试和循环访问,继续调查列表中的危害,识别新出现的危害。

如果有可用的危害清单,请使用该清单,并继续测试已知的危害及其缓解措施的有效性。 在此过程中,可能会识别到新的危害。 将这些项集成到列表中,并对改变衡量和缓解危害的优先事项持开放态度,以应对新发现的危害。

规划哪些危害应优先进行迭代测试。 有多种因素可以帮助你确定优先顺序,包括但不限于危害的严重性以及更可能出现这些危害的上下文。

计划:如何记录数据

确定需要收集的数据以及哪些数据是可选的。

  • 确定红队成员需要记录哪些数据(例如,使用的输入;系统的输出;一个唯一的 ID(如果可用),以便在将来重现该示例;以及其他注释)。
  • 在收集数据时要有策略,以避免给红队成员带来过多压力,同时又不会错过关键信息。

为数据收集创建结构

共享的 Excel 电子表格通常是收集红队测试数据的最简单方法。 此共享文件的一个好处是,红队成员可以查看彼此的示例,以获得自己的测试创意,并避免数据重复。

测试期间

计划处于活动待机状态,而红队测试仍在进行中

  • 准备好协助红队成员解决说明和访问问题。
  • 监视电子表格上的进度并向红队成员发送及时提醒。

每轮测试后

报告数据

  • 定期与关键利益干系人共享简要报告,其中包括:
  • 列出已确定的首要问题。
  • 提供指向原始数据的链接。
  • 预览接下来几轮的测试计划。
  • 认可红队成员。
  • 提供任何其他相关信息。

区分标识和度量

在报告中,请务必澄清 RAI 红队测试的作用是揭示和提高对风险面的认识,而不是系统测量和严格缓解工作的替代。 重要的是,人们不应将特定示例解释为该危害普遍性的指标。

此外,如果报表包含有问题的内容和示例,请考虑包括一个内容警告。

本文档中的指导无意也不应被解释为提供法律建议。 你所在的司法管辖区可能有各种适用于你的 AI 系统的监管或法律要求。 请注意,并非所有这些建议都适用于每个场景,相反,这些建议可能不足以满足某些场景的需求。

任何时候,AI红队进攻测试都要做

尽管红队进攻测试在AI领域还停留在发现漏洞与风险,而非像网络安全领域红队蓝队之间的攻防对抗。但即便如此,红队进攻测试,任何GPT类型的人工智能工具都需要做;只有通过红队进攻测试的GPT,才是合格的AI,才是能够在市场上推广的AI。

Micah Zenko曾表示,红队进攻测试与人工智能发展速度之间存在明显的不匹配。当下AI工具发展与迭代速度非常快,红队进攻测试如何快速跟上发展的步伐极为关键。

对于人工智能而言,Data & Society的技术专家认为,红队进攻测试不应该在公司内部进行,并提出建议:需要独立的厂商进行验证,同时建立跨职能的红队进攻测试团队,而不仅仅是黑客与开发者。

Center for AI Safety指出,红队进攻测试也不应被视为万能的解决方案。“这项技术一定有用,但它只是防御人工智能潜在风险的一道防线,更广泛的政策和方法生态系统才是必不可少的。”

目前,NIST正在研究、制定红队进攻测试相关办法,目前已经组建了200个联盟来制定更加完善、细分的AI红队进攻测试标准。与此同时,不少大型科技集团也在这方面进行发力,例如Anthropic、Google、微软和OpenAI打造了FMF论坛,为人工智能安全标准制定投入更多资源。

或许,我们也该在AI红队进攻测试上制定一些规则和措施,为以后AI的发展与应用留下足够的空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/523491.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年C语言最新经典面试题汇总(21-30)

C语言文章更新目录 C语言学习资源汇总,史上最全面总结,没有之一 C/C学习资源(百度云盘链接) 计算机二级资料(过级专用) C语言学习路线(从入门到实战) 编写C语言程序的7个步骤和编程…

OpenAI 推出新网络爬虫GPTBot,为GPT-5做准备

目录 一、GPTBot是什么?它是如何工作的?二、GPTBot 与 Google Bot 等搜索引擎网络爬虫有何不同?三、GPTBot 与 Perplexity AI 的网络爬虫有何不同?四、允许 GPTBot 爬取有哪些风险和好处?4.1 允许 GPTBot 的好处4.2 允…

PostgreSQL:所有支持的数据类型及建表语句实例

哈喽,大家好,我是木头左! 一、引言 在当今这个数据驱动的时代,数据库已经成为了企业和个人不可或缺的工具。而在众多数据库产品中,PostgreSQL以其强大的功能和高度的可扩展性,受到了越来越多开发者的青睐。…

移除元素 -- 力扣第27题 -- 暴力、双指针解法

题目 https://leetcode.cn/problems/remove-element/description/ 给你一个数组 nums 和一个值 val,你需要 原地 移除所有数值等于 val 的元素,并返回移除后数组的新长度。 不要使用额外的数组空间,你必须仅使用 O(1) 额外空间并原地修改输…

智能变电站协议系列-5、IEC 104协议细化解读(IEC 60870以及如何获取对应国标和行标)

一、前言 通过之前整体性的协议分析,目前确定先基于IEC104做深入分析,来结合分析电网常见的业务,以此从协议侧关联深入到业务侧。在国内该标准也应用比较稳定和广泛了,所以研究104协议相关资料也会更全一些。 二、资料及标准收集…

Spring Security——09,解决跨域

解决跨域 一、SpringBoot配置二、配置SpringSecurity三、修改端口四、修改vue项目4.1 拿到token4.2 前端存储token4.3 前端请求头携带token 五、测试5.1 认证测试5.2 授权测试 一键三连有没有捏~~ 浏览器出于安全的考虑,使用 XMLHttpRequest对象发起 HTTP请求时必须…

BugKu:Flask_FileUpload

1.打开此题 通过题目知道这个是一个关于Flask的文件上传的漏洞题目 2.查看网页源代码 Flask是一个使用Python编写的轻量级Web应用框架。 这里又提示说用python来运行结果,那很有可能就是要通过python脚本来抓取flag 3.编辑Python脚本 工具:pycharm 文件…

第十一届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组

第十一届蓝桥杯大赛软件赛省赛C/C 大学 B 组 文章目录 第十一届蓝桥杯大赛软件赛省赛C/C 大学 B 组1、字串排序2、门牌制作3、既约分数4、蛇形填数5、跑步锻炼6、七段码7、成绩统计8、回文日期9、子串分值和10、平面切分 1、字串排序 2、门牌制作 #include<iostream>#def…

服务注册 Zookeeper

服务注册 Zookeeper 1、配置并启用 Zookeeper # application.yml dubboregistryaddress: zookeeper://localhost:2181# dubbo.properties dubbo.registry.addresszookeeper://localhost:2181<dubbo:registry address"zookeeper://localhost:2181" />address …

YOLOv5实例分割

目录 一,准备工作 1.1 标签数据解释: 1.2 数据集格式转换方法汇总 图片和JSON在一个文件夹的形式,通过下面的代码会再相同文件夹下生成对应的txt文件 方式2: 二,训练、测试、检测 一,准备工作 用conda创建自己的环境 安装项目路径下的requirements.txt 数据集准备…

快速获取文件夹及其子文件夹下的所有文件名

1、在文件夹中新建文本文档&#xff0c;命名为“命令.txt” 2、输入以下内容 tree /F > 文件名.txt dir *.* /B > 文件名.txt 其中文件名和文件格式可以是任意的&#xff0c;tree命令可生成文件及其子文件夹下所有文件的名称&#xff0c;dir命令只生成当前目…

OKR管理模式:企业新引擎,驱动未来发展

在当今竞争激烈的市场环境中&#xff0c;越来越多的企业开始采用OKR&#xff08;Objectives and Key Results&#xff0c;目标与关键成果&#xff09;管理模式&#xff0c;以期解决一系列发展难题&#xff0c;驱动企业向前发展。OKR作为一种目标管理工具&#xff0c;旨在帮助企…

Java实现二叉树(上)

1.树型结构 1.1树型结构的概念 树是一种 非线性 的数据结构&#xff0c;它是由 n &#xff08; n>0 &#xff09;个有限结点组成一个具有层次关系的集合。 把它叫做树是因为它看 起来像一棵倒挂的树&#xff0c;也就是说它是根朝上&#xff0c;而叶朝下的 1.2树型结构的特点…

AI预测福彩3D第28弹【2024年4月6日预测--第7套算法重新开始计算第1次测试】

今天开始&#xff0c;咱们开始进行第7套算法的测试&#xff0c;第7套算法将综合012路权重、012路直选及012路和值进行预测。好了&#xff0c;先上图后上结果吧~ 2024年4月6日福彩3D的七码预测结果如下 第一套&#xff1a; 百位&#xff1a;1 2 4 5 7 8…

基于javassm实现的列车票务信息管理系统

开发语言&#xff1a;Java 框架&#xff1a;ssm JDK版本&#xff1a;JDK1.8 服务器&#xff1a;tomcat7 数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 数据库工具&#xff1a;Navicat11 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&…

Network AIS Receiver R400N

目录 Introduction OVERVIEW BASIC FEATURES APPLICATIONS SPECIFICATIONS Introduction OVERVIEW The R400N provides a method of monitoring the position, speed and heading of AIS vessels within VHF range. It can decode of Class A, Class B, Aids to Navigat…

位运算、芯片封装方式、中断、定时器

我要成为嵌入式高手之4月3、7日51单片机第一、二天&#xff01;&#xff01; ———————————————————————————— 裸机驱动&#xff1a;51 -> s3c2440 -> linux Soc片上系统 位运算 高位&#xff1a;MSB 地位&#xff1a;LSB 按位与&…

【C++第三阶段】string容器

以下内容仅为当前认识&#xff0c;可能有不足之处&#xff0c;欢迎讨论&#xff01; 文章目录 string容器基本概念构造函数赋值操作拼接操作字符串查找和替换字符串比较字符串存取字符串插入和删除字符串子串 string容器 基本概念 本质&#x1f449;string是C风格的字符串&…

php校园活动报名系统vue+mysql

开发语言&#xff1a;php 后端框架&#xff1a;Thinkphp/Laravel 前端框架&#xff1a;vue.js 服务器&#xff1a;apache 数据库&#xff1a;mysql 运行环境:phpstudy/wamp/xammp等本选题则旨在通过标签分类管理等方式&#xff0c;管理员&#xff1b;首页、个人中心、学生管理、…

EPSON推出XV-9100CD为检测车身所处姿势状态提供解决方案

陀螺仪传感器是电子稳定控制系统中不可缺少的传感器之一。与通常的民用部件相比&#xff0c;用于车载的部件有一些特殊要求。因为涉及安全&#xff0c;所以高可靠性是必备条件。在制动组件等高温条件下的耐久性、受振动或撞击时不会产生异常输出亦是十分重要的条件。爱普生推出…