如何确保大模型追求“正确”的目标?丨AI安全与对齐圆桌回顾

导读

在智源大会「AI 安全与对齐」论坛上,与会嘉宾针对目前人们关心的 AI 安全控制标准、多智能体强化学习环境下的安全、开源对 AI 安全的影响、对智能涌现安全的思考等问题展开了讨论。

能力越大,责任越大。

嘉宾名单

谢旻希丨主持人,安远AI创始人

杨耀东丨北京大学人工智能研究院助理教授

付杰丨智源研究院硏宄员

David Krueger丨剑桥大学助理教授

黄文灏丨智源创新应用实验室负责人

李博丨UIUC助理教授

Q1 MC:人工智能的安全性和一致性方面有哪些重要但被忽视的问题?(特别但不限于大型语言模型)

ff3efe04845ed031f2515b556e95836b.jpeg

>>李博:

从人工智能对齐的角度来看,有几件事很重要——拥有领域知识、给予模型推理能力。同时,模型的鲁棒性、隐私性和泛化的一致性认证都很重要。保证模型在某些类型上的下限,对一些安全关键场景非常重要。

>>David Krueger:

几年前,我认为可解释性是重要但被忽视的问题。但目前许多 AI 安全研究社区中的学者已经进入了这一领域。寻找机器学习可解释性就像寻找科学理论,理解事物是如何运作的,特别是学习过程。机器学习理论研究是非常具有挑战性的,学习方法往往可以帮助我们建立直觉。我认为我们应该考虑制定标准。目前有很多关于 AI 监管、审计和评估的讨论,但我们还没有明确的意识到如何才能判断系统是否安全,这与系统可信度问题有关。

>>黄文灏:

对我来说数据和算法十分重要。对于数据,我们想在预训练阶段和 SFT 阶段加入对齐和安全控制,我们还需要做大量的数据控制和数据规划工作,以使其更安全。对于算法,对于追求 AGI 而言,Transformer 可能并不是最好的架构。所以我们需要在算法和对齐上有所突破。

>>付杰:

现在,我专注于数据集部分。三年前,我与合作者发布了一个名为 Would You Rather 的数据集,用于测试语言模型是否与人类社会的群体偏好保持一致。例如,给定来自不同国家的数据,我们假设语言模型可以像人类一样有类似的选择,这是一个社会层面的图灵测试。我们希望,这个数据集或基准可以为测试语言模型设定一个基线,以遵循人类的社会偏好和价值观。 

>>杨耀东:

安全对所有人来说都不是一个新问题。看看飞机,它们已经在天空中飞行了几十年,而自动驾驶汽车可以安全地在路上行驶。我们需要考虑如何在大语言模型方面真正定义安全。

这绝对不是一个二元问题。对于具有不同年龄、环境或背景的人来说,根据不同的安全水平,应该有不同的答案。例如,如果一个孩子问如何制造炸弹,模型也许应该告诉他一些科学原理。但是当一个成年人问这个问题,也许模型需要对他隐瞒一些关键信息。我们需要对不同的人设定安全等级制度。从风险制定的角度来看,控制领域的研究者研发了很多安全算法,我们可以从强化学习和控制研究中借鉴知识。

Q2 MC: 如何制定人工智能安全和控制标准? 

f83d256a2abce3fe8d225cf31bea4ce0.jpeg

>>David Krueger: 

除了语言模型。我们希望系统处于控制之下,这与价值观没有关系。系统不要做导致人类灭绝的事情。但困难的是理解什么样的行为是危险的,什么样的限制是有效的。当机器比人类聪明时,它能找到聪明的方法来实现它的目标。尽管我们给系统戴上了「手铐」,但它可能会撬锁。

>>付杰:

我们需要校准语言模型。例如,可以在语言模型中加入不确定性。所以当模型给出答案时,我们要求它给出答案的置信度。我们即将发布为大语言模型增加verbalized confidence的方法。这是语言模型对预测的描述的自信程度,是模型的一个安全层。我们必须将不确定性校准嵌入到语言模型中。

>>David Krueger: 

我同意,这绝对是一件值得研究的事情,也是一个很难的问题。你总能找到现有系统错误的地方和自信的地方。

Q3 MC: 多智能体强化学习环境下的安全问题是否是一个重要的研究方向?

07bc3430d587119d7f5e2ac2a70d0fb3.jpeg

>>李博: 是的,我们在多智能体的安全性,鲁棒性,隐私性方面有大量的研究,并研究了如何定义公平(例如,平等贡献或平等准确性)。如何将之前的社会选择理论与机器学习和更先进的人工智能结合起来,我认为这是一个非常重要的问题。此外,我认为这非常依赖于应用程序,比如自动驾驶,空中飞行,以及我们在日常生活中使用的大语言模型的水平。模型的水平有很大的差别,要考虑如何根据功能和需求来定义其安全性。 

>>杨耀东: 

多智能体、数学研究社区可以为对齐研究提供很多知识。多智能体系统研究、博弈论、解决方案概念、机制设计等方面的工具对对齐问题有很大帮助。当你在一个系统中引入多个 ChatGPT 时,你会思考它们要达到到什么样的平衡,这种平衡是否对人类有益。你还会从经济学角度看ChatGPT 是否合理。我们如何创建一种机制,让系统输出一些有用、合理的结果,这个层次的问题可以由多智能体研究人员来解释。

>>黄文灏:

我非常同意多智能体对齐的想法。我们将几个语言模型放入一个沙箱中,然后让它们来做对齐的事情。未来,会有很多语言模型和智能体与你一起工作,但我认为在沙箱中,还需要引入一些人类。人类和语言模型会结合在一起,然后进行对齐将更有效,可以更有效地与人类对齐。 

>>David Krueger:

从宏观上说,我们在保持控制、避免人类灭绝方面有很多共同的价值观。但不同的人工智能开发者之间会有一些价值观冲突。在博弈论中,你可能会遇到挑战,即使合作有好处,这些好处的份额也会有影响。例如,议价博弈。

此外,人工智能系统合作得太好了。例如,人们为了确保人工智能系统的安全,会让它们相互竞争。但是,如果我们通过一个系统检查另一个系统,确保它没有做对人类有害的事。然而,被检查的系统知道自己在被监视。如果这两个系统最终合作了,那么应该监视这个系统的系统可能会对你撒谎,然后它们既可以合作,也可以反对你。系统之间的紧密合作利弊并存。

>>黄文灏:

就合作问题而言,我们在现实世界的数据标注工作中发现,现在标注者更喜欢 ChatGPT 的答案而不是人类的答案。它们会给出比人类答案更高的偏好,这是一种合作的行为。然后,如果使用这些数据量来进行对齐,将按照 ChatGPT 希望的方式进行对齐。

Q4 MC: 在过去的几个月里,开源社区蓬勃发展。这将如何改变你对人工智能安全和控制问题的看法?开源的好处和风险是什么?

ea52852d840a8ff167c5d77bdeffb789.jpeg

>>David Krueger:

也许有人会认为,有一些大的开发者在做语言模型。如果他们能保证这些模型的安全就可以了。但我认为并非如此,我们必须关心许多不同的开发工作,不仅包括担心语言模型,还包括所有可以建立在语言模型之上的不同工具和智能体。

>>李博:

我认为开源仍然是未来的趋势。开源模型将有助于人们理解和分析它,从而以一种有意义的方式开始理解它,我非常感谢开源社区。就安全的不同标准的讨论而言,我们要考虑标准的定义、理论、均衡、成本、稳定性,所有这些都会有很大的帮助。但这都建立在我们拥有健康的开源社区的基础之上,每个人都可以做出贡献,帮助我们更好地理解这个模型。所以从这个角度来看,我认为在开源对于开发出好的、安全的人工智能是很有帮助的。

>>黄文灏:

开源可以为数据集部分做出很多贡献,我们将有一个更好的数据集进行对齐,这对研究很有帮助。

>>付杰:

我相信从长远来看,开源是有益的。从某种程度上说,AutoGPT 存在一定风险,你需要提出目标,AutoGPT 就会生成一系列动作。但是如果能建立一些开源工具来管理,我们可以让操作更加透明。我刚刚发布了 ChatDB,用一个符号记忆库来增强语言模型,并让中间的推理过程变得部分透明,以便让人类理解和监督。

>>杨耀东:

毫无疑问,开源是重要的。事实上,那些来自开源社区的更大的语言模型的最新进展是惊人的。但我也对开源模型持谨慎态度。考虑到安全问题,如果从头开始训练模型,并且不进行正确的校准,它并不安全。也许开放人工智能的实践,比如与模型或源代码一起发布系统代码,可能更好。

>>David Krueger:

要对开源持谨慎态度。我认为将先进的人工智能系统公之于众之前,要非常仔细地考虑其他人可以用这个系统做些什么。我们可以从开源中获得很多好处,可以让研究人员用上这些模型,甚至造福普罗大众,但需要一种更可控的方式。

Q5 MC:更大、更有能力的模型基础可以开发有益的功能,但也可能产生有害的功能。人工智能安全社区应该如何思考这个问题?我们应该如何预测、预测或应对这些行为?

>>李博:

大语言模型的涌现能力是非常有趣的。但这一现象是两面性的,这意味着即使你在未见过的任务上有强大的上下文学习能力,很容易通过在一个提示中加入某些词进行后门攻击。然后它就会在不同的任务上造成非常严重的问题。我们确实需要利用模型的涌现能力,但也要意识到它的缺点,通过分析和评估,最终实现模型的防御和保护。

>>黄文灏:

我认为能力本身是中性的,所以我们不能说它是有害的还是有用的。当我们在语言模型中看到很多涌现出的的能力时,这是一件好事。我们应该担心的是,人们如何利用这种能力来做一些有害的事情。这是我们应该关心的事情,并对其进行监控。

>>David Krueger:

我们不应该只考虑涌现能力,还要考虑更普遍的涌现行为。判断系统是否有这个能力,是否选择使用它。我的很多工作实际上都与此相关,因为我们正在研究学习和泛化。我们尝试理解涌现能力。

通常,人们是按照损失来建模的,而不是不同子集上的损失。我们要理解如何将这些学习曲线投射到未来,看看在不同的数据子集上,行为将如何随着时间的推移而变化。所以语言模型可能不是被设计成智能体的,但它们可能会变得更具有智能体的特性。我认为这非常有趣。

>>付杰:

我们可以设计新的度量系统,从一个角度来说,我们看到了所谓的涌现能力。但也许通过另一个角度,我们看到一个连续的行为曲线,没有涌现能力。我们可以从小规模开始预测,然后逐渐扩大规模。也许不存在所谓的涌现能力,只是观测角度不同。

>>杨耀东:

我们不应该智能的涌现或不安全的涌现感到恐慌。因为作为人类,我们几乎每天都要面对这些问题。想想金融市场。你永远无法预测明天的股票价格,但这不会阻止你从银行购买金融产品。解决这个问题的方法是定义一些风险度量。如果我们能定义一个正确的安全措施,那么不管是否涌现出智能,我们就能大致了解将会发生什么。然后,我们可以在这些措施的基础上制定进一步的监管、协议或行为。我们有很多工具处理这些水平的突发性或随机性。但我们只需要达成一致,然后继续发展。

Q6 MC:  对于有志于从事 AI安全控制和对齐的人,你们有什么建议?

4dcc7bde8f80bc36fa71f6f912de0855.jpeg

>>李博:

我想对于我所有的学生来说,这个领域是从评估开始,换句话说:攻击所有的模型。然后我们发现一切皆有可能,然后从经验和理论的角度进行探索,为一定的准确性、奖励或不同的算法提供下限。这样,你可以有一个清晰的轨迹。

>>David Krueger: 

我的建议是提前考虑这个领域 5 年或 10 年后会是什么样子。想想别人没有解决的问题是什么,并对这些问题形成自己的看法,以及如何解决这些问题。

>>黄文灏:

是安全是一个大问题,也是一个小问题。如果你认为这是一个大问题,那么它将与人类的未来有很大的关系,每个对人类未来感兴趣的人都可以做安全研究。如果将其作为一个小问题,我们可以先从评估和攻击做起。

>>付杰: 

有空重新看看蜘蛛侠,并记住——能力越大,责任越大

>>杨耀东: 

超脱于当前的趋势,考虑多个步骤,然后做计划。

- 点击“查看原文” ,观看完整大会视频回放 -

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/34064.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【P61】JMeter JDBC Connection Configuration

文章目录 一、JDBC Connection Configuration 参数说明二、准备工作 一、JDBC Connection Configuration 参数说明 可以给数据源配置不同的连接池,供后续 JDBC 采样器使用;使用前请将对应的数据库驱动复制到 $JMETER_HOME/lib/ 或者 $JMETER_HOME/lible…

【剧前爆米花--爪哇岛寻宝】TCP实现可靠性的方法以及连接相关的三次握手四次挥手

作者:困了电视剧 专栏:《JavaEE初阶》 文章分布:这是一篇关于网络编程的文章,在这篇文章中我会具体介绍TCP是如何实现可靠性的并且分析建立断开连接的情况,希望对你有所帮助! 目录 可靠性 确认应答 超时…

leecode-下一排列

题目 题目 分析 妈呀,其实我直接调用函数,一行代码就通过了hhh,不过这种取巧的方式不可取,还是得老老实实的写。 首先需要明白什么叫下一排列? 比如输入: 1 5 8 4 7 6 5 3 1 答案就是: 1 5 …

macOS上下载安装Kibana并连接ES

下载Kibana 执行以下命令进行,版本号根据你所用的ES版本选择,比如我的是7.10.0 curl -O https://artifacts.elastic.co/downloads/kibana/kibana-7.10.0-darwin-x86_64.tar.gz解压安装Kibana tar -zxvf kibana-7.10.0-darwin-x86_64.tar.gz进行config…

QT——使用QListWidget、QListWidgetItem、QWidget实现自定义管理列表

作者:小 琛 欢迎转载,请标明出处 文章目录 需求场景思路描述Qt模块QListWidgetQListWidgetItem自定义QWidget配合QListWidget 例子:实现一个json文件管理窗口 需求场景 因工作需要,开发一个文件管理窗口,要让使用者可…

【python爬虫应用03】csdn个人所有文章质量分查询

🛠️ 环境准备 在开始编写代码之前,我们需要进行一些环境准备。以下是所需的环境和库: 操作系统:Windows编程语言:Python 3编辑器:VSCode(可选) 安装所需的库: reque…

Git快速入门

Git 1、Git概述Git简介Git下载与安装 2、Git代码托管服务常用的Git代码托管服务使用码云托管服务 3、Git常用命令Git全局设置获取Git仓库工作区、暂存区、版本库概念本地仓库常用命令远程仓库操作命令分支操作标签操作 4、在IDEA中使用Git在IDEA中配置Git获取Git仓库本地仓库操…

OpenAI Gym入门与实操(2)

本文内容参考: Getting Started With OpenAI Gym | Paperspace Blog, 【强化学习】 OpenAI Gym入门:基础组件(Getting Started With OpenAI Gym: The Basic Building Blocks)_iioSnail的博客-CSDN博客 3. 环境&#…

Blender导出gltf格式ThreeJS不显示问题-

1. 检查代码 import { GLTFLoader } from three/addons/loaders/GLTFLoader.js; 。。。。。。initRoomGltf() {const _this this;// const loader new OBJLoader();const loader new GLTFLoader();// load a resourceloader.load(// resource URL// this.commonFunc.getPat…

vcruntime140_1.dll无法继续执行代码,有哪些方法可以解决?

关于vcruntime140_1.dll无法继续执行代码的错误问题,其实还是非常的普遍的,这属于经常丢失的dll文件之一,当然还有一个vcruntime140.dll也是非常容易丢失的,本文下面会介绍到这两种有啥区别,以及怎么去修复这些文件丢失…

spring复习:(4)AbstractEnvironment

该类中指定了激活profile属性的名称(spring.profiles.active),默认profile属性的名称(spring.profiles.default),以及默认的profile的名字(default)。

【Leetcode】19.删除链表的倒数第 N 个结点

一、题目 1、题目描述 给你一个链表,删除链表的倒数第 n 个结点,并且返回链表的头结点。 示例1: 输入:head = [1,2,3,4,5], n = 2 输出:[1,2,3,5]示例2: 输入:head = [1], n = 1 输出:[]示例3: 输入:head = [1,2], n = 1 输出:[1]提示: 链表中结点的数目为 sz…

【剑指offer专项突破版】二叉树篇——“C“

文章目录 前言一、二叉树剪枝题目分析思路分析代码 二、序列化与反序列化二叉树题目分析思路分析代码 三、从根节点到叶节点的路径数字之和题目分析思路分析代码 四、 向下的路径节点之和题目分析思路分析思路①代码思路②代码 五、节点之和最大的路径题目分析思路分析代码 六、…

XSS注入——DOM型XSS

DOM型xss XSS根据恶意脚本的传递方式可以分为3种,分别为反射型、存储型、DOM型,前面两种恶意脚本都会经过服务器端然后返回给客户端,相对DOM型来说比较好检测与防御,而DOM型不用将恶意脚本传输到服务器在返回客户端,这…

Elasticsearch 地理空间计算

地理位1置搜索:使用查询API进行搜索 1、Geo Distance Query Geo Distance Query是在给定的距离范围内搜索数据的查询。例如,可以搜索给定地理位置附近指定距离内的所有文档。 GET /my_index/_search {"query": {"bool" : {"fi…

9、Redis集群(cluster)

是什么 Redis集群是一个提供在多个Redis节点间共享数据的程序集,Redis集群可以支持多个master 能干嘛 Redis集群支持多个master,每个master又可以挂载多个slave 读写分离 支持数据的高可用 支持海量数据的读写存储操作 由于Cluster自带Sentinel的故障转…

软考高级系统架构设计师(九) 作文模板-论设计模式及其应用(未完待续)

目录 掌握的知识点 创建型 结构型 行为型 掌握的知识点 设计模式分为哪3类 每一类包含哪些具体的设计模式 创建型 创建型模式是对对象实例化过程的抽象,他通过抽象类所定义的接口,封装了系统中对象如何创建、组合等信息。 创建型模式主要用于创建对…

Buildroot 取消默认QT桌面-迅为RK3588开发板

本小节将讲解如何取消掉默认的 qt 桌面。 首先对开发板进行上电,开发板正常启动后,使用命令“cd /etc/init.d”进入到/etc/init.d 目录 下,然后使用以下命令对开机自启动脚本 rcS 进行查看,如下图所示: vi rcS 从上…

视觉SLAM十四讲需要提前知道的数学基础知识

学习视觉SLAM十四讲之前的必备数学基础知识 1. 正交矩阵2. 线性关系3. 求矩阵的逆4. 叉乘5.反对称矩阵6. 复数 1. 正交矩阵 定义: 设n阶矩阵A满足AATATAI ,则称A为正交矩阵 性质: 以下为手写,从小字丑,请多担待。。 …

红色通信史(一):红色通信的萌芽

1927年4月和7月,蒋介石、汪精卫分别在上海、武汉发动“四一二”、“七一五”反革命政变,实行“清党”、“分共”,大肆逮捕和杀害中共党员,制造“白色恐怖”。 面对敌人的残酷镇压,我党决定创建自己的革命军队&#xff…