让AI拥有人类的价值观,和让AI拥有人类智能同样重要

编者按:2023年是微软亚洲研究院建院25周年。25年来,微软亚洲研究院探索并实践了一种独特且有效的企业研究院的新模式,并以此为基础产出了诸多对微软公司和全球社会都有积极影响的创新成果。一直以来,微软亚洲研究院致力于创造具有突破性的技术。在人工智能时代,微软亚洲研究院将为计算新范式奠定基础,并为人工智能和人类发展创造更美好的未来。

借此机会,我们特别策划了“智启未来”系列文章,邀请到微软亚洲研究院不同研究领域的领军人物,以署名文章的形式分享他们对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。希望此举能为关注相关研究的同仁提供有价值的启发,激发新的智慧与灵感,推动行业发展。

图片

人工智能快速发展,对人类社会的影响与日俱增。为确保人工智能成为对社会负责任的技术,我们以“社会责任人工智能(Societal AI)”为研究方向,与心理学、社会学、法学等社会科学进行跨学科合作,探索如何让人工智能理解和遵从人类社会的主流价值观,做出符合人类预期的决策,并通过更合理的评估模型让人类准确掌握人工智能的真实价值观倾向和智能水平。

——谢幸,微软亚洲研究院资深首席研究员

在过去的一年里,人工智能(AI)一次又一次地呈现出“超预期”的发展。在惊喜和振奋之余,我们也需要重新审视一个重要的问题——技术本身是否价值观中立?毕竟大型语言模型(LLMs)的智能是基于人类产生的语料,而人类语料中所潜藏的立场和价值观,会不可避免地成为影响机器做出推理与判断的因素之一。

在现实中,一些已经公开的人工智能大模型曾表现出一些有悖于主流价值观,或者令人感到不满意的行为,比如对性别和种族的刻板印象、生成虚假信息、唆使自我伤害等。这对我们这些从事人工智能研发的从业者来说不啻于一个响亮的提醒,甚至是警告——在让人工智能变得更加智能的同时,我们必须确保无论是否受到人类干预,人工智能都始终坚持社会责任,并与全人类的福祉站在同一边。

人工智能的发展一日千里,让上述任务愈发紧迫。要让人工智能谨守造福人类的原则,我们不仅需要发展支持这一目标的技术,更需要建立技术之上的规则和方法论。这也正是我和我的同事们正为之付出努力的研究方向——社会责任人工智能(Societal AI)。这一研究领域不仅涉及与价值取向相关的价值观,还包括人工智能的安全性、可验证性、版权和模型评测等等诸多我们认为与社会责任密切相关的分支。虽然我们的研究还处于起步阶段,但我相信这个研究方向能为关注相同问题的研究者们提供一些参考,并唤起社会各界对这一问题的更多关注。

在更大的影响来临之前早做准备

微软在多年前就将“负责任的人工智能(Responsible AI)”作为人工智能研发的核心准则,涵盖人工智能研发与应用中的隐私保护、安全性、公平性、可解释性等方面。在那个人工智能的智能水平和普及度远不及当下的时期,这一举措无疑是极具前瞻性的。而过去一年中人工智能的爆发式成长,使得 Societal AI 成为了面向人工智能未来的,同样具有前瞻性的研究方向。

由于人工智能能力的跃升,以及它对人类社会影响力的急剧扩大,人工智能在价值观上的一个小错位或许就会成为引发风暴的蝴蝶翅膀。正如微软总裁布拉德·史密斯(Brad Smith)在《工具,还是武器?》一书中提出的观点:当一个技术或工具能力非常强大时,它所带来的帮助和危害同样巨大(The more powerful the tool, the great the benefit or damage it can cause.)。

因此,我们在追求更强大的人工智能时,应该同步关注人工智能在社会责任领域的思考,并且在人工智能对人类社会造成不良影响之前就做好准备。

Societal AI 的目标就在于此。通过对这一方向的研究,我们将努力确保人工智能成为一项对整个社会负责任的技术,而不是放任和纵容它所带来的负面后果和危害。

为人工智能设定“价值观护栏”

基于对人工智能的理解和发展趋势的预测,我们认为建设 Societal AI 应该包含五个方面:价值观对齐、数据及模型安全、正确性或可验证性、模型评测、以及跨学科合作。其中,价值观对齐是一个新兴的领域,但其重要性已经得到了工业界和学术界的广泛认可。

所谓价值观对齐,简而言之就是让人工智能在与人和社会合作时,遵循与人类相同的主流价值观,以及实现与人类所期望方向一致的目标。这样能够避免人工智能在进行自动化工作时出现不符合预期的结果,或者是违背人类福祉的对人工智能的滥用。

此前研究者们与此相关的实践主要采用“基于人类反馈的强化学习”(reinforce learning from human feedback,RLHF),本质上是由人去定义一些符合价值观的数据,然后再调整模型与之对齐。但在面对越来越智能且应用场景广泛的人工智能时,这些狭义的、指令化的标准已经显得力不从心,甚至可能被轻易规避或破解。

因此,在 Societal AI 的研究中,我们认为人工智能对齐的目标应该从指令上升至人类的内在价值观,让人工智能可以通过自我判断,来使其行为与人类价值观保持一致。为了实现这一目标,我和团队构建了价值观罗盘(Value Compass)。区别于人类指令与偏好的对齐,该范式强调直接将 AI 模型与社会学、道德学等领域中奠定的人类内在价值维度进行对齐。 

图片

价值观罗盘(Value Compass)示意图

我们面临的任务或者说挑战涉及三个方面:首先,“人类价值观”本身就是一个抽象的概念,要将其用于人工智能,我们需要将其转化为可被人工智能理解的、具体的、可衡量的、可实现的价值观定义;第二,在技术上,如何以价值观定义来规范人工智能的行为;第三,如何有效评测以证明人工智能所表现出的价值观就是其真实拥有的价值观。

通过与社会科学领域专家们的深入交流,针对上述任务我们提出了一些初步的设想和方向,并发表了相关的论文。例如,对于人类价值观的定义,除了广泛使用的 HHH 准则(Helpful, Honest and Harmless,有益、诚实、无害)和主流的特定领域风险指标,如毒性(Toxicity)和偏见(bias)之外,还应引入来自社会科学和伦理学领域的基本价值理论,以从更加普适和多元的角度实现对齐。我们在最近的一篇论文中对价值的定义与对齐的目标进行了详细的梳理与探讨[1]。

对于价值观对齐的技术方法,我们在《大模型道德价值观对齐问题剖析》[2]一文中提出,将基于罗尔斯反思平衡理论的对齐方法作为一种更为综合的价值观对齐方式,通过同时自顶向下和自底向上,可以使模型依据不同优先级的准则动态调整,从而达到最公正的道德决策。

让AI始终处于人类视野之中

人工智能的安全性也是 Societal AI 关注的领域之一。我们不仅要让人工智能主动遵循人类的价值观,而且还要确保其具有安全机制以防止原则被破坏。谈及安全问题,最典型的危机之一是越狱攻击。人工智能的自然交互界面,让“越狱”不再需要高超的计算机技术或专业的黑客工具,即使是计算机“外行”也可能轻易发现人工智能对话逻辑中的漏洞,具备发动越狱攻击的能力。

此外,Societal AI 的研究还涵盖了备受关注的人工智能生成内容的版权问题。随着人工智能创作能力日益增强,我们将不得不探讨人工智能是否能像自然人一样享有版权。而在技术层面,如何界定人与人工智能在合作作品中的各自贡献,也有待合理的判定标准及有效的界定技术。

在 Societal AI 关注的多个课题中,人工智能评测是另一个关键问题。人工智能的智能水平发展到了何种程度?人工智能是否理解并忠实遵循我们赋予它的价值观?人工智能是否能有效抵御越狱攻击?人工智能提供的信息是否真实可靠?…… 这些问题都需要通过有效的评测来回答,以确保人工智能的发展始终在人类的掌控之中。

随着人工智能的智能水平跳跃式提升,人工智能评测也面临着新的挑战。对于传统以任务导向的机器学习,我们可以比较容易地制定出可量化的评测标准,并得到清晰明确的结果。但是,现在人工智能所胜任的工作类型日益多样化,难以被归入某种单一任务模式,甚至还会涉及一些从未被定义过的新任务,那么我们又该如何评判它的结果和方法是否符合我们的预期?

对此,我和团队构建了一个以 PromptBench[3] 为基础架构的大模型评测路线。该评测路线由基础架构、多种任务、不同情形和评测协议四部分构成,可全面覆盖模型评测的各个角度。

图片

以 PromptBench 为基础架构的大模型评测路线示意图

而针对具体的评测方式,我和同事们正在探索两种思路。一种是构建动态且具发展性的评测系统。目前大多数评估协议都是基于静态的公共基准,评估数据集和协议通常是公开可获取的。但这样做存在两个弊端:一是无法准确评测大模型不断提升的智能水平,二是静态公共基准可能被大模型完全掌握,类似于记忆力好的人可以死记硬背下整个考试题库。因此,开发动态的、可不断发展的评测系统,是实现对人工智能真实、公平评测的关键。我们针对此问题开发了 DyVal[4] 这一大语言模型动态评测算法。该算法可通过有向无环图动态生成评测样本,并且具有可扩展的复杂性。

另一种思路是将人工智能视作类似于人类的“通用智能体”,并借鉴其他学科——如心理学、教育学等社会科学的方法论,来为人工智能设计专门的评测基准。我和同事们在今年首先开展了和心理测量学的跨学科合作。在我们看来,心理测量学用于评测人类这一“通用智能体”的独特功能,其方法论或许也适用于通用人工智能,提供传统基准所缺乏的能力,包括预测人工智能在未知任务中的表现和未来潜力;消除测试中的潜在误差以带来更高的准确性;与人类社会价值观更好的融合性。

我们已经在最新的论文[5]中详细阐释了心理测量学在人工智能评测中的可行性和潜力。当然,作为原本用于评测人类的理论和工具,要将其用于人工智能评测还需要大量的跨学科合作研究,但我们认为这是非常值得投入精力的探索方向。

艰难但必要的跨学科合作

如同借鉴心理学方法论进行人工智能测试,推进 Societal AI 与其他学科,特别是社会科学的交融至关重要。前面我们提到的价值观对齐、安全性、模型评测,如果没有社会科学的深度介入,仅靠计算机领域的科学家将难以实现。

在过去的许多计算机科学研究中,学科融合并不是新鲜事物,成功案例也屡见不鲜。但那些已经成熟且有效的跨学科协作形式往往无法直接应用于Societal AI的研究。在我们已经开展的 Societal AI 研究中不乏与社会科学的深入接触,而我切身感受到了一些前所未见的挑战。

图片

首先是学科跨度。以往的学科融合,或是计算机科学与其他科技领域的融合,或是计算机技术扮演为其他学科“赋能”的角色。而在 Societal AI 这个领域,我们不仅要面对“文理科”这样的学科跨度,还常常处于“被赋能者”的位置。社会科学为计算机技术提供了新的视角和工具,这对我们和其他学科的学者来说都是一个未曾涉足的领域,需要从零开始搭建理论框架与方法。

其次是“双料人才”的严重匮乏。在工程、环境、生物、物理、化学、数学等学科中,许多研究人员早已开始利用人工智能技术来辅助研究。然而,在社会学、法学等社会学科中,能同时掌握支撑跨学科研究所需知识的人才则少得多。

第三是计算机科学与社会科学迥异的研究方式。一边是快速迭代和方法优化,一边是经年的研究与观察,如何平衡并有机结合这两种不同的研究方式和节奏,仍是需要探索的问题。

对于这些尚未有明确答案,甚至大方向都尚且存疑的问题,微软亚洲研究院愿以开放的态度,与各学科的研究者进行交流和共同尝试,以期早日找到可行的解决方案。

跨行业、跨学科共同协作,让人工智能主动承担社会责任

最后,容我再次重申 Societal AI 研究的重要性和紧迫性。

从过去一年的经历来看,人工智能很可能不会沿着可预测的线性轨道发展,它的能力与影响随时都可能出现新的爆发。更重要的是,目前人工智能主要活跃于虚拟世界,但物理世界与虚拟世界的壁垒已日趋消融。由此看来,我们的任务不止于让人工智能的创造和决策符合全人类的福祉,更要在人工智能无需借人类之手即可改造物理世界之前,使其道德和价值观与人类普遍认同的原则和利益相一致。

面对计算机科学乃至人类共同面对的新问题,我们希望各行各业、各个学科、各个领域的伙伴都能共同关注 Societal AI,共同努力让人工智能沿着对社会负责的方向积极发展,构建一个更美好、更公正、更智慧的人类与人工智能共生的社会。

相关论文

[1] Yao et al. From Instructions to Intrinsic Human Values--A Survey of Alignment Goals for Big Models. 

https://arxiv.org/abs/2308.12014

[2] 《大模型道德价值观对齐问题剖析》

https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553

[3.1] Zhu et al. PromptBench: Towards Evaluating the robustness of large language models on adversarial prompts.

https://arxiv.org/abs/2306.04528

[3.2] PromptBench开源代码库:

https://github.com/microsoft/promptbench  

[4] Zhu et al. DyVal: Graph-informed Dynamic Evaluation of Large Language Models. 

https://arxiv.org/abs/2309.17167 

[5] Wang et al. Evaluating General-Purpose AI with Psychometrics

https://arxiv.org/abs/2310.16379 

本文作者

谢幸博士于2001年7月加入微软亚洲研究院,现任资深首席研究员,中国科学技术大学兼职博士生导师,微软-中科大联合实验室主任。

他1996年毕业于中国科学技术大学少年班,并于2001年在中国科学技术大学获得博士学位,师从陈国良院士。目前,他的团队在数据挖掘、社会计算和负责任的人工智能等领域展开创新性的研究。

谢幸的研究在全球产生了深远的影响,截至目前,他共发表400余篇学术论文,h-index 为106,共被引用40000余次。

他是 ACM Transactions on Recommender Systems、ACM Transactions on Social Computing、ACM Transactions on Intelligent Systems and Technology、CCF Transactions on Pervasive Computing and Interaction 等杂志编委。他是中国计算机学会会士、IEEE 会士、ACM 杰出会员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/138211.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

“咸阳杯·美洲队中国行”国际足球邀请赛圆满举办

巴拿马1:0乌拉圭 “咸阳杯美洲队中国行”国际足球邀请赛圆满举办 11月12日下午3:00,由陕旅集团联合承办、陕体集团协办的“咸阳杯美洲队中国行”国际足球邀请赛在咸阳奥体中心开赛。两支美洲劲旅:巴拿马国家队与乌拉圭国青队龙争虎斗&#…

代码随想录算法训练营第五十天丨 动态规划part13

300.最长递增子序列 思路 首先通过本题大家要明确什么是子序列,“子序列是由数组派生而来的序列,删除(或不删除)数组中的元素而不改变其余元素的顺序”。 本题也是代码随想录中子序列问题的第一题,如果没接触过这种…

CURL报错:Could not resolve host

编辑:/etc/resolv.conf nameserver 223.5.5.5 nameserver 223.6.6.6 原因:https://blog.csdn.net/tongxin_tongmeng/article/details/131805072

centos7下载python3离线安装包

下载离线安装工具 yum install yum-utils -y下载python3离线安装包 yumdownloader --destdir/root/python3 --resolve python3将python3下面的离线安装文件拷贝到其他服务器上就可以安装 离线安装 先进入到离线程序rpm文件存储路径 # 离线安装 rpm -Uvh --force --nodep…

TCP连接出现大量CLOSE_WAIT不回收的问题排查

背景 日常运维过程中,收到“应用A”突然挂起没有处理请求的告警,然后触发“存活检查”不通过,自动重启了。 问题 为什么“应用A”突然挂起? 分析 排查过程很长,走了很多弯路,这里只列出本案例有效行动…

求求了 谁好人家还搞托运!!

求求了 谁好人家还搞托运!! 真相了 是我这个好人 转眼又是一年之冬 北方的朋友已经开始“南迁”了 或者在北方生长的宝子也会不习惯冬天吗? 你又是来自哪个城市呢? 所以过冬这件事情不容小觑 而中国唯一的热带气候省份-海南 就成了香饽饽 但有个问题令人犯愁 北方来到中国最南…

AlNiCo铝镍钴永磁材料

1970年代稀土永磁材料发明之前,AlNiCo铝镍钴合金一直是磁性能最强的永磁材料,不过由于成分中包含战略性金属钴和镍,导致成本较高,随着铁氧体永磁和稀土永磁的相继问世,铝镍钴材料在众多应用中逐步被取代。但在一些高温…

ROS机器人毕业论文数量井喷-数据日期23年11月13日

背景 ROS机器人论文数量在近3年井喷发展,仅硕士论文知网数据库可查阅就已经达到2264篇,实际相关从业者远远远大于这个数值。 按日期排序,每页20篇,23年还未结束,检索本身也不一定完备,就超过200。 相关从业…

家庭医生上门预约小程序源码系统 源码完全开源可二开 带完整搭建教程

大家好啊,今天源码小编来给大家介绍一款家庭医生上门预约小程序源码系统。现如今,医疗资源分布不均,许多患者特别是老年人和慢性病患者需要定期接受医疗服务。然而,由于各种原因,如医院距离远、行动不便、挂号难等&…

[SOC] MBIST (Memory Built-In Self Test) and Memory Built-in Self Repair (BISR)

存储器构成了 VLSI 电路的很大一部分。存储系统设计的目的 是存储大量数据。[1] 存储器不包括逻辑门和触发器。因此,需要不同的故障模型和测试算法来测试存储器。 MBIST 是一种自测试和修复机制,它通过一组有效的算法来测试存储器,以检测典型…

迅为龙芯2K1000开发板虚拟机ubuntu启动root用户

作为嵌入式开发人员,系统的所有权限都要为我们打开,所以我们不必像运维那样,对 root 用户非常敏感,所以安装完 ubuntu 系统以后,我们要启用 root 用户。 首先我们打开 ubuntu 控制终端,然后在终端里面输入…

C语言—数组入门

数组定义方式 int一个占4个字节,char一个占1个字节,double一个占8个字节,所以三个最后都是24. 数组不能被动态定义 下面代码是不可行的!!!访问数组中元素 下标索引从0开始 如果定义数组int a[10]&#…

AI在一定程度上能够使供应链变得不那么脆弱

供应链行业协会三菱重工今年进行的一项调查显示,供应链中的技能短缺是2000名供应链高管最关心的问题。联合包裹服务公司Ware2Go的供应链主管Kelton Kosik表示,在一系列全球贸易中断之后,对供应链人才——尤其是专注于技术领域的人才——的需求…

屏幕截图软件 Snagit mac中文版软件特点

Snagit mac是一款屏幕截图和视频录制软件,它可以帮助用户快速捕捉屏幕上的任何内容,并将其编辑、标注和共享。 Snagit mac软件特点 多种截图模式:支持全屏截图、窗口截图、区域截图、延时截图等多种截图模式,满足不同用户的需求。…

【KVM-4】硬件虚拟化技术(详)

前言 大家好,我是秋意零。 经过前面章节的介绍,已经知道KVM虚拟化必须依赖于硬件辅助的虚拟化技术,本节就来介绍一下硬件虚拟化技术。 👿 简介 🏠 个人主页: 秋意零🔥 账号:全平…

马达加斯加市场开发攻略,收藏一篇就够了

马达加斯加是位于非洲南部一个国家,虽然经济是比较落后的一个国家,但是一直以来跟中国的关系都还不错,生产生活资料也是比较依赖进口的,市场潜力还是不错的。今天就来给大家分享一下马达加斯加的相关攻略。大家点赞收藏关注慢慢看…

用 AI 速读海量文档!5款 AI 阅读工具推荐

在当今信息爆炸的时代,我们在手动搜集和处理信息时面临着几个挑战: 浩如烟海的信息量远远超出了我们的阅读能力。 信息的复杂性要求我们重复筛选和过滤。 专业或难以理解的内容需要被翻译成易懂的语言。 需要从线性的文本中提取出层次分明的结构和关联…

PostgreSQL 入门教程

PostgreSQL 入门教程 1. 历史背景2. 概念3. 特点4. 用法4.1 数据库连接4.2 数据库创建4.3 表创建4.4 数据插入4.5 数据查询4.6 数据更新4.7 数据删除 5. 安装步骤6. 简单示例7. 扩展7.1 数据类型7.2 查询优化7.3 并发控制7.4 数据备份和恢复7.5 扩展性和高可用性7.6 安全性加固…

【mongoDB】mongoDB安装

1.进入页面 https://www.mongodb.com/download-center/community 一路next就行。选择Custom 可以自定义安装路径

运动蓝牙耳机什么牌子的好?2023年运动蓝牙耳机推荐

​运动健身已经成为当下最热门的运动健康项目,越来越多的人开始加入到这个行列中来。而在运动的过程中,佩戴一款适合自己的运动耳机听歌,不仅可以增加运动的乐趣,还能帮助我们更好地集中注意力,提高运动效果。然而&…