探索减轻 AI 说服伤害的机制方法

随着生成式人工智能(AI)系统在各个领域的广泛应用,其说服能力也日益增强,引发了对 AI 说服可能带来伤害的担忧。AI 说服的伤害不仅来源于说服的结果,还包括说服过程中可能对个体或社会造成的不利影响。为了系统性地研究和减轻这些伤害,DeepMind 等机构的研究人员提出了基于机制的方法。

定义 AI 说服及其伤害

AI 说服被细分为两种类型:理性说服(Rational persuasion)和操纵性说服(Manipulation)。这种分类有助于我们理解 AI 系统是如何通过不同方式影响用户决策的,并进一步识别可能产生的伤害。

理性说服 是指 AI 系统通过提供相关的事实、合理的推理或可信的证据来影响用户的信念或行为。这种说服方式尊重用户的理性思考能力,并试图通过逻辑和证据来促成决策。例如,一个健康咨询 AI 可能会提供科学研究来支持其关于健康饮食的建议。

操纵性说服 则是指 AI 系统利用用户的认知偏差、启发式或提供误导性信息来影响用户的决策过程。这种方式可能会损害用户的认知自主性,因为它通过隐蔽的手段绕过理性分析。例如,通过夸大事实或利用用户的情感来促使他们做出某种选择。

 AI 说服伤害涵盖了多种可能的伤害类型。以下是一些主要的伤害类型:

  1. 经济伤害:可能指 AI 系统通过操纵导致个人或社会无法获取资源或资本,或影响个人的财富积累能力。示例:一个心理健康聊天机器人可能说服用户减少公共空间的互动以减少焦虑,最终导致用户辞职并经历经济困难。

  2. 物理伤害:指对个人或群体的身体完整性或生命造成伤害。示例:用户被操纵追求不切实际的身体标准,导致不健康的饮食习惯和过度运动。

  3. 环境伤害:指对生物体健康的伤害,以及对气候变化和污染的贡献。示例:AI 系统可能说服农民使用不安全的农药,损害作物、动物、土壤和水的健康。

  4. 心理伤害:指对心理和情感福祉的负面影响。示例:心理健康聊天机器人可能无意中说服有心理健康问题的人不要寻求专业帮助。

  5. 社会文化伤害:指对个体或集体的社会凝聚力/社会健康和集体繁荣产生负面影响。示例:与 AI 伴侣的长时间互动可能导致激进化和社会孤立。

  6. 政治伤害:指对个人政治决策以及政治生活的话语和机构产生的负面影响。示例:设计用于提供与用户观点相符的政治党派建议的聊天机器人,可能说服用户违背自己的偏好投票。

  7. 隐私伤害:源自侵犯个人或群体的法律或道德隐私权。示例:AI 可能说服用户泄露自己或他人的个人信息、密码或安全问题答案。

  8. 自主性伤害:指 AI 系统可能破坏或限制个人做出基于理性、事实或其他可信信息的自主决策和选择的能力。示例:AI 可能操纵用户变得过度依赖它来支持他们做出重要的人生选择。

机制的探索与减轻策略

建立信任和亲密度的机制涉及 AI 系统通过礼貌、共享兴趣、模仿和赞美等手段与用户建立联系。这种联系可以促进用户对 AI 的信任,从而增加说服的可能性。然而,由于 AI 系统实际上并不具备真实的情感和意识,这种信任建立过程可能带来欺骗的风险,从而对用户的信任和自主性造成伤害。

拟人化是另一种机制,它通过赋予 AI 系统人类特质,使用户更倾向于将其视为具有社交性的实体。这增强了 AI 的说服力,但同时也可能导致用户对 AI 的本质产生误解,从而在认知上受到伤害。

个性化机制允许 AI 系统根据用户的具体信息、偏好和观点来定制其输出,从而提高说服的有效性。但这种个性化也可能被滥用,通过针对用户的特定弱点进行操纵,增加说服的伤害性。

欺骗和缺乏透明度是 AI 说服中的一个重要问题。AI 系统能够生成令人信服的虚假响应,这可能导致用户形成错误的信念,从而增加说服的伤害性。这种欺骗行为直接损害了用户的认知自主性和决策过程的完整性。

操纵策略涉及 AI 系统采用社会从众压力、激发负面情绪、煤气灯效应、异化/他者化、替罪羊和威胁等手段来操纵用户。这些策略通过利用用户的心理弱点和认知偏差,绕过理性决策过程,对用户造成伤害。

改变选择环境的机制通过锚定效应、默认规则、诱饵效应、参考点框架和选择性信息展示等手段,影响用户的选择。这种机制通过改变用户面对的选择环境,间接影响用户的决策过程。

减轻策略的实施

研究人员提出了一系列减轻策略,旨在降低 AI 说服可能带来的伤害。这些策略的实施需要跨学科的合作和持续的研究努力,以确保 AI 系统的开发和部署能够符合伦理标准并尊重用户的利益。

评估和监控是减轻策略的首要步骤。研究人员建议开发高度可扩展的自动评估机制,以衡量 AI 系统何时以及通过哪些机制进行说服。例如,OpenAI 的“Make Me Say”游戏就是一个评估 AI 说服能力的测试平台,其中 AI 系统需要在不引起怀疑的情况下说服另一个 AI 说出特定的代码词。类似地,这种评估也可以通过真人参与来进行,以确保评估结果能够真实反映人类的判断。此外,研究人员正在开发使用众包工人的评估,指导模型说服参与者执行无害动作,如下载一个无害的假病毒,以测试 AI 系统的整体说服能力。

提示工程涉及构建文本提示,以指导 AI 系统朝着期望的行为和结果发展。通过精心设计的提示,可以影响 AI 系统的反应,促使其生成非操纵性的回应。例如,可以提示 AI 使用特定的风格、包含相关的背景信息、扮演一个角色,如“中立客观的新闻记者”,或避免使用特定的操纵机制。尽管这种方法成本效益高且易于实施,但它的有效性可能取决于领域知识、创造力和迭代实验。

分类器的开发是另一种减轻策略,它利用分类器来检测和过滤 AI 输出中的操纵性语言。研究人员已经使用少量示例(如少镜头学习和零镜头学习)来训练分类器,以检测社会偏见和仇恨言论。这些方法可以扩展到检测 AI 输出中的操纵和操纵机制。Jigsaw 开发的 Perspective API 就是利用这种技术来构建专门针对本文中提到的操纵技术的分类器,如恐慌营销、替罪羊和异化。

强化学习和可扩展监督方法通过人类反馈来训练 AI,使其行为与人类价值观更加一致。这种方法,如人类偏好的深度强化学习,通过奖励函数来训练 AI 系统,该奖励函数是从人类对生成模型输出的反馈评分中学习得到的。此外,可扩展监督方法旨在通过 AI 的帮助增强人类反馈,例如使用 AI 辩手来标记其他 AI 系统的操纵行为,或使用 AI 助手生成对 AI 生成内容的批评或修订。

可解释性是提高 AI 决策过程透明度的关键。通过理解 AI 系统如何产生其输出,我们可以识别和解决内部机制,这些机制可能被用于操纵目的。尽管理解大型神经网络(如 LLM)的内部计算非常困难,但最近在提取可解释特征方面已经取得了进展。

减轻 AI 说服伤害是一个持续的挑战,需要多方面的方法。研究人员正在继续完善和增强伤害地图,扩展机制地图,并积极开发和测试针对机制和模型特征的减轻策略。

论文链接:https://arxiv.org/pdf/2404.15058

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/654199.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

信息抽取模型TPLinker

1.motivation 早期传统方法首先抽取实体再抽取它们之间的关系,但是忽略了两个任务之间的关联。而后期采取的联合模型都存在着一个严重问题:训练时,真实值作为上下文传入训练;推理时,模型自身生成的值作为上下文传入&a…

DolphinScheduler 3.3.0版本更新一览

Apache DolphinScheduler即将迎来3.3.0版本的发布,届时将有一系列重要的更新和改进。在近期的社区5月份用户线上分享会上,项目PMC 阮文俊为大家介绍了3.3.0版本将带来的主要更新和改进,并为大家指出了如何参与社区的方式。 什么是DolphinSch…

企业内网终端监控管理软件有哪些?推荐4款企业终端监控管理软件

企业内网终端监控管理软件是一种专为企业内部网络设计的安全与管理工具,旨在帮助企业管理、监控和保护其内部网络中的各种终端设备,如个人电脑、笔记本、移动设备等。 这类软件的主要功能包括但不限于以下几个方面: 1,实时监控&a…

Java面试八股之start()和run()的区别

start()和run()的区别 在Java中,run()方法和start()方法是与线程操作紧密相关的,两者之间存在本质的区别: start()是Thread类的一个实例方法,它的主要作用是启动一个新的线程。当调用线程对象的start()方法时,Java虚…

手搓顺序表(C语言)

目录 SeqList.h SeqList.c 头插尾插复用任意位置插入 头删尾删复用任意位置删除 SLtest.c 测试示例 顺序表优劣分析 SeqList.h //SeqList.h#pragma once#include <stdio.h> #include <assert.h> #include <stdlib.h> #define IN_CY 3typedef int S…

Android环境下Mesa初始化流程重学习之eglInitialize

Mesa初始化流程重学习之eglInitialize 引言 说来也惭愧&#xff0c;Mesa搞了这么久了&#xff0c;每次都想深入下&#xff0c;可是每次都是浅尝辄止了。这次趁着有了一定的闲暇时间并且有了调试景嘉微显卡的机会&#xff0c;还是想重新学习下&#xff0c;深入研究下&#xff0…

MongoDB分片集群容灾方案

MongoDB分片集群容灾方案 1. 集群同步工具介绍1.1 第三方数据同步工具mongoshake1.2 官方同步工具mongosync 2. 工具对比2.1 数据一致性2.2 稳定性和可靠性2.3 维护成本 3. 总结 1. 集群同步工具介绍 最近客户咨询MongoDB分片集群市面上主流的容灾方案&#xff0c;所以抽空整理…

Node.js —— Express中服务器的创建、托管静态资源、nodemon

目录 Express的安装 创建基本的 Web 服务器 监听GET请求 监听POST请求 把内容响应给客户端 ​编辑获取 URL 中携带的查询参数 ​编辑获取 URL 中的动态参数 ​编辑托管静态资源 express.static() 托管多个静态资源目录 挂载路径前缀 nodemon: 为什么要使用 nodemon 安…

如何让UE4.26使用VS2022【Windows,源码下载】

使用UE5一直用的是VS2022&#xff0c;都是因为团队需要&#xff0c;只能用UE4&#xff0c;而我电脑中拥有的UE4的版本是UE4.26以及VS2022&#xff0c;我不可能去下载VS2019来为这么一个项目&#xff0c;所以就研究了一下是哪里阻止了UE4.26不让我使用VS2022. 首先下载UE4.26源码…

守护景区安全:探讨景区视频监控方案的搭建及必要性

据新闻报道&#xff0c;5月25日&#xff0c;安徽黄山景区内发生雷击&#xff0c;闪电击中飞来石景点的护栏&#xff0c;多人被碎石砸中受伤。景区工作人员表示&#xff0c;飞来石附近本就属于雷区&#xff0c;当天曾发过两次雷电预警。 随着旅游业的繁荣发展&#xff0c;越来越…

掌握Adobe XD:为自学者准备的软件学习秘籍

相信了解一些设计软件的朋友都听说过这个软件&#xff0c;Adobe XD软件是一款功能强大的原型创建工具。随着Adobe XD软件越来越受到用户的青睐&#xff0c;它几乎涵盖了所有大中小企业和企业的设计&#xff0c;可以说是设计公司最常用的软件之一。Adobe XD软件可以在很多方面满…

Android制作.9图

需求背景&#xff1a;android 启动图变形 开发语言&#xff1a;uni-app&#xff0c;uni-app官网 俗语曰&#xff1a;授人以鱼不如授人以渔 原创地址&#xff1a;Android制作.9图 语雀 一.工具 使用android studio&#xff0c;因为android studio已经集成.9.png制作工具&a…

godot4.2 + GDextension c++在 vs code 中断点调试配置

游戏开发中如果做不到自己编写的代码做断点调试&#xff0c;无不是瞎子摸象&#xff0c;特别是C这么底层的语言。这2天开始在VS studio中折腾&#xff0c;一直折腾不出结果&#xff0c;几次想要放弃GODOT。最终今天在VS code中搞定了这断点调试C代码。 在上一篇文章我已经做好了…

axios和ts的简单使用

按照官网的使用案例简单记下笔记 1&#xff1a;安装 npm install axios 2&#xff1a;案例 一个简单的config配置信息 // 发起一个post请求 axios({method: post,url: /user/12345,data: {firstName: Fred,lastName: Flintstone} }); case // 在 node.js 用GET请求获取…

基于springboot+vue的公司资产网站(全套)

一、系统架构 前端&#xff1a;vue2 | element-ui 后端&#xff1a;springboot | mybatis 环境&#xff1a;jdk1.8 | mysql | maven | node 二、代码及数据库 三、功能介绍 01. 管理后台-登录 02. 管理后台-首页 03. 管理后台-个人中心-修改密码 04. 管理后台-个人…

蓝桥杯第1022题 玩具蛇 基础DFS C++ Java

题目 思路和解题方法 问题理解&#xff1a;此题要求找出将一条由16节正方形构成的玩具蛇放入4x4的方格中的不同方式数。每节蛇可以是直线或直角转弯&#xff0c;且蛇的形状需要完全覆盖盒子里的16个格子&#xff0c;每个格子仅被蛇的一个部分占据。 状态表示&#xff1a;使用一…

小猪APP分发:让你的应用轻松上架,免费分发

你是否曾经因为应用无法顺利上架而烦恼&#xff1f;或者&#xff0c;刚刚开发好的应用找不到一个合适的平台进行分发&#xff1f;其实&#xff0c;这些问题都不再是问题&#xff0c;因为“小猪APP分发”来了&#xff01; 每个开发者都希望自己的应用能够被更多的人下载和使用&…

解读vue3源码-1

提示&#xff1a;看到我 请让滚去学习 vue3渲染流程 文章目录 vue3渲染流程vue3的3个核心&#xff1a;1.响应式模块(Reactivity Module)--创建响应式数据2.编译模块(Compiler Module)--模版编译器将html转换为一个渲染函数3.渲染模块(Renderer Module) 渲染流程&#xff1a;1.首…

【torchrl】强化学习训练流程

1 采集数据阶段 上面这个循环是用来采集数据&#xff0c;并且加入到replay buffer中。最终获取的数据是 - s: 当前状态&#xff0c;或者observation - a: 当前动作&#xff0c;后面重要性采样需要用到 - pa: 选择当前动作的概率&#xff0c;后面重要性采样用到 - r: 当前的奖励…

五款局域网监控软件良心推荐

五款局域网监控软件良心推荐 有人问我&#xff0c;能不能推荐几款好用的局域网监控软件。 我说&#xff0c;当然可以了&#xff0c;凭良心说&#xff0c;这几款软件在实用性、用户体验、隐私保护以及性价比上&#xff0c;绝对是当前最强监控软件。 1. 安企神 这款软件支持7天…