论文解读 | ACL2024 Outstanding Paper:因果指导的主动学习方法:助力大语言模型自动识别并去除偏见...

点击蓝字

c239d968a3be70cb972a975f4c891070.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

点击阅读原文观看作者直播讲解回放!

作者简介

孙洲浩,哈尔滨工业大学SCIR实验室博士生

概述

尽管大语言模型(LLMs)展现出了非常强大的能力,但它们仍然面临与各种偏见相关的挑战。传统的自动去偏见方法主要针对判别式模型,在应对生成式LLMs固有的复杂偏见方面存在困难。为了解决这些局限性,作者设计了因果指导的主动学习方法来自动自主地识别LLMs的偏见模式并减轻LLMs的偏见。具体来说,首先通过因果不变理论揭示了语义信息和偏见信息的本质区别,然后据此自动识别有偏数据并归纳可解释的偏见模式,最终利用这些识别出的有偏数据和偏见模式通过上下文学习的方法来减轻LLMs的偏见。实验结果表明,所提出的因果主动学习方法能够有效地识别有偏数据并归纳可解释的偏见模式,并利用有偏数据和偏见模式对LLMs进行去偏。

论文地址:https://www.arxiv.org/abs/2408.12942

代码地址:https://github.com/spirit-moon-fly/CAL

数据集偏见

生成式大模型近年来因其强大的能力而广受欢迎。然而,这些模型在预训练过程中可能会吸收数据集中的偏见。由于生成式大模型通过预测上下文中下一个词的概率来进行训练,因此大模型仅仅被动地捕捉上下文之间的关联性。如果训练数据存在偏见,这种关联性也会被模型所学习,从而导致模型泛化能力下降,并可能对社会造成负面影响。

例如,如果模型存在位置偏见,它可能会错误地认为问题中的第一个选项总是正确的,即使在某个数据集中正确答案通常位于第二个位置。这种偏见会影响模型的泛化能力。此外,刻板印象偏见,如性别或种族偏见,也可能通过模型的输出反映出来,对社会造成潜在的负面影响。

74097a1e3baa29cd821da9842bf10abd.png

前人工作与动机

去偏化研究主要分为两大类方法:基于先验知识的去偏方法和自动去偏方法。基于先验知识的去偏方法依赖于人工识别数据集中的偏见,并通过上下文学习或对齐技术来消除这些偏见。然而,由于偏见的多样性,人工逐一识别大模型中所有的偏见类型是不切实际的。与此同时,前人的自动去偏方法通常为判别式模型设计,难以直接应用于生成式模型,这促使研究者寻求适合生成式大模型的自动去偏技术。

7c85603c6e531335b30558030ad188ac.png

针对这一挑战,本文提出了一种因果指导的主动学习方法。通过引入因果不变性理论,这种方法可以利用大模型自身来自动识别有偏数据,并归纳出可解释的偏见模式。在因果不变性理论框架下,偏见与语义信息具有本质区别。问题的答案由文本的语义信息决定,这种关系在所有数据上都成立(因果),而偏见虽然可能与答案相关,但这种关系在不同数据集上不一定成立,因此它是一种相关关系而非因果关系。

此外,本文对主动学习的概念在去偏场景下进行了扩展。在传统主动学习中,首先选择最有信息量的样本,然后利用外部工具进行标注。而在去偏场景中,作者选择对归纳偏见模式最有帮助的有偏数据,然后利用大模型进行偏见模式的归纳,这种方法的关键在于识别那些能够显著改进模型对偏见理解与归纳的数据点。

因果指导的主动学习框架

本文提出的主要框架旨在有效识别和抑制模型偏差,它由三个关键部分组成。首先,第一部分专注于基于因果不变性的有偏数据识别,这一步骤利用因果不变理论来区分数据中的偏见和语义信息,确保识别出的偏差实例具有代表性和准确性。其次,第二部分进一步分析这些偏差实例,通过识别出更具信息量的偏差实例,进行深入的偏差模式归纳,从而揭示数据中的潜在偏见结构。最后,第三部分引入了基于情景学习的模型偏差抑制方法。

f7ef11f46e24d437e27894d7aada8ae8.png

基于因果不变性的有偏数据识别

本项工作的核心部分:基于因果不变性的有偏数据识别。识别过程利用了偏见信息与语义信息在因果不变性上的本质差异。具体地,通过判断模型捕获的信息是否违背了因果不变性原则,来识别出有偏数据。在数据集中,存在成对数据,它们的偏见信息相同而语义信息不同,导致标准答案不一致,这类数据对被称为反例对,识别它们是本部分的主要目标。

4c60c6a5d9762ab2fd4a35574c91aa66.png

如果大模型主要捕获了数据的语义信息,并且对两条数据的表示相似,这表明它们的语义信息相近,标准答案也应相似。相反,如果两条数据的表示相似但标准答案差异显著,则表明模型并未主要捕获语义信息,而是包含了偏见信息。反例对的识别标准基于两个方面:一是大模型表示的相似性,用符号S表示;二是它们的标准答案不同。此外,为了排除模型仅捕获无关信息这一特殊情况,作者引入了一个预测性准则。该准则要求模型在处理两条数据时至少有一条是正确的。如果模型在这两条数据上至少有一条是正确的,那么可以推断模型并非仅捕获了无关信息。

信息性偏见实例选择与偏见模式归纳

1724607be7cc43483f982b152ee464e5.png

第二部分是关于信息性偏见实例选择和偏见模式归纳。在这一部分,该研究采用了"Typical Criteria"和"Influential Criteria"两种策略来选择信息性强的有偏数据。"Typical Criteria"通过比较模型对两条数据输出的相似度来进行选择。如果两条数据的输出差异显著,说明偏见信息对这两条数据产生了不同的影响,在这种情况下,即使是人类分析者也可能难以直接从这些数据中识别出偏见模式,即哪些偏见因素导致了什么样的结果。因此,我们利用"Typical Criteria"来排除模型对两条数据的输出相似度低的有偏数据(反例对)。此外,研究还引入了" Influential Criteria ",特别关注那些模型预测错误且偏见信息对模型影响较大的样本,这些样本通常具有较高的信息价值。

在筛选出信息性强的有偏数据后,本研究进行了聚类处理,将具有相似偏见模式的数据归为一类。聚类完成后,利用大模型对这些数据进行总结和归纳,以识别和总结出多种偏见模式,例如选项位置偏见和偏见等。

基于情境学习的偏见抑制方法

最后一个部分介绍了基于情境学习的偏见抑制方法,该方法针对的是零样本(zero-shot)和少样本(few-shot)两种场景。在零样本场景中,该方法的核心是通过明确告知模型,偏见信息与任务目标无关,促使模型忽略这些偏见信息,从而减少偏见对模型预测的影响。这种方法直接指导模型识别和忽略与任务无关的偏见因素,有助于提高模型在未知类别上的泛化能力。

d287032702a5eaa2229f2c343eae3ddb.png

对于少样本场景,作者设计了反事实情境学习方法来对大模型进行去偏。具体地,之前筛选出的反例对中的预测错误的样例(反例),可以看作对正例(预测正确的样例)的语义信息进行干预后生成的反事实样例。因此,可以通过利用这些反事实样例通过情境学习的方法来对大模型进行去偏。具体的实施细节和效果评估,建议参考原论文。

实验结果

主实验

主实验旨在验证所提方法对提升模型泛化性和降低危害性的效果。通过从MNLI和Chatbot数据集中识别有偏数据并归纳偏见模式,然后在HANS和MTBench数据集上进行测试,可以验证方法对于提升模型泛化性的效果。此外,为了评估模型的无害性,研究者在BBQ数据集上识别有偏数据并归纳偏见模式然后在UnQover数据集上进行测试,这两个数据集专门被设计来探究刻板印象偏见的。

实验结果中,CAL代表本研究提出的因果指导的主动学习方法。ZS-known是基于prompt对人工识别偏见进行去偏的方法,而ZS和FS分别代表零样本和少样本的基线方法。对比结果显示,因果引导的主动学习方法在多个数据集上均优于基线方法,这说明本方法能够有效识别有偏数据并归纳偏见模式,进而可以利用这些有偏数据和偏见模式进行模型去偏。

同时,与ZS-known方法相比,本方法在某些数据集上展现出更优的性能,这一方面证明了本方法的有效性,另一方面也表明自动识别所有的偏见模式是十分具有挑战性的。这些结果表明,本研究所提出的方法在提升模型泛化性和减少危害性方面具有显著潜力。

4af1ec77b17ae5e0acfa64c5c58b7a42.png


BBQ数据集上的实例分析

在BBQ数据集上的实例分析表明,根据不同聚类类别的有偏数据可以归纳出不同的偏见模式,如图中所示,包括外貌(physical appearance)、年龄(age)、国籍(nationality)等。这些模式反映了数据集中存在的各种刻板印象偏见。

另一张图展示了归纳出职业状态这一偏见模式的反例对。在这个例子中,无论模型是否被告知Roberto的贫困状况,它都会受到职业偏见的影响,即错误地认为农民比药剂师更可能贫穷,从而预测农民更应得到政府的援助。这表明模型在预测时,可能会基于职业等偏见因素做出判断,而非仅仅基于文本中的语义信息。这种分析有助于我们理解模型如何受到偏见的影响,并指导我们如何改进模型以减少这种偏见。

ba7bc03d4c07b9f3972e12a408ad9767.png


归纳出的偏见模式的通用性

最后,研究探讨了偏见模式的通用性问题。由于大模型训练时使用的语料可能存在重叠,这可能导致它们共享相似的偏见模式。例如,在Llama2-13B大模型上识别出的某些偏见模式可能同样存在于GPT-4等其他大模型中。

为了验证这一点,研究尝试利用从Llama2模型中总结的偏见模式来对GPT-4进行去偏。实验在Zero-Shot场景下进行,即在没有额外训练数据的情况下,直接利用已识别的偏见模式通过上下文学习的方式对模型进行去偏。结果显示,在Zero-Shot场景下对这些偏见模式进行去偏后,GPT-4的泛化能力和无害性有所提升。

6a04dffc26db135ab98c22dee5471d9f.png

这一发现进一步证明大模型之间存在共享的偏见模式,并表明通过识别和应用这些共享的模式,可以在不同的模型间进行有效的去偏化处理。

本篇文章由陈研整理

96470f09327b729d39014a097018f47e.png

点击 阅读原文 观看作者直播讲解回放!

往期精彩文章推荐

ea02ab26571a219c3162427ef59ce082.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1800多位海内外讲者,举办了逾600场活动,超700万人次观看。

 d7265db3ee846e5610b1f17c8a15667a.png

我知道你

在看

提出观点,表达想法,欢迎

留言

3431e64721d53edc99875dc0bb74622f.gif

点击 阅读原文 观看作者直播讲解回放!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/873579.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB-基于高斯过程回归GPR的数据回归预测

目录 目录 1 介绍 1. 1 高斯过程的基本概念 1.2 核函数(协方差函数) 1.3 GPR 的优点 1.4. GPR 的局限 2 运行结果 3 核心代码 1 介绍 高斯过程回归(Gaussian Process Regression, GPR)是一种强大的非参数贝叶斯方法&…

如何用GPU算力卡P100玩黑神话悟空?

精力有限,只记录关键信息,希望未来能够有助于其他人。 文章目录 综述背景评估游戏性能需求显卡需求CPU和内存系统需求主机需求显式需求 实操硬件安装安装操作系统Win11安装驱动修改注册表选择程序使用什么GPU 安装黑神话悟空其他 综述 用P100 PCIe Ge…

一台手机一个ip地址吗?手机ip地址泄露了怎么办

在数字化时代,‌手机作为我们日常生活中不可或缺的一部分,‌其网络安全性也日益受到关注。‌其中一个常见的疑问便是:‌“一台手机是否对应一个固定的IP地址?‌”实际上,‌情况并非如此简单。‌本文首先解答这一问题&a…

Linux_kernel移植rootfs10

一、动态更改内核 1、low level(静态修改) 【1】将led_drv.c拷贝到kernel/drivers/char/目录中 【2】修改当前目录下的Makefile文件 obj-y led_drv.o #将新添加的驱动文件加入到Makefile文件中 【3】退回kernel目录,执行make uImage …

C语言学习笔记 Day16(C10文件管理--下)

Day16 内容梳理: C语言学习笔记 Day14(文件管理--上)-CSDN博客 C语言学习笔记 Day15(文件管理--中)-CSDN博客 目录 Chapter 10 文件操作 10.5 文件状态 10.6 文件的随机读写 fseek()、rewind() (1&…

【初阶数据结构】详解栈和队列(来自知识星空的一抹流光)

文章目录 前言1. 栈1.1 栈的概念及结构1.2 栈的实现1.2.1 "栈"实现的选择 1.3 栈的代码实现1.3.1 栈的结构体定义(用的是顺序表)1.3.2 栈的头文件设置1.3.3 栈的各功能的实现 2. 队列2.1 队列的概念及结构2.2 "队列"实现的选择2.3 队…

【即时通讯】轮询方式实现

技术栈 LayUI、jQuery实现前端效果。django4.2、django-ninja实现后端接口。 代码仓 - 后端 代码仓 - 前端 实现功能 首次访问页面并发送消息时需要设置昵称发送内容为空时要提示用户不能发送空消息前端定时获取消息,然后展示在页面上。 效果展示 首次发送需要…

深入理解数据库的 4NF:多值依赖与消除数据异常

在数据库设计中, "范式" 是一个常常被提到的重要概念。许多初学者在学习数据库设计时,经常听到第一范式(1NF)、第二范式(2NF)、第三范式(3NF)以及 BCNF(Boyce-…

滑动窗口在算法中的应用

滑动窗口是一种经典的算法技巧,就像在处理一系列动态数据时,用一扇可以滑动的“窗口”来捕捉一段连续的子数组或子字符串。通过不断地移动窗口的起点或终点,我们能够以较低的时间复杂度来解决一系列问题。在这篇文章中,我们将通过…

维信小程序禁止截屏/录屏

一、维信小程序禁止截屏/录屏 //录屏截屏,禁用wx.setVisualEffectOnCapture({visualEffect:hidden});wx.setVisualEffectOnCapture(Object object) 测试安卓手机: 用户截屏,被禁用 用户录屏,录制的是空白内容/黑色内容的视频。 二、微信小…

C++ | Leetcode C++题解之第386题字典序排数

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> lexicalOrder(int n) {vector<int> ret(n);int number 1;for (int i 0; i < n; i) {ret[i] number;if (number * 10 < n) {number * 10;} else {while (number % 10 9 || numbe…

EasyPlayer.js网页H5 Web js播放器能力合集

最近遇到一个需求&#xff0c;要求做一款播放器&#xff0c;发现能力上跟EasyPlayer.js基本一致&#xff0c;满足要求&#xff1a; 需求 功性能 分类 需求描述 功能 预览 分屏模式 单分屏&#xff08;单屏/全屏&#xff09; 多分屏&#xff08;2*2&#xff09; 多分屏…

【阿一网络安全】如何让你的密码更安全?(二) - 非对称加密

上次《【阿一网络安全】如何让你的密码更安全&#xff1f;(一) - 对称加密》提到加密算法的对称加密&#xff0c;我们这次来聊聊非对称加密。 和对称加密不同&#xff0c;非对称加密的加密密钥和解密密钥不同。 非对称加密 大概过程就是&#xff0c;发送方使用公钥对明文数据…

mac 安装redis

官网下载指定版本的redis https://redis.io/ 目前3.2.0 是最新最稳定的 版本 这里是历史版本下载 下载指定版本 安装 1.放到自定义目录下并解压 2.打开终端&#xff0c;执行命令 cd redis的安装目录下 make test -- 此命令的作用是将redis源代码编译成可执行文件&#xff0c…

SPI驱动学习五(如何编写SPI设备驱动程序)

目录 一、SPI驱动程序框架二、怎么编写SPI设备驱动程序1. 编写设备树2. 注册spi_driver3. 怎么发起SPI传输3.1 接口函数3.2 函数解析 三、示例1&#xff1a;编写SPI_DAC模块驱动程序1. 要做什么事情2. 硬件2.1 原理图2.2 连接 3. 编写设备树4. 编写驱动程序5. 编写app层操作程序…

C++语法知识点合集:11.模板

文章目录 一、非类型模板参数1.非类型模板参数的基本形式2.指针作为非类型模板参数3.引用作为非类型模板参数4.非类型模板参数的限制和陷阱&#xff1a;5.几个问题 二、模板的特化1.概念2.函数模板特化3.类模板特化(1)全特化(2)偏特化(3)类模板特化应用示例 三、模板分离编译1.…

微带结环行器仿真分析+HFSS工程文件

微带结环行器仿真分析HFSS工程文件 工程下载&#xff1a;微带结环行器仿真分析HFSS工程文件 我使用HFSS版本的是HFSS 2024 R2 参考书籍《微波铁氧体器件HFSS设计原理》和视频微带结环行器HFSS仿真 1、环形器简介 环行器是一个有单向传输特性的三端口器件&#xff0c;它表明…

使用Qt编程QtNetwork无法使用

使用 VS 构建 Qt 项目时 QtNetwork 无法使用的问题 - 摘叶飞镖 - 博客园 (cnblogs.com) 另外,强烈建议在使用QNetworkAccessManager之前看看这篇文章: Qt 之 QNetworkAccessManager踏坑记录-CSDN博客 C Qt开发&#xff1a;QNetworkAccessManager网络接口组件 阅读目录 1.1 …

在Ubuntu上运行QtCreator相关程序

背景&#xff1a;希望尝试在Linux系统上跑一下使用QtCreator相关的程序&#xff0c;因为有一些工作岗位要求有Linux上使用Qt的经验。 (1)我是把Windows上的程序移过来的&#xff0c;Windows上文件名称是不区分大小写的。 而Ubuntu上是区分的 所以一部分头文件需要进行修改&am…

idea创建SpringBoot项目

目录 1. 新建一个SpringBoot项目 2. 使用Springboot官网创建项目 3. 使用阿里云地址创建SpringBoot项目 4. 使用maven创建SpringBoot项目 5. 在Idea中隐藏指定文件/文件夹 1. 新建一个SpringBoot项目 Springboot2 要求jdk版本: 1.8 maven: 3.3 内嵌的tomcat: tomcat9 我们…