Domain Adaptation Vs. Prompt-Tuning:能否用域自适应解决大模型提示学习问题?

点击蓝字

e737031ca90c0a4554de0f0275a3fd9b.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

12d89e0aae86aff98733ee58e785179f.png

作者简介

李江梦,中国科学院软件研究所天基综合信息系统全国重点实验室助理研究员

论文简介

今天介绍的是被机器学习领域顶级学术会议ICLR 2024接收的论文:BayesPrompt: Prompting Large-Scale Pre-Trained Language Models on Few-shot Inference via Debiased Domain Abstraction,该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,因此提出了BayesPrompt来学习包含域判别信息的提示,以对抗域无关知识的干扰。理论上,BayesPrompt的泛化误差界比基准的Prompt-Tuning方法更紧致;实验上,BayesPrompt在基准测试中取得了最先进的性能。

论文地址:

https://arxiv.org/abs/2401.14166

代码地址:

https://github.com/FF2127/bayesprompt

Context

概述

作为一种基于大规模预训练语言模型(PLMs)的新颖有效的微调范式,Prompt-Tuning旨在缩小下游任务与预训练目标之间的差距。尽管Prompt-Tuning在各种任务中取得了持续的进展,但这种方法仍然长期存在一个缺陷,即Prompt-Tuning方法在泛化到特定的少样本模式时可能会失效。该论文从分布分析的视角揭示了这一现象背后的本质问题,即PLMs中包含的概念知识过多以及用于目标下游域的知识不完整,这两者共同导致了PLMs在通用知识嵌入空间中错误地定位到与目标域相对应的知识分布。为此,该论文探索以去偏的方式近似下游任务的完整目标域,然后抽象这些域以生成判别性提示,从而为PLMs提供消除歧义的指导。在这种直觉的引导下,该论文提出了一种简单而有效的方法,即BayesPrompt,来学习包含域判别信息的提示,以对抗域无关知识的干扰。BayesPrompt利用已知分布来近似目标域的去偏真实分布,并进一步从近似分布中均匀采样代表性特征,以生成对PLMs的提示。该论文从理论上证明了域自适应在解决提示学习问题上存在缺陷,但其与Prompt-Tuning之间仍然存在联系,并且进一步证明了BayesPrompt的理论优势,即其泛化误差界比基准的Prompt-Tuning方法更紧致。实验上,BayesPrompt在基准测试中取得了最先进的性能。

动机与分析

受益于海量的数据集、庞大可训练的模型参数以及设计良好的训练架构,PLMs在诸如机器翻译、文本生成、信息抽取等自然语言处理领域已经取得了显著的成功。然而,对于特定的下游任务,PLMs遇到了发展瓶颈,尤其是在少样本场景下未能达到研究人员的期望。这一问题的内在原因在于PLMs包含过多的概念知识。换句话说,PLMs包含的知识呈现固有的多义性。这导致与域无关的知识可能干扰对下游任务的推理,特别是对少样本数据来说。为了弥补这一不足,近年来的研究提出了设计良好的提示以指导PLMs,从而避免在下游任务中出现推理异常值。但手动构建这样的提示需要专业知识和大量的工作。为此,数据驱动的可训练提示应运而生,并在PLMs的下游推理中取得了显著的性能提升。然而,这种提示的学习范式仍然面临着长期存在的挑战,即来自下游域的训练样本中包含的有限且离散的语义信息无法较好地支持传统可训练提示获得足够的监督,使得生成的提示对PLMs的指导变得微不足道。特别是,这一挑战进一步加剧了PLMs在少样本场景下的性能下降。

ef2bca9f4ea9847bb8e3b5ba50eb6034.png

图1 分布视角

为了进一步理解PLMs在少样本场景下的缺陷背后的隐式和内在原因,该论文从分布视角重新审视了PLMs下游推理的操作原理。在图1(a) 展示的没有提示的传统推理范式中,一些样本可能包含直接干扰PLMs推理的信息。该论文将这一现象归因于这样一个事实:干扰样本同时属于PLMs知识嵌入空间中的多个域分布,而模型无法在没有包含域判别信息的提示的情况下确定所需要的域。因此,过多的概念知识虽然可以赋予PLMs理解通用概念的能力,但也可能干扰对特定任务的推理。对于图1(b)和(c) 中展示的具有可训练提示的推理范式,具有有限训练样本的下游域中所包含的信息可能会导致PLMs的知识歧义,而相应完整域中包含的信息可以有效地应对这一问题。该论文推测,有限的训练样本导致可训练的提示学习到目标域的有偏分布,该分布仅包含部分信息并与目标域的实际分布不一致,从而导致协变量偏移问题,因此仍然为PLMs提供有歧义指导。为此,该论文探索以去偏方式近似下游任务的完整训练域,然后通过域抽象生成判别性提示,从而为PLMs提供去歧义指导。

方法

c5e527fa02c7ba84033cf35a9360be9e.png

图2 模型框架图

具体来说,该论文提出了一种称为BayesPrompt的新方法,其首先利用已知分布来近似下游域的去偏真实分布,然后从近似分布中均匀采样代表性特征以生成对PLMs的提示。基于以上操作,BayesPrompt的行为可以被视为去偏域抽象。分布近似是通过使用Stein变分梯度下降(SVGD)实现的,这是一种通用的贝叶斯推断算法。由于在实践中观察到选择传统的高斯分布作为已知分布会退化对下游域分布的近似,因此构建了高斯混合模型(GMM)来拟合样本分布。然后,利用所得到的分布和样本表示来初始化SVGD算法的目标分布和粒子。通过SVGD的迭代更新得到一组新粒子集,其近似于目标分布。通过从近似的目标分布中采样获得包含域判别信息的提示,其可以减轻来自与域无关知识的干扰。

该论文以关系抽取(RE)任务为例详细描述了BayesPrompt的应用。首先,将训练样本𝑥𝑖输入到编码器中以获取其表示𝑖;然后,构建一个高斯混合模型来对表示分布进行建模,并得到输出 Pμ , Pσ  和 Pπ ,它们分别表示每个高斯分量的均值向量、协方差矩阵和权重。接着,采用SVGD来近似下游域的去偏真实分布。由 Pμ , Pσ  和 Pπ 确定的高斯混合分布作为 SVGD 算法的目标分布,训练样本的表示作为 SVGD 的初始粒子集e04059f0778ae298a1d64200abc65cab.png,M等于样本的数量。通过迭代更新,得到近似于下游域去偏真实分布的结果粒子集669b3a4504b7271842fefdbea7e8d8ba.png。通过从结果粒子集中均匀采样,得到潜在知识ω,其代表了一个能为PLMs提供去歧义指导的去偏域抽象。因此,对于为关系抽取任务构建的提示,使用潜在知识ω以及嵌入在关系标签中的语义知识来初始化可学习的连续tokens。为了将初始化的tokens与周围上下文充分关联,该论文采用了交叉熵损失进行进一步的优化:

33fbdc7700a1ff5f9f5e95f81f31b195.png

理论

回到最初的问题:能否用域自适应(Domain Adaptation)解决提示学习问题?

该论文提供了Prompt-Tuning与Domain Adaptation之间区别与联系的理论见解:

1. Prompt-Tuning与Domain Adaptation之间的区别

Domain Adaptation是指从源数据分布中学习一个在不同(但相关)目标数据分布上表现良好的模型。然而,这个目的与BayesPrompt的目的存在差距。BayesPrompt的方法旨在拟合少样本域的分布,但并没有对齐目标少样本域和PLMs域的分布。这一行为背后的直觉是,PLMs域的分布服从高斯分布,但少样本域的分布不是高斯分布,因此,任意地对齐分布以微调PLMs会降低其捕获判别性信息的能力。

2. Domain Adaptation中关于共享标签空间的理论假设是否适用于Prompt-Tuning?

在Prompt-Tuning场景中,下游域可以被视为目标域,PLMs域的特定子集可以被视为源域,即在PLMs域的特定子集与下游域之间进行域分布对齐,二者具有共享标签。然而,下游域可以由离散数据界定,而PLMs域的特定子集可能无法确定,因此无法直接利用传统的Domain Adaptation方法来实现BayesPrompt的目标。

那么,BayesPrompt在理论上是否有效?该论文定义X表示从下游数据集所对应分布P(X)中独立同分布采样出的随机变量,其通过预训练语言模型f(∙)获得潜在特征Z。在域分布的视角上,该论文假设存在两个域,用DPLM表示包含在PLM中的信息所对应的域,DDS表示下游数据集所对应的域。因此,在少样本推理上提示PLMs的任务可在形式上被转换为通过利用一个学得好的提示隐式地使下游域DDS适应PLMs域DPLM的特定子集ḊPLM。根据PLMs的传统推理设置,该论文假设PLMs域的特定子集ḊPLM和下游域DDS共享一个标签函数𝓛:Z→Y,Y表示相应的标签。此外,论文定义𝓗为表示一组预测函数的假设空间,且∀h∈𝓗,h∶Z→Y。因此,在PLMs域的特定子集ḊPLM所对应的分布2b234f95f3eecf2ca87938eac453deec.png和下游域DDS所对应的分布078c3cd64d075a8ecc583b555fffe968.png上,假设空间中的一个假设h与标签函数𝓛之间的差异可以分别由以下公式度量:

7508ccf42f8187123d0d4262acf6bd09.png

74afd748c10cbfdbe318934cc767371e.png


进而得出以下命题:

c1e228f07256484e505449032dde48d0.png

该论文将提示PLMs的操作原理视为隐式Domain Adaptation,因此所提出的方法遵循命题C.1中的原则。

由于目标下游域DDS(Z)的完整分布可以被分为多个组成分布,根据命题C.1中的三角不等式条件,这一行为理论上可以通过以下推论得到验证:

e0ed9b2d9eb29a2068b7ff0aeeb0aae1.png

根据推论C.2,通过在训练过程中连接候选分布,得到PLMs域的特定子集与下游域所对应的分布差异 abd2a0cb77054dfb5ea588c66367f972.png 的上界 9ac64988e05c931b6caa27e7888ab013.png + b699c7187621bff172317d5705f1feb8.png

下面通过进一步的理论验证证明与基准方法相比,BayesPrompt在PLMs的下游推理上获得了更紧致的分类误差上界:

2678f269b0ada351335a03c0191feeed.png

基于定理C.3可以得出:最小化所使用的损失函数可以隐式地减小分布差异,即 f386113cd90a6f4fdb8e5dcbc4cafcf4.png ,从而收紧𝐷𝐷𝑆上的分类误差上界。

实验

实验结果表明了BayesPrompt的有效性。在少样本学习设置中,该论文执行了1-shot、5-shot和16-shot的实验以评估BayesPrompt在低资源场景下的有效性。表1中报告了不同方法在不同基准数据集上的F1值和标准差。结果表明,平均而言,在基准数据集中,BayesPrompt比KnowPrompt高出了3.24%,比RetrievalRE高出了1.29%。

表1 少样本数据集设置下的实验结果

96a13f278fc6818feb50d4f87a520d48.png

表2 全量数据集设置下的实验结果

8ef8be9e2fcf8bb2c711e217ffbaf16b.png

在全量数据集设置下进行的实验进一步表明,与KnowPrompt相比,BayesPrompt的平均性能提升了0.4%,而与RetrievalRE相比提升了0.2%,这进一步突显了BayesPrompt的优势。

7ed00806f337ea9fea39c5fcf76e097b.png9ec9f6680fb54a53ca4a94ffb01b5037.png

图3 消融实验结果

对于去偏真实分布的近似,该论文综合考虑了高斯分布和高斯混合模型作为候选的已知分布。图3中左图的实验结果表明,采用高斯混合模型的方法实现了相对可观和有效的性能。右图展示了判别性提示的效果。具体而言,在TACRED数据集上的1-shot设置中,当移除判别性提示时,性能从22.5%下降到20.2%,这表明了判别性提示对少样本推理是有效的。

往期精彩文章推荐

eafbfdc86a8ffe16592dce82c59c0371.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

2707ef5d100ff32453c7a9fde1dd79f4.png

我知道你

在看

~

7e52c7131685b8f3b40636e1ef100523.gif

点击 阅读原文 查看更多!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/430594.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信公众号里的视频怎么提取出来,30秒轻松下载视频方法!

在微信公众号中,我们常常能发现许多精彩纷呈的视频内容,这些视频或许让我们受益匪浅,或许让我们捧腹大笑。然而,微信平台并没有提供直接的下载功能,这让许多用户感到困扰。 别担心,今天我们就来揭秘如何将…

低密度奇偶校验码LDPC(九)——QC-LDPC译码器FPGA全并行设计

往期博文 低密度奇偶校验码LDPC(一)——概述_什么是gallager构造-CSDN博客 低密度奇偶校验码LDPC(二)——LDPC编码方法-CSDN博客 低密度奇偶校验码LDPC(三)——QC-LDPC码概述-CSDN博客 低密度奇偶校验码…

flink重温笔记(十):Flink 高级 API 开发——flink 四大基石之 State(涉及Checkpoint)

Flink学习笔记 前言:今天是学习 flink 的第 10 天啦!学习了 flink 四大基石之 State (状态),主要是解决大数据领域增量计算的效果,能够保存已经计算过的结果数据状态!重点学习了 state 的类型划…

IISExpress 跨域cookie的奇怪问题

测试环境 WIN10,IIS 10,IISExpress 10,Chrome 120,Microsoft Edge 114 网站A 端口7001 只有1个Default.aspx,无前端代码。逻辑很简单,SetCookie用来把客户端传过来的值写入到cookie中,GetCoo…

RK DVP NVP6158配置 学习

NVP6158简介 NVP6158C是一款4通道通用RX,提供高质量图像的芯片。它接受来自摄像机和其他视频信号的独立4通道通用输入来源。它将4通道通用1M至8M 7.5P视频格式数字化并解码为代表8位ITU-R BT.656/1120 4:2:2格式的数字分量视频,并将单独的BT.601格式与27…

基于ERNIR3.0文本分类的开发实践

参考: https://zhuanlan.zhihu.com/p/574666812?utm_id0 遇到的问题:如下 采用paddleNLP下文本分类实例进行分类训练后发现 生成的模型分类不准。打算自己开发脚本进行分类计算再进行服务化部署。

指针数组的理解

指针数组的概念:即用于存放指针变量的数组 代码如下:使用指针数组来模拟二维数组 int main() {//创建三个整型数组int arr1[] { 1,2,3,4,5 };int arr2[] { 2,3,4,5,6 };int arr3[] { 3,4,5,6,7 };int* p_arr[3] { arr1,arr2,arr3 };for (int i 0;…

WiFi|硬体:茶凳浅谈-高通802.11be WLAN AP Chipsets 参考设计与boardData之间的映射

前言: WiFi|硬体:茶凳浅谈-高通Wi-Fi 7立项前的选型 博文中提到一些选型的组合,比如: 主芯片的搭配IPQ9554 QCN9274 (2x2 2.4G, 2x2 5G) QCN9272 (2x2 6G) 主芯片的搭配IPQ9574 QCN9274 (2x2 2.4G, 2x2 5GL) QCN9274 (2x2 5GH, 2x2 6G) 红色标示出差异的部分…

电脑硬件变化报警|2024完整珍藏版

公司中常常会有一种泄密事情发生,是这样的: 使用移动硬盘、外部硬盘驱动器或其他外部存储设备,将文件复制到这些设备上,然后将设备连接到另一台电脑,即可将文件拷贝出去。 还有人这样说:“我人都在面前了…

CV论文--2024.3.4

1、Deep Networks Always Grok and Here is Why 中文标题:深度网络总是让人摸不着头脑,原因如下 简介:本文探讨了深度神经网络(DNN)中一种称为"延迟泛化"或"Grokking"的现象。在接近零的训练误差…

如何在服务器上建立国外私有云存储

随着数字化时代的到来,数据备份和存储成为了我们生活与工作中不可或缺的一部分。私有云存储,以其灵活性、安全性和便捷性,受到了越来越多用户的青睐。特别是对于需要在国外服务器上建立私有云存储的用户来说,这一需求更加迫切。下…

信钰证券|飞行汽车概念走势活跃,金盾股份“20cm”涨停

飞翔汽车概念5日盘中走势活泼,到发稿,金盾股份“20cm”涨停,万丰奥威涨超6%,光洋股份涨逾5%,商络电子、星源卓镁涨近4%。 金盾股份强势涨停,公司近来在出资者互动渠道表示,公司和清华大学联合研…

基于深度学习的人员指纹身份识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 指纹图像预处理与特征提取 4.2 卷积神经网络架构 4.3 特征编码与匹配 4.4 损失函数与训练 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程…

一键抠图怎么把物品抠出来?一键完成!物品抠图不再是难事!

在我们的日常生活和工作中,抠图已经成为了一个常见的需求。无论是为了制作一张精美的海报,还是为了在一篇文章中突出展示某个物品,抠图都能帮助我们更好地实现目标。然而,对于许多人来说,使用专业的抠图软件如Photosho…

2024年5个高性价比2C4G云服务器推荐,2核4G服务器优惠价格表

租用2核4G服务器费用价格,2核4G云服务器多少钱一年?1个月费用多少?阿里云2核4G服务器30元3个月、轻量应用服务器2核4G4M带宽165元一年、企业用户2核4G5M带宽199元一年;腾讯云轻量2核4G服务器5M带宽165元一年、252元15个月、540元三…

5G智能制造食品工厂数字孪生可视化平台,推进食品行业数字化转型

5G智能制造食品工厂数字孪生可视化平台,推进食品行业数字化转型。随着科技的飞速发展,食品工业正迎来一场前所未有的数字化转型。在这场转型中,5G智能制造工厂数字孪生可视化平台发挥着至关重要的作用。它不仅提高了生产效率,降低…

深度学习算法的基本原理

深度学习是一种机器学习方法,其核心是通过构建深层神经网络来学习数据的表示和特征,以解决各种复杂的任务。以下是深度学习算法的基本原理,希望对大家有所帮助。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎…

40个Python字符串实例

Python 字符串是 Python 编程语言中最常用的数据类型之一,它可以表示文本或一组字符。Python 中的字符串是不可变的序列,意味着一旦创建,其值就不能被修改。下面是一些关于 Python 字符串的介绍。 概述 创建字符串:可以使用单引…

MWC 2024丨美格智能CEO杜国彬出席中国联通创新成果发布会并发表主题演讲

2月26日,中国联通在MWC2024 巴塞罗那期间举办了以“算网为基,智领未来”为主题的创新成果发布会,集中展示最新的创新成果与最佳实践。 中国通信标准化协会理事长闻库、GSMA首席财务官Louise Easterbrook、中国联通副总经理梁宝俊、华为ICT销…

[C语言]——C语言常见概念(2)

目录 一.第⼀个C语言程序 二.main函数 三.print和库函数 1.print 2.库函数 四.关键字介绍 一.第⼀个C语言程序 #include <stdio.h> int main() {printf("hello C\n");return 0;//约定返回0&#xff0c;在c语言中&#xff0c;正常返回0&#xff0c;异常…