论文 | Evaluating the Robustness of Discrete Prompts

        论文《Evaluating the Robustness of Discrete Prompts》深入探讨了离散提示(Discrete Prompts)的鲁棒性,即离散提示在自然语言处理任务中面对不同扰动时的表现。研究特别关注离散提示在自然语言推理(NLI)任务中的表现,并在一些基准数据集上测试了其对扰动的敏感性。本文主要分析了AutoPrompt (AP) 与人工编写提示(MP)在鲁棒性方面的差异。

1. 研究背景

        预训练语言模型(PLM)已在诸如情感分类和自然语言推理等NLP任务中被广泛应用。传统上,手动编写的提示有助于模型理解任务,但手动提示往往无法覆盖所有的场景,尤其在数据稀缺的情况下更显得不够灵活。自动学习的离散提示,如AutoPrompt (AP),通过少量训练样本生成提示,尽管能取得不错的表现,但这些自动提示常包含不符合常规语法的字符或拼写错误,从而引发了人们对其鲁棒性的质疑。

2. 研究方法

论文采用了多个实验来评估离散提示的鲁棒性,通过在提示上引入不同类型的扰动,包括:

  • 提示词的重新排序:随机打乱提示中的词序。
  • 词删除实验:从提示中删除部分词。
  • 跨数据集测试:在不同数据集之间迁移训练所得的提示,评估其跨数据集的泛化性。
  • 对抗性扰动:人为修改推理句子以观察提示在标签不变和标签变动情况下的表现。

3. 实验设计与数据集

        本研究以RoBERTa-large作为模型基础,通过AutoPrompt (AP)、手动提示 (MP)、和Head-based Fine-Tuning (HFT) 三种方法进行测试。实验使用了CommitmentBank (CB) 和 Multi-Genre Natural Language Inference Corpus (MNLI) 两个自然语言推理数据集,以确保实验的公平性与结论的可复现性。

        鲁棒性评估指标:通过准确率下降率(RoD)来衡量模型的鲁棒性。RoD越小,表明模型对扰动的鲁棒性越强。

4. 实验结果与分析

4.1 数据集规模对模型的影响

        随着训练样本数量的增加,MP的准确率普遍优于AP。尤其在CB数据集中,当样本量为200时,MP的准确率达到92.7%,而AP仅为54.2%。这表明AP对数据集的依赖性较强,其在不同任务或数据集上的表现差异显著。

4.2 提示词的重新排序

        实验显示,AP在词序发生变化时表现出较大的准确率下降。例如,在CB数据集中,AP的准确率下降了约14%,而MP仅下降约2%。这说明AP自动生成的离散提示对词序的依赖性较高。

4.3 词删除实验

        在AP和MP的提示中分别删除部分提示词,结果发现删除单词对AP的影响较大。尤其在CB数据集中,AP表现出更高的RoD值,而在MNLI数据集上AP的表现则相对较为稳健。这表明AP的鲁棒性不仅取决于提示词的顺序,还与数据集本身有较大关联。

4.4 跨数据集测试

        在跨数据集测试中,AP和MP的泛化性较差,尤其是从CB到MNLI的数据集迁移中,RoD值较高。这表明MNLI数据集更适合作为通用自然语言推理任务的微调数据集,而AP训练出的提示在不同数据集间表现出明显的适应性不足。

4.5 对抗性扰动

        在对抗性扰动下,AP比MP表现出更好的鲁棒性,特别是在标签改变的情况下。即便如此,当输入句子发生细微变化时,AP与MP的准确率均出现显著下降。这意味着当前的离散提示方法尚不能抵御复杂的对抗性扰动。

5. 结论

        本文揭示了离散提示在面对不同扰动时的脆弱性,尤其是在提示词顺序和跨数据集泛化性方面存在显著的不足。AP方法虽然在少量数据训练中取得较高性能,但对数据集和提示词结构的依赖性较高,泛化能力不足。未来的研究需着重开发既精确又具鲁棒性的提示生成方法,以提升离散提示在不同任务和数据集上的适应性和稳定性。

6. 限制与未来工作

        本研究仅考察了AutoPrompt和手动提示的鲁棒性,未来可扩展到其他提示生成方法。同时,本研究使用的RoBERTa-large模型在性别偏见等方面存在已知的社会偏见,因此,进一步研究需在使用模型时注意伦理风险。此外,本研究仅在英语数据集上进行,其他语言的适用性仍待验证。

总结

        这篇论文通过系统实验揭示了离散提示生成方法在面对随机和对抗性扰动时的鲁棒性,指出了AutoPrompt和手动提示在鲁棒性和泛化性方面的缺陷,并为未来研究提供了重要参考。这一研究强调了在数据稀缺条件下开发稳定且通用提示生成方法的必要性,同时对提示生成方法的适用性提出了新挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/908352.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux 之 信号概念、进程、进程间通信、线程、线程同步

学习任务: 1、 信号:信号的分类、进程对信号的处理、向进程发送信号、信号掩码 2、 进程:进程与程序的概念、进程的内存布局、进程的虚拟地址空间、fork创建子进程、wait监视子进程 3、 学习进程间通信(管道和FIFO、信号、消息队列…

Vue:模板 MVVM

Vue:模板 & MVVM 模板插值语法指令语法 MVVMdefineProperty数据代理 模板 Vue实例绑定一个容器,想要向容器中填入动态的值,就需要使用模板语法。模板语法分为插值语法和指令语法。 插值语法 插值语法很简单,使用{{}}包含一…

C++中的继承——第二篇

一、继承与友元 友元关系不能够继承(就像父亲的朋友不一定是自己的朋友) 具体实现起来就是父类的友元可以访问父类的成员,但是不可以访问子类的成员 二、继承与静态成员 子类的静态成员变量本质上与父类的是同一份,存储在静态…

uni-app发起请求以及请求封装,上传及下载功能(六)

文章目录 一、发起网络请求1.使用及封装2. https 请求配置自签名证书3.拦截器 二、上传下载1.上传 uni.uploadFile(OBJECT)2. 下载 uni.downloadFile(OBJECT) 一、发起网络请求 uni-app中内置的uni.request()已经很强大了,简单且好用。为了让其更好用,同…

SLAM定位总结

文章目录 一、激光定位1.A-LOAM (2018)2.F-LOAM (2021)3.CT-ICP (2022)3.DLO:Fast Localization with Dense Point Clouds (2022)4.kiss-ICP :In Defense of Point-to-Point ICP Sim…

大端存储和小端存储

大端存储和小端存储 在计算机系统中,数据在内存中的存储方式并不是唯一的。对于多字节的数据类型(如 int、float 等),计算机可以以不同的方式在内存中存储它们。这些存储方式通常分为两种:大端存储(Big-En…

【数据结构二叉树】C非递归算法实现二叉树的先序、中序、后序遍历

引言: 遍历二叉树:指按某条搜索路径巡访二叉树中每个结点,使得每个结点均被访问一次,而且仅被访问一次。 除了层次遍历外,二叉树有三个重要的遍历方法:先序遍历、中序遍历、后序遍历。 1、递归算法实现先序、中序、后…

【LeetCode】移除链表中等于设定值的元素、反转链表

主页:HABUO🍁主页:HABUO 🌜有时候世界虽然是假的,但并不缺少真心对待我们的人🌛 1. 移除链表中设定值的元素 题目:给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所…

程序员日志之DNF手游1023版本活动补充

目录 传送门正文日志1、概要2、正文 传送门 SpringMVC的源码解析(精品) Spring6的源码解析(精品) SpringBoot3框架(精品) MyBatis框架(精品) MyBatis-Plus SpringDataJPA SpringClo…

macOS开发环境配置与应用开发教程

macOS开发环境配置与应用开发教程 引言 macOS是一个强大的操作系统,广泛应用于软件开发,尤其是iOS和macOS应用开发。本文将详细介绍如何配置macOS开发环境,并通过实例演示如何进行应用开发。希望通过这篇文章,帮助读者快速上手m…

提高交换网络可靠性之认识STP根桥与端口角色

转载请注明出处 该实验旨在学习如何选举根桥与识别端口角色。 1.三台交换机按要求连线,改名,分别为S1,S2,S3,以S1为例: 2.在S1上配置优先级为28672 同理,在交换机S2和S3上配置其优先级为32768&…

基于大数据的热门旅游景点数据分析系统的设计与实现

作者主页:编程千纸鹤 作者简介:Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验,被多个学校常年聘为校外企业导师,指导学生毕业设计并参…

【大语言模型】ACL2024论文-03 MAGE: 现实环境下机器生成文本检测

【大语言模型】ACL2024论文-03 MAGE: 现实环境下机器生成文本检测 目录 文章目录 【大语言模型】ACL2024论文-03 MAGE: 现实环境下机器生成文本检测目录摘要研究背景问题与挑战如何解决核心创新点算法模型实验效果(包含重要数据与结论)主要参考工作后续优…

A012-基于Spring Boot的私房菜定制上门服务系统的设计与实现

摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统私房菜定制上门服务系统信息管理难度大,容错率…

ios 快捷指令扩展(Intents Extension)简单使用 swift语言

本文介绍使用Xcode15 建立快捷指令的Extension,并描述如何修改快捷指令的IntentHandler,带参数跳转主应用;以及展示多个选项的快捷指令弹框(配置intentdefinition文件),点击选项带参数跳到主应用的方法 创建快捷指令 快捷指令是…

【MacOS实操】如何基于SSH连接远程linux服务器

MacOS上远程连接linux服务器,可以使用ssh命令pem秘钥文件连接。 一、准备pem秘钥文件 如果已经有pem文件,则跳过这一步。如果手上有ppk文件,那么需要先转换为pem文件。 macOS 的默认 SSH 客户端不支持 PPK 格式,你需要将 PPK 文…

Puppeteer点击系统:解锁百度流量点击率提升的解决案例

在数字营销领域,流量和搜索引擎优化(SEO)是提升网站可见性的关键。我开发了一个基于Puppeteer的点击系统,旨在自动化地提升百度流量点击率。本文将介绍这个系统如何通过模拟真实用户行为,优化关键词排名,并…

Golang | Leetcode Golang题解之第524题通过删除字母匹配到字典里最长单词

题目: 题解: func findLongestWord(s string, dictionary []string) (ans string) {m : len(s)f : make([][26]int, m1)for i : range f[m] {f[m][i] m}for i : m - 1; i > 0; i-- {f[i] f[i1]f[i][s[i]-a] i}outer:for _, t : range dictionary …

019集——获取CAD图中多个实体的包围盒(CAD—C#二次开发入门)

如下图所示,获取多个实体的最大包围盒,用红色线表示: 也可单独选圆的包围盒 部分代码如下: using Autodesk.AutoCAD.ApplicationServices; using Autodesk.AutoCAD.DatabaseServices; using Autodesk.AutoCAD.Geometry; using A…

【快速上手】pyspark 集群环境下的搭建(Yarn模式)

目录 前言: 一、安装步骤 安装前准备 1.第一步:安装python 2.第二步:在bigdata01上安装spark 3.第三步:同步bigdata01中的spark到bigdata02和03上 二、启动 三、可打开yarn界面查看任务 前言: 上一篇介绍的是…