chatgpt 数据相关应用论文策略简介

hatGPT等预训练大模型,一个核心能力就是经过海量语料的训练加上强化学习的引导,其具有强大的接近人类的文本生成能力。这个能力的一大用途,就是可以为我们生产数据或者标注数据,再基于这些数据训练我们自己的模型。

On the Feasibility of Specialized Ability Extracting for Large Language Code Models

这篇文章在代码总结,代码翻译,代码生成三种任务上,研究了如何利用预训练黑盒大模型生成训练数据。整体分成3个部分:首先人工基于多种类型的prompt生成问题;然后将问题输入到大模型中,产出答案;最后人工检查这些答案是否有效。获取到的所有有效答案,作为训练数据,训练下游的模型。通过这种方式生成的数据训练模型,可以达到和原大模型近似,甚至超过原大模型的效果。
在这里插入图片描述

AugGPT: Leveraging ChatGPT for Text Data Augmentation

这篇文章利用ChatGPT解决小样本场景下的模型训练问题。主要思路也是数据增强,将原始的少量样本,结合合适和prompt,输入到ChatGPT中,让ChatGPT生成语义相似的增强数据。在得到ChatGPT的增强数据后,使用原始数据+增强数据训练下游的BERT模型。
在这里插入图片描述
文中设计的prompt也很简单,就是告诉ChatGPT生成下面句子的一个语义相似版本。文中对比了使用ChatGPT进行数据增强,和使用其他传统方法(随机增删词、回译等)进行数据增强的效果对比,使用ChatGPT的增强数据取得了更优异的效果。

在这里插入图片描述

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

这篇文章对比了在各项NLP标注任务中,使用ChatGPT进行样本标注,对比使用人工进行样本标注的准确率,ChatGPT的标注效果已经超过了人工标注。并且使用ChatGPT进行标注,每条成本也只有大概0.003美元,比MTurk这种众包标注平台便宜20倍(看来ChatGPT对标注平台一定会造成不小的冲击)。

在这里插入图片描述

Is GPT-3 a Good Data Annotator?

这篇文章是2022年年底发表的,探讨了GPT3在训练数据标注和生成上的能力。文中尝试了多种类型的利用GPT-3进行数据标注的方法。包括利用prompt让GPT3为无标签数据打标、直接用prompt让GPT3生成有标签数据、利用维基百科引导GPT3生成领域特定样本等方法。文中使用这些方法在句子级别和token级别的任务上分别进行了对比,验证了GPT-3进行数据标注的能力,在文本分类任务上取得比较好的效果,但是在tagging任务上的效果不如文本分类。

在这里插入图片描述

InPars: Data Augmentation for Information Retrieval using Large Language Models

这篇文章主要针对的是检索任务,判断document和query的关系。其核心做法是,利用预训练语言模型生成训练document-query的正样本对作为训练数据。整个过程如下图。利用预训练语言模型的in-context learning能力,构造输入文本,包括多个document-query对例子,以及一个待生成训练数据的document,让语言模型生成query。从语言模型生成的多个query中,根据模型打分概率选择topK个query,作为当前document的正样本。利用这些模型生成的document-query对,作为训练数据,输入到下游模型中进行匹配任务的训练。
在这里插入图片描述
在实验中,文中尝试了如下两种类型的prompt来生成document对应的正例query。第一种方法给出简单的document+query例子。第二种方法在第一种方法的基础上,给了模型good question和bad question的例子。对于负样本,使用query+BM25检索出document,随机选择一个作为负样本。

在这里插入图片描述
整体的实验效果如下表,文中提出的模型为monoT5,从实验结果可以看出,利用文中的方法生成的训练数据,有助于检索模型的效果提升。
在这里插入图片描述

Large Language Models Are Human-Level Prompt Engineers

这篇文章利用预训练大模型生成合适的prompt。核心思路是利用训练数据构造demonstration,将其输入到预训练语言模型中,生成大量的prompt候选。文中提出了3种类型的prompt生成方法,并使用Execution accuracy或Log probability来评估prompt好坏,主要就是看使用当前prompt各个样本的打分效果好坏。用这种方式,可以将prompt生成和答案预测,都交给预训练模型自己完成。
在这里插入图片描述

Promptagator: Few-shot Dense Retrieval From 8 Examples

这篇文章主要针对小样本场景下的检索任务,利用少量的样本,结合预训练大模型来生成样本,以训练检索模型。文中的核心是prompt based query generation,利用少量query-passage样本和prompt构造输入,让预训练大模型根据语料库中的document生成相关的query,以此构造一批数据集,并基于这些数据训练检索模型。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/16490.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何让ChatGPT成为科研工作中的小助手?(附使用指南)

大家好,我是带我去滑雪! 从2022年年底发布叫ChatGPT的人工智能聊天机器人以来,逐渐强势进入了各行各业,一夜火爆全网,它使用自然语言处理技术来与用户进行交互和沟通,可以回答用户关于知识、娱乐、生活等方…

【计算机专业漫谈】【计算机系统基础学习笔记】W1-计算机系统概述

利用空档期时间学习一下计算机系统基础,以前对这些知识只停留在应试层面,今天终于能详细理解一下了。参考课程为南京大学袁春风老师的计算机系统基础MOOC,参考书籍也是袁老师的教材,这是我的听课自查资料整理后的笔记,…

上市公司碳排放测算数据(1992-2022年)

根据《温室气体核算体系》,企业的碳排放可以分为三个范围。 范围一是直接温室气体排放,产生于企业拥有或控制的排放源,例如企业拥有或控制的锅炉、熔炉、车辆等产生的燃烧排放;拥有或控制的工艺设备进行化工生产所产生的排放。 范…

第十五章 角色移动旋转实例

本章节我们创建一个“RoleDemoProject”工程,然后导入我们之前创建地形章节中的“TerrainDemo.unitypackage”资源包,这个场景很大,大家需要调整场景视角才能看清。 接下来,我们添加一个人物模型,操作方式就是将模型文…

基于GWO灰狼优化算法的城市路径优化问题GWO-TSP(MATLAB程序)

资源地址: 基于GWO灰狼优化算法的城市路径优化问题GWO-TSP(MATLAB程序)资源-CSDN文库 主要内容: 主要采用灰狼优化算法对城市间的路径进行规划。城市分布图如图所示。 部分代码: % 产生问题模型 model CreateModel(Oliver30.…

kafka常见问题QA(六)

六、常见问题QA 6.1 无消息丢失如何配置 producer 调用方式 (1)网络抖动导致消息丢失,Producer 端可以进行重试。 (2)消息大小不合格,可以进行适当调整,符合 Broker 承受范围再发送。 不要使用…

【C++】STL标准库之vector

STL标准库之vector vector类的简介常用的vector类的接口构造容量遍历及访问增删查改迭代器迭代器失效问题 vector类的简介 vector是大小可变数组的序列容器,与string相比,vector中可以存任何类型的数据,而string中存储的只能是字符类型。 因为…

asp.net基于web的音乐管理网站dzkf17A9程序

本系统主要包含了等系统用户管理、公告信息管理、音乐资讯管理、音乐类型管理多个功能模块。下面分别简单阐述一下这几个功能模块需求。 管理员的登录模块:管理员登录系统对本系统其他管理模块进行管理。 用户的登录模块:用户登录本系统,对个…

真题详解(有向图)-软件设计(六十二)

真题详解(极限编程)-软件设计(六十一)https://blog.csdn.net/ke1ying/article/details/130435971 CMM指软件成熟度模型,一般1级成熟度最低,5级成熟度最高,采用更高级的CMM模型可以提高软件质量。 初始&am…

Spring框架中的单例Beans是线程安全的么?

在Spring框架中,单例Beans默认是线程安全的。 当你在Spring框架中声明一个单例Bean并配置为默认的单例作用域时,Spring会确保对该Bean的并发访问是线程安全的。以下是一个简单的代码演示: 假设我们有一个名为 SingletonBean 的单例 Bean 类…

看看人家的MyBatis批量插入数据优化,从120s到2.5s,那叫一个优雅!

粗略的实验 最后 最近在压测一批接口的时候,我发现接口处理速度比我们预期的要慢。这让我感到有点奇怪,因为我们之前已经对这些接口进行了优化。但是,当我们进行排查时,发现问题出在数据库批量保存这块。 我们的项目使用了 myb…

Java使用 Scanner连续输入int, String 异常错误输出原因分析

目录 一、Scanner常用语法 1、sc.nextInt()介绍 2、sc.next()介绍 3、sc.nextLine()介绍 4、sc.hasNext()介绍 二、报错案例 1、使用next()来接收带有空格的字符串会输出异常 2、先输入数字再输入字符串的输出异常 一、Scanner常用语法 Scanner sc new Scanner(System.…

零基础学会 Java,这是你需要按照学习的步骤,加油,新加入的你

学习 Java 需要遵循一定的步骤,首先需要学习计算机基础知识,例如算法、数据结构、计算机组成原理等。如果没有相关背景知识,可以参加计算机相关课程进行学习。其次是学习编程基础知识,例如控制流、变量、函数等,你可以…

@Autowired和@Resource注解之间的关系区别,Bean的作用域和生命周期,Spring的执行流程

目录 一. Autowired 和 Resource 注解 二. Bean的作用域 1. singleton(单例模式) 2. prototype(原型模式)(多例模式) 3. 请求作用域:request 4. 会话作用域:session 三. Spring 的执行流程 四. Bean 的生命周期 1. 实例化 2. 设置属性 3. Bea…

函数的栈帧与销毁(栈帧可不是战争哦)

🤩本文作者:大家好,我是paperjie,感谢你阅读本文,欢迎一建三连哦。 🥰内容专栏:这里是《C语言》专栏,笔者用重金(时间和精力)打造,将C语言知识一网打尽,希望可…

【算法】最容易懂得的红黑树

红黑树是一个平衡的二叉树,但不是一个完美的平衡二叉树。虽然我们希望一个所有查找都能在~lgN次比较内结束,但是这样在动态插入中保持树的完美平衡代价太高,所以,我们稍微放松逛一下限制,希望找到一个能在对数时间内完…

PS学习笔记(零基础PS学习教程)

很多新手学习PS不知从何下手,做设计的第一阶段肯定是打牢基础,把工具用熟练;本期特别为大家整理了PS入门的学习笔记,把每个工具的用法整理了下来,在使用过程中有哪里不清楚的可以翻看来看看~ 一、ps的工作界面的介绍 …

Python程序员想要转行,可以从这几个方面着手

最近有很多朋友问我一个问题,不论是我们做程序员还是做产品经理或者其他行业,到了30岁或35岁之后,都会面临各种各样的问题,比如达到职业天花板。有没有一种方法能够解决这种问题呢?我想分享一下我的观点和身边的案例。…

网络攻击与防御

1.什么是数据认证,有什么作用,有哪些实现的技术手段? 数字认证证书它是以数字证书为核心的加密技术可以对网络上传输的信息进行加密和解密、数字签名和签名验证,确保网上传递信息的安全性、完整性。 使用了数字证书,即使您发送的…

ChatGPT是什么?ChatGPT里的G、P、T分别指什么

文章目录 ChatGPT是什么GTP中的 生成式 是什么意思GTP中的 预训练 是什么意思GTP中的 变换模型 是什么意思 什么是Transformer什么是注意力机制 监督学Xi、无监督学Xi、强化学Xi ChatGPT是什么 GPT: Generative Pre-trained Transformer 生成式预训练变换模型 ChatGPT是由Ope…