哥大Salesforce重磅发布!最丰富的统一对话数据集,几乎支持所有对话任务

 夕小瑶科技说 原创
 作者 | 小戏、Python

尽管以 ChatGPT 为代表的对话式人工智能概念炒的火热,但是事实上作为当下智能发动机的大模型,其真正的动力源泉——数据集——仍然面临诸多困难

所谓 Garbage In, Garbage Out,这条数据科学的朴素规律在大模型领域也仍然适用,由于当下的数据集缺少多样性与全面性,因此当下的对话式 AI 也在处理多样化对话任务方面存在欠缺。

图片

而最近,来自哥伦比亚大学与 Salesforce 的研究者们一连用两个最高级,最丰富的(Richest)与最多样的(Most Diverse),推出了一个最大的统一的对话数据集 DialogStudio,DialogStudio 涵盖开放域对话(Open-domain dialogues)、任务导向的对话(Task-oriented dialogues)、自然语言理解(Natural language understanding)、对话式推荐(Conversational recommendation)、对话摘要(Dialogue summarization)与知识驱动的对话(Knowledge-grounded dialogues)等多个领域的数据,包含近 80 个子数据集,如下图左可以看到,DialogStudio 几乎支持对话领域的所有任务,可以极大的帮助对话领域模型与大规模语言预训练模型的研究工作。

大模型研究测试传送门

GPT-4能力研究传送门(遇浏览器警告点高级/继续访问即可):(https://gpt4test.com)

图片

并且,DialogStudio 还涵盖众多子领域下的对话任务,如上图右可以看出,DialogStudio 拥有电影、航空、金融、媒体、餐饮等众多与日常生活息息相关的对话数据支持。而除了在领域的覆盖范围面上之外,DialogStudio 还提供了非常人性化的数据访问格式与文档,方便用户轻松使用数据集。

而由于不可避免的对话数据之中包含多余的噪声,为了验证数据集的质量,作者团队使用了 ChatGPT 从包含表意性、正确性、相关性、连贯性、完整性等的多个角度对数据集质量进行了评估,所有分数都在 1-5 分之内,并且认为大于 3 分的属于高质量对话数据,通过对 DialogStudio 中的数据集进行随机抽样(33个随机抽样得到的子数据集),作者评估了这些数据集的质量得分如下图所示,可以看到几乎子数据集都呈现极高的质量

图片

由于 DialogStudio 收集的数据来自不同的来源、涉及不同的领域、类型与任务,因此作者团队提出了一种统一的处理模式对所有数据集进行处理,将所有数据集统一为 JSON 字典的数据格式,以存储每个对话的所有相关信息,如对话 ID、领域、任务、内容等待,并且,作者还在其中标注了外部知识,对话状态追踪(DST)、意图知识等信息。在 DST 中,作者将预定义的对话状态架构插入到序列之中,对具有固定候选答案的问题,如“酒店星级”,将固定答案也插入到数据之中,类似的,在意图知识之中,作者将每轮的真实意图信息放入 “intent” 之中,并将常规意图放入“intent knowledge”下。如下图所示,DialogStudio 拥有更加完整丰富的数据内容以支持下游模型的训练

图片

为了更近一步验证 DialogOhana 的质量,论文使用公开的 HuggingFace Transformer 的代码对下游模型进行训练,并在 CoQA 数据集(多轮对话问答数据集)以及 MultiWOZ 2.2 数据集(最大且最广泛使用的多领域任务导向对话数据集)中对模型性能进行评估,结果如下图所示,显然,对比基线的数据集, DialogOhana 拥有更高的质量,并且在 Zero-shot 场景下也展现了较强的普适性

图片

同时,如下图所示,在未知数据集和任务上 0-shot 和 2-shot 的结果,基于 48 个任务的平均性能,在参数量少了 50 倍的情况下,DialogOhana 击败了 OPT-IML-175,展现了 DialogOhana 强大的泛化能力

图片

总而言之,高质量的数据集是推动 AI 这一领域发展进步的关键,这项工作给出了一个卓越而全面的对话领域数据集,在许多任务上表现了超越其他数据集的稳定性,论文题目与代码链接如下~

论文题目:
DialogStudio: Towards Richest and Most Diverse Unified Dataset Collection for Conversational AI

论文链接:
https://arxiv.org/pdf/2307.10172.pdf

代码链接:
https://github.com/salesforce/DialogStudio

大模型AI全栈手册

行业首份AI全栈手册开放下载啦!!

长达3000页,涵盖大语言模型技术发展、AIGC技术最新动向和应用、深度学习技术等AI方向。微信公众号关注“夕小瑶科技说”,回复“789”下载资料

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/52943.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux复习——基础知识

作者简介:一名云计算网络运维人员、每天分享网络与运维的技术与干货。 座右铭:低头赶路,敬事如仪 个人主页:网络豆的主页​​​​​ 1. 有关早期linux系统中 sysvin的init的7个级别描述正确的是( )[选择1项] A. init 1 关机状态 B. init 2 字符界面多用户模式 …

要单片机和RTOS有必要学习嵌入式linux吗?

学习嵌入式 Linux 是否有必要,取决于你的项目需求和职业发展目标。以下是一些考虑因素: 项目需求:如果你的项目需要处理复杂的网络、文件系统、多任务管理等功能,嵌入式 Linux 可能是更适合的选择。Linux 提供了丰富的开源软件包和…

排序算法汇总

每日一句:你的日积月累终会成为别人的望尘莫及 目录 常数时间的操作 选择排列 冒泡排列 【异或运算】 面试题: 1)在一个整形数组中,已知只有一种数出现了奇数次,其他的所有数都出现了偶数次,怎么找到…

为何押注AI大模型的微软云,业绩增速反而不如谷歌云?

科技云报道原创。 上周微软、谷歌、Meta等国外科技公司相继发布最新财报。作为与人工智能、云计算和数字广告等领域相关的巨头,它们的一举一动都将对市场产生影响,同时也吸引着众多从业者的关注。 在国外三大云巨头中,谷歌云的市场份额长期…

渗透测试:Linux提权精讲(二)之sudo方法第二期

目录 写在开头 sudo expect sudo fail2ban sudo find sudo flock sudo ftp sudo gcc sudo gdb sudo git sudo gzip/gunzip sudo iftop sudo hping3 sudo java 总结与思考 写在开头 本文在上一篇博客的基础上继续讲解渗透测试的sudo提权方法。相关内容的介绍与背…

docker 部署 mysql8.0 无法访问

文章目录 🗽先来说我的是什么情况🪁问题描述🪁解决方法:✔️1 重启iptables✔️2 重启docker 🪁其他有可能连不上的原因✔️1 客户端不支持caching_sha2_password的加密方式✔️2 my.conf 配置只有本机可以访问 &#…

CTF:信息泄露.(CTFHub靶场环境)

CTF:信息泄露.(CTFHub靶场环境) “ 信息泄露 ” 是指网站无意间向用户泄露敏感信息,泄露了有关于其他用户的数据,例如:另一个用户名的财务信息,敏感的商业 或 商业数据 ,还有一些有…

读取application-dev.properties的中文乱码【bug】

读取application-dev.properties的中文编码【bug】 2023-7-30 22:37:46 版权 禁止其他平台发布时删除以下此话 本文首次发布于CSDN平台 作者是CSDN日星月云 博客主页是https://blog.csdn.net/qq_51625007 禁止其他平台发布时删除以上此话 bug 读取application-dev.propert…

2023年的深度学习入门指南(20) - LLaMA 2模型解析

2023年的深度学习入门指南(20) - LLaMA 2模型解析 上一节我们把LLaMA 2的生成过程以及封装的过程的代码简单介绍了下。还差LLaMA 2的模型部分没有介绍。这一节我们就来介绍下LLaMA 2的模型部分。 这一部分需要一些深度神经网络的基础知识,不懂的话不用着急&#xf…

建木使用进阶-创建密钥管理

阿丹: 第一次我们进入建木,第一件事情就是配置我们相关的密钥。 解读: 在建木中我们可以进行创建密钥来对我们服务器等密码进行方便的管理。 注意: 登录的时候账号为:admin 密码为:123456 这是初始…

Windows环境下git客户端中的git-bash和MinGW64

我们在 Windows10 操作系统下,安装了 git 客户端之后,可以通过 git-bash.exe 打开一个 shell: 执行一些 linux 系统里的命令: 注意到上图紫色的 MINGW64. Mingw-w64 是原始 mingw.org 项目的改进版,旨在支持 Window…

【playbook】Ansible的脚本----playbook剧本

Ansible的脚本----playbook剧本 1.playbook剧本组成2.playbook剧本实战演练2.1 实战演练一:给被管理主机安装Apache服务2.2 实战演练二:使用sudo命令将远程主机的普通用户提权为root用户2.3 实战演练三:when条件判断指定的IP地址2.4 实战演练…

SpringBoot中ErrorPage(错误页面)的使用--【ErrorPage组件】

SpringBoot系列文章目录 SpringBoot知识范围-学习步骤–【思维导图知识范围】 文章目录 SpringBoot系列文章目录本系列校训 SpringBoot技术很多很多环境及工具:必要的知识深层一些的知识 上效果图在Spring Boot里使用ErrorPage还要注意的是 配套资源作业&#xff…

使用Windbg分析从系统应用程序日志中找到的系统自动生成的dump文件去排查问题

目录 1、尝试将Windbg附加到目标进程上进行动态调试,但Windbg并没有捕获到 2、在系统应用程序日志中找到了系统在程序发生异常时自动生成的dump文件 2.1、查看应用程序日志的入口 2.2、在应用程序日志中找到系统自动生成的dump文件 3、使用Windbg静态分析dump文…

Mysql的锁

加锁的目的 对数据加锁是为了解决事务的隔离性问题,让事务之前相互不影响,每个事务进行操作的时候都必须先加上一把锁,防止其他事务同时操作数据。 事务的属性 (ACID) 原子性 一致性 隔离性 持久性 事务的隔离级别 锁…

大数据课程D4——hadoop的YARN

文章作者邮箱:yugongshiyesina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解YARN的概念和结构; ⚪ 掌握YARN的资源调度流程; ⚪ 了解Hadoop支持的资源调度器:FIFO、Capacity、Fair; ⚪ 掌握YA…

jenkins自定义邮件发送人姓名

jenkins发送邮件的时候发送人姓名默认的&#xff0c;如果要自定义发件人姓名&#xff0c;只需要修改如下信息即可&#xff1a; 系统管理-system-Jenkins Location下的系统管理员邮件地址 格式为&#xff1a;自定义姓名<邮件地址>

三分钟白话RocketMQ系列—— 核心概念

目录 关键字摘要 Q1&#xff1a;RocketMQ是什么&#xff1f; Q2: 作为消息中间件&#xff0c;RocketMQ和kafka有什么区别&#xff1f; Q3: RocketMQ的基本架构是怎样的&#xff1f; Q4&#xff1a;RocketMQ有哪些核心概念&#xff1f; 总结 RocketMQ是一个开源的分布式消…

测试|测试分类

测试|测试分类 文章目录 测试|测试分类1.按照测试对象分类&#xff08;部分掌握&#xff09;2.是否查看代码&#xff1a;黑盒、白盒灰盒测试3.按开发阶段分&#xff1a;单元、集成、系统及验收测试4.按实施组织分&#xff1a;α、β、第三方测试5.按是否运行代码&#xff1a;静…

SpringMVC程序开发

1.什么是Spring MVC? Spring Web MVC是基于Servlet API构建的原始的Web框架&#xff0c;从一开始是就包含在Spring框架中。它的正式名称“Spring Web MVC"来自其源模板的名称&#xff08;Spring-webmvc)&#xff0c;但通常被称为“Spring MVC" 从上述的定义我们可…