day02论文学习:能够使大语言模型产生带有引用的文章

1.主题:Enabling Large Language Models to Generate Text with Citations(能够使大语言模型产生带有引用的文章)

引用出处: Gao, T., Yen, H., Yu, J., & Chen, D. (2023). Enabling Large Language Models to Generate Text with Citations. ArXiv, abs/2305.14627.

提示: 建议先看论文01,里面提到了 “生成带有引用的文本” 。

2. 摘要:

大型语言模型(LLMs)已经成为广泛使用的信息搜索工具,但它们生成的输出容易出现幻觉【1.前景】。在这项工作中,我们的目标是让LLMs生成带有引文的文本【2.目的】,提高其事实正确性和可验证性。现有的工作主要依赖商业搜索引擎和人工评估,这使得重新复制和比较不同的建模方法变得具有挑战性。我们提出了** ALCE【3.核心关键词,控制变量的关键】**,这是第一个用于自动LLMs引文评估的基准。ALCE收集了各种问题和检索语料库,并要求构建端到端系统来检索所支持的文档并生成带有引文的答案。【4.关键词作用】我们开发了沿着流畅性、正确性和引文质量三个维度的自动度量标准【5.评估方法】,并展示了它们与人类判断的强相关性。我们对最先进的LLMs和新颖的提示策略进行了实验,结果显示当前系统仍有很大改进空间——例如,在ELI5数据集上,即使是最好的模型也有50%的时间缺乏完整的引文支持。我们的分析进一步突显了有希望的未来方向,包括开发更好的检索器、推进长文本背景的LLMs,并改进从多个来源综合信息的能力。

总结: 该摘要提出了当今LLMs的优点与缺乏之处,虽能生成连贯的回答【流畅性足】,但这些回答有时会缺乏准确度和可信度。【正确性、引文质量不足】,故因此提出了ALCE这一概念,目的是利用ALCE的新基准测试,通过自动评估机制改进LLMs生成文本的正确性和可验证性,进而提升模型的输出质量。【摘要主要是讲述了ALCE的作用】

ALCE的作用: ALCE能够收集多样化的问题和检索语料库,需要构建从头到尾的系统来检索支持证据并生成带有引用的答案。能够自动评估LLMs生成的带有引用的文本。这个基准的主要目标是提高模型在生成文本时的事实正确性和可验证性。
评估方法: 开发了三个维度的自动度量方法—流畅性、正确性和引用质量,并证明了这些度量与人类评价的强相关性。
实验和发现: 通过对最先进的LLMs和新颖的提示策略进行实验,显示了当前系统在正确性和引用质量方面有很大的改进空间。例如,即使是最好的模型在ELI5数据集上也有50%的生成物缺乏完整的引用支持。【因此控制变量进行论证】

ALCE的任务设置:给定一个问题,系统在提供大型检索语料库中的引用段落的同时生成文本,每个陈述可能包含多个引用

3.Introduction(引言部分)

数据集

"大型语言模型(LLMs; Brown等,2020年;OpenAI, 2023年)已经越来越受到欢迎作为信息搜索工具。虽然它们生成引人入胜且连贯的回答,但它们的输出容易产生幻觉,通常包含事实上不正确的信息(Ji等,2023年)。这使得用户更难相信和验证没有支持证据的LLM生成的输出**【没有引文的坏处】。在这项工作中,我们研究了一种新一代的LLMs生成范式,其中我们要求LLMs"提供引文指向一个或数个文本段落以支撑其生成的任何陈述(见图1)。加入引文带来几项好处:(1)用户可以轻松通过提供的引文验证大型语言模型的声明;(2)大型语言模型可以生成忠实于引用段落的文本,这有望提高正确性并减轻幻觉【引文的好处】。多个商业系统已采用了这一模式:Bing Chat2和perplexity.ai3用自然语言回答用户问题,并附带网络页面的引用。中野等人(2021年);Menick等人(2022年)有相似的动机,但他们主要使用商业搜索引擎和闭源模型进行实验,使得难以评估他们的结果。引用增强的语言模型(Borgeaud等人,2022年;Izacard等人,2022年)在训练和推理过程中都包含检索到的段落,但不能保证对检索到的段落的忠实性,也未明确提供引文。此外,以往的研究大多依赖人类评价(中野等人,2021年;Menick等人,2022年;Liu等人,2023年),这既昂贵又难以复制。我们认为缺乏自动化评估阻碍了这类系统的进步【缺乏自动化评估】**。

我们提出ALCE,这是第一个可复现的基准,用于自动评估有引文支持的LLM生成物。ALCE假设出一个自然语言问题和一个检索语料库,并需要构建端到端系统来从语料库中检索相关段落,生成问题的响应,并引用相应的支持段落**【ALCE的作用】。我们编译了三个数据集,涵盖不同类型的问题和语料库——ASQA(Stelmakh等,2022),QAMPARI(Ru-bin等,2022)和ELI5(Fan等,2019)——如表1所示。与先前的基准(Lee等,2019;Bohnet等,2022)不同,ALCE评估长文本生成,侧重于自动评估引文质量,并允许为个别陈述引用多个段落。我们设计了三个维度的自动评估方法:流畅度、正确性和引文质量【评估表现】**。具体地,我们使用MAUVE(Pillutla等,2021)来衡量流畅度,为每个数据集提出量身定制的正确性指标,并采用自然语言推理(NLI)模型(Honovich等,2022)来衡量引文质量。我们展示了这三个维度如何共同促成稳健评估,防止系统利用捷径。此外,我们进行了人类评估,并展示了与我们自动评估指标的强相关性。

我们在多个具有最先进LLM和检索器的系统上进行实验,并提出了新颖的提示策略,将检索到的文本合成为文本生成物。尽管所有系统都能提供流畅和连贯的响应,但在正确性和引文质量方面仍有大幅改进的空间**【正确性和引文质量是本文的证明之处】**:例如,在ELI5数据集上,我们的ChatGPT和GPT-4基线约有50%的生成物并未得到完全支持。此外,我们发现(1)采用闭书模型(在不访问任何检索文档的情况下生成答案)并进行事后引用可以获得良好的正确性,但引文质量较差;(2)尽管交互式检索方法(Yao等,2023;Schick等,2023)在何时/检索什么方面提供了更多灵活性,但并不提高在这一具有挑战性的基准上的性能;(3)在更短的文本中总结检索到的段落可以提高正确性,但不能提高引文质量;(4)重新排列多个生成物可提高人类评估测量的引文质量;(5)在上下文中加入更多检索段落对ChatGPT没有帮助,但提高了GPT-4的性能

我们的深入分析突出了构建LLM以生成具有引文的文本面临的三个主要挑战:
(1)检索质量对最终性能至关重要,并有很大的改进空间;
(2)LLM的有限上下文窗口限制了它们可以整合的段落数量;
(3)当前的LLM在上下文中综合多个文档时很难避免被无关文档分散注意力,尽管更好的指导调整会带来显著改进。这些挑战为开发更好地整合检索和LLM的系统提供了有前途的研究方向。

** 总结:** 讲述了LLMs的普及和它存在的问题,以及新的LLMs生成范式。【进一步论述了当前LLMs所存在的问题,以及解决这个问题所采取新方法的必要性】

** LLMs的普及和问题:** 虽然LLMs能生成引人入胜和连贯的回答,但它们的输出倾向于包含不准确的信息,这使得用户难以信任和验证LLM生成的输出。
** 新的生成范式:** 研究一种新的LLMs生成范式,在这种范式中,要求LLMs为它们生成的任何声明提供一到几个文本段落的引用。引入引用带来了几个好处:用户可以轻易验证LLM的声明;LLMs可以生成忠实于引用段落的文本,这有望提高正确性并减轻幻觉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/718667.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

05通讯录管理系统——添加联系人

功能描述:实现添加联系人功能,联系人上限为1000人,联系人信息包括姓名、性别、年龄、联系电话、家庭住址。 添加联系人实现步骤: 1.设计联系人结构体 2.设计通讯录结构体 3.main函数中创建通讯录 4.封装添加联系人函数 5.测…

2024-06-17 问AI: 在深度学习中,harmonic mean是什么?

文心一言 在深度学习中,**harmonic mean(调和平均数)**是一个用于评估模型性能的指标,特别是在处理不平衡的数据集或需要综合多个评估指标的场景中。以下是关于harmonic mean在深度学习中应用的详细解释: 定义&#…

多态深度剖析

前言 继承是多态的基础, 如果对于继承的知识还不够了解, 可以去阅读上一篇文章 继承深度剖析 基本概念与定义 概念: 通俗来说,就是多种形态。具体点就是去完成某个行为, 当不同的对象去完成时会产生出不同的状…

湿法消解石墨消解仪 应用化学分析领域石墨炉

石墨消解仪在化学实验中具有重要的作用。它是一种高级实验设备,广泛应用于化学分析领域,特别是在样品的前处理和测试前的样品制备过程中。 石墨消解仪采用高温高压技术,能够将固体样品中的有机和无机物质转化为可溶性的气体或液体形式。这种…

Aeron:两个代理之间的单向IPC(One-way IPC between two agents)

一、概述 本例展示了如何通过 IPC 在调度于不同线程的两个代理之间传输缓冲区。在继续学习本示例之前,最好先复习一下Simplest Full Example ,因为该示例展示的是 IPC 通信,没有增加代理的复杂性。读者还应熟悉Media Driver 流程构建如下&…

结合Boosting理论与深度ResNet:ICML2018论文代码详解与实现

代码见:JordanAsh/boostresnet: A PyTorch implementation of BoostResNet 原始论文:Huang F, Ash J, Langford J, et al. Learning deep resnet blocks sequentially using boosting theory[C]//International Conference on Machine Learning. PMLR, 2…

英特尔 “AI” 科通:英特尔AI大模型应用前瞻

亲爱的科技探险家、前沿探索者、对未来深具好奇心的您, 身处人工智能引领的时代,我们目睹着行业的革命性变革。技术的创新不仅改变着我们的日常,更重新定义着我们对未来的期许。今天,怀着无限激情和期待,我们邀请您参…

国际数字影像产业园:建设与推动企业孵化与梯次培育

国际数字影像产业园在建设与推动企业孵化及梯次培育方面取得了显著成效。未来,随着技术的不断进步和市场的不断扩大,园区将继续发挥其在数字经济产业中的引领作用,为文化产业的发展贡献更多力量。 一、企业孵化与入驻 企业入驻情况&#xff…

物联边缘网关如何助力工厂实现智能化生产?以某智能制造工厂为例-天拓四方

随着工业4.0的深入推进,智能制造工厂成为了工业发展的重要方向。在这个背景下,物联边缘网关以其独特的优势在智能制造工厂中发挥着越来越重要的作用。以下将通过一个具体的智能制造工厂应用案例,来阐述物联边缘网关如何助力工厂实现智能化生产…

Milvus跨集群数据迁移

将 Milvus 数据从 A 集群(K8S集群)迁到 B 集群(K8S集群),解决方案很多,这里提供一个使用官方 milvus-backup 工具进行数据迁移的方案。 注意:此方案为非实时同步方案,但借助 MinIO 客…

在3D视觉技术的帮助下,轻松实现纸箱拆码垛

在繁忙的物流仓库中,纸箱的拆码垛工作常常让人头疼不已。但是,现在有了富唯智能的3D视觉引导纸箱拆码垛解决方案,这一切都变得轻松简单! 想象一下,那些堆积如山的纸箱,在3D视觉技术的帮助下,仿…

黄仁勋:下一波AI的浪潮是物理AI

B站:啥都会一点的研究生公众号:啥都会一点的研究生 最近AI圈又发生了啥? 快手视频生成大模型“可灵”开放邀测,效果对标 Sora 在OpenAl文生视频大模型Sora发布后,国内企业争相入局,快手视频生成大模型可…

Confluence安装

Confluence安装 1.安装 #下载confluence版本(8.5.11) https://www.atlassian.com/software/confluence/download-archives #修改权限 chmod x atlassian-confluence-8.5.11-x64.bin #执行安装 ./atlassian-confluence-8.5.11-x64.bin按照以下提示输入&…

NettyのEventLoopChannel

Netty的重要组件:EventLoop、Channel、Future & Promise、Handler & Pipeline、ByteBuf 本篇主要介绍Netty的EventLoop和Channel组件。 1、Netty入门案例 服务器端的创建,主要分为以下步骤: 创建serverBootstrap对象。配置服务器的…

Avalonia for VSCode

1、在VSCode中编辑AvaloniaUI界面,在VSCode中搜索Avalonia,并安装。如下图,可以发现Avalonia for VSCode还是预览版。 2、 创建一个Avalonia 项目。 选择项目类型 输入项目名称 选择项目所在文件夹 打开项目 3、项目架构如下图。 4、builde…

基于jeecgboot-vue3的Flowable流程-所有任务

因为这个项目license问题无法开源&#xff0c;更多技术支持与服务请加入我的知识星球。 这个部分主要讲所有任务的功能 1、主要列表界面如下&#xff1a; <template><div class"p-2"><!--查询区域--><div class"jeecg-basic-table-form-…

创建型模式--抽象工厂模式

产品族创建–抽象工厂模式 工厂方法模式通过引入工厂等级结构,解决了简单工厂模式中工厂类职责太重的问题。 但由于工厂方法模式中的每个工厂只生产一类产品,可能会导致系统中存在大量的工厂类,势必会增加系统的开销。此时,可以考虑将一些相关的产品组成一个“产品族”,…

什么是Vue开发技术

概述 Vue.js 是一个用于构建用户界面的渐进式框架&#xff0c;它设计得非常灵活&#xff0c;可以轻松地被集成到任何项目中。 vue是视图的发音&#xff0c;其目的是帮助开发者易于上手&#xff0c;提供强大的功能构建复杂的应用程序 示例 以下是vue基本的语法概述 声明式渲…

示例:WPF中TreeView自定义TreeNode泛型绑定对象来实现级联勾选

一、目的&#xff1a;在绑定TreeView的功能中经常会遇到需要在树节点前增加勾选CheckBox框&#xff0c;勾选本节点的同时也要同步显示父节点和子节点状态 二、实现 三、环境 VS2022 四、示例 定义如下节点类 public partial class TreeNodeBase<T> : SelectBindable<…

探秘提交任务到线程池后源码的执行流程

探秘提交任务到线程池后源码的执行流程 1、背景2、任务提交2、Worker线程获取任务执行流程3、Worker线程的退出时机1、背景 2、任务提交 线程池任务提交有两种方式,execute()和submit()。首先看一下execute方法的源码。我们发现它接收的入参是一个Runnable类型。我们按照代码…