纽约大学:指导LLM提出澄清性问题

在这里插入图片描述

📖标题:Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions
🌐来源:arXiv, 2410.13788

🌟摘要

🔸大型语言模型(LLM)必须经常对高度模糊的用户请求做出响应。在这种情况下,LLM的最佳回应可能是提出一个澄清问题,以获取更多信息。我们观察到,现有的LLM通常会对这种模棱两可的请求进行单一解释,这会让想要不同解释的用户感到沮丧。我们推测这是由于当前的偏好数据标记实践造成的,在这种实践中,LLM反应仅在其先前的背景下进行评估。
🔸为了解决这个问题,我们建议通过模拟偏好标签在未来回合中的预期结果来分配偏好标签。这使得LLM能够学会提出澄清性问题,从而在未来的回合中为每个用户的解释量身定制答案。在开放域QA的实验中,我们将使用我们提出的偏好标记方法训练的系统与仅基于先前上下文分配偏好的标准方法进行了比较。
🔸我们根据系统提出澄清问题的能力来评估系统,这些问题可以恢复每个用户的解释和预期答案,并发现我们提出的方法训练LLM提出澄清问题,与每个查询的不同解释的答案集相比,F1提高了5%。

🛎️文章简介

🔸研究问题:当前大语言模型(LLM)在面对模糊请求时,偏向直接回答而不是提出澄清问题。
🔸主要贡献:论文提出了一个自动评估框架和双轮偏好标注方法,使模型更智能地决定何时提出澄清问题。

📝重点思路

🔺相关工作

🔸NLP的歧义:研究发现这些分歧往往是输入中含糊不清,最近的工作研究了歧义的各种来源,从实体链接、共指歧义到时间和地理背景。
🔸LLM的不确定性:最近的工作研究了LLM的校准,特别关注RLHF的训练效果,发现了标准单轮RLHF训练鼓励LLM反应过度自信。
🔸澄清问题生成:先前工作集中于任务固定所需澄清类型的设置,并可通过模拟对话进行训练。

🔺论文方案

🔸双轮偏好数据生成:标注者首先对输入查询提供多个候选澄清问题和直接回答,模型利用这些信息产生输出,标注者根据输出的好坏来构建偏好。
🔸用户模拟交互:为了生成偏好数据,论文使用了用户模拟交互的方法,而不是依赖于真实用户,这样可以更高效地生成大量标注数据。
🔸模型微调:使用监督微调(SFT)和基于人类偏好的强化学习(RLHF)来训练LLM,使其能够提出澄清问题。
🔸模型评估:开发了一个自动评估框架,通过模拟用户交互来评估LLM在开放域问答任务中的表现。

🔎分析总结

🔸双轮偏好标注的有效性:实使用双轮偏好标注方法训练的模型,在开放领域问答任务中的表现优于使用标准单轮偏好标注方法训练的模型。
🔸澄清问题的决策:训练后的模型能够更明智地决定何时提出澄清问题,从而在模糊和非模糊查询中都能取得更好的效果。
🔸联合模型的性能:尽管使用单一LLM处理澄清和回答任务会导致整体性能下降,但仍能保留大部分性能提升,表明这种方法在某些情况下是可行的。
🔸未来研究方向:当前研究仅限于一至两轮交互,未来可以探索扩展到多轮交互的方法,以及如何结合其他对话行为策略。

💡个人观点

论文的核心是通过构建不同的澄清话术,评估模型响应的质量,从而让模型学会使用更好的澄清提问。

🧩附录

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/915946.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32F1学习——I2C通信

一、I2C通信一带多 在学习通信的时候,我们常会听到串口通信。但串口通信只限定两个设备之间,如果有多个设备,通信的两个设备就要连接上,接线复杂。所以有了总线式通信,在一条总线上可以连接多个设备,这些根…

当你想要conda安装遇到UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel的问题

想要装个虚拟环境,结果遇到404。 看了第一个GitHub帖子中的一句话 UnavailableInvalidChannel: The channel is not accessible or is invalid. Navigator not launching. Issue #9473 conda/conda GitHub 想说那我就把这个not found的channel删掉吧&#xff…

Jmeter中的前置处理器(一)

前置处理器 1--JSR223 PreProcessor 功能特点 自定义数据处理:使用脚本语言处理请求数据,实现高度定制化的数据处理和生成。动态数据生成:在请求发送前生成动态数据,如随机数、时间戳等。变量设置:设置和修改 JMeter…

2023年高校大数据挑战赛A题中文文本纠错求解全过程文档及程序

2023年高校大数据挑战赛 A题 中文文本纠错 原题再现: 中文文本纠错的任务主要是针对中文文本中出现的错误进行检测和纠正,属于人工智能自然语言处理的研究子方向。中文文本纠错通常使用的场景有政务公文、裁判文书、新闻出版等,中文文本纠错…

使用CNN进行验证码识别:深度学习与图像预处理教程

验证码(CAPTCHA)广泛用于区分人类和自动化程序(如机器人),通常由扭曲的字母、数字或符号组成。为了实现验证码的自动识别,深度学习尤其是卷积神经网络(CNN)非常有效。本文将带你一起…

基于 Python Django 的二手房间可视化系统分析

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

探索 Sentinel 服务容错

Sentinel 是阿里巴巴开源的一款高可用防护组件,主要用于分布式系统中的流量控制、熔断降级和系统负载保护。它在 Java 微服务架构中扮演着重要的角色,帮助开发者确保系统的稳定性和可靠性。 以下是 Sentinel 的一些关键特性: 流量控制(Flow Control):通过对请求进行限流…

DBeaver 连接 OceanBase Oracle 租户

DBeaver 是一款通用的数据库工具软件,支持任何具有JDBC驱动程序的数据库。DBeaver 需要 Java 运行环境的支持。截稿时 DBeaver 24.0.0 版本默认提供的 OceanBase 驱动是连接 MySQL 的,想连接 Oracle 租户需要新建一个驱动器使用。 下载数据库驱动包 1、…

Dubbo 3.x源码(24)—Dubbo服务引用源码(7)接口级服务发现订阅refreshInterfaceInvoker

基于Dubbo 3.1,详细介绍了Dubbo服务的发布与引用的源码。 此前我们学习了Dubbo3.1版本的MigrationRuleHandler这个处理器,它用于通过动态更改规则来控制迁移行为。MigrationRuleListener的onrefer方法是Dubbo2.x 接口级服务发现与Dubbo3.x应用级服务发现…

企业如何提高招聘能力?

企业如何提高招聘能力? 许多企业在进行招聘工作时,常常会遇到各种问题和挑战。尽管付出了大量的时间和精力,但结果却并不总是如人意。例如,企业可能会经历一次又一次的面试,却仍然找不到一个能够适应岗位要求的合适人…

JAVA:探索 EasyExcel 的技术指南

1、简述 在 Java 开发中,Excel 文件的读写操作是一项常见的需求。阿里巴巴开源的 EasyExcel 提供了一种高效、简洁的解决方案,特别是在处理大规模数据时表现尤为突出。本文将详细介绍 EasyExcel 的优缺点、应用场景,并通过实例展示其基本用法…

AI制作ppt

1,kimi: 实际上也是AiPPT.cn这个网站(但是有实际次数限制) 2,其余专业AI ppt生成网站: (1)gamma:https://gamma.app/ 大概能制作7~10页左右 free的ppt,其余要…

穿越数据迷宫:C++哈希表的奇幻旅程

文章目录 前言📔一、unordered系列关联式容器📕1.1 unordered 容器概述📕1.2 哈希表在 unordered 容器中的实现原理📕1.3 unordered 容器的特点 📔二、unordered_set 和 unordered_map 的基本操作📕2.1 un…

数据结构 -二叉搜索树

一.什么是二叉搜索树 树插入删除方便比线性数组 二.二叉搜索树的查找操作 尾递归可以用循环递归 三.二叉树的插入操作 35要挂在33上面必须记住33的位置 解决方法,要求递归函数返回一个 结点插到33的右子树 四.二叉搜索树的删除 要是删除的是叶子节点之间删除 只有一…

计算机三级 数据库技术

第一章 数据库应用系统开发方法 1.1 数据库应用系统生命周期 软件工程:软件工程的思想,即用工程的概念、原理、技术和方法对软件生产、开发的全过程进行跟踪和管理 软件开发方法:瀑布模型、快速原型模型、螺旋模型 DBAS生命周期模型 1.2 规划与分析 系统规划与定…

使用 AMD GPU 推理 Mixtral 8x22B

Inferencing with Mixtral 8x22B on AMD GPUs — ROCm Blogs 2024年5月1日,由 Clint Greene撰写。 简介 自从Mistral AI’s AI发布了Mixtral 8x7B以来,专家混合(MoE)在AI社区重新获得了关注。受此发展启发,多个AI公…

前后端、网关、协议方面补充

这里写目录标题 前后端接口文档简介前后端视角对于前端对于后端代码注册路由路由处理函数 关于httpGET/POST底层网络关于前端的获取 路由器网关路由器的IP简介公网IP(WAN IP)私网IP(LAN IP)无线网络IP(WIFI IP)查询路由器私网IP路由器公网IP LAN口与WIFI简介基本原理 手动配置电…

leetcode104:二叉树的最大深度

给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:3示例 2: 输入:root [1,null,2] 输出…

大语言模型理论基础

文章目录 前言大语言模型必需知识概述大语言模型目标模型上下文神经网络的神经元常见激活函数SigmoidTanhRelusoftmax 通用近似定理多层感知机(MLP)拟合最后 前言 你好,我是醉墨居士,我们接下来对大语言模型一探究竟,…

关于VUE NPM安装失败的问题

最近使用 npm install --registryhttps://registry.npmmirror.com 安装一个新项目的依赖,各种失败。 最后发现是package-lock里面有老的淘宝的域名,整体替换掉就行了