今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent

引言:面向不确定性的感知的Language Agent

Language Agent利用大型语言模型(如OpenAI发布的GPT系列、Meta的LLaMA2等)来与外部世界互动,例如通过工具和API收集观察结果,并处理这些信息以解决任务。这些Language Agent在改进先前具有挑战性的推理任务方面取得了显著进展,它们能够自主地从世界中获取新知识,并通过记忆或自我完善机制迭代地改进其推理路径。然而,当前的Language Agent设计主要将LLM视为观察和知识收集的规划者、协调者或聚合器,而忽视了在与外部世界交互时处理不确定性的能力。实际上,大量的研究工作已经集中在探索预训练语言模型中编码的知识类型,以及如何通过生成性任务(如机器翻译、摘要和数据到文本生成)来估计这些模型的不确定性。

我们的工作旨在通过集成不确定性估计来改进Language Agent的设计,以便更有效地管理与外部工具的互动。具体来说,我们的框架通过在决策过程中量化不确定性,来判断何时依赖LLM内部的隐含知识,何时寻求外部资源的帮助。这种方法旨在提高Language Agent的效率,减少对外部资源的不必要依赖,同时保持或提高任务性能。

论文标题
Towards Uncertainty-Aware Language Agent
论文主页
https://uala-agent.github.io/
论文链接:
https://arxiv.org/pdf/2401.14016.pdf

我们提出了不确定性感知Language Agent(UALA)框架,旨在通过量化不确定性来优化Agent与外部世界的交互。UALA框架使用不同的不确定性测量方法作为动态切换LLM自身路径和使用外部资源之间的依据。在推理任务中,框架首先尝试使用标准或链式推理(Chain-of-Thought,CoT)提示来生成回答。随后,通过不确定性估计模块评估这些回答,以决定是接受当前回答还是使用外部工具寻求更确定的解决方案。如果在使用外部工具后仍存在高不确定性,Agent将寻求来自人类的帮助。此协议通过在每一步都主动管理不确定性,确保了生成响应的健壮性和可靠性。

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

具体地,UALA框架定义了单次推理和多次推理不确定性估计的方法。单次推理不确定性估计根据单个输出计算不确定性,而多次推理不确定性估计则基于一组输出来计算。我们还讨论了如何根据少量训练数据设置不确定性阈值,以确定何时可以接受Agent的答案,何时需要进一步的探索或人工干预。

图1. 单次推理UALA轨迹示例。示例(a)展示了CoT(链式推理)回答落在确定性区域内的轨迹。示例(b)是CoT过于不确定且激活工具的轨迹,最终得到的响应落在可接受的确定性区域内(在我们的结果中用UALA-S和UALA-M表示)。示例(c)是CoT和工具生成的响应均被视为不确定,Agent向人类寻求帮助的轨迹(在我们的结果中用UALA-S+Oracle表示。

不确定性估计

我们提出的不确定性估计方法大致分为两类:基于单次推理的和基于多次推理的。

  • 单次推理。单次推理的不确定性估计基于单个输出计算不确定ƒ性,这需要访问该输出中的token对数概率。方法根据答案是单个token(例如,是或否)还是自由格式(多token)而有所不同。

  • 多次推理。多次推理的不确定性估计基于来自LLM的多个输出来计算答案的不确定性,从而无需单个token对数概率。

  • 不确定性阈值。接受答案或采用替代机制的决定取决于与该答案相关的不确定性水平。我们提出了为单次推理和多次推理的不确定性估计设置不确定性阈值的不同方法。对于单次推理,我们采用一部分训练数据来创建校准集。不确定性阈值基于校准集进行估计。对于多次推理设置中的不确定性阈值估计,我们采用与校准集相同的训练数据子集。我们使用校准集中答案的平均不确定性作为阈值。

实验

在这一部分中,我们详细描述了利用UALA框架在三个代表性任务(HotpotQA、StrategyQA、MMLU)上的实验设计和结果。这些任务涵盖了自由形式的问答、二元问答和多项选择问答,展示了UALA在不同类型的推理和信息检索任务中的适用性和效果。

图2.在500个HotpotQA实例、229个StrategyQA实例和570个MMLU(57个任务)实例上,每种提示方法的性能和工具调用次数。条形图代表性能(精确匹配),线条代表工具调用次数。条内的数字代表输出token的总数。带*的方法使用了回退策略。

图3.在两个大型语言模型上,基线方法和我们方法的完整结果。所用的度量标准是精确匹配,括号内的数字代表工具调用次数。UALA-S表示使用单次推理的不确定性估计方法,UALA-M表示使用多次推理的不确定性估计方法。每列的最佳结果以粗体显示。

实验结果分析

实验结果表明,UALA在所有任务上均实现了显著的性能提升,尤其是在需要复杂推理和信息整合的HotpotQA任务上。此外,UALA在减少对外部工具调用的同时,保持了高水平的任务性能,这表明了我们框架在提高效率和减少计算资源消耗方面的潜力。下面总结了一些主要的观测:

(1) 在HotpotQA上,CoT(链式推理)的表现超过了标准方法,而在StrategyQA和MMLU上,标准方法则表现更好。自洽性(Self-Consistency)在三个数据集和两个LLMs上始终能够增强结果。ReAct在每个实例上使用时,其性能不如标准/CoT/自洽性。通过整合回退策略,ReAct+Backoff显示出了改善,但通常仍然落后于自洽性,这凸显了自洽性通过抽样和多数投票作为捕获不确定性Agent的好处。

(2) UALA-S显著提升了ReAct的性能,将工具使用减少了一半以上,并在所有数据集上超越了标准/CoT。UALA-M达到了与UALA-S相似的性能,但工具使用增加了。UALA-S+Backoff超过了ReAct+Backoff,并且经常超越自洽性,UALA-M+Backoff在三个数据集的所有设置中提供了最佳结果。

(3) UALA最大的改进增益观察到在HotpotQA(自由形式)上,其次是StrategyQA(二元)和MMLU(多项选择)。这是预期的,因为自由形式的回答空间要比选择题类型的问题更大更多样化。增益差异可以用每项任务中正确和错误答案之间的不确定性差异来解释。

(4) 与标准/CoT结果相比,ChatGPT和LLaMA2-70B的平均(单次推理和多次推理)精确匹配(EM)改进:ChatGPT增加了11.7%,LLaMA2-70B增加了8.9%。这可能表明ChatGPT更可能产生更好校准的概率估计,导致训练集上更可靠的不确定性估计,从而推广到测试集。这可能是两个模型在大小和训练协议上差异的产物。

(5) UALA-S+Oracle的结果强调了不确定性价值的另一个方面。这一特性在敏感领域尤为重要,因为它可以阻止Agent生成错误的回答。当工具激活后响应的不确定性仍然高时,Agent选择求助于人类(我们通过使用金标准答案来模拟这一点),而不是冒着给出错误答案的风险。

推理花费

图4. 每种方法的输出token数量和工具调用次数。

▲图4. 每种方法的输出token数量和工具调用次数。

ReAct的输出token数量是CoT的5倍之多。与ReAct相比,UALA-S将输出token数量减少了超过65%。UALA-M由于依赖于多次推理,因此消耗了更多的输出token。两种UALA方法与ReAct相比都可以大幅减少工具调用超过50%,使它们在资源效率上有了显著提升。

推理时间

图5。HotpotQA中不同方法的每实例平均推理时间(秒/迭代)。LLaMA2的推理是在单个A40 GPU上完成的。

▲图5。HotpotQA中不同方法的每实例平均推理时间(秒/迭代)。LLaMA2的推理是在单个A40 GPU上完成的。

标准和CoT提示方法不涉及外部工具调用,因此与其他方法相比具有更快的推理时间。如所示,由于其选择性的工具调用,UALA-S与ReAct相比具有更低的推理时间。这凸显了利用不确定性来减少token使用数量和工具调用的实际好处,同时仍能提供显著的性能提升。

答案不确定性可视化

图6. ChatGPT上三个数据集的正确答案和错误答案的不确定性范围的可视化(箱线图)。

▲图6. ChatGPT上三个数据集的正确答案和错误答案的不确定性范围的可视化(箱线图)。

在单次推理和多次推理的设置中,正确答案与错误答案相比,一致地表现出更低的不确定性。这种差异在统计上是显著的。当计算正确答案和错误答案的平均不确定性之间的差异时,我们观察到最大的差异属于HotpotQA,其次是StrategyQA和MMLU。这解释了为什么UALA的收益在主要结果中遵循相同的模式。

Language Agent 微调对比 UALA

图7. FireAct与UALA-S的对比结果。ReAct和UALA-S的结果是基于6-shot和现成的LLM主干。

▲图7. FireAct与UALA-S的对比结果。ReAct和UALA-S的结果是基于6-shot和现成的LLM主干。

我们展示了UALA-S与遵循FireAct设置的微调Language Agent之间的比较。对于ChatGPT,我们使用官方的GPT-3.5-Turbo微调API;对于LLaMA2-70B,我们使用LoRA。为了进行并排比较,我们使用与校准集相同的500个训练样本来构建微调数据。模仿FireAct设置,我们用ChatGPT运行了500个示例,并收集了成功的轨迹作为FireAct的训练数据。这为HotpotQA提供了162个训练示例,为StrategyQA提供了283个。此外,为了匹配FireAct设置的训练数据量,我们还运行了额外的1000个示例,将成功训练轨迹的数量增加到HotpotQA的512个和StrategyQA的567个。

有趣的是,在使用162个训练示例的HotpotQA上,FireAct的表现不如few-shot(6-shot)ReAct Agent,而在使用283个训练示例的StrategyQA上,则超过了ReAct。将训练数据量增加到500+可以改善两个LLM的表现,微调过的基于ChatGPT的Agent在两个数据集上都超过了ReAct。我们的方法UALA-S,在没有任何微调的情况下,仅使用500个样本创建校准集就取得了最佳结果。这凸显了在数据量较小的情况下,利用不确定性而不是微调的明显经验优势。

结论

本文提出的不确定性感知Language Agent(UALA)框架,通过在Language Agent的设计中集成不确定性量化,显著提升了多个任务的性能。我们的实验验证了UALA在提高任务解决能力的同时,能有效减少对外部资源的依赖,展示了在智能Agent设计中考虑不确定性的重要性和价值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/560696.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

javaWeb项目-智能仓储系统功能介绍

项目关键技术 开发工具:IDEA 、Eclipse 编程语言: Java 数据库: MySQL5.7 框架:ssm、Springboot 前端:Vue、ElementUI 关键技术:springboot、SSM、vue、MYSQL、MAVEN 数据库工具:Navicat、SQLyog 1、JSP技术 JSP(Jav…

UE5集成gRPC

最近有项目需要在UE5里做RPC,对比了thrift、gRPC、rcplib等开源rpc框架,由于习惯使用protobuf,故选择了gRPC。然而,Google出品也是一言难尽啊,最起码编译太繁琐了。 本次使用的gRPC版本为1.62.1,UE5.2&…

二分答案复习

y总二分查找算法模板 int bsearch_1(int l, int r) {while (l < r){int mid l r >> 1;//性质在右边&#xff0c;区间划分成[l, mid]和[mid 1, r]if (check(mid)) r mid;else l mid 1;}return l; }int bsearch_2(int l, int r) {while (l < r){int mid l r …

科普馆VR技术展现安全场景,构建安全教育新标杆!

随着VR技术的快速发展&#xff0c;其所衍生出的互动装置&#xff0c;悄无声息地渗透进了我们生活的每个角落&#xff0c;就连那严谨而重要的安全教育领域&#xff0c;也没能逃出这神奇魔法的“魔爪”&#xff0c;这种VR互动设备简直就是安全知识传递的小能手&#xff0c;那么&a…

SpringCloud系列(7)--Eureka服务端的安装与配置

前言&#xff1a;上一章节我们介绍了Eureka的基础&#xff0c;本章节则介绍Eureka服务端的安装与配置 Eureka架构原理图 1、创建Eureka Server端服务注册中心模块 (1)在父工程下新建模块 (2)选择模块的项目类型为Maven并选择模块要使用的JDK版本 (3)填写子模块的名称&#xf…

llama-factory SFT 系列教程 (四),lora sft 微调后,使用vllm加速推理

文章目录 文章列表&#xff1a;背景简介llama-factory vllm API 部署融合 lora 模型权重 vllm API 部署HuggingFace API 部署推理API 部署总结 vllm 不使用 API 部署&#xff0c;直接推理数据集 tenplatevllm 代码部署 文章列表&#xff1a; llama-factory SFT系列教程 (一)&a…

SpringMVC(三)【REST 风格】

1、REST 风格 1.1、REST 简介 REST&#xff08;Representational State Transfer&#xff09;&#xff0c;表现形式状态转换 在开发中&#xff0c;它其实指的就是访问网络资源的格式 1.1.1、传统风格资源描述形式 http://localhost/user/getById?id1http://localhost/user…

18 统计网站每日的访问次数

1.将竞赛的数据上传HDFS,查看数据的格式 通过浏览器访问hdfs,查看该文档前面的部分数据 每条数据的字段值之间使用逗号隔开的 &#xff0c;最终时间是第五个自动&#xff0c;获取第五个字段值的中的年月日。 2.通过Idea创建项目mr-raceData ,基础的配置 修改pom.xml,添加依赖 …

一文读懂uniapp中的tabBar底部导航

目录 1. 基本知识2. Demo 1. 基本知识 UniApp 中的 tabBar 是用来在应用程序底部显示可切换的选项卡的组件&#xff0c;通常用于实现底部导航栏 允许用户通过点击不同的选项卡来切换应用程序的不同页面或功能模块 其代码如下&#xff1a; "tabBar":{"color&q…

HoloLens2的Unity应用在电脑上发布成安装包,然后通过wifi安装到设备

一、VS工程中的鼠标右键 二、发布——>创建应用程序包 三、选择【旁加载】 四、选择签名方法&#xff1a; 五、选择和配置包 六、创建完毕 七、网络连接设备 八、登录设备 九、安装app

spring高级篇(二)

1、Aware和InitializingBean Aware和InitializingBean都与Bean的生命周期管理相关。 Aware接口: 概念: Aware接口是Spring框架中的一个标记接口&#xff0c;它表示一个类能够感知到&#xff08;aware of&#xff09;Spring容器的存在及其特定的环境。Spring框架提供了多个Awar…

Android自带模拟器如何获得ROOT权限

如果在模拟器中不能切换到root权限&#xff0c;很可能是镜像使用的不对。 一.选择镜像标准&#xff1a; 1.运行在PC端选X86_64镜像&#xff0c;才能流畅运行 2.不带google api的镜像 二.步骤 在虚拟机管理器中新建AVD&#xff0c;并下载符合要求的镜像文件 三.验证

shell脚本编程的例子(55例子)-3

第三部分&#xff1a;eg32-eg50shell例子。开放一周后启用vip阅读了。…… ^v^ Eg32、while/until/for经典例子 #!/bin/bash ## filename: while-infinite_loops.sh while true; do sleep 5 echo "infinite loops [ hit CTRLC to stop]" done Eg33、while/…

Rokid AR Lite空间计算套装发布,软硬件全面升级推动居家、出行、户外场景大规模应用

4月20日&#xff0c;以“好玩、好看、好上头”为主题的Rokid Open Day 2024发布会在杭州举行&#xff0c;Rokid对外正式发布新一代AR Lite空间计算套装&#xff0c;分享了近期Rokid在AR开发者生态和数字文化领域的进展和成果&#xff0c;并宣布了多项跨行业重磅合作。作为中国代…

PS-ZB转座子分析流程2-重新分析并总结

数据处理 数据质控 随机挑出九个序列进行比对&#xff0c;结果如下&#xff1a; 所有序列前面的部分序列均完全相同&#xff0c;怀疑是插入的转座子序列&#xff0c;再随机挑选9个序列进行比对&#xff0c;结果如下&#xff1a; 结果相同&#xff0c;使用cutadapt将该段序列修…

OerOerlikonTCO1200欧瑞康LPCVD system操作使用说明

OerOerlikonTCO1200欧瑞康LPCVD system操作使用说明

常见的经典目标检测算法

目标检测是计算机视觉领域的一个核心任务&#xff0c;它涉及到识别图像中的物体并确定它们的位置。以下是一些常见的经典目标检测算法&#xff1a; R-CNN系列 R-CNN&#xff08;Region-based Convolutional Neural Network&#xff09;是一种用于目标检测的算法&#xff0c;它…

PyQt5开发的DSP信号仿真系统

PyQt5开发的DSP信号仿真系统 1、效果图 2、功能 具备的功能: 1、生成基础信号波形[正弦波,脉冲函数,阶跃函数,斜坡函数, 锯齿波,方波,常见非周期波形,sinc函数] 2、各基础波形可以叠加 3、可展示FFT频谱、信号卷积、功率频谱密度估计 4、可以读取音频信号及分析 5、各…

第23天:安全开发-PHP应用后台模块SessionCookieToken身份验证唯一性

第二十三天 一、PHP后台身份验证模块实现 二、Cookie&Session技术&差异 1.生成cookie的原理图过程&#xff1a;见上图 客户端向服务器发送HTTP请求。服务器检查请求头中是否包含cookie信息。如果请求头中包含cookie信息&#xff0c;则服务器使用该cookie来识别客户端…

Android Studio Iguana | 2023.2.1配置优化

一. 前言 本篇文章记录最新版本的Android Studio的配置优化&#xff0c;写这篇文章的是由于电脑中的AS工具更新版本覆盖安装后&#xff0c;AS会经常卡死&#xff0c;Debug的时候也经常莫名其妙的断掉&#xff0c;非常影响工作效率&#xff0c;所以重新把配置环境整理一下&#…