什么是工具? 从语言模型视角的综述

24年3月CMU和上海交大的论文“What Are Tools Anyway? A Survey from the Language Model Perspective”。

到底什么是工具? 接下来,工具在哪里以及如何帮助语言模型? 在综述中,对语言模型使用的外部程序工具进行了统一定义,并对语言模型工具场景和方法进行了系统回顾。 测量各种基准上所需的计算和性能增益,以及该领域的挑战和潜在的未来研究,本文实证研究了各种工具方法的效率。

首先提出工具的统一定义,并解释为什么工具有助于解决任务。 介绍基本的工具使用范例,并通过枚举存在哪些工具以及它们适用于哪些任务来研究各种工具使用场景。 接下来,研究复杂工具使用的高级方法,甚至在无法完成任务时制作新工具。 然后,总结LM 工具工作中的现有测试平台和评估指标,并通过具体的指标建议强调了几个缺失的方面。 最后,根据对工具何时有效的实证分析,确定了最有效的工具方法以及从工具中受益最多的任务。

工具可以以不同的方式帮助解决任务,具体取决于各个工具的功能。 工具功能总结为三大类:感知、行动和计算。 一个工具可能属于这三个类别中的一个或多个。

感知。感知工具提供或收集环境信息。 一个例子是使用 get time() API 来获取当前时间,该时间不包含在 LM 从训练中学到的参数知识中。
动作。动作工具可以对环境施加动作并改变其状态。 例如,turn left() 可以改变具身智体的方向,或者执行 make post(website, post) 可以更改网站上的内容。
计算。计算工具不一定感知或修改外部环境,而是使用程序来处理复杂的计算任务。 例如,计算器是一种用于数学计算的计算工具。 请注意,计算还包括数值计算之外的更一般的计算行为。 因此,翻译器也是一种可用于语言之间翻译的计算工具。

Russell & Norvig (2010) 将智体定义为“任何可以被视为通过传感器感知环境并通过执行器对该环境采取行动的事物”。 根据这个定义,智体是使用感知工具来感知所处环境的程序,或者是使用动作工具与环境交互的程序。 根据此定义,仅使用计算工具且不通过感知或动作工具与环境交互的模型可以说不属于“智体”类别。

为了让语言模型能够使用这种使用工具的基本范式,当前的工作主要利用推理时提示和训练时学习方法。

推理时提示利用。LM 在上下文中学习的能力(Brown,2020),许多工作通过提示提供工具信息,并期望 LM 获得从输入上下文中使用这些工具的能力。 这是通过提供有关任务的说明、查询示例对和使用工具的解决方案来实现的(Gupta & Kembhavi,2022;Lu,2023a;Paranjape ,2023;Shen,2023a;Yang, 2023)和/或工具功能的文档(Hsieh,2023)。
通过训练学习。除了从测试时环境中学习工具之外,LM 还可以从训练期间使用这些工具的示例中学习。 可以简单地训练语言模型来生成使用工具的解决方案,其中示例可以由人类手动注释(Li et al., 2023),并由更大的教师语言模型合成(Tang, 2023;Qin, 2024; Huang,2024),或由测试时 LM 本身引导(Schick,2023)。

如图所示:相对于基本 LM 或基本动作,工具可以引用内置函数、外部库或特定于任务的实用函数(从左到右)。

添加图片注释,不超过 140 字(可选)

现有的工具基准测试只能受益于有限的工具集,但可以利用更多的工具来执行现实世界中的多功能任务,特别是由人类开发人员创建的网络上开发API 工具。 因此,最近的许多工作聚集来自各种网络来源的 API 工具,并创建了使用这些 API 的基准,如表所示。

添加图片注释,不超过 140 字(可选)

利用工具通常会带来更好的性能,但是,应该总用工具吗? 更具体地说,使用工具所带来的性能提升是否值得 LM 学习使用工具所花费的计算成本,或者测试的推理成本? 现有的工作主要关注任务准确性,但当考虑到其他因素时,就会出现更微妙的情况。 根据下表中实验数据集的计算成本和性能增益,研究了各种方法的性能增益和学习成本,发现了从工具中受益并更有效(即用更少的计算实现更大的增益)的方法和任务。

添加图片注释,不超过 140 字(可选)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/624136.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Redis-分片集群存储及读取数据详解

文章目录 Redis分片集群是什么?Redis分片集群的存储及读取数据? 更多相关内容可查看 Redis分片集群是什么? Redis分片集群是一种分布式部署方式,通过将数据分散存储在多个Redis节点上,从而提高了系统的性能、扩展性和…

解密跨境电商ERP开发的5大常见问题及解决方案

跨境电商平台开发是一个充满挑战的领域,企业在此过程中常常面临着各种技术、管理和资源等方面的问题。下面是解析这些问题并提供解决方案的五大主要问题: 1. 集成难题: 在跨境电商平台开发中,一个最为常见的问题是集成不同系统和…

中国高分辨率国家土壤信息网格基本属性数据集(2010-2018)

中国高分辨率国家土壤信息网格基本属性数据集(2010-2018) 数据介绍 土壤是人类生存和发展的基础,多个联合国可持续发展目标(SDGs)与土壤资源利用和管理直接相关。然而,全球和我国现有土壤信息大多源于历史土…

酒厂做配送分销小程序商城的作用是什么

线上优势明显,酒厂零售批发需要多渠道进行,品牌宣传、酒水经营分销配送、会员管理以及拓展更多营收可能等,商家与客户都需要完善的体系触达对方。 运用【雨科】平台搭建酒厂商城,电脑手机网页端和微信小程序端,多渠道…

可重构柔性装配系统,为制造业的未来描绘出一幅崭新的蓝图

随着科技的飞速发展,传统的产线设计模式正面临着前所未有的挑战。在这个变革的时代,可重构柔性装配系统凭借其独特的优势,正引领着智能化生产的新浪潮,为制造业的未来描绘出一幅崭新的蓝图。 传统的产线设计往往固定且僵化&#x…

精品录播|电磁场数值仿真技术及天线设计与应用

电磁场数值仿真技术及天线设计与应用

失业,登上了网络悲惨排行榜热传?

几年前,有关“失业”这个话题早就频繁地出现在国内各大社交网站,原以为早已淡化了,殊不知今天浏览国内各大社交网站,惊讶地发现它竟然登上了“悲惨排行榜”并被热传,便认为对此话题有闲聊一会儿的必要。 截图&#xff…

2024年泰迪智能科技专业共建合作方案

泰迪智能科技打造基于产教融合就业育人综合服务平台,深化产教融合,持续完善三位一体的数据智能生态体系,促进教育链、人才链与产业链、创新链的有机衔接,为培养高素质创新人才及企业数据智能应用落地略尽绵薄之力。 2024年泰迪智…

ios与android上音频格式的推荐

首先贴一张官方对于ios与android上音频格式的推荐: 这里只给出了推荐格式,一般我们在实际运用中会使用如下方式: 一、IOS与安卓各一套:音乐:都使用MP3 音效:ios用caf Android用ogg 二、使用通用的MP3格式…

黑马新出的SpringBoot3项目后端总结

基础篇-00_SpringBoot3_Vue3导学课程_哔哩哔哩_bilibili 这个是视频链接 这个新课程里面用了一些企业里会用的注解例如Validated这种,业务流程清晰明了简单上手,算是可以了解最基本的Springboot开发流程,方便上手和快速入门 主要是下面这几…

prompt工程策略(一:使用 CO-STAR 框架来搭建 prompt 的结构)

原文:我是如何赢得GPT-4提示工程大赛冠军的 为了让 LLM 给出最优响应,为 prompt 设置有效的结构至关重要。CO-STAR 框架是一种可以方便用于设计 prompt 结构的模板。该模板考虑了会影响 LLM 响应的有效性和相关性的方方面面,从而有助于得到更…

【送书福利第八期】你好!Python(文末送书)

文章目录 编辑推荐内容简介作者简介目录前言/序言 🌤️ 粉丝福利 编辑推荐 适读人群 :程序员;相关院校师生 本书以轻松幽默的语言,从零开始介绍Python语言。书名来源于编程语言中最经典的Hello World程序,寓意带读者从入门到精通…

简单的mysql主从复制搭建

文章目录 准备工作用Docker安装MySQL主库配置【192.168.13.32】从库配置【192.168.13.108】小结 准备工作 用虚拟机提前准备两台服务器,并且在服务器中分别安装好MySQL,服务器的信息如下: 数据库IP主节点192.168.13.32从节点192.168.13.108…

使用python开发的闭运算调试器

使用python开发的开运算调试器 简介效果代码 简介 用来调试闭运算效果的小工具,滑动条可以控制滤波核的大小,用来查看不同滤波核下的闭运算效果。 效果 代码 import sys from PyQt5.QtWidgets import QApplication, QWidget, QVBoxLayout, QHBoxLayou…

MyBatis缓存的概念

缓存回顾 什么是缓存? 缓存就是内存中的数据,常常来自对数据库查询结果的保存。使用缓存可以避免频繁与数据库交互,进而提高 响应速度 。 MyBatis 对缓存的支持 MyBatis 也提供了对缓存的支持,分为 一级缓存 和 二级缓存。可以…

您的文件和驱动器上的“密码保护”有多安全?

某些行业(例如医疗保健、法律和公司)的人们在通过电子邮件发送文件时通常依赖密码保护,认为它可以提供足够的安全性来防止窥探。然而,对 PDF 或 Excel 文件进行简单的密码保护并不像看起来那样万无一失。 使用密码保护文件而不加…

稳态大面积光伏组件IV测试太阳光模拟器

稳态大面积光伏组件IV测试太阳光模拟器是太阳能光伏组件质量检测和评价的重要步骤之一。本文将介绍光伏组件IV测试的原理及标准板选择。 I. 光伏组件IV测试原理 光伏组件IV测试即电流电压特性测试,是评估光伏组件性能的重要手段。其测量的主要参数为组件的电流和电…

快速学习SpringAi

Spring AI是AI工程师的一个应用框架,它提供了一个友好的API和开发AI应用的抽象,旨在简化AI应用的开发工序,例如开发一款基于ChatGPT的对话应用程序。通过使用Spring Ai使我们更简单直接使用chatgpt 1.创建项目 jdk17 引入依赖 2.依赖配置 …

LeetCode394字符串解码

题目描述 给定一个经过编码的字符串,返回它解码后的字符串。编码规则为: k[encoded_string],表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。你可以认为输入字符串总是有效的;输入字符串中没有额外的空格&#xf…

优选算法——双指针1

双指针 常⻅的双指针有两种形式,⼀种是对撞指针,⼀种是左右指针。 对撞指针:⼀般⽤于顺序结构中,也称左右指针。 对撞指针从两端向中间移动。⼀个指针从最左端开始,另⼀个从最右端开始,然后逐渐往中间逼 近…