LLMs可以进行任务规划吗?如果不行,LLMs+GNN可以吗?

深度图学习与大模型LLM(小编): 大家好,今天向大家介绍一篇最新发布的研究论文(20240530)。这篇论文探讨了如何通过引入GNN来提高大模型在任务规划(task planning)中的性能。*论文分析了LLMs在任务规划上的局限性,并提出了一种简单而有效的解决方案。*

img

1. 基本信息

论文题目:Can Graph Learning Improve Task Planning?

作者:Xixi Wu, Yifei Shen, Caihua Shan, Kaitao Song, Siwei Wang, Bohang Zhang, Jiarui Feng, Hong Cheng, Wei Chen, Yun Xiong, Dongsheng Li

作者研究单位:

  • Fudan University
  • Microsoft Research Asia
  • Peking University
  • Washington University, Saint Louis
  • The Chinese University of Hong Kong
  • 论文代码:https://github.com/WxxShirley/GNN4TaskPlan

2. 研究背景

任务规划旨在将用户的请求分解为可解决的子任务,进而完成原始请求。

在任务规划中,子任务可以表示为一个图(graph),其中节点代表子任务,边表示子任务之间的关系。因此,任务规划本质上是在图上选择一条连通路径或子图并执行的决策问题。 基于这一视角,本文分析了LLMs在任务规划中的能力。研究发现,LLMs在识别任务结构方面存在一定的局限性。

本文首先调研了Transformer在处理序列化图输入(如边列表表示)的图任务时的能力。实验发现,尽管边列表输入并不能直接反映图的几何结构,但可以通过模拟边列表上的动态规划算法来解决图决策问题。但是,本文也发现LLMs的解决方案缺乏图同构不变性。 此外,如果注意力(attention)是稀疏的,表达能力会被削弱。 除了表达能力外,本文还考察了自回归损失(auto-regressive loss)的影响,证明其引入了可能有害于图决策任务的虚假相关性。 这些insight揭示了LLMs在任务规划以及更广泛的图相关问题中的固有局限性。

为了解决这些局限性,本文用LLMs将模糊的用户请求分解为详细的步骤。然后,利用GNN根据这些详细步骤和对应的子任务描述来检索相关的子任务。值得注意的是,如果采用无参数的GNN模型(如SGC),该方法可以在无需训练的情况下实现。对于基于训练的方法,本文应用贝叶斯个性化排序(Bayesian Personalized Ranking, BPR)损失来促进从隐式子任务排序中学习。

3. 方法

与LLMs不同,*GNNs可以严格地在任务图上操作,从而避免产生幻觉(hallucination)。*此外,*GNNs利用图结构作为输入,而不是将图展平为序列,从而克服了前面讨论的理论局限性。*

具体来说,本文考虑了training-free和基于training-based两种方法。

对于training-free的方法,本文采用了参数无关的GNN,即简化图卷积(Simplified Graph Convolution, SGC):

在为步骤选择任务节点时,使用e5-355M嵌入LLMs生成的步骤为。给定先前选择的任务节点序列,根据以下公式选择下一个节点:

其中是节点嵌入。特别地,可以从整个图中选择。这种逐个节点选择的方法受到GNNs用于组合优化等决策问题的传统研究的启发。

对于training-based的方法,推理过程与无需训练的方法类似,不同之处在于用参数化的GNN(如GAT或GraphSAGE)替代了无参数的GNN。训练损失采用贝叶斯个性化排序(BPR)损失:

其中表示由e5-355M生成的步骤的文本描述的嵌入,是正样本(ground-truth)任务,是负样本任务。本文选择与正样本在文本上相似的任务作为负样本,并为每个正样本限制选择2个负样本以提高计算效率。可训练参数可能仅包括GNNs,也可能同时包括GNNs和e5-355M。

4. 实验发现

本文在4个数据集上进行了广泛的实验,包括:

  • HuggingFace tasks
  • Multimedia tasks
  • Daily Life API tasks (来自TaskBench)
  • TMDB API tasks (来自RestBench)

实验结果表明:

  1. 与直接使用LLMs相比,引入SGC始终可以提高性能,突出了所提出方法的有效性。 尽管GraphSearch类型的方法可以通过更长的处理时间获得更好的结果,但本文提出的方法可以在计算代价减少5-10倍的情况下实现相当或更好的性能。
  2. 与无需训练的方法相比,采用基于训练的GraphSAGE方法可以显著提高性能。 值得注意的是,GNNs与e5-355M的联合训练并没有带来显著的改进,这表明消息传递(message passing)是提高性能的关键因素。
  3. 所提出的方法与改进的提示(prompt)以及微调(fine-tuning)技术正交。 将GNN应用于改进的提示模板或微调后的LLMs,可以进一步提高性能。
  4. 训练成本非常低 因为本文使用e5-355M作为GNNs的文本嵌入模型。如果可训练参数仅限于GNNs,训练通常在3分钟内完成。此外,当GNNs与e5-355M模型联合训练时,训练时长也仅为15分钟。这与微调开源LLMs所需的10-20小时形成鲜明对比。

5. 结论

本文探讨了基于图学习的任务规划方法。通过理论分析,揭示了注意力机制的归纳偏差和自回归损失的效用阻碍了LLMs在任务规划中的有效性。 为了解决这些局限性,本文提出了将GNNs引入任务图分析,在不同的LLMs和数据集上均取得了性能提升。

尽管取得了令人鼓舞的性能,但仍存在一些值得进一步探索的局限性和机遇:

  1. 本文提出的方法虽然有效,但仍然比较简单。更复杂的基于GNN的决策算法有望进一步改进性能。

  2. 目前的框架中,GNNs作为一个外部模块,与LLMs的交互有限。探索GNNs和LLMs的协同作用,特别是将GNN输出作为LLMs中的Token,是一个有趣的研究方向。

  3. 当前任务图的构建仍需要人工努力。研究用于此应用的自动图生成技术是另一个有前景的未来工作方向。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/791999.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VIM模式之间的切换

命令行界面下,常用的文本编辑器是 VI / VIM(VI增强版),VI 是 Linux 最通用的文本编辑器,VIM相较于VI,提供了代码高亮等功能,两者用法完全兼容; 1. 进入 VIM 工作界面 vim 文件名 2. 进入编辑模式 三种方…

深入分析与解决4.3问题:iOS应用版本更新审核被拒原因解析

深入分析与解决4.3问题:iOS应用版本更新审核被拒原因解析 在iOS应用开发和发布过程中,遇到4.3问题(设计 - 垃圾邮件)是一个常见且令人头疼的情况。即使您的应用已成功发布其第一个版本,但在进行版本更新时&#xff0c…

【React Hooks原理 - useState】

概述 useState赋予了Function Component状态管理的能力,可以让你在不编写 class 的情况下使用 state 。其本质上就是一类特殊的函数,它们约定以 use 开头。本文从源码出发,一步一步看看useState是如何实现以及工作的。 基础使用 function …

数据结构day6链式队列

主程序 #include "fun.h" int main(int argc, const char *argv[]) { que_p Qcreate(); enqueue(Q,10); enqueue(Q,20); enqueue(Q,30); enqueue(Q,40); enqueue(Q,50); show_que(Q); dequeue(Q); show_que(Q); printf(&qu…

小程序复制功能不可用 setClipboardData:fail no permission

先上图 用户协议剪切板也更新但是依旧报错了 最后在公众平台通知里发现是用户之前小程序有规格被封禁了该功能

【常见开源库的二次开发】基于openssl的加密与解密——openssl认识与配置(一)

目录: 目录: 一、什么是openssl? 二、所需要具备的开发工具 三、Windows上编译OpenSSL3.0 四、Linux编译openssl3.0 一、什么是openssl? OpenSSL 是一个开源的软件库,它提供了一系列加密工具和协议,主要用…

apple watch程序出错 Cannot launch apps while in nightstand mode

开发的时候运行apple watch程序出错: ailure Reason: The request was denied by service delegate (IOSSHLMainWorkspace) for reason: Busy ("Cannot launch apps while in nightstand mode"). 这是因为: 将Apple Watch放在充电器上并直立…

Python 处理文件的读写操作

Python 提供了丰富的文件读写操作,可以轻松处理文本文件和二进制文件。以下是关于 Python 文件读写操作的详细讲解,包括打开文件、读取文件、写入文件、文件指针操作、文件关闭和异常处理等方面。 一、文件的打开和关闭 在对文件进行读写操作之前&…

喜讯|华院计算法律大模型入围《2024大模型典型示范应用案例集》

2024年世界人工智能大会(WAIC)举办期间,中国信通院正式发布了《2024大模型典型示范应用案例集》(以下简称《案例集》)。该案例集由中国信通院华东分院、上海人工智能实验室主导,以产业化为导向,…

探索IP形象设计:快速掌握设计要点

随着市场竞争的加剧,越来越多的企业开始关注品牌形象的塑造和推广。在品牌形象中,知识产权形象设计是非常重要的方面。在智能和互联网的趋势下,未来的知识产权形象设计可能会更加关注数字和社交网络。通过数字技术和社交媒体平台,…

Java 中的泛型(超全详解)

一、泛型概述 1. 什么是泛型?为什么要使用泛型? 泛型,即“参数化类型”。一提到参数,最熟悉的就是定义方法时有形参列表,普通方法的形参列表中,每个形参的数据类型是确定的,而变量是一个参数。在…

VS2022 git拉取/推送代码错误

第一步:打开VS2022 第二步:工具->选项->源代码管理->Git 全局设置 第三步:加密网络提供程序设置为:OpenSSL 完结:

函数式接口、匿名内部类、lambda表达式

一、函数式接口 只有一个抽象方法的接口叫函数式接口,不能有两个,也不能有方法实现。 FunctionalInterface注解标记,在idea中可以用这个注解验证是不是函数式接口。实现函数式接口可以转成lambda表达式。 二、匿名内部类 匿名内部类的格式&a…

Java面试八股之Redis单线程为什么性能高

Redis单线程为什么性能高 1.内存数据库特性 要点:Redis是一个内存数据库,其数据主要存储在内存中,而非磁盘。内存访问的速度远超磁盘,通常可达纳秒级别,这使得Redis在处理数据时几乎不受I/O瓶颈的影响。由于数据操作…

Python31 自然语言处理NLP之NLTK的使用

1.关于自然语言处理NLP 自然语言处理NLP是人工智能和计算机科学的一个子领域,专注于计算机与人类(自然)语言之间的互动。其目的是使计算机能够理解、解释和生成人类语言。NLP 涉及语言学、计算机科学和人工智能的多学科交叉,通过…

SAP与税控系统集成案例

一、项目背景 重庆润通控股有限公司成立于2007年,是一家集合汽柴油动力及终端、摩托车、储能电源、汽车零部件、金融服务等产业的多元化集团公司。 大量订单数据导致订单业务会很复杂,为提供订单完成质量,引入税控系统服务商进行订单开票…

实战精选 | 如何在一台 Linux AI PC 上高效运行 OpenVINO™

点击蓝字 关注我们 作者:Adrian Boguszewski,英特尔 AI 软件布道师 武卓博士,英特尔 AI 软件布道师 什么是 AI PC,为什么它有一个特殊的名字? AI PC 是时下 PC 领域的一个热门话题。与普通 PC 不同,AI PC 配…

linux 0.11 中的重要的全局变量

通过对全局变量的了解,也有助于了解整个代码的逻辑。就跟学习类一样,了解类有哪些成员变量,也有助于了解类的成员函数的功能。 (1)内存初始化相关 static u_char mem_map [ PAGING_PAGES ] { 0 , } .本数组对 1M 以外…

JavaSE 面向对象程序设计进阶 IO 练习读取多个对象

练习读取多个对象 用序列化流将对象写入文件 import java.io.*; import java.nio.charset.Charset;public class Main {public static void main(String[] args) throws IOException, ClassNotFoundException {//序列化多个对象Person p1new Person("多多", 男,20)…

动手学深度学习(Pytorch版)代码实践 -循环神经网络-57长短期记忆网络(LSTM)

57长短期记忆网络(LSTM) 1.LSTM原理 LSTM是专为解决标准RNN的长时依赖问题而设计的。标准RNN在训练过程中,随着时间步的增加,梯度可能会消失或爆炸,导致模型难以学习和记忆长时间间隔的信息。LSTM通过引入一组称为门…