阿里发布大模型发布图结构长文本处理智能体,超越GPT-4-128k

随着大语言模型的发展,处理长文本的能力成为了一个重要挑战。虽然有许多方法试图解决这个问题,但都存在不同程度的局限性。最近,阿里巴巴的研究团队提出了一个名为GraphReader的新方法,通过将长文本组织成图结构,并利用智能体来探索这个图,成功提升了模型处理长文本的能力。

GraphReader的核心思想是将长文本分解成关键元素和原子事实,构建成一个图,然后让智能体在这个图中探索和推理。这种方法不仅能有效处理超长文本,还在多跳问答等复杂任务上取得了优异表现。与目前主流的长文本处理方法相比,GraphReader展现出更强的扩展性和鲁棒性。

这个创新方法为大语言模型处理长文本开辟了新的思路,有望在各种需要长文本理解的应用场景中发挥重要作用。接下来,让我们一起深入了解GraphReader的原理和优势。

图片

论文标题:

GraphReader: Building Graph-based Agent to Enhance Long-Context Abilities of Large Language Models

论文链接:

https://arxiv.org/pdf/2406.14550

长文本处理的机遇与挑战

随着人工智能技术的快速发展,大语言模型在各种自然语言处理任务中展现出惊人的能力。然而,处理长文本仍然是一个棘手的问题。现有的方法往往受限于固定的上下文窗口大小,难以有效处理超长文本或需要多步推理的复杂任务。

目前,解决长文本处理问题的方法主要包括模型层面的优化、检索增强生成(RAG)和基于智能体的方法。但这些方法都存在各自的局限性,如需要大量计算资源、难以捕捉长距离依赖关系,或在处理极长文本时效果下降。

面对这些挑战,阿里巴巴的研究团队提出了GraphReader方法。GraphReader通过将长文本组织成图结构,并利用智能体在图中探索,成功提升了模型处理长文本的能力。在LV-Eval数据集上,GraphReader在各种长度的文本(从16k到256k tokens)上都显著优于其他方法,包括GPT-4-128k。特别是在处理256k tokens长度的文本时,GraphReader仍然保持了较高的性能,而其他方法的性能则大幅下降。

图片

GraphReader为长文本处理提供了创新思路,通过智能组织信息和探索策略,有效突破了传统方法的限制。它不仅能处理超长文本,还在复杂的多跳问答任务中表现出色,为大模型处理长文本提供了一种新的方法。

GraphReader:图结构与智能体的完美结合

GraphReader方法的核心在于将长文本转化为图结构,并通过智能体在图中进行探索。GraphReader整体的流程如下图所示,整体可以分为图构建与图探索:

图片

这个过程始于图的构建。首先将长文本分割成最大长度为  的块,保留段落结构。对每个块,GraphReader提取原子事实和关键元素。

  • 原子事实是最小的、不可分割的事实单元,以简洁的句子形式呈现。

  • 关键元素则包括重要的名词、动词和形容词。

图片

构建完图后,GraphReader初始化智能体来探索这个图。

图片

  1. 智能体首先根据问题制定一个理性计划,这个计划会分步骤解析问题,确定需要收集的关键信息。

  2. 然后,智能体从所有节点中选择最相关的N个节点作为起点。

下图展示了智能体的探索过程,它会探索原子事实、文本块和相邻节点,不断更新笔记本中的信息。这个过程通过一系列预定义的函数来实现,如 read_chunkstop_and_read_neighborsearch_more 等。

图片

在探索过程中,智能体采用粗到细的策略,先阅读原子事实,再根据需要阅读原始文本块。当智能体探索原子事实时,它可以选择 read_chunk 函数来读取相关的文本块,或者选择 stop_and_read_neighbor 函数来探索相邻节点。

最后,GraphReader根据笔记本中记录的信息进行推理,生成最终的答案。这个过程结合了多路径探索的结果,能够处理复杂的多跳问题。智能体会分析每条探索路径的笔记本内容,考虑其他笔记中的补充信息,并使用多数投票策略解决任何不一致,最终综合所有可用信息生成答案。

图片

通过这种方法,GraphReader能够在有限的上下文窗口内灵活地处理长文本和复杂推理任务。它不仅能有效捕捉长距离依赖关系,还能在多跳问答等任务上展现出优异的性能。

GraphReader的长文本处理结果

GraphReader在多个实验中展现出了卓越的性能,证明了它在处理长文本和复杂推理任务方面的强大能力。

首先,在多跳问答任务上,GraphReader表现出色。在HotpotQA、2WikiMultihopQA和MuSiQue这三个数据集上,GraphReader均取得了最佳性能。特别值得注意的是,GraphReader仅使用4k的上下文窗口,就超越了包括GPT-4-128k在内的所有基线方法。例如,在HotpotQA数据集上,GraphReader的LR-1和LR-2评分分别达到84.3%和89.7%,而GPT-4-128k的评分为83.3%和88.3%。这一结果充分证明了GraphReader在处理复杂推理任务时的优势。

图片

在单跳长文本问答任务上,GraphReader同样表现优异。在NarrativeQA数据集上,GraphReader的LR-1和LR-2评分分别为65.0%和80.0%,显著高于其他方法。这证明了GraphReader不仅在多跳任务上有优势,在处理长文本的单跳问题上也表现出色。

GraphReader在超长文本处理上展现出较好的表现。在HotpotWikiQA-mixup数据集上,GraphReader在从16k到256k不同长度的文本上都保持了优异的性能。特别是在256k长度的文本上,GraphReader的LR-1和LR-2评分分别为30.0%和38.0%,而GPT-4-128k的评分仅为14.0%和16.0%。

图片

下图进一步展示了GraphReader在不同文本长度下的支持事实召回率。可以看到,随着文本长度的增加,所有方法的召回率都有所下降,但GraphReader的下降幅度最小。在256k长度的文本上,GraphReader仍然保持约60%的召回率,而其他方法的召回率大幅下降。

图片

为了深入理解GraphReader的工作机制,研究团队还进行了详细的功能调用分析和图结构统计。在不同类型的任务中,GraphReader会采用不同的功能调用模式。例如,在多跳问答任务中,读取相邻节点是最常用的操作,而在单跳问答任务中,读取文本块是最频繁的操作。这种灵活的调用策略使GraphReader能够适应不同类型的问题。

图片

下表展示了构建的图结构统计数据。可以看到,随着文本长度的增加,图中的节点数和原子事实数也相应增加。平均每个节点有约10个相邻节点,每个节点平均关联2个原子事实。这种结构使得GraphReader能够有效地组织和利用长文本中的信息。

图片

总的来说,这些实验结果充分证明了GraphReader在处理长文本和复杂推理任务方面的卓越能力。它不仅在各种长度的文本上都表现出色,而且在多跳和单跳问答任务中都展现出了显著的优势。GraphReader的这种"魔法"般的表现,为长文本处理领域带来了新的可能性。

GraphReader的潜力与未来方向

GraphReader为长文本处理开辟了一条创新之路。通过将长文本组织成图结构,并利用智能体进行探索,它成功突破了传统方法的限制。实验结果表明,GraphReader不仅能处理超长文本,还在复杂的多跳问答任务上表现出色,甚至超越了GPT-4-128k等强大模型。

尽管取得了显著成果,GraphReader仍有进一步改进的空间。未来的研究方向可以包括:优化图的构建和探索过程以提高效率;验证GraphReader在其他长文本处理任务中的效果;探索与其他先进自然语言处理技术的结合;以及开发开源版本以促进更广泛的应用和改进。

总的来说,GraphReader为解决长文本处理这一关键挑战提供了一个有前景的解决方案。随着进一步的研究和优化,它有望在各种需要长文本理解的应用场景中发挥重要作用,推动自然语言处理技术的进一步发展。

图片

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/787427.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《RWKV》论文笔记

原文出处 [2305.13048] RWKV: Reinventing RNNs for the Transformer Era (arxiv.org) 原文笔记 What RWKV(RawKuv):Reinventing RNNs for the Transformer Era 本文贡献如下: 提出了 RWKV 网络架构,结合了RNNS 和Transformer 的优点,同…

【GC 垃圾回收算法和回收器】

作者:ofLJli 链接:https://juejin.cn/post/7003213289425633287?searchId20240709085629749958B21D886D4E67D4 来源:稀土掘金 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 概述 在JVM中主要的结构为&…

工作助手VB开发笔记(1)

1.思路 1.1 样式 样式为常驻前台的一个小窗口,小窗口上有三到四个按钮,为一级功能,是当前工作内容的常用功能窗口,有十个二级窗口,为选中窗口时的扩展选项,有若干后台功能,可选中至前台 可最…

C++入门基础(1)

因为6月中旬学校事情多,许久未更新,让我们继续学习吧! 目录 前言: 一、命名空间: 1、定义: 2、使用: 3、访问命名空间域: 二、C输入、输出函数: 1、输入函数: 2、输出…

【正点原子i.MX93开发板试用连载体验】项目计划和开箱体验

本文最早发表于电子发烧友:【   】【正点原子i.MX93开发板试用连载体验】基于深度学习的语音本地控制 - 正点原子学习小组 - 电子技术论坛 - 广受欢迎的专业电子论坛! (elecfans.com)https://bbs.elecfans.com/jishu_2438354_1_1.html 有一段时间没有参加电子发…

入门PHP就来我这(高级)19 ~ 捕获sql错误

有胆量你就来跟着路老师卷起来! -- 纯干货,技术知识分享 路老师给大家分享PHP语言的知识了,旨在想让大家入门PHP,并深入了解PHP语言。 接着上篇我们来看下sql错误的捕获模式。 1 PDO中捕获SQL语句中的错误 在PDO中有3种方法可以捕…

【前端从入门到精通:第十二课: JS运算符及分支结构】

JavaScript运算符 算数运算符 关于自增自减运算 自增或者自减运算就是在本身的基础上进行1或者-1的操作 自增或者自减运算符可以在变量前也可以在变量后,但是意义不同 自增自减运算符如果在变量前,是先进行自增或者自减运算,在将变量给别人用…

Python | Leetcode Python题解之第221题最大正方形

题目: 题解: class Solution:def maximalSquare(self, matrix: List[List[str]]) -> int:if len(matrix) 0 or len(matrix[0]) 0:return 0maxSide 0rows, columns len(matrix), len(matrix[0])dp [[0] * columns for _ in range(rows)]for i in…

HumbleBundle7月虚幻捆绑包30件军事题材美术模型沙漠自然环境大逃杀模块化建筑可定制武器包二战现代坦克飞机道具丧尸士兵角色模型20240705

HumbleBundle7月虚幻捆绑包30件军事题材美术模型沙漠自然环境大逃杀模块化建筑可定制武器包二战现代坦克飞机道具丧尸士兵角色模型202407051607 这次HumbleBundle捆绑包是UE虚幻军事题材的,内容非常多。 有军事基地、赛博朋克街区、灌木丛景观环境等 HB捆绑包虚幻…

高,实在是高

go,去 //本义音通义通汉字“高”,指太阳升起、上升,即高上去 god | God,神,上帝 //本义音通义通“高的”,指太阳高高在上的,至高无上的 glad,高兴的 //本义音通义通“高了的”&#…

关于10G光模块中SR, LR, LRM, ER 和 ZR的区别?

在10Gbps(10千兆比特每秒)光模块中,SR、LR、LRM、ER 和 ZR 是用来描述不同类型的模块及其适用的传输距离和光纤类型。下面是这些缩写的详细解释: 1.SR (Short Range) 2.LR (Long Range) 3.LRM (Long Reach Multimode) 4.ER (E…

注解复习(java)

文章目录 注解内置注解**Deprecated**OverrideSuppressWarnings【不建议使用】Funcationallnterface 自定义注解元注解RetentionTargetDocumentedInherited 和 Repeatable 反射注解 前言:笔记基于动力节点 注解 注解可以标注在 类上,属性上&#xff0c…

鸿蒙语言基础类库:【@ohos.util.Deque (线性容器Deque)】

线性容器Deque 说明: 本模块首批接口从API version 8开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 Deque(double ended queue)根据循环队列的数据结构实现,符合先进先出以及先进后出的特点&…

【Stable Diffusion】(基础篇三)—— 关键词和参数设置

提示词和文生图参数设置 本系列笔记主要参考B站nenly同学的视频教程,传送门:B站第一套系统的AI绘画课!零基础学会Stable Diffusion,这绝对是你看过的最容易上手的AI绘画教程 | SD WebUI 保姆级攻略_哔哩哔哩_bilibili 本文主要讲…

深入理解 LXC (Linux Containers)

目录 引言LXC 的定义LXC 的架构LXC 的工作原理LXC 的应用场景LXC 在 CentOS 上的常见命令实验场景模拟总结 1. 引言 在现代 IT 基础设施中,容器技术已经成为一种重要的应用和部署方式。与虚拟机相比,容器具有更高的效率、更轻量的特性和更快的启动速度…

解答 | http和https的区别,谁更好用

TTP(超文本传输协议)和HTTPS(安全超文本传输协议)的主要区别在于安全性和数据传输的方式。 一、区别 1、协议安全性: HTTP:使用明文形式传输数据,不提供数据加密功能,数据在传输过…

用于视频生成的扩散模型

学习自https://lilianweng.github.io/posts/2024-04-12-diffusion-video/ 文章目录 3D UNet和DiTVDMImagen VideoSora 调整图像模型生成视频Make-A-Video(对视频数据微调)Tune-A-VideoGen-1视频 LDMSVD稳定视频扩散 免训练Text2Video-ZeroControlVideo 参…

利用 STM32 实现多协议物联网网关:Modbus/Zigbee 到以太网/Wi-Fi 的数据桥接

摘要: 随着物联网技术的飞速发展,不同通信协议之间的互联互通成为了构建智能化系统的一大挑战。本文将以实战项目为例,详细介绍如何利用 STM32 微控制器实现 Modbus/Zigbee 与以太网/Wi-Fi 之间的协议转换,从而打通传感器数据上传至服务器的“…

源码编译构建LAMP(企业网站架构部署与优化)

部署LAMP平台 LAMV架构是目前成熟的企业网站应用模式之一,指的是协同工作的一整套系统和相关软件,能够提供动态Web站点服务及其应用开发环境。LAMP是一个缩写词,具体包 括 Linux操作系统,Apache网站服务器、MySQL数据库服务器、P…

海南云亿商务咨询有限公司助力品牌快速崛起

在数字化浪潮的推动下,电商行业日新月异,短视频平台更是成为品牌宣传和销售的新宠。海南云亿商务咨询有限公司,作为抖音电商服务的领军者,凭借其专业的团队和丰富的经验,助力众多品牌在抖音平台上实现了快速增长。 一…