谷歌重磅:告别RAG,长上下文的大语言模型无需检索增强

当今人工智能领域正在经历一场静默的革命。随着大语言模型(LLM)的快速发展,它们不仅能够处理更长的上下文,还展现出惊人的推理和检索能力。

难道我们要告别基于LLM的检索增强生成(RAG)了吗?

结果还真是这样,最近谷歌发布专门用于评估长上下文语言模型的LOFT测试基准,该测试基准评估长上下文LLM在各种实际任务中的表现,包括信息检索、问答和数据库查询等。LOFT的测试结果显示,一些最先进的长上下文模型在某些任务上已经达到了与专门训练系统相近的性能水平。

这意味着什么?它可能预示着AI应用的一个新时代的到来。在不久的将来,我们或许只需要一个强大的语言模型,就能完成过去需要多个专门系统才能完成的复杂任务。不过,这项研究同样指出大语言模型存在一些缺陷亟待解决。

论文标题:
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

论文链接:
https://arxiv.org/pdf/2406.13121

AI界的新挑战与机遇

近年来,大型语言模型(LLM)的快速发展为人工智能领域带来了新的机遇和挑战。这些模型展现出惊人的语言理解和生成能力,但如何充分利用它们处理长上下文信息的潜力成为了一个关键问题。

传统上,复杂的AI任务需要多个专门系统协作完成。这类系统通常需要独立的模块来进行信息检索、问答和数据库查询等任务。下图左侧展示了传统的任务处理方式,包含多个模态检索工具和RAG过程。

相比之下,上图右侧展示长上下文语言模型(LCLM)的潜力。LCLM可以直接接收包含文本、图像、音频等多模态信息的整个语料库作为输入。通过"语料库中的上下文"(CiC)提示方法,模型能够在统一的框架内执行各种任务,包括检索、推理和答案生成。这种方法大大简化了流程,并且避免了多个独立系统可能带来的错误累积问题。

然而,评估这些模型的性能并不容易。现有的方法往往局限于特定任务,难以全面测试长上下文模型的能力。为此,研究者提出了LOFT(Long-Context Frontiers)基准测试。

LOFT包含6种任务类型,涵盖35个数据集,横跨文本、视觉和音频多个模态。它能够动态调整上下文长度,从32k到1M个标记,使研究者能系统地评估模型在不同长度上下文中的表现。

LOFT的出现为评估和理解长上下文模型提供了一个标准化平台,为探索这些模型的潜力和局限性提供了重要工具。

LOFT:一个全面的长上下文语言模型评估基准

LOFT(Long-Context Frontiers)基准测试的设计旨在全面评估长上下文语言模型的能力。LOFT包含六大类任务,涵盖35个数据集,横跨文本、视觉和音频多个模态:

  • 文本检索:从大量文档中找出相关内容。

  • 视觉检索:根据文本描述找出相关图像或视频。

  • 音频检索:匹配文本与相应音频。

  • 检索增强生成(RAG):基于检索信息生成答案。

  • SQL类任务:理解自然语言查询并从数据库中提取信息。

  • 多示例上下文学习:从大量示例中学习并完成任务。

LOFT的一个关键特性是其可扩展性。它支持从32k到128k,再到1M个标记的上下文长度,使研究者能够系统地评估模型性能随上下文长度增加的变化。

为了充分发挥长上下文模型的潜力,研究团队提出了"上下文中的语料库"(Corpus-in-Context,CiC)提示方法。CiC提示包含四个主要部分:

  • 指令:为模型提供任务特定的指导。

  • 语料库格式化:将整个语料库直接放入上下文,每个候选项分配唯一ID。

  • 少样本示例:提供几个带有推理链的任务示例。

  • 查询格式化:按照示例格式呈现待评估的查询。

这种方法允许模型直接在给定的大规模语料库中进行检索和推理,简化了任务流程,并充分利用了长上下文模型的能力。

通过这种设计,LOFT不仅提供了一个标准化的评估平台,还为探索长上下文模型在实际应用中的潜力和局限性提供了宝贵的工具。

实验结果:惊喜与挑战并存

LOFT基准测试的结果既展示了长上下文模型的潜力,又揭示了一些挑战。研究团队评估了三个最先进的长上下文模型:Google的Gemini 1.5 Pro、OpenAI的GPT-4o和Anthropic的Claude 3 Opus。这些模型在各种任务上的表现如下表所示:

文本检索任务

在文本检索任务中,Gemini 1.5 Pro的表现尤为出色。在128k上下文长度的测试中,Gemini 1.5 Pro在多个数据集上达到了与专门训练的检索系统Gecko相当的性能。例如,在NQ数据集上,Gemini 1.5 Pro和Gecko都达到了0.99的Recall@1分数,而Gemini 1.5 Pro并没有经过专门的检索训练。

然而,随着上下文长度增加到1M标记,模型性能出现了一定程度的下降。这表明在处理超长上下文时,模型仍面临着挑战。

视觉和音频检索任务

在视觉检索任务中,Gemini 1.5 Pro同样表现出优异的性能表现。其在多个数据集上超越了专门的视觉-文本检索模型CLIP。例如,在OVEN数据集上,Gemini 1.5 Pro达到了0.93的分数,而CLIP只有0.79。

在音频检索任务上,Gemini 1.5 Pro在所有五种语言的FLEURS数据集上都达到了完美或接近完美的表现,超过了专门的音频检索模型。

检索增强生成(RAG)任务

在RAG任务中,长上下文模型展现出了强大的推理能力。在需要多跳推理的数据集(如HotpotQA和MusiQue)上,Gemini 1.5 Pro的表现超过了传统的RAG pipeline。例如,在HotpotQA上,Gemini 1.5 Pro得分为0.75,而专业的RAG系统得分为0.70。

SQL类任务

然而,在SQL类任务中,长上下文模型的表现相对较弱。

在Spider和SparC数据集上,专门的SQL系统的性能显著优于长上下文模型。这表明在处理需要复杂结构化推理的任务时,这些模型还有很大的改进空间。

提示策略的影响

研究还发现,提示策略对模型性能有显著影响。在文本检索任务中,金标准文档在语料库中的位置会影响模型的性能。

将少样本示例的金标准文档放在语料库末尾可以提高模型在该区域的注意力,从而提升整体性能。

多示例上下文学习

在多示例上下文学习任务中,长上下文模型展现出了良好的表现。在某些任务中(如LIB-dialog),模型的性能随着示例数量的增加而稳步提升。

然而,在一些推理密集型任务中(如BBH-tracking7),增加示例数量并未带来显著改善,这表明模型在复杂推理任务上仍有局限性。

总体而言,LOFT的实验结果既展示了长上下文模型的巨大潜力,特别是在检索和多模态任务中,又揭示了它们在处理超长上下文和复杂结构化推理任务时面临的挑战。

总结与展望

长上下文语言模型通过LOFT基准测试,展现出无需检索增强(RAG)的强大能力。这些模型在多项任务中表现卓越,特别是信息检索,预示AI应用可能告别RAG,迎来简化统一的新时代。尽管在处理超长上下文和复杂推理时仍面临挑战,但这一突破标志着向更强大的长上下文模型迈进了重要一步。

未来研究可能会聚焦于改进超长上下文处理技术、增强结构化推理能力、优化提示策略,以及探索与专门系统的结合。LOFT为这些研究方向提供了重要的评估工具。随着技术的不断进步,有望出现更加强大和灵活的AI系统,为各个领域带来革新性的变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/765399.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

贪心算法算法,完全零基础小白教程,不是计算机的都能学会!超详解

目录 一、基本概念 二、举几个例子,便于理解 1、找零问题 2、最小路径和 3、背包问题 1)只考虑体积的贪心策略: 2) 只考虑价值的贪心策略: 三、贪心策略的特点 四、贪心策略证明 四、如何学习贪心 五、例题…

eNSP中WLAN的配置和使用

一、基础配置 1.拓扑图 2.VLAN和IP配置 a.R1 <Huawei>system-view [Huawei]sysname R1 GigabitEthernet 0/0/0 [R1-GigabitEthernet0/0/0]ip address 200.200.200.200 24 b.S1 <Huawei>system-view [Huawei]sysname S1 [S1]vlan 100 [S1-vlan100]vlan 1…

IAR工程目录移动报错(改变文件目录结构)

刚开始用IAR&#xff0c;记录一下。 工作中使用华大单片机&#xff0c;例程的文件目录结构太复杂了想精简一点。 1.如果原本的C文件相对工程文件&#xff08;.eww文件&#xff09;路径变化了&#xff0c;需要先打开工程&#xff0c;再将所有的.c文件右键Add添加进工程&#xf…

PHP7源码结构

PHP7程序的执行过程 1.PHP代码经过词法分析转换为有意义的Token&#xff1b; 2.Token经过语法分析生成AST&#xff08;Abstract Synstract Syntax Tree&#xff0c;抽象语法树&#xff09;&#xff1b; 3.AST生成对应的opcode&#xff0c;被虚拟机执行。 源码结构&#xff1…

昇思25天学习打卡营第14天|CycleGAN图像风格迁移互换

模型介绍 模型简介 CycleGAN(Cycle Generative Adversarial Network) 即循环对抗生成网络&#xff0c;该模型实现了一种在没有配对示例的情况下学习将图像从源域 X 转换到目标域 Y 的方法。 该模型一个重要应用领域是域迁移&#xff0c;它只需要两种域的数据&#xff0c;而不…

2023-2024华为ICT大赛中国区 实践赛网络赛道 全国总决赛 理论部分真题

Part1 数通模块(10题)&#xff1a; 1、如图所示&#xff0c;某园区部署了IPv6进行业务测试&#xff0c;该网络中有4台路由器&#xff0c;运行OSPFv3实现网络的互联互通&#xff0c;以下关于该OSPFv3网络产生的LSA的描述&#xff0c;错误的是哪一项?(单选题) A.R1的LSDB中将存在…

Java高级重点知识点-13-数据结构、List集合、List集合的子类

文章目录 数据结构List集合List的子类&#xff08;ArrayList集、LinkedList集&#xff09; 数据结构 栈 stack,又称堆栈&#xff0c;它是运算受限的线性表&#xff0c;其限制是仅允许在标的一端进行插入和删除操作&#xff0c;不允许在其他任何位置进行添加、查找、删除等操作…

如何下载huggingface仓库里某一个文件

如何下载huggingface仓库里某一个文件&#xff1a; https://huggingface.co/PixArt-alpha/PixArt-Sigma/tree/main 直接用命令&#xff1a; wget https://huggingface.co/PixArt-alpha/PixArt-Sigma/resolve/main/PixArt-Sigma-XL-2-2K-MS.pth

30个!2024重大科学问题、工程技术难题和产业技术问题发布

【SciencePub学术】中国科协自2018年开始&#xff0c;组织开展重大科技问题难题征集发布活动&#xff0c;引导广大科技工作者紧跟世界科技发展大势&#xff0c;聚焦国家重大需求&#xff0c;开展原创性、引领性研究&#xff0c;不断夯实高质量发展的科技支撑。 自2024年征集活动…

南京林业大学点云相关团队论文

【1】Chen Dong, Wan Lincheng, Hu Fan, Li Jing, Chen Yanming, Shen Yueqian*, Peethambaran Jiju, 2024. Semantic-aware room-level indoor modeling from point clouds, International Journal of Applied Earth Observation and Geoinformation, 2024, 127, 103685. 语义…

QT5 static_cast实现显示类型转换

QT5 static_cast实现显示类型转换&#xff0c;解决信号重载情况

一款十六进制编辑器,你的瑞士军刀!!【送源码】

软件介绍 ImHex是一款功能强大的十六进制编辑器&#xff0c;专为逆向工程师、程序员以及夜间工作的用户设计。它不仅提供了基础的二进制数据编辑功能&#xff0c;还集成了一系列高级特性&#xff0c;使其成为分析和修改二进制文件的理想工具。 功能特点 专为逆向工程、编程和夜…

【AI】Image Inpainting

学习参考摘抄来自&#xff1a;大模型修复徐克经典武侠片&#xff0c;「全损画质」变4K&#xff0c;还原林青霞40年前绝世美貌 火山引擎多媒体实验室 &#xff08;1&#xff09;清晰度 去噪、去压缩、去模糊、超分辨率、人像增强 &#xff08;2&#xff09;流畅度 智能插帧算…

3.js - 纹理的重复、偏移、修改中心点、旋转

你瞅啥 上字母 // ts-nocheck // 引入three.js import * as THREE from three // 导入轨道控制器 import { OrbitControls } from three/examples/jsm/controls/OrbitControls // 导入lil.gui import { GUI } from three/examples/jsm/libs/lil-gui.module.min.js // 导入twee…

补浏览器环境

一&#xff0c;导言 // global是node中的关键字&#xff08;全局变量&#xff09;&#xff0c;在node中调用其中的元素时&#xff0c;可以直接引用&#xff0c;不用加global前缀&#xff0c;和浏览器中的window类似&#xff1b;在浏览器中可能会使用window前缀&#xff1a;win…

Latex写作工具整理(Overleaf)

一、公式&#xff08;MathType&#xff09; 先用MathType编辑好公式&#xff0c;再粘贴到Overleaf 预置-剪切和复制预置-选择“MathML或Tex"-确定 1.行内公式 粘贴到overleaf里面把两侧的" \["替换成"$" $ A $ 2.单行公式 \begin{equation}\labe…

Mysql并发控制和日志

文章目录 一、并发控制锁机制事务&#xff08;transactions&#xff09;事务隔离级别 二、日志事务日志错误日志通用日志慢查询日志二进制日志 备份在线查看二进制离线查看二进制日志 一、并发控制 锁机制 锁类型&#xff1a; 读锁&#xff1a;共享锁&#xff0c;也称为 S 锁…

方法种类的详解

1.有参无返回值 会出现在什么场景呢&#xff1f;比如我现在需要得到两个数&#xff08;哪里调用&#xff0c;哪里就给我&#xff09;&#xff0c;求和打印或者是打印三个数之和。 语法&#xff1a; 定义的语法&#xff1a; 修饰符 返回类型 方法名&#xff08;形参数1类型 …

[22] Opencv_CUDA应用之 使用背景相减法进行对象跟踪

Opencv_CUDA应用之 使用背景相减法进行对象跟踪 背景相减法是在一系列视频帧中将前景对象从背景中分离出来的过程&#xff0c;它广泛应用于对象检测和跟踪应用中去除背景 背景相减法分四步进行&#xff1a;图像预处理 -> 背景建模 -> 检测前景 -> 数据验证 预处理去除…

【Excel操作】Python Pandas判断Excel单元格中数值是否为空

判断Excel单元格中数值是为空&#xff0c;主要有下面两种方法&#xff1a; 1. pandas.isnull 2. pandas.isna判断Excel不为空&#xff0c;也有下面两种方法&#xff1a; 1. pandas.notna 2. pandas.notnull假设有这样一张Excel的表格 我们来识别出为空的单元格 import panda…