【Arxiv 大模型最新进展】PEAR: 零额外推理开销,提升RAG性能!(★AI最前线★)

【Arxiv 大模型最新进展】PEAR: 零额外推理开销,提升RAG性能!(★AI最前线★)


🌟 嗨,你好,我是 青松 !

🌈 自小刺头深草里,而今渐觉出蓬蒿。


NLP Github 项目推荐:

  • 【AI 藏经阁】:https://gitee.com/fasterai/ai-e-book

    介绍:该仓库主要分享了数百本 AI 领域电子书

  • 【AI 算法面经】:fasterai/nlp-interview-handbook#面经

    介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器

  • 【大模型(LLMs)面试笔记】:https://gitee.com/fasterai/nlp-interview-handbook

    介绍:该仓库汇总了 NLP 算法工程师高频面题,适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间,不错过金三银四涨薪窗口,迅速收获心仪的Offer 🎉🎉🎉


文章目录

  • PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead
      • 定位抑制头
      • 重加权系数学习
      • 实验结果


PEAR: Position-Embedding-Agnostic Attention Re-weighting Enhances Retrieval-Augmented Generation with Zero Inference Overhead

作者Tao Tan, Yining Qian, Ang Lv, Hongzhan Lin, Songhao Wu, Yongbo Wang, Feng Wang, Jingtong Wu, Xin Lu, Rui Yan

单位Gaoling School of Artificial Intelligence, Renmin University of China, Southeast University, Ant Group

下图给出此文的整体逻辑框架。首先,对文章进行一句话总结,然后简要介绍研究内容、研究动机、技术动机、解决方案以及优势与潜力,以便读者快速了解文章脉络。

本文研究的是如何在RAG任务中提升模型对上下文的感知能力。现有增强上下文感知的方法存在效率低下、推理时产生时间或内存开销,且很多方法针对特定位置嵌入等问题。研究发现部分注意力头会抑制上下文信息流动,影响 LLMs 的上下文感知能力,因此本文提出了PEAR方法,通过削弱这种抑制机制,提高 RAG 任务的性能。该方法首先定位上下文感知抑制头,然后对这些抑制头的输出乘以可学习的系数来削弱其影响。

具体地,PEAR方法分为两个阶段,定位抑制头和重加权系数学习,以下是详细介绍。

定位抑制头

  1. 任务输入

对于每个输入样本,创建一个长度为 n n n 的序列 { x 1 , . . . , x n } \{{x_1,...,x_n}\} {x1,...,xn},其中 x i x_i xi 是从词汇表中随机采样的标记。然后将此序列重复,得到输入样本 { x 1 , . . . , x 2 n } \{x_1,...,x_{2n}\} {x1,...,x2n},其中 x i = x i + n ( i ∈ [ 1 , n ] ) x_i = x_{i+n} (i \in [1, n]) xi=xi+n(i[1,n]) 。若在位置 n + i + 1 n + i + 1 n+i+1 时,输出logits最高的标记是 x i x_i xi ,则认为模型成功执行了代理任务。

注:这是因为在语义无意义的上下文中,模型倾向于检查序列中的最后几个标记是否先前出现过,并复制它们最后一次出现的后一个Token作为输出。这种处理倾向使得模型在面对这种重复的输入结构时,能够尝试按照这种模式进行预测。

  1. 抑制头定位

构建输入序列,沿着序列维度平均每个注意力头的输出得到一个平均向量作为干预向量,然后替换正常运行的 A n − 1 ( l , h ) A_{n - 1}^{(l,h)} An1(l,h) ,这个过程视为削弱该头的影响,如图1所示。

接下来计算指标为logits差异,对于第 l l l 层的第 h h h 个注意力头,计算:
Δ π ( l , h ) = π ~ 2 n ( l , h ) [ x n − 1 ] π 2 n [ x n − 1 ] − 1 \Delta\pi^{(l,h)}=\frac{\tilde{\pi}_{2n}^{(l,h)}[x_{n - 1}]}{\pi_{2n}[x_{n - 1}]}-1 Δπ(l,h)=π2n[xn1]π~2n(l,h)[xn1]1
,其中 π 2 n [ x n − 1 ] \pi_{2n}[x_{n - 1}] π2n[xn1] 是正常运行时位置 2 n 2n 2n 选择 x n − 1 x_{n - 1} xn1 的logits, π ~ 2 n ( l , h ) [ x n − 1 ] \tilde{\pi}_{2n}^{(l,h)}[x_{n - 1}] π~2n(l,h)[xn1] 是干预 A ( l , h ) A^{(l,h)} A(l,h) 后的logits。该指标值越高,表明 A ( l , Λ ) A^{(l,\Lambda)} A(l,Λ) 的抑制效果越强。使用不同的 n n n 值重复实验取平均值以减轻上下文长度的偏差,最后将前 K K K 个最负面影响的头确定为抑制头

重加权系数学习

在标准的多注意力头机制中,所有注意力头的输出以相等的权重聚合。本文提出将抑制头集合中的每个头的输出乘以一个可学习的标量,称为重新加权系数,以削弱抑制头的影响,如图2所示。

为了优化这些重新加权系数,冻结LLM的原始参数,仅训练加权系数以最小化代理任务上的损失。损失仅在序列的后半部分计算,即 L = − ∑ i = n 2 n − 1 l o g ( p ( x i + 1 ∣ x 1 : i ) ) \mathcal{L}=-\sum_{i=n}^{2n - 1}log(p(x_{i + 1}|x_{1:i})) L=i=n2n1log(p(xi+1x1:i)),目的是增强基于上下文的检索能力而非预测下一个标记。
在下游RAG任务中,重新加权系数与任务无关且保持固定。对于每个LLM,只需通过代理任务对抑制头进行一次优化。因此,PEAR在下游RAG任务的推理过程中引入零额外开销。此外,重新加权系数的学习与LLM架构无关,使该方法与各种位置编码算法兼容。

实验结果

在不同RAG任务上的表现如图3所示,推理时间对比如图4所示,表明本方法在引入零额外开销的情况下提升了RAG任务的性能。

图5是PEAR方法在不同位置编码上的表现,表明PEAR独立于位置编码,适配于各种模型结构。


  • 原文链接: https://arxiv.org/pdf/2409.19745

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/971919.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

vscode的一些实用操作

1. 焦点切换(比如主要用到使用快捷键在编辑区和终端区进行切换操作) 2. 跳转行号 使用ctrl g,然后输入指定的文件内容,即可跳转到相应位置。 使用ctrl p,然后输入指定的行号,回车即可跳转到相应行号位置。

OAI 平台 4G(LTE)基站 、终端、核心网 端到端部署实践(一)

本系列文章,基于OAI LTE代码搭建端到端运行环境,包含 eNB,EPC,UE三个网元。本小节先介绍系统总体架构,硬件平台及驱动安装方法。 1. Overview 系统总体架构如下图所示。 2 Machine setup 2.1 Machine specs Distributor ID: Ubuntu Description: Ubuntu 18.04.5 LTS…

Linux环境Docker使用代理推拉镜像

闲扯几句 不知不觉已经2月中了,1个半月忙得没写博客,这篇其实很早就想写了(可追溯到Docker刚刚无法拉镜像的时候),由于工作和生活上的事比较多又在备考软考架构,拖了好久…… 简单记录下怎么做的&#xf…

基于TI的TDA4高速信号仿真条件的理解 4.6

Application Note 《Jacinto7 AM6x, TDA4x, and DRA8x High-Speed Interface Design Guidelines》 4.6 Reviewing Simulation Results检查仿真结果 The results generated by the channel simulations outlined in the preceding sections are compared against an eye mask s…

unity学习46:反向动力学IK

目录 1 正向动力学和反向动力学 1.1 正向动力学 1.2 反向动力学 1.3 实现目标 2 实现反向动力 2.1 先定义一个目标 2.2 动画层layer,需要加 IK pass 2.3 增加头部朝向代码 2.3.1 专门的IK方法 OnAnimatorIK(int layerIndex){} 2.3.2 增加朝向代码 2.4 …

DeepSeek 和 ChatGPT 在特定任务中的表现:逻辑推理与创意生成

🎁个人主页:我们的五年 🔍系列专栏:Linux网络编程 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 ​ Linux网络编程笔记: https://blog.cs…

DAY07 Collection、Iterator、泛型、数据结构

学习目标 能够说出集合与数组的区别数组:1.是引用数据类型的一种2.可以存储多个元素3.数组的长度是固定的 int[] arr1 new int[10]; int[] arr2 {1,2,3};4.数组即可以存储基本类型的数据,又可以存储引用数据类型的数据int[],double[],String[],Student[]集合:1.是引用数据类…

ls命令的全面参数解析与详尽使用指南

目录 ls 命令的所有参数及含义 ls -a 命令详解 ls -A 命令详解 ls -b 命令详解 ls -C 命令详解 ls -d 命令详解 ls -f 命令详解 ls -F 命令详解 ls -G 命令详解 ls -h 命令详解 ls -H 命令详解 ls -i 命令详解 ls -I 命令详解 ls -l 命令详解 ls -L 命令详解 l…

【Spring+MyBatis】_图书管理系统(中篇)

【SpringMyBatis】_图书管理系统(上篇)-CSDN博客文章浏览阅读654次,点赞4次,收藏7次。(1)当前页的内容records(类型为List);参数:userNameadmin&&pas…

动态规划算法篇:枚举的艺术

那么本篇文章就正式进入了动态规划的算法的学习,那么动态规划算法也可谓是算法内容中的一座大山,那么在大厂算法笔试乃至算法比赛中出现的频率也逐渐变高,那么可见学习好动态规划算法的一个重要性,那么对于动态规划最难理解的&…

算法——舞蹈链算法

一,基本概念 算法简介 舞蹈链算法(Dancing Links,简称 DLX)是一种高效解决精确覆盖问题的算法,实际上是一种数据结构,可以用来实现 X算法,以解决精确覆盖问题。由高德纳(Donald E.…

翻转硬币(思维题,巧用bitset)

0翻转硬币 - 蓝桥云课 #include <bits/stdc.h> using namespace std; bitset<200000001> t; int main() {int n;cin>>n;int ans1;t[1]1;int totn-1;for(int i2;i<n;i){if(t[i]) continue;int ji;ans;while(j<n){t[j]!t[j];if(t[j]) tot--;else tot;ji;…

网络安全等级保护测评(等保测评):全面指南与准备要点

等保测评&#xff0c;全称为“网络安全等级保护测评”&#xff0c;是根据《网络安全法》及《网络安全等级保护条例》等法律法规&#xff0c;对信息系统进行安全等级划分&#xff0c;并依据不同等级的安全保护要求&#xff0c;采用科学方法和技术手段&#xff0c;全面评估信息系…

blackbox.ai 一站式AI代理 畅享顶级模型

最近Deepseek火遍大江南北&#xff0c;一夜之间到处都能看到有人在体验AI技术。然而这也带来了一些困难&#xff1a;由于服务器压力过大&#xff0c;ds开始使用了一些限流的措施。 实际上这只是针对免费用户的限制手段&#xff0c;通过API付费方式的用户并没有这样的限制。所以…

ERP对制造业务有何价值?

ERP 的定义 在定义 ERP 之前&#xff0c;我们先从其首字母缩写说起&#xff0c;ERP 代表企业资源规划。我们可以将 ERP 定义为一种企业软件&#xff0c;它帮助组织管理日常业务。从根本上讲&#xff0c;ERP 将客户管理、人力资源、商业智能、财务管理、库存以及供应链功能整合…

(新版本onenet)stm32+esp8266/01s mqtt连接onenet上报温湿度和远程控制(含小程序)

物联网实践教程&#xff1a;微信小程序结合OneNET平台MQTT实现STM32单片机远程智能控制 远程上报和接收数据——汇总 前言 之前在学校获得了一个新玩意&#xff1a;ESP-01sWIFI模块&#xff0c;去搜了一下这个小东西很有玩点&#xff0c;远程控制LED啥的&#xff0c;然后我就想…

详解 本机安装多个MySQL服务【为后续大数据量分库分表奠定基础,以mysql8.0为例,附有图文】

本机安装多个mysql 在电脑上新建mysql8文件夹&#xff0c;然后在mysql8文件下新建mysql3391文件夹。然后找到自己原本mysql的安装目录&#xff0c;我的是E:\software\mysql\one&#xff0c;如图所示&#xff1a; 将次目录下的所有文件全选复制粘贴在mysql3391文件夹下。 然后…

组学数据分析实操系列 |(四) 富集气泡图的绘制

前言:在上一篇中&#xff0c;我们介绍了利用Metascape零代码实现富集分析&#xff0c;但是Metascape的富集分析结果是以柱状图的形式展示的。文章中更常使用的富集结果可视化方式是气泡图。气泡图可以通过气泡的坐标、形状、颜色、大小等来展示更加丰富的富集分析结果&#xff…

浏览器开发者工具(F12)查看请求的响应体内容显示”无法加载响应数据: No resource with given identifier found“

背景 复习在 SSM&#xff08;Spring Spring MVC MyBatis&#xff09;框架中&#xff0c;点击登录请求后返回 JSON 格式的数据&#xff0c;出现只有登录失败的请求才有响应值&#xff0c;比如&#xff1a; {success: false, message: “没有此用户”, code: 400} 而成功的请求…

Deepseek 万能提问公式:高效获取精准答案

### **Deepseek 万能提问公式&#xff1a;高效获取精准答案** 在使用 Deepseek 或其他 AI 工具时&#xff0c;提问的质量直接决定了答案的精准度和实用性。以下是一个万能的提问公式回答&#xff1a; --- ### **1. 明确背景&#xff08;Context&#xff09;** - **作用**…