【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入

【大语言模型】ACL2024论文-29 答案即所需:通过回答问题实现指令跟随的文本嵌入


目录

文章目录

    • 目录
      • 文章信息
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
      • 实验效果
      • 推荐阅读指数:★★★★☆
    • 后记


文章信息

答案即所需:通过回答问题实现指令跟随的文本嵌入
https://arxiv.org/abs/2402.09642
在这里插入图片描述

摘要

本研究旨在构建一个能够根据用户指令捕捉文本特征的文本嵌入模型。以往的方法未能提供具体的解决方案来实现用户导向的嵌入。本文提出了一个新的视角,将指令视为关于输入文本的问题,并编码预期答案以获得相应的表示。我们提出的INBEDDER模型通过在抽象式问答任务上微调语言模型来实现这一理念,并在大型语言模型(LLMs)和较小的编码器基础语言模型上展示了显著改善的指令跟随能力。此外,我们通过对相同语料库应用不同指令进行聚类分析的定性分析,展示了模型的高可解释性。
在这里插入图片描述

研究背景

文本嵌入在大规模文本数据分析和管理中扮演着关键角色。尽管现有模型在一般文本表示上表现出色,但它们缺乏解决用户特定目标的能力。这种局限性阻碍了它们在更复杂场景中的应用,特别是在需要模型表示文本特定特征的嵌入任务中。为了解决这一问题,本文尝试赋予文本嵌入模型指令跟随的能力。

问题与挑战

现有文本嵌入模型通常设计为通用,旨在捕捉文本的整体含义,而不是遵循特定指令。此外,现有的多任务对比目标训练的模型也无法保证能够泛化到新指令,因为训练指令的多样性受限于人类编写的指令集。因此,如何构建一个能够理解和遵循用户指令的文本嵌入模型是一个挑战。

如何解决

我们提出了一种新颖的观点,将指令视为关于输入文本的问题,并编码预期的答案。具体来说,使用指令化的输入作为生成语言模型的提示,我们认为生成的答案可以直接用于模拟不同指令下的语义相似性。为了支持这一假设,我们通过实验观察了现有指令调整的大型语言模型(LLMs)的隐藏状态,并发现与生成答案相对应的隐藏状态比从提示中派生的隐藏状态显示出更好的指令意识。

创新点

  1. 提出了INBEDDER框架,通过学习回答用户问题来处理文本嵌入的指令跟随问题。
  2. 提供了一套全面的评估方法,包括指令意识测试和指令鲁棒性测试,直观地反映了模型的指令跟随能力。
  3. 提出了从嵌入聚类中提取解释的方法,展示了这些解释进一步反映了指令跟随能力。

算法模型

INBEDDER框架与大型语言模型(LLMs)和较小的编码器基础语言模型(如RoBERTa)兼容。具体来说,INBEDDER在11个抽象问答(QA)数据集的并集上微调语言模型,这些数据集包含了约200,000个段落-问题-答案三元组,其中答案通常简短且信息丰富。为了促进模型学习(隐含)语义,我们特别选择了抽象问答,因为答案不能直接提取。我们通过去除所有停用词进一步简化了答案,使得平均答案长度为2.89。

实验效果

  • 在指令意识测试中,INBEDDER在不同模型大小上均表现出色,从355M的roberta-large到1.3/2.7b的OPT和7b的llama-2。
  • 在指令鲁棒性测试中,INBEDDER显示出更好的对正确或隐含指令的理解,并具有更大的对错误指令的鲁棒性。
  • 在传统的通用句子嵌入任务中,INBEDDER与最先进的嵌入模型E5和Instructor相比,表现出接近的性能。

推荐阅读指数:★★★★☆


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/942717.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

模型的量化(Quantization)

文章目录 一、浮点数格式:FP64, FP32, FP16, BFLOAT16, TF32之间的相互区别1、关于浮点数2、常见的浮点数格式 二、量化(Quantization)1、基本概念2、量化的实现8bit量化4bit量化 三、QLora四、大语言模型量化方法对比:GPTQ、GGUF…

10. zynq应用开发--camke编译

使用SDK工具 如果只做 Linux 应用开发,只需要一个 sdk.sh 文件即可,可以脱离 Petalinux 和 Vitis,也可以编译其三方的应用,可以说一劳永逸。 配置根文件系统 petalinux-config -c rootfs 编译SDK petalinux-build --sdk Linux主…

CSS学习记录20

CSS 3D 转换 通过CSS transform 属性,您可以使用以下3D转换方法: rotateX()rotateY()rotateZ() rotateX() 方法 rotateX() 方法使元素绕其X轴旋转给定角度: #myDiv {transform: rotateX(150deg); } rotateY() 方法 rotateY() 方法使元…

开发微信小程序的过程与心得

起因 作为家长,我近期参与了学校的护学岗工作。在这个过程中,我发现需要使用水印相机来记录护学活动,但市面上大多数水印相机应用都要求开通会员才能使用完整功能。作为一名程序员,我决定利用自己的技术背景,开发一个…

【论文笔记】Visual Alignment Pre-training for Sign Language Translation

🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: Visual Alignment Pre-tra…

数据可视化echarts学习笔记

目录,介绍 知识储备 一端操作,多端联动的效果(开启了多个网页,操作一端,多个网页的效果会跟着改变) cmd命令控制面板返回上一级或上上级 在当前目录打开文件: cd 文件名 在Windows命令提示符&am…

踏踏实实练SQLday1-1连续登录

踏踏实实练SQLday1 1连续登录1.1查询连续登录3天以上的用户第一步去重第二步-开窗rownumber,用date减一下,对结果进行分组 -- over()开窗函数知识图谱第三步 1.2查询连续登录最大天数用户1.3某个用户连续登录天数注意先where一下这个用户的数据过滤出来.…

Vue开发环境搭建上篇:安装NVM和NPM(cpnm、pnpm)

文章目录 引言I 安装NVM1.1 Windows系统安装NVM,实现Node.js多版本管理1.2 配置下载镜像1.3 NVM常用操作命令II NPM永久使用淘宝源安装 cnpm安装pnpm【推荐】see also: vscode常用插件引言 淘宝镜像:http://npm.taobao.org 和 http://registry.npm.taobao.org 已在 2022.06.3…

数据仓库工具箱—读书笔记02(Kimball维度建模技术概述03、维度表技术基础)

Kimball维度建模技术概述 记录一下读《数据仓库工具箱》时的思考,摘录一些书中关于维度建模比较重要的思想与大家分享🤣🤣🤣 第二章前言部分作者提到:技术的介绍应该通过涵盖各种行业的熟悉的用例展开(赞同…

Postman接口测试02|执行接口测试、全局变量和环境变量、接口关联、动态参数、断言

目录 五、Postman 1、安装 2、postman的界面介绍 六、Postman执行接口测试 1、请求页签 3、响应页签 七、Postman的环境变量和全局变量 1、创建环境变量和全局变量可以解决的问题 2、postman中的操作 八、接口关联 1、第一种方式:Json提取器 2、第二种方…

Oracle 日常巡检

1. 检查服务器状态 1.1. CPU使用情况 1.1.1. top top 命令是 Linux 和 Unix 系统中用于显示实时系统状态的工具,特别是对于监控 CPU 和内存的使用非常有用。 在命令行中输入 top,top 会显示一个实时更新的界面,其中包含系统的关键指标&am…

计算机组成原理的学习笔记(8)-- 指令系统·其一 指令的组成以及数据寻址方式

学习笔记 前言 ​ 本文主要是对于b站尚硅谷的计算机组成原理的学习笔记,仅用于学习交流。 1. 指令 1.1 组成 操作码(Opcode):指指令中执行特定操作的部分。地址码:指令中用于指定操作数位置的部分。 1.2 扩展操作…

JavaScript 标准内置对象——Array

1、构造函数 2、静态方法 // 从可迭代或类数组对象创建一个新的浅拷贝的数组实例 // arrayLike 想要转换成数组的类数组或可迭代对象 Array.from(arrayLike, mapFn, thisArg) Array.fromAsync(arrayLike, mapFn, thisArg) // 异步Array.isArray(value) // 判断传递的值是否是一…

IndexOf Apache Web For Liunx索引服务器部署及应用

Apache HTTP Server 是一款广泛使用的开源网页服务器软件,它支持多种协议,包括 HTTP、HTTPS、FTP 等 IndexOf 功能通常指的是在一个目录中自动生成一个索引页面的能力,这个页面会列出该目录下所有的文件和子目录。比如网上经常看到的下图展现的效果,那么接下来我们就讲一下…

【PSINS】EKF、UKF、CKF三个滤波下的组合导航(松组合)对比

该 MATLAB 代码实现了扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)和无迹卡尔曼滤波的变体(CKF)的对比,主要用于导航与定位领域,通过处理惯性测量单元(IMU)和GP…

PPT画图——如何设置导致图片为600dpi

winr,输入regedit打开注册表 按路径找,HKEY_CURRENT_USER\Software\Microsoft\Office\XX.0\PowerPoint\Options(xx为版本号,16.0 or 15.0或则其他)。名称命名:ExportBitmapResolution 保存即可,…

Linux复习4——shell与文本处理

认识vim编辑器 #基本语法格式: vim 文件名 •如果文件存在,进入编辑状态对其进行编辑 •如果文件不存在,创建文件并进入编辑状态 例: [rootlocalhosttest]# vim practice.txt #Vim 编辑器三种模式: 命令模式&a…

Gmsh有限元网格剖分(Python)---点、直线、平面的移动

Gmsh有限元网格剖分(Python)—点、直线、平面的移动和旋转 最近在学习有限元的网格剖分算法,主要还是要参考老外的开源Gmsh库进行,写一些博客记录下学习过程,方便以后回忆嘞。 Gmsh的官方英文文档可以参考:gmsh.pdf 但咋就说&a…

【Linux】基础I/O -> 如何谈文件与文件系统?

文件的基础理解 空文件也要在磁盘上占据空间。文件 文件内容文件属性。文件操作 对内容的操作 对属性的操作或者是对内容和属性的操作。标定一个文件,必须使用:文件路径 文件名(具有唯一性)。如果没有指明对应的文件路径&…

python+reportlab创建PDF文件

目录 字体导入 画布写入 创建画布对象 写入文本内容 写入图片内容 新增页 画线 表格 保存 模板写入 创建模板对象 段落及样式 表格及样式 画框 图片 页眉页脚 添加图形 构建pdf文件 reportlab库支持创建包含文本、图像、图形和表格的复杂PDF文档。 安装&…