谷歌DeepMind发布Gecko:专攻检索,与大7倍模型相抗衡

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


Gecko 是一种通用的文本嵌入模型,可用于训练包括文档检索、语义相似度和分类等各种任务。

文本嵌入模型在自然语言处理中扮演着重要角色,为各种文本相关任务提供了强大的语义表示和计算能力。

在语义表示上,文本嵌入模型将文本转换为高维向量空间中的向量表示,其中语义上相似的文本在向量空间中距离较近,从而捕捉了文本的语义信息,这种表示有助于计算机更好地理解和处理自然语言;在文本相似度计算上,基于文本嵌入的向量表示,可以轻松地计算文本之间的相似度,从而支持各种应用,如信息检索、问答系统和推荐系统;在信息检索上,文本嵌入模型可以用于改善信息检索系统,通过将查询与文档嵌入进行比较,找到最相关的文档或段落;在文本分类和聚类上,通过将文本嵌入到向量空间中,可以进行文本分类和聚类任务。

不同于以往,最近的研究重点不是为每个下游任务构建单独的嵌入模型,而是寻求创建支持多个任务的通用嵌入模型。

然而,通用文本嵌入模型面临这样一个挑战:这些模型需要大量的训练数据才能全面覆盖所需的领域,研究主要集中在使用大量的训练示例来解决所面临的挑战。

LLM 的出现提供了一种强大的替代方案,因为 LLM 包含跨各个领域的大量知识,并且被认为是出色的小样本学习者。最近的研究已经证明了使用 LLM 进行合成数据生成的有效性,但重点主要是增强现有的人类标记数据或提高特定领域的性能。

这就促使研究者开始审视这一问题:我们可以在多大程度上直接利用 LLM 来改进文本嵌入模型。

为了回答这一问题,本文来自谷歌 DeepMind 的研究者提出了 Gecko,这是一种从 LLM 中蒸馏出来的多功能文本嵌入模型,其在 LLM 生成的合成数据集 FRet 上进行训练,并由 LLM 提供支持。

通过将 LLM 的知识进行提炼,然后融入到检索器中,Gecko 实现了强大的检索性能。在大规模文本嵌入基准(MTEB,Massive Text Embedding Benchmark)上,具有 256 个嵌入维度的 Gecko 优于具有 768 个嵌入尺寸的现有模型。具有 768 个嵌入维度的 Gecko 的平均得分为 66.31,在与 7 倍大的模型和 5 倍高维嵌入进行比较时,取得了相竞争的结果。

图片

  • 论文地址:https://arxiv.org/pdf/2403.20327.pdf

  • 论文标题:Gecko: Versatile Text Embeddings Distilled from Large Language Models

方法介绍

Gecko 是一个基于 1.2B 参数预训练的 Transformer 语言模型,该模型经历了两个额外的训练阶段:预微调和微调。

图片

预微调

该研究使用两个预微调数据集。首先是使用 Ni 等人提出的大规模社区 QA 数据集,该数据集包括来自在线论坛和 QA 网站的文本对。接下来,研究者从 Web 上抓取标题 - 正文文本对,这些文本对可以从网站上获得。

对大量无监督文本对进行预微调已被证明可以提高小型双编码器在各种下游任务中的性能,包括文档检索和语义相似性 。预微调阶段的目标是让模型接触大量的文本多样性,这对于训练紧凑型文本嵌入模型是必要的。

FRet :两步蒸馏

使用 LLM 生成 FRet 的两阶段方法。一般来讲,训练嵌入模型的传统方法依赖于大型的、手动标记的数据集。然而,创建此类数据集既耗时又昂贵,并且常常会导致不良偏差和缺乏多样性。在这项工作中,本文提出了一种生成合成数据来训练多任务文本嵌入模型的新方法,该方法通过两步蒸馏可以全面利用 LLM 掌握的知识。生成 FRet 的整体流程如图 2 所示:

图片

统一微调混合

接下来,本文将 FRet 与其他学术训练数据集以相同的格式结合起来:任务描述、输入查询、正向段落(或目标)和负向段落(或干扰项),从而创建一种新颖的微调混合。然后,本文使用这种混合与标准损失函数来训练嵌入模型 Gecko。

除了 FRet 之外,学术训练数据集包括:Natural Questions 、HotpotQA、FEVER、MedMCQA、MedMCQA、SNLI、MNLI 以及来自 Huggingface 的几个分类数据集。对于多语言模型,本文添加了来自 MIRACL 的训练集。所有数据集都经过预处理,具有统一的编码格式,包含任务描述、查询、正向段落和负向段落。

实验

该研究在 MTEB 基准上评估了 Gecko。表 1 总结了 Gecko 和其他基线的比较结果。

Gecko 在每个文本嵌入任务上都显著超越了所有类似大小的基线模型(<= 1k 嵌入尺寸,<= 5B 参数)。与 text-embedding-3-large-256(OpenAI)、GTR 和 Instructor 研究相比,Gecko-1b-256 性能更好。Gecko-1b-768 通常可以匹配或超过更大模型的性能,包括 text-embedding-3-large (OpenAI)、E5-mistral、GRit 和 Echo 嵌入。值得注意的是,这些模型都使用 3-4k 嵌入维度并且参数均超过 7B。此外,该研究还观察到 Gecko 在分类、STS 和摘要方面达到了新的 SOTA 水平。

图片

多语言检索结果。表 2 总结了 Gecko 和其他基线在 MTEB 上的性能比较。

图片

表 3 总结了不同的标记策略用于 FRet 的结果,实验过程中使用了不同的正样本和负样本段落。从结果可以发现使用 LLM 选择的最相关段落总是优于使用原始段落。表 5 也说明了这种情况经常发生。

图片

图片

FRet 提供了对多种任务的查询结果,包括问答、搜索结果、事实检查和句子相似度。表 4 测试了 FRet 的多样性如何影响 MTEB 中任务之间的模型泛化性。首先,该研究使用来自特定任务(例如,FRet 问答)的 30 万个数据来训练各个模型。此外,研究者还使用原始采样分布或均匀采样分布从所有四个任务中抽取的 300k 样本(每个任务 75k;FRet-all-task)来训练模型。观察到 FRet-all-tasks 模型的卓越性能,特别是当任务被均匀采样时。该研究还发现统一格式显著影响嵌入的质量,因为它有助于模型更好地分离不同的任务。

表 4 的最后几行展示了 Gecko 如何学习更好的语义相似性和分类。

图片

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/526732.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript(三)-Web APIS

文章目录 DOM事件进阶事件流事件流与两个阶段说明事件捕获事件冒泡阻止冒泡解绑事件 事件委托其他事件页面加载事件元素滚动事件页面尺寸事件 元素尺寸与位置 DOM事件进阶 事件流 什么是事件流 事件流指的是事件完整执行过程中的流动路径 事件流与两个阶段说明 捕获与冒泡 …

正确使用@Autowired

目录 一、前言二、跟着官方文档&#xff0c;学习正确使用Autowired0、实验环境1、通过构造方法进行注入1.1 问题1&#xff1a;那万一没有这个CustomerPreferenceDao对象&#xff0c;会报错吗&#xff1f; 2、通过setter方法注入3、通过方法注入&#xff08;这个方法可以是任意名…

iOS 开发中上传 IPA 文件的方法(无需 Mac 电脑

引言 在 iOS 开发中&#xff0c;将 IPA 文件上传到苹果开发者中心是一个重要的步骤。通常情况下&#xff0c;我们需要使用 Mac 电脑上的 Xcode 或 Application Loader 工具来完成这个任务。然而&#xff0c;如果你没有 Mac 电脑&#xff0c;也没有关系&#xff0c;本文将介绍一…

【安全工具】信息收集——ENScan_GO

1.初次使用 运行命令生成配置文件 ./enscan -v 2.配置cookie 参考介绍 wgpsec/ENScan_GO: 一款基于各大企业信息API的工具&#xff0c;解决在遇到的各种针对国内企业信息收集难题。一键收集控股公司ICP备案、APP、小程序、微信公众号等信息聚合导出。 (github.com) 3.友情提…

element-ui 在Popover弹框中使用Select选择器,Vue3

bug描述&#xff1a; 当选择完select的时候,popover也会退出。 解决&#xff1a; popover组件的的关闭是当点击组件外的元素时会关闭&#xff0c;select虽然是写在组件内的&#xff0c;但是select有一个默认属性teleported“true” 会把它默认插到 body 元素&#xff0c;我…

JavaScript模块化开发的前世今生

一个兜兜转转&#xff0c;从“北深”回到三线城市的小码农&#xff0c;热爱生活&#xff0c;热爱技术&#xff0c;在这里和大家分享一个技术人员的点点滴滴。欢迎大家关注我的微信公众号&#xff1a;果冻想 前言 现代化的编程语言&#xff0c;基本都支持模块化的开发&#xff…

嵌入式会越来越卷吗?

当谈及嵌入式系统时&#xff0c;我们探究的不仅是一种科技&#xff0c;更是一个日益多元与普及的趋势。嵌入式系统&#xff0c;作为一种融入更大系统中的计算机硬件和软件&#xff0c;旨在执行特定功能或任务。但这个看似特定的系统概念&#xff0c;却在发展中展现出了惊人的灵…

C++设计模式:观察者模式(三)

1、定义与动机 观察者模式定义&#xff1a;定义对象间的一种1对多&#xff08;变化&#xff09;的依赖关系&#xff0c;以便当一个对象&#xff08;Subject&#xff09;的状态发生比改变时&#xff0c;所有依赖于它的对象都得到通知并且自动更新 再软件构建过程中&#xff0c…

(文章复现)基于改进秃鹰算法的微电网群经济优化调度研究

参考文献&#xff1a; [1]周辉,张玉,肖烈禧,等.基于改进秃鹰算法的微电网群经济优化调度研究[J].太阳能学报,2024,45(02):328-335. 1.基本原理 微电网群由3个独立的微电网(microgrid , MG)组成,各微电网内部包含光伏(photovoltaic , PV)、风力发电机(windturbine,WT)、电动汽…

h5 笔记3 多媒体素材运用

关于电影编码 我们经常用扩展名来判断文件的类型&#xff0c;但是对于影音文件未必适用&#xff0c;影音文件的文件格式(container)和编码(codec)之间并非绝对相关。决定影音文件播放的关键在于浏览器是否含有适合的影音编解码技术。 笔记来源&#xff1a; ©《HTML5CSS3J…

机器学习笔记 - 深度学习遇到超大图像怎么办?使用 xT 对极大图像进行建模论文简读

作为计算机视觉研究人员,在处理大图像时,避免不了受到硬件的限制,毕竟大图像已经不再罕见,手机的相机和绕地球运行的卫星上的相机可以拍摄如此超大的照片,遇到超大图像的时候,我们当前最好的模型和硬件都会达到极限。 所以通常我们在处理大图像时会做出两个次优选择之一:…

Centos 7 安装通过yum安装google浏览器

在CentOS 7上使用yum安装Google Chrome浏览器稍微复杂一些&#xff0c;因为Chrome并不直接包含在默认的Yum仓库中。按照以下步骤来操作&#xff1a; 1、添加Google Chrome仓库 首先&#xff0c;您需要手动添加Google Chrome的Yum仓库。打开终端&#xff0c;并使用文本编辑器&a…

物联网实战--驱动篇之(四)LoRa应用(modbus)

目录 一、前言 二、板级收发 三、主机请求 四、从机接收及回复 五、主机接收 一、前言 之前两篇分别介绍了modbus和sx1278的驱动&#xff0c;但是都并未具体讲解如何应用&#xff0c;那么这一篇就把两者结合起来&#xff0c;做个小demo&#xff0c;便于理解这两个驱动的使…

2005-2023年各省国内生产总值指数分季度数据

2005-2023年各省国内生产总值指数分季度数据 1、时间&#xff1a;2005-2023年 2、来源&#xff1a;国家统计局、各省统计局 3、指标&#xff1a;地区生产总值指数(上年同期100)_累计值(%) 4、范围&#xff1a;31省 5、时间跨度&#xff1a;季度 6、缺失情况&#xff1a;无…

20240325-1-HMM

HMM 直观理解 马尔可夫链&#xff08;英语&#xff1a;Markov chain&#xff09;&#xff0c;又称离散时间马尔可夫链&#xff08;discrete-time Markov chain&#xff0c;缩写为DTMC&#xff09;&#xff0c;因俄国数学家安德烈马尔可夫&#xff08;俄语&#xff1a;Андре…

Ubuntu 20.04.06 PCL C++学习记录(十六)

[TOC]PCL中点云分割模块的学习 学习背景 参考书籍&#xff1a;《点云库PCL从入门到精通》以及官方代码PCL官方代码链接,&#xff0c;PCL版本为1.10.0&#xff0c;CMake版本为3.16 学习内容 用一组点云数据做简单的平面的分割 源代码及所用函数 源代码 #include<iostr…

Linux 内核:线程的实现

在linux中的线程是轻量级线程&#xff08;Light-Weight-process&#xff0c;LWP&#xff09; 文章目录 线程概念线程实现 线程概念 线程分类 用户级线程内核级线程&#xff0c;没有用户空间&#xff0c;完全工作在内核中&#xff08;下图中没有[]的就是用户级线程&#xff09…

跨服务器迁移nextcloud数据

背景 阿里云最近做活动,99一年的2U2G的服务器,比我原来的1U1G的服务器不知道高到哪里去了,于是决定迁移服务器数据到另一台主机上。原先的计划是直接做一个自定义镜像,然后复制到另一台主机就行,结果发现旧主机是aliyunOS,新主机不想踩这个坑了,决定换成乌班图,因此决定重新搭…

大模型基础知识 - 语言模型及其演进

开场白 人工智能发展到现在&#xff0c;在2个重要领域取得了重大突破&#xff0c;有望达到人类水平&#xff1a; 计算机视觉 &#xff08;Computer Vision, CV&#xff09;-> 希望机器帮助人类处理图像数据自然语言处理&#xff08;Natural Language Processing, NLP&…

基于R语言lavaan结构方程模型(SEM)实践技术应用

原文链接&#xff1a;基于R语言lavaan结构方程模型&#xff08;SEM&#xff09;实践技术应用https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247596681&idx4&sn08753dd4d3e7bc492d750c0f06bba1b2&chksmfa823b6ecdf5b278ca0b94213391b5a222d1776743609cd…