Elasticsearch:向量搜索的优势 — 以及 IT 领导者需要它来改善搜索体验的 5 个原因

作者:Evan Castle

与谷歌和亚马逊等高质量搜索引擎的频繁互动提高了客户对快速且相关搜索的期望。 向量搜索(也称为语义向量搜索)利用深度学习和机器学习来捕获数据的含义和上下文。

向量搜索的好处

向量搜索可以增强公司的搜索体验并带来广泛的好处,包括:

  • 以更少的努力向你的用户提供高度相关的结果
  • 即使数据量大且多样化,也能快速返回搜索结果
  • 启用新类别的文本、图像和音频搜索
  • 直接向客户提供更准确的产品推荐、常见问题解答,甚至个性化服务

对于技术领导者,请了解有关向量搜索的更多信息以及它如何帮助你不仅满足而且超越客户的期望。 它可以帮助改变你的搜索体验并帮助你实现业务目标。

那么,什么是向量搜索?

向量搜索将文本、音频和图像转换为数字表示,并利用深度学习和机器学习 (ML) 来解释这些表示的含义、意图和上下文,以提供更相关的搜索结果。

语义向量搜索启动新的搜索类别

无论我们如何编写搜索查询,我们都期望获得高度相关的搜索结果。 但即使是抽象的关键字搜索仍然需要高度的自然语言理解和极快的响应时间。 除此之外,人们还渴望获得更广泛的搜索体验 —— 从视觉购物的图像搜索、Amazon Alexa 等音频搜索,或者 Pinterest 等应用内视觉推荐 —— 很明显,搜索需要适应我们寻找事物的方式。

语义向量搜索技术更能理解人类语言,可以解释不同的数据格式,如视觉、音频和非结构化文本。 它充当非结构化数据和用户意图(不仅仅是他们的关键字)解释之间的桥梁,以提供不仅满足甚至可能超出预期的强大体验。

Elastic 是一个功能丰富的环境,用于创建各种搜索解决方案。 将语义搜索方面结合到解决方案中的能力是搜索发展的关键,而 Elastic 在这方面处于有利位置。

- Prem Malhotra,思科 ML/AI 和搜索总监

Elasticsearch Relevance Engine™ - Build Generative AI search engines and applications | Elastic

向量搜索可以推动实际收入

向量搜索已被广泛用于提高相关性、促进销售和增加收入。

Spotify 如何利用向量搜索

Spotify 并不总是对播客(podcasts)使用向量搜索。 不久前,Spotify 主要依赖关键词术语匹配。 此搜索方法将返回包含其索引元数据中具有查询关键字的所有内容的结果。 但用户并不总是准确地输入他们想要的内容。 他们通常不知道使用哪些术语或以非常不同的方式表达自己。

通过匹配语义相关的结果,向量搜索使 Spotify 能够以更少的精力提供更相关的内容,而不需要精确的单词匹配。 例如,搜索 “electric cars climate impact” 现在会返回 “electric cars and ecology” 或 “environmental impact of electric vehicles” 的结果。 语义向量搜索可以识别术语 “climate” 和 “ecology” 或 “electric car” 和“electric vehicle” 的相似性,而不需要搜索工程师或用户做任何事情。

Home Depot 如何通过语义向量搜索提供更相关的搜索结果

家得宝 (Home Depot) 拥有超过 200 万种产品的库存清单,其中包括高度专业化的工具。 客户很难找到合适的工具来满足他们的需求,这常常导致多次尝试和挫折,并增加了家得宝的回报。 实施语义向量搜索使他们能够通过组合向量和文本搜索向客户提供更相关的结果。

例如,当客户搜索关键字 “roofing supplies” 时,它也会返回木瓦 (shingles)。 这使得家得宝搜索团队不再需要将创意产品描述、区域差异和拼写错误的关键字加载到搜索索引中。

详细了解自然语言处理 (NLP),即向量搜索背后的技术。

无论你的公司规模如何,都可以实施向量搜索

向量搜索可用于广泛的用例。 无论你的公司规模大小或拥有多少数据,如果你使用正确的工具,向量搜索都可以帮助你改善搜索体验。 使用向量搜索可以帮助你实现:

更好的相关性以推动更好的参与

向用户提供更有用的结果可以提高你网站和应用程序的参与度。 当单词可能具有多种含义或不明确时,基于关键字的搜索效果不佳。 即使在非常大的数据集上,语义向量搜索也能提供更精确的结果。 它利用语义搜索技术返回相关结果,即使用户不知道确切的关键字也是如此。

即使在大数据量上也能实现更快的性能

向量搜索可以与传统搜索评分相结合,以获得更好的搜索体验。 即使在更大的数据集上,这也能更快地提供更相关的结果。 最近邻和近似最近邻等算法利用有效的方法来处理和排序大量文档以进行搜索查询。

扩展搜索类别

使用向量搜索引擎(称为向量数据库、语义或余弦搜索)启用图像或音频等新型搜索。 例如,电子商务企业可以允许网站访问者上传裙子等产品的图片并搜索类似的商品。 这为一些购物者创造了参与度和更简单的搜索方式。

假设一名员工正在寻找领导力课程。 通过 Elastic Enterprise Search 中的向量搜索,我们可以更好地了解用户的意图,并返回针对其行业、组织和角色量身定制的课程。

- Jon Ducrou,Go1 工程高级副总裁

语义向量搜索解释搜索的上下文、意图和含义,因此你的客户无需

语义向量搜索通过确定查询的意图、含义和上下文来实现更大的相关性。 这是通过将搜索查询转换为有意义的数字表示或向量来完成的,将其与数据集进行比较以测量相似性并找到最相关的结果。 为了做出明智的决策,技术领导者需要对向量搜索有高水平的技术理解,需要了解三个组成部分。

  1. 通过向量嵌入将文本转换为数字:任何算法都需要数字才能工作。 向量将关键字文本转换为捕获文本语言内容的数字数据。 例如,两个广泛使用的模型 —— Word2Vec 和 BERT —— 是通过分析大量语言数据样本创建的,以了解单词共现的频率和单词之间的关系。 因此,“Canada” 的向量可能在一个方向上接近 “France”,而在另一个方向上接近 “Toronto”。 这些模型使我们能够将关键字、句子或段落转换为可以比较的向量嵌入。
  2. 使用更好的搜索算法更快地搜索:向量搜索的另一个重要组成部分是高性能算法,即使在比较数十亿个文档时也可以快速比较并返回相关结果。 这可以包括近似最近邻 (ANN),它是邻近搜索的一种形式,用于查找给定集合中与给定查询最接近(最相似)的结果。 人工神经网络高效运行,可扩展到大型数据集,同时保持性能。 为了提高查询速度,会生成一个图表来导航所有数据点并将向量快速映射到最相似的匹配结果。
  3. 使用距离度量发现相似的结果:向量可以为每个关键字分配一组不同的坐标,通过测量搜索词出现在一起的距离来评估查询和文档之间的相似性。 向量之间的距离越短,内容越相似。 余弦相似度等度量用于确定两个数字和向量序列之间的相似度,以返回最相似的结果。

如何快速获得向量搜索引擎的所有优势

虽然某些解决方案可能承诺增强搜索体验,但 Elastic 被誉为搜索驱动技术的领导者。 我们的客户能够使用 Elastic 平台快速体验到好处,并通过向量搜索等新的创新功能不断完善他们的搜索体验。

为什么使用 Elastic 进行向量搜索?

在 Elastic,我们提供了一个简单的部署路径来实施矢量搜索和混合搜索,以便你可以立即开始增强你的搜索体验。 这是因为我们的向量搜索结合了多种搜索相关性的方法,为你提供 Elastic 的所有优势(性能、简单性和定制)以及向量搜索的强大功能。

你可以部署向量搜索来解决搜索体验中的最大差距。

Elastic 对大量文档的查询性能更快。 为了提高查询速度,Elastic 使用生成的图表来导航所有数据点并将向量快速映射到最相似的匹配结果。 这种向量相似性搜索方法使用称为分层可导航小世界 (HNSW) 的 ANN 算法。 为了加速查询性能,支持多层 HNSW,使你可以更快地遍历图形。 新层优化了查询路由,因为每个附加的较高层具有较少的数据点,需要在较大距离的数据点之间进行较少的跳数才能找到最近的邻居。

Elastic 提供了简单、集成的端到端解决方案。 正如我们之前讨论的,语义向量搜索需要输入向量嵌入来确定相似性。 大多数解决方案需要外部过程来生成向量嵌入,例如,对于可能是深度神经网络但不是 Elastic 的文本。 Elastic 向量搜索的优势在于创建对向量嵌入的支持非常容易。

这是通过密集向量字段类型实现的,该类型存储浮点值的密集向量,可用于通过 Elastics kNN 搜索 API 快速查找相似结果。 这简化了实现并允许你更轻松地生成向量。 团队可以立即体验到价值。 此外,你还可以利用 Elastic 作为向量进行分发、计算和扩展,从而提高性能并降低成本。

Elastic 按你的方式工作 — 根据你的需求进行定制。 Elastic 支持 PyTorch,它使你可以完全控制部署自己的模型。 你可以根据你的特定需求或行业对其进行定制,以提供竞争优势。 Elastic 还通过 HuggingFace 提供开箱即用的模型,作为快速启动选项,利用不断增长的领先语言模型社区。

更好的搜索对你的业务有好处

不断增长的客户需求使得提供出色的搜索体验成为必须。 幸运的是,语义向量搜索是一种进化技术,可以提供卓越的搜索体验。 无论是新类型的搜索、更快的结果、更高的相关性还是个性化 — Elastic 都可以帮助你交付。 要继续你的旅程,请使用我们的技术博客了解如何通过向量搜索真正产生影响。

原文: The benefits of vector search — and 5 reasons IT leaders need it to improve search experiences | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/223315.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RobotFramework编写用例,在Jenkins上如何实现用例的并发运行?

我们了解RobotFramework编写自动化测试用例的方法,了解如何将用例在Jenkins上运行。 但是,随着用例的增多,传统的pybot/robot命令运行测试用例会耗费大量的时间,这就慢慢成为了一个苦恼的问题。 那么,在Jenkins上如何…

基于深度学习CRNN的水表读数识别系统

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 随着科技的不断发展,深度学习技术在各个领域都取得了显著的成果。其中,基于深度学习的图像识别技术在计算机视觉领域具有重要的应用价值。…

249:vue+openlayers 坐标转地址,点击后在弹窗显示

第249个 点击查看专栏目录 本示例是演示如何在vue+openlayers项目中点击某点,转化经纬度坐标为地址信息,弹窗显示。 通过点击地图,获取到经纬度坐标,然后通过调取mapbox的地址转换API,将经纬度坐标转化为地址信息,通过overlay的方式,在弹窗中展示出来。 直接复制下面的…

11.机器人系统仿真搭建gazebo环境、仿真深度相机、雷达、RGB相机

目录 1 gazebo仿真环境搭建 1.1 直接添加内置组件创建仿真环境 1.2 urdf、gazebo、rviz的综合应用 2 ROS_control 2.1 运动控制实现流程(Gazebo) 2.1.1 已经创建完毕的机器人模型,编写一个单独的 xacro 文件,为机器人模型添加传动装置以及控制器 …

阿里大佬讲解的接口自动化测试框架pytest系列——pluggy插件源码解读:hook钩子函数调用执行过程分析

经过pluggy源码解读系列1-4的分析,已经完成插件定义、spec定义,插件注册等环节,下面就到了调用插件执行了,即hook钩子函数是如何被调用执行的,下面还是先把pluggy使用的代码放下面: import pluggy# Hooksp…

Esxi6.0 安装web管理界面

安装6.0之后默认是vSphere Client进行远程连接,需要安装客户端,不是太方便。搜索发现还真可以实现web管理,步骤如下: 1、开启esxi的ssh,步骤如下图: 2、下载升级包esxui-signed-7119706.vib,上…

Linux 环境下,jdbc连接mysql问题

1. 下载MySQL的JDBC驱动: 从MySQL官网下载最新的MySQL Connector/J,并将其解压到某个目录,比如/usr/local/mysql/。 2. 将JDBC驱动添加到类路径: 将JDBC驱动添加到类路径,可以使用以下命令: export CLA…

gmid方法设计五管OTA二级远放

首先给出第一级是OTA,第二级是CS的二级运放电路图: gmid的设计方法可以根据GBW、Av、CL来进行电路设计,因此在设计电路之前需要以上的参数要求。 1、为了满足电路的相位裕度至少60,需要对GBW、主极点、零点进行分析。 首先给出其…

解决npm install时报:gyp ERR! configure error

报错内容: npm ERR! gyp ERR! cwd C:\Users\zccbbg\code\my\examvue\node_modules\node-sass npm ERR! gyp ERR! node -v v16.13.1 npm ERR! gyp ERR! node-gyp -v v3.8.0 npm ERR! gyp ERR! not ok npm ERR! Build failed with error code: 1 解决办法:…

Jmeter接口测试 —— jmeter对图片验证码的处理

jmeter对图片验证码的处理 在web端的登录接口经常会有图片验证码的输入,而且每次登录时图片验证码都是随机的;当通过jmeter做接口登录的时候要对图片验证码进行识别出图片中的字段,然后再登录接口中使用; 通过jmeter对图片验证码…

一对一聊天

1.创建包 1.服务界面 package yiduiy;import java.awt.BorderLayout; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; import java.uti…

OkGo导入失败解决办法

jcenter()maven { url "https://jitpack.io" }再同步就可以了

LeetCode Hot100 207.课程表

题目: 你这个学期必须选修 numCourses 门课程,记为 0 到 numCourses - 1 。 在选修某些课程之前需要一些先修课程。 先修课程按数组 prerequisites 给出,其中 prerequisites[i] [ai, bi] ,表示如果要学习课程 ai 则 必须 先学习…

docker:安装mysql以及最佳实践

文章目录 1、拉取镜像2、运行容器3、进入容器方式一方式二方式三容器进入后连接mysql和在宿主机连接mysql的区别 持久化数据持久化数据最佳实践 1、拉取镜像 docker pull mysql2、运行容器 docker run -d -p 3307:3306 --name mysql-container -e MYSQL_ROOT_PASSWORD123456 …

antdesign前端一直加载不出来

antdesign前端一直加载不出来 报错:Module “./querystring” does not exist in container. while loading “./querystring” from webpack/container/reference/mf at mf-va_remoteEntry.js:751:11 解决方案:Error: Module “xxx“ does not exist …

分布式锁常见实现方案

分布式锁常见实现方案 基于 Redis 实现分布式锁 如何基于 Redis 实现一个最简易的分布式锁? 不论是本地锁还是分布式锁,核心都在于“互斥”。 在 Redis 中, SETNX 命令是可以帮助我们实现互斥。SETNX 即 SET if Not eXists (对应 Java 中…

【开源】基于Vue+SpringBoot的用户画像活动推荐系统

项目编号: S 061 ,文末获取源码。 \color{red}{项目编号:S061,文末获取源码。} 项目编号:S061,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 兴趣标签模块2.3 活…

马尔科夫决策过程(Markov Decision Process)揭秘

RL基本框架、MDP概念 MDP是强化学习的基础。MDP能建模一系列真实世界的问题,它在形式上描述了强化学习的框架。RL的交互过程就是通过MDP表示的。RL中Agent对Environment做出一个动作(Action),Environment给Agent一个反馈&#xff…

Ubuntu安装过程记录

软件准备 硬件 Acer电脑,AMD a6-440m芯片 64g优盘一个,实际就用了不到5g。 Ubuntu :官网 下载Ubuntu桌面系统 | Ubuntu 下载桌面版Ubuntu 22.04.3 LTS LTS属于稳定版 u盘系统盘制作软件 Rufus :Rufus - 轻松创建 USB 启动…

【编程基础心法】「创建模式系列」让我们一起来学编程界的“兵法”设计模式(工厂模式)

【编程基础心法】「创建模式系列」让我们一起来学编程界的“兵法”设计模式(工厂模式) 设计模式之间的千丝万缕工厂模式简单工厂方法简单工厂定义多方法模式多个静态方法模式简单工厂模式的问题 工厂方法模式定义工厂抽象接口工厂方法存在的问题 抽象工厂…