Elastic Search 8.13: 为开发者简化嵌入和排名

作者:来自 Elastic Alvin Richards, Ranjana Devaji

Elasticsearch 8.13 扩展了能力,使开发者能够利用人工智能和机器学习模型创建快速和卓越的搜索体验。与 Apache Lucene 9.10 集成,测量向量搜索性能在基准测试中超过 2 倍,扩展了可以在几乎实时执行的搜索的复杂性。我们增加了原生的 Learning to Rank (LTR) 功能,简化了对 Top-N 结果进行重新排名,这对于检索增强生成(RAG)用例至关重要 —— 在这些用例中,大型语言模型(LLM)需要在尽可能最佳的上下文中操作。

创建卓越的搜索体验还涉及你需要搜索的数据语料库。连接器简化了从多个来源将数据带入Elasticsearch,并且我们已将目录扩展到包括 Redis(预览版)和Notion(Beta),这些是覆盖数据库(PostgreSQL、MongoDB等)、工作场所(SharePoint、Dropbox、Gmail 等)、连接性(Slack、Teams、Zoom 等)和生产力工具(ServiceNow、Jira等)的20多个原生连接器之一。这些来源的同步现在可以轻松设置,能够将数据带入现有索引。

Elasticsearch 8.13 现在在 Elastic Cloud 上可用 —— 这是唯一一个托管 Elasticsearch 提供所有最新功能的最新版本。你还可以下载 Elastic Stack 和我们的云编排产品 Elastic Cloud Enterprise 和 Elastic Cloud for Kubernetes,进行自管理的体验。

还有什么新内容?查看 Elastic 8.13 发布帖以了解更多信息。

继续在 Lucene 9.10 上构建

我们继续致力于使 Lucene 成为最佳向量数据库。在这次发布中,我们看到了显著的性能改进。例如,在对 Cohere 数据集(1百万向量,每个向量 768 个浮点维度)的基准测试中,我们看到了夜间基准测试中性能的2倍提升。你可以在 Elasticsearch 平台亮点博客中关于这一创新的内容,这些创新对 Lucene 有所贡献。

学习排名 (Learning to Rank) 现已作为技术预览提供

LTR 现在作为一种重新评分器,原生地在 Elasticsearch 中可用。通过使用你输入的训练有素的机器学习模型重新排列结果集,它创造了更好的搜索结果。重新排名对于语义搜索来说是一个重要任务,无论是否使用向量搜索。它可以考虑查询之外的信号,将最相关的结果置于顶部。这对于依赖于仅将前几个结果作为上下文提供给 LLM 的 RAG 用例特别有用。

8.13 将 LTR 作为核心 Elastic Search 产品的一部分带来。我们很高兴能够以技术预览的形式为你试用。现在就用这个示例 notebook 尝试原生 LTR 吧。我们期待你的反馈!

更好、更快、更简单的相关性

应用程序代码对于开发者来说已经足够复杂,需要构建和维护。增加生成嵌入和协调更多系统的复杂性是一个额外且不必要的负担。在 Elasticsearch 8.13 中,我们简化了 Cohere 嵌入的集成,因此开发者可以在不需要协调许多组件和系统的复杂性下,享受到优秀嵌入模型的优势。我们提炼了 ELSER 的查询性能,允许用更少的计算资源达到性能目标。

开发者常常面临无法控制源数据的挑战。当涉及到大型文档时,它们通常需要被分解(或分块)成多个嵌入。当一个文档关联有多个图片或其他工件时,情况也是如此。现在,通过在嵌套 kNN 查询中使用多个 inner_hits,其中这些嵌入被存储为嵌套文档,可以实现多个结果。

许多用例需要积极管理同义词以确保结果的相关性。数据中产品名称、SKUs 和其他语言陷阱的使用促使我们创建了一个 API 来以编程方式管理同义词。这个 API 现在已晋升为正式发布,并补充了通过 UI 管理同义词的能力。

Elasticsearch Python 客户端现在支持 orjson。orjson 是一个快速、正确的 Python JSON 库。在基准测试中,它的性能超过了标准内置 json 模块。序列化/反序列化的速度改进提高了向量用例的性能,其中涉及到大量索引向量。

使用现有索引的连接器

由于搜索的生命线是你操作的数据语料库,我们继续增强现有连接器的目录。在这个版本中,我们将 Redis(预览版)和 Notion(Beta)添加到了目录中。Google Drive、Gmail、OneDrive、Outlook 和 Salesforce 现在已经晋升为正式发布版。

问题不仅在于你连接到什么,还在于如何以及检索到什么数据。我们简化了连接器流程,并改进了同步能力,将数据带入 Elasticsearch,并为 ServiceNow 和 Salesforce 连接器添加了文档级安全性。

更重要的是,你可以将数据带入现有索引。连接器不再必须使用一个预定义的索引。这使得开发者在数据应该如何以及在 Elasticsearch 中的位置上有了更大的灵活性,使他们能够使用预先存在的索引或者为特定项目或用例创建的索引,或者随时切换到新的索引。

尝试一下吧!

阅读关于这些功能以及更多内容的发布说明。你还可以在 Search Labs中找到代码参考、Jupyter notebook 和最新的研究。

现有的 Elastic Cloud 客户可以直接从 Elastic Cloud 控制台访问许多这些功能。还没有在云上充分利用 Elastic 吗?开始免费试用吧。

在本博客文章中描述的任何功能或功能的发布和时间仍然由 Elastic 全权决定。目前不可用的任何功能或功能可能无法按时或完全交付。

在本博客文章中,我们可能使用或引用第三方生成式AI工具,这些工具由各自的所有者拥有和运营。Elastic对第三方工具没有任何控制权,我们对其内容、操作或使用以及由你使用此类工具可能引起的任何损失或损害不承担任何责任或义务。在使用涉及个人、敏感或机密信息的AI工具时,请谨慎行事。你提交的任何数据可能用于 AI 训练或其他目的。我们无法保证你提供的信息将被保持安全或保密。在使用生成式AI工具之前,你应该熟悉其隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标志是 Elasticsearch N.V. 在美国和其他国家的商标、标志或注册商标。所有其他公司和产品名称均为其各自所有者的商标、标志或注册商标。

原文:Elastic Search 8.13: Simplifying embedding and ranking for developers and delivering faster results | Elastic Blog

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/495135.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue+Mysql的酒店管理系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

git配置SSH 密钥

git配置SSH 密钥 1.window配置ssh1.安装ssh2.安装 Git(安装教程参见安装Git)并保证版本大于 1.9![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e59f4e16b83c45649f1d9d7bd6bf92c0.png)3.SSH 尽量保持最新,6.5之前的版本由于使用…

【保姆级讲解如何Chrome安装Vue-devtools的操作】

🌈个人主页:程序员不想敲代码啊🌈 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家🏆 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提…

ruoyi-nbcio-plus基于vue3的flowable其它元素(目前主要是元素文档)的升级修改

更多ruoyi-nbcio功能请看演示系统 gitee源代码地址 前后端代码: https://gitee.com/nbacheng/ruoyi-nbcio 演示地址:RuoYi-Nbcio后台管理系统 http://122.227.135.243:9666/ 更多nbcio-boot功能请看演示系统 gitee源代码地址 后端代码&#xff1a…

深度好文:解决Ubuntu 18.04安装nvidia显卡驱动,导致内核不匹配:无需重装系统修复内核

深度好文:解决Ubuntu 18.04安装nvidia显卡驱动,导致内核不匹配:无需重装系统修复内核 目录 一、问题描述二、尝试修复三、安装Nvidia驱动和CUDA并配置cuDNN四、总结 一、问题描述 昨天打算更新一下Ubuntu 18.04的显卡驱动,以支持…

MSTP-3 8K/4K多业务综合光传输平台

MSTP-3作为全新的多业务综合光传输平台,是目前市场上少有的非插卡式、集中式最大32路4K多业务综合光传输产品,不但实现了自主知识产权和国产化替代,还填补了国内多通道8K/16K远距离光传输产品空白。 ⚫ 单套设备即可实现集中式多业务远距离光…

MySQL高阶SQL语句(二)

文章目录 MySQL高阶SQL语句(二)一、MySQL常用查询1、子查询1.1 语法1.1.1 结合select语句查询1.1.2 结合insert语句查询1.1.3 结合update语句查询1.1.4 结合delete语句查询1.1.5 在in前面添加not1.1.6 exists关键字 2、别名 二、MySQL视图1、视图介绍1.1…

Python处理文件系统路径库之pathlib使用详解

概要 Python的pathlib库提供了一种面向对象的方法来处理文件系统路径。它使得路径操作更加直观和易于管理,相比于传统的os.path模块,pathlib提供了更为丰富和灵活的API。 pathlib库 pathlib模块在Python中用于处理文件系统路径。通过使用面向对象的方法,它允许路径表示为P…

《科学技术创新》是什么级别的期刊?是正规期刊吗?能评职称吗?

问题解答: 问:《科学技术创新》期刊是哪个级别? 答:省级 主管单位:黑龙江省科学技术协会 主办单位:黑龙江省科普事业中心 问:《科学技术创新》期刊影响因子? 答:(2…

机器学习——聚类算法-层次聚类算法

机器学习——聚类算法-层次聚类算法 在机器学习中,聚类是一种将数据集划分为具有相似特征的组或簇的无监督学习方法。聚类算法有许多种,其中一种常用的算法是层次聚类算法。本文将介绍聚类问题、层次聚类算法的原理、算法流程以及用Python实现层次聚类算…

深入理解Vue的生命周期机制

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

文件删除了怎么恢复?10 个最好的免费文件恢复工具

意外删除、格式化问题和系统故障是数字时代数据丢失的常见原因。在这些情况下,免费的文件恢复软件可以通过廉价地恢复丢失的数据来挽救局面。了解这些程序如何快速有效地恢复任何原因的文件。 为什么您需要免费的文件恢复软件: 如今,任何人都…

【教程】JavaScript代码混淆及优化

摘要 本文将介绍常见的JavaScript代码混淆技术,包括字符串转十六进制、Unicode编码、Base64加密、数值加密、数组混淆、花指令、逗号表达式、控制流程平坦化和eval执行。通过对这些混淆技术的理解和应用,可以提高代码的安全性和保护知识产权。 引言 随…

hutool-captcha 图片偏红问题

hutool-captcha 图片偏红问题 如图 设置代码背景色如下 // 设置背景颜色为白色 不生效 lineCaptcha.setBackground(Color.white);问题代码 //返回 base64 ByteArrayOutputStream bos new ByteArrayOutputStream(); ImageIO.write(lineCaptcha.getImage(), "JPEG"…

47 vue 常见的几种模型视图不同步的问题

前言 这里主要是来看一下 关于 vue 中的一些场景下面 可能会出现 模型和视图 不同步更新的情况 然后 这种情况主要是 vue 中的对象 属性没有响应式的 setter, getter 然后 我们这里就来看一下 大多数的情况下的一个场景, 和一些处理方式 当然 处理方式主要是基于 Vue.set, …

【C++】Binary Search Tree

这篇博客要说的是二叉搜索树,又叫二叉排序树,它或者是一颗空树,或者是具有以下性质的二叉树: 若它的左子树不为空,那么左子树上所有节点的值都小于根节点的值,不会出现等于的情况 若它的右子树不为空&#…

数据结构——快速排序的三种方法和非递归实现快速排序

数据结构——快速排序的三种方法和非递归实现快速排序(升序) 快速排序的单趟排序hoare法挖坑法前后指针法 快速排序的实现key基准值的选取快速排序代码快速排序的优化 快速排序(非递归) 快速排序的单趟排序 hoare法 思路:从给定…

C++第十三弹---内存管理(下)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1、operator new与operator delete函数 1.1、operator new与operator delete函数 2、new和delete的实现原理 2.1、内置类型 2.2、自定义类型 …

基于模糊控制算法的倒立摆控制系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 对倒立摆模型进行模糊控制器simulink建模,利用倒立摆的摆角角度与小车的位置来控制小车的推力,控制了倒立摆的摆角问题,使得小车最终停在稳…

Redis面试题-缓存雪崩、缓存穿透、缓存击穿问题

1 穿透: 两边都不存在(皇帝的新装) (黑名单) (布隆过滤器) 2 击穿:一个热点的key失效了,这时大量的并发请求直接到达数据库. (提前预热) 3 雪崩&#xff1a…