Elasticsearch 8.X 如何基于用户指定 ID 顺序召回数据?

1、实战问题

如何根据输入的id 的顺序输出结果,id 个数有500个,还有分页?

问题来源:https://t.zsxq.com/0cdyq7tzr

2、方案探讨

2.1 Elasticsearch 默认排序机制

  • 在 Elasticsearch 中,如果未指定排序规则,检索结果的默认排序方式是按照文档的相关性得分(_score)进行降序排序。相关性得分表示了文档与查询的匹配程度。得分越高,文档与查询的匹配程度越高。

  • 有些情况下,查询结果的评分可能不相关或无法计算。例如,在过滤查询(如 term、terms 或 ids 查询)或布尔查询的 filter、must_not上下文中,Elasticsearch 不会计算评分。在这些情况下,文档的评分通常为 1.0 或其他默认值(filter、must_not 评分为0)。

2.2 如何基于用于指定的 ID 顺序召回数据?

原生的 Elasticsearch 检索机制没有这个功能。那就意味着,咱们得自己实现。

如何实现呢?把用户给定的序列(非递增也非递减的无规律序列,如3、1、5、7),看成一维数组数据。

他们的数组的下标只能是0、1、2、3.....也就是说,下标是有序的。

ab929b2fbf8f7604aecb1f8475c623a5.png

那么接下来问题就转嫁为如何基于数组下标进行升序排序的问题?

借助 sort 排序的 script 脚步排序即可实现。

3、前置条件

PUT /_cluster/settings
{
  "transient": {
    "indices.id_field_data.enabled": true
  }
}

解读如下:

PUT /_cluster/settings 请求是 Elasticsearch 中用于更新集群设置的 API。这个特定请求的含义是,我们要更新集群的临时(transient)设置。

{"transient": {"indices.id_field_data.enabled": true}}

在这个请求中,我们设置了 indices.id_field_data.enabled 为 true。

这个设置用于控制 Elasticsearch 是否允许对 _id 字段进行 fielddata 访问。

默认情况下,这个设置是禁用的(false),因为访问 _id 字段的 fielddata 可能会消耗大量内存,并可能导致性能下降。

这里使用的 transient 属性意味着设置的更改是临时的,只在集群重启之前有效。当集群重新启动时,这个设置会被重置为默认值。如果您希望永久更改此设置,可以使用 persistent 属性:

PUT /_cluster/settings
{"persistent": {"indices.id_field_data.enabled": true}}

请注意,在实际应用中,我们通常不建议启用 _id 字段的 fielddata 访问,因为它可能会导致性能问题。

4、给出样例数据

给出批量数据,以备后用!

PUT test_index/_bulk
{"index":{"_id":1}}
{"title":"001"}
{"index":{"_id":3}}
{"title":"003"}
{"index":{"_id":5}}
{"title":"005"}
{"index":{"_id":7}}
{"title":"007"}

5、给出实现

POST test_index/_search
{
  "query": {
    "ids": {
      "values": [
        "3",
        "1",
        "5",
        "7"
      ]
    }
  },
  "sort": [
    {
      "_script": {
        "type": "number",
        "script": {
          "lang": "painless",
          "source": """
          List ids_list = params.ids;
          String cur_id = doc['_id'].value;
          for(int i = 0; i < ids_list.length; i++)
          {
            if(cur_id.equals(ids_list[i]))
            {
              return i;
            }
          }
          return -1;
          """,
          "params": {
            "ids": ["3","1","5","7"]
          }
        },
        "order": "asc"
      }
    }
  ]
}

实现解读:

这个 Elasticsearch 查询用于从名为 test_index 的索引中搜索文档。查询的主要目的是根据给定的 ID 列表检索文档,并按照 ID 列表的顺序对检索到的文档进行排序。

以下是查询的各个部分的详细解释:

  • size: 设置为 10,表示查询将返回最多 10 个文档。在这种情况下,由于我们的 ID 列表只包含 4 个 ID,因此查询将返回最多 4 个文档。

  • query: 使用 ids 查询来筛选给定 ID 列表中的文档。在这个例子中,我们要检索 ID 为 "3"、"1"、"5" 和 "7" 的文档。

  • sort: 使用脚本排序(_script)按照给定的 ID 列表的顺序对返回的文档进行排序。-- type: 设置为 "number",表示脚本返回的值将被视为数字。

  • script: 定义了一个 Painless 脚本,用于计算每个文档的排序值。

  • lang: 设置为 "painless",表示脚本使用 Painless 语言编写。

  • source: 脚本的源代码。这个脚本遍历给定的 ID 列表,查找与当前文档 _id 匹配的 ID。如果找到匹配项,则返回匹配项在 ID 列表中的索引作为排序值。如果没有找到匹配项,返回 -1(在这个例子中,实际上不会发生)。

  • params: 脚本的参数,包含一个名为 ids 的列表,其中包含了要排序的 ID。这里,我们将 ID 列表作为参数传递给脚本。

  • order: 设置为 "asc",表示按升序对文档进行排序。这意味着查询结果将按照 ID 列表的顺序返回。

通过这个查询,您可以从 test_index 索引中获取指定 ID 的文档,并按照给定的 ID 顺序("3"、"1"、"5"、"7")对结果进行排序。

6、小结

关于分页,参考普通检索实现即可。

本文结合脚本排序的方式实现了基于用户指定顺序召回结果数据。视频解读如下:

大家有没有更好的实现方式呢?欢迎留言交流。

推荐阅读

  1. 全网首发!从 0 到 1 Elasticsearch 8.X 通关视频

  2. 重磅 | 死磕 Elasticsearch 8.X 方法论认知清单

  3. 如何系统的学习 Elasticsearch ?

  4. 2023,做点事

db81f18f770d43f10baca7acc8995d1f.jpeg

更短时间更快习得更多干货!

和全球 近1900+ Elastic 爱好者一起精进!

2234b2f42e390ecd8e067da537823585.gif

比同事抢先一步学习进阶干货!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/7845.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux下实现的 HTTP 服务器

项目功能&#xff1a;&#xff08;1&#xff09;能接收客户端的GET请求&#xff1b;&#xff08;2&#xff09;能够解析客户端的请求报文&#xff0c;根据客户端要求找到相应的资源&#xff1b;&#xff08;2&#xff09;能够回复http应答报文&#xff1b;&#xff08;3&#x…

数据结构和算法学习记录——设计循环队列(数组实现循环队列)核心思路、题解过程、完整题解

目录 题目描述 题目示例 核心思路 链表实现 数组实现 重点 题解过程 结构体类型定义 创建一个循环队列并初始化 判断循环队列为空或为满 入队列函数 出队列函数 取队头数据 取队尾数据 销毁循环队列 完整题解 题目来源&#xff1a;力扣 题目描述 设计你的…

Sentinel滑动时间窗限流算法原理及源码解析(下)

文章目录对统计数据如何使用获取之前统计好的数据对统计数据如何使用 流控快速失败 获取之前统计好的数据

SpringBoot 项目的创建与启动

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

iosApplePay

1、Apple Pay 接入工程 - 简书 // 设置币种、国家码及merchant标识符等基本信息 PKPaymentRequest *payRequest [[PKPaymentRequest alloc]init]; payRequest.countryCode "CN"; //国家代码 payRequest.currencyCode "CNY"; //RMB的币种代码 …

“被裁员之前,没得到任何风声,措手不及...” 一个在职6年测试工程师内心独白

前言 一个码农&#xff08;软件测试工程师&#xff09;的自白 小张&#xff1a; 我们用工作五年的积蓄&#xff0c;在这个一线城市买了房子&#xff0c;买了车子&#xff0c;然后领证。我也在6年前进入了一个很多人梦寐以求新的公司 码农的新生活开始了。在这家公司里&…

ChatGPT如何为企业提供帮助?

数字化转型是指利用技术来改变企业的运营方式并为客户提供价值&#xff0c;这不仅仅是关于如何采用新的技术或工具。要想取得成功&#xff0c;就需要从根本上改变文化和心态。 ChatGPT如何为企业提供帮助?从数据分析到知识管理再到客户服务等等&#xff0c;人工智能聊天机器人…

光伏发电系统模拟及其发电预测开源python工具pvlib

1. 太阳辐照量模拟 pysolar是一个用于计算太阳位置和辐照量的Python库。它是基于python语言编写的&#xff0c;可以方便地在各种python项目中使用。pysolar主要用于计算太阳的位置、太阳高度角、太阳方位角、日出和日落时间等信息。这些信息可以用于太阳能电池板和太阳能集热器…

【设计模式】创建型-抽象工厂模式

文章目录一、抽象工厂模式1.1、产品族、产品等级1.2、抽象工厂模式中的角色1.3、实例一、抽象工厂模式 在工厂方法模式中&#xff0c;每一个具体的工厂子类只能生成一种具体的产品&#xff0c;如果想要生产另外一种产品&#xff0c;就需要重新定义一个抽象工厂类&#xff0c;这…

泡泡玛特“失速”,盲盒经济迎来拐点?

配图来自Canva可画​ 前些年泡泡玛特的飞速增长&#xff0c;曾经在行业内外引起了广泛的反响&#xff0c;其主打的盲盒经济也曾风靡一时、被众多行业效仿。不过&#xff0c;这种情况在疫情肆虐的2022年似乎受到了一些影响&#xff0c;这在其财报中就有所体现。 3月29日&#…

Python 小型项目大全 61~65

六十一、ROT13 密码 原文&#xff1a;http://inventwithpython.com/bigbookpython/project61.html ROT13 密码是最简单的加密算法之一&#xff0c;代表“旋转 13 个空格”密码将字母A到Z表示为数字 0 到 25&#xff0c;加密后的字母距离明文字母 13 个空格&#xff1a; A变成N&…

【Android】之【自定义View实践】

这里以一个进度条的加载为例子&#xff0c;先看效果&#xff08;运行效果是动态变化的&#xff09; 一、自定义属性 首先在res->values目录下新建attrs资源文件&#xff0c;如下图&#xff1a; 内容如下&#xff1a; <?xml version"1.0" encoding"utf…

SpringBoot基础学习之(九)添加员工的信息

本次项目所有能够使用的静态资源可以免费进行下载 静态资源 在本篇代码DAO层将通过Java文件去实现&#xff0c;在这里就不连接数据&#xff0c;然后通过jdbc将数据库内容的内容显示出来 案例&#xff1a;员工管理系统 上一篇博文的主要的内容是展示员工的信息&#xff0c;本篇…

Oracle JDK 和 OpenJDK 有什么区别?

可能在看这个问题之前很多人和我一样并没有接触和使用过 OpenJDK 。那么 Oracle JDK 和 OpenJDK 之间是否存在重大差异&#xff1f;下面我通过收集到的一些资料&#xff0c;为你解答这个被很多人忽视的问题。 首先&#xff0c;2006 年 SUN 公司将 Java 开源&#xff0c;也就有…

JAVA——网络编程基本概念

&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了 博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳,欢迎大佬指点!人生格言&#xff1a;当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友一起加油喔&#x1f9be;&am…

腾讯云轻量服务器和云服务器区别对比(超详细)

腾讯云轻量服务器和云服务器有什么区别&#xff1f;为什么轻量应用服务器费用更低&#xff1f;是因为轻量服务器CPU内存性能比云服务器CVM性能差吗&#xff1f;轻量应用服务器适合中小企业或个人开发者搭建企业官网、博客论坛、微信小程序或开发测试环境&#xff0c;云服务器CV…

orcad library builder 建库及报错问题

目录 一.安装orcad library builder 二.orcad library builder 使用 1.建立一个orcad 原理图库测试下 尝试理解tcl那段的意思 xml文件导入建orcad库 折腾了2个多小时&#xff0c;居然没有直接方案搞定&#xff0c;简单记录下&#xff0c;后面遇到该问题的兄弟可参考借鉴&am…

Java集合框架之collection

1. 什么是集合 1.1 概念 对象的容器&#xff0c;实现类对对象常用的操作。 1.2 和数组的区别 数组长度固定&#xff0c;集合长度不固定。数组可以存储基本类型和引用类型&#xff0c;集合只能存储引用类型。 1.3 位置 java.util.*; 2. Collection体系 2.1 Collection父接…

网络编程 1

前言 小亭子正在努力的学习编程&#xff0c;接下来将开启javaEE的学习~~ 分享的文章都是学习的笔记和感悟&#xff0c;如有不妥之处希望大佬们批评指正~~ 同时如果本文对你有帮助的话&#xff0c;烦请点赞关注支持一波, 感激不尽~~ 目录 网络编程 什么是网络编程&#xff1f;…

ASP网上视频点播系统的设计与实现

在线视频服务系统的功能模块划分如下图&#xff08;2-2&#xff09;所示&#xff1a; 电影分类浏览 用户可以通过电影的类别进行浏览。显示近期热门电影&#xff0c;近期点机排行。用户能很方便的找到自己感兴趣的电影进行观看。 电影搜索 如果用户有很明确的目的&#xff0c;…