ES查询流程

在ES中查询分为两类:1.基于文档ID查询,2.按照非文档ID查询。

基于文档id查询

1.基于文档ID查询

当执行如下查询时:

GET /megacorp/employee/1

ES在执行上述查询的具体过程如下:

1、客户端向 Node 1 发送获取请求,此时Node1为协调者节点。
2、协调者节点使用文档的 _id 来确定文档属于分片 0 。分片 0 的副本分片存在于所有节点第的三个节点上。 在这种情况下,它将请求转发到 Node 2 。
3、Node 2 将文档返回给 Node 1 ,然后将文档返回给客户端。
在处理读取请求时,协调结点在每次请求的时候都会通过轮询所有的副本分片来达到负载均衡。在文档被检索时,已经被索引的文档可能已经存在于主分片上但是还没有复制到副本分片。 在这种情况下,副本分片可能会报告文档不存在,但是主分片可能成功返回文档。 一旦索引请求成功返回给用户,文档在主分片和副本分片都是可用的。

按照非文档ID查询

先看一个同时包含分页,排序,字段值过滤的查询流程。
在这里插入图片描述

1.基于其他条件查询

基于其他条件进行文档检索的过程分为:查询和获取。

查询

由于不确定被检索的文档在多个分片中的分布情况,所以会在所有分片上进行文档查询,所以当一个索引的主分片比较多的时候,检索性能反而不高。
具体检索的过程如下:

1.客户端发送检索请求,此时ES集群中的某个节点会接受到这个请求,接受请求的节点,被称为协调者节点,如图中Node1。
2.协调者节点将检索请求发送到所有主分片/从分片上,如图上Node2中的R0和Node3中的R1,各个主从分/从分片在所在节点本地执行检索请求。此时检索的结果仅仅是符合条件的文档ID和对应排序字段的值,默认情况下,这个排序字段为相关性评分_score(评分是在查询的时候计算的)。
3.各个分片所在的节点将检索的结果返回给协调节点。

获取
经过查询过程,协调者节点获得了目标文档的ID和文档中对应的排序字段值。基于这些结果数据,接下来会执行数据获取的操作:
1.协调者节点根据排序逻辑和分页逻辑,从结果集数据中筛选最终需要的文档ID。协调者节点根据结果文档ID,计算出文档所在的分片信息,然后向某个或某些个目标分片(如图中Node1的R0和Node2的R1)发送 multi-get request请求,获取文档的全部信息。
2.目标分片将文档数据返回给协调者节点。
3.协调者节点将获取到的结果文档数据,返回给客户端。
上述取回数据的过程和关系型数据库中的普通索引回表过程类似。

2.深度分页查询问题

在分布式系统中,对于分页查询的场景,我们需要了解一下深度分页的性能问题,这是在分布式系统中,比较常见的一个问题。在讨论深度分页问题前,我们先熟悉一下分布式系统中的分页问题。
分页查询通常会伴随着排序问题,如果不按照某个指标进行排序的话,那么分页就没有意义了,如果不进行排序,那么如何区分第一个和第二页的内容呢?
当向分布式系统提交一个分页查询时,该查询请求会被转发到分布式系统中的各个子节点上,在每个子节点中执行该查询,但是我们需要知道,每个子节点的查询结果只是在该节点上的一个局部结果,并不是全局结果,全局结果是所有子节点查询结果的一个综合结果。只有每个局部结果数据集比较"完整"才能保证全局结果的正确性。
这里的完整怎么理解呢?
假如我们把学生考试成绩存储在一个有3个节点的分布式系统中,此时我们需要获取成绩排名第5到第10的学生信息,那么此时的查询流程如下:
1.每个节点需要查询出当前节点,所拥有数据集中学生成绩排名前10的学生信息。
2.汇总30名学生信息,然后从30名学生中找出考试成绩排名在第5到第10名的6位学生。

这里我们会发现,我们的查询请求只需要6名学生信息,但是查询过程却需要对30名学生信息进行处理。具体可以参考下图:

通过上图我们可以发现,考试成绩排名在第5到第10的6名学生信息,在3个节点中的分布并不是在第5到第10的存储位置,有可能分布在第1到第10的任何位置,所以为了保证全局数据的准确性,每个子节点要获取考试成绩是前10名的 10个学生的信息才可以。
上面的查询需求翻译成查询语句就是:按照考试成绩排序后的学生信息集合中 ,查询从考试成绩第5名开始的后5位学生信息。或者是:在分页大小为5的查询中,获取第2页数据。此时各个子节点需要查询的数据量其实是:pagesize*pagenum
在ES中的查询语句如下:

GET /_search
{
    "from": 5,
    "size": 5
}

此时我们在回到上面的问题,在分布式系统中执行深度分页查询时(页码比较大),会导致子节点的系统资源被大量占用,查询性能迅速下降。
实际上, “深分页” 不太符合人的行为。当2到3页过去以后,人会停止翻页,或者改变搜索标准,试想一下你在搜索引擎搜索信息时,通常只会看前2页的搜索结果

3、多个字段查询

当在Elasticsearch中进行多个字段作为条件的查询时,查询的流程如下:
针对一个分片进行理解就好了

  1. 查询语句中包含多个字段的查询条件时,Elasticsearch会使用倒排索引来快速定位匹配的文档。倒排索引是一种以词项为基础的索引结构,它将文档的内容映射到词项上,提供了更高效的文本搜索和检索能力。
  2. Elasticsearch会根据查询条件中的每个字段,独立地在倒排索引中进行匹配。每个字段的匹配结果将返回与之关联的文档集合。注意,这个阶段还会把排序字段返回。
  3. 接下来,Elasticsearch会对每个字段的匹配结果进行交集操作。交集操作将返回同时满足所有字段条件的文档集合。如果存在多个字段的匹配结果,Elasticsearch会使用布尔查询(Boolean Query)来组合这些条件。
  4. 最后,根据查询语句中的排序条件(如果有的话),Elasticsearch会对结果进行排序。排序操作会增加查询的复杂性和计算成本,因此在使用排序功能时应该权衡好性能和需求。

需要注意的是,Elasticsearch中的查询流程可以根据查询语句的具体结构和查询需求进行调整和优化。例如,可以通过使用布尔查询(Boolean Query)来组合多个查询条件,或者使用过滤器(Filter)来优化特定条件的过滤等。
总之,Elasticsearch通过使用倒排索引和布尔查询等机制,可以高效地处理多个字段作为条件的查询请求,并返回满足条件的文档集合。

4、范围查询

Elasticsearch中处理数值范围查询,可以通过使用range查询来实现。range查询允许你指定一个字段的范围条件,并返回符合该条件的文档。
以下是一个示例查询,展示如何使用range查询来处理数值范围:

bash复制代码



GET /my_index/_search  
{  
  "query": {  
    "range": {  
      "price": {  
        "gte": 100,  
        "lte": 200  
      }  
    }  
  }  
}

上述查询将在名为"my_index"的索引中执行一个范围查询,针对"price"字段的值在100到200之间的文档进行匹配。gte表示大于等于(greater than or equal),lte表示小于等于(less than or equal)。
Elasticsearch会利用倒排索引来快速定位满足条件的文档。对于数值类型的字段,Elasticsearch会将数值映射到倒排索引中,以便进行范围比较。它会查找满足条件的价格词汇,并返回与这些词汇关联的文档集合。

5、排序

般都是首先通过一些条件过滤出一部分的id
再通过文档id查询正排索引,得到排序字段的值,进行排序。或者分组。
特别是分组,甚至不需要读取存储在es中的原,仅通过正排索引就能得到结果
为什么不开启正排索引的字段,无法进行排序
不开启正排索引的字段无法进行排序的原因主要是因为正排索引是用于支持文档内容查找和排序的索引。
正排索引将文档ID与文档内容关联起来,使得可以通过文档ID直接定位到文档内容,从而实现基于文档内容的排序操作。如果未开启正排索引,则无法建立文档ID与文档内容的关联关系,因此无法进行基于文档内容的排序。
如果仅仅通过倒排索引,那么一个索引值首先就会对应多个id,如果要排序,就要全量从磁盘中获取文档的全部数据,那么再进行排序就很困难, 因为数据量很大,很难将数据都放到内存中进行排序。
另外,正排索引的建立和维护相对简单,可以快速响应排序请求,提高查询效率。而如果未开启正排索引,则需要对所有文档进行扫描,效率低下,无法满足实时排序的需求。
总之,为了实现基于文档内容的排序操作,需要开启正排索引。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/254777.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RocketMQ 顺序消息收发实践

目录 概述局部有序创建 Topic配置代码测试 结束 概述 顺序消息 全局有序:适用于性能不是特别高的场景,但是又要求消息又严格一致的概念。局部有序:适用于性能要求高的场景,想办法通过在设计层面处理有序的消息尽量发送至同一个 T…

Python自动化操作:简单、有趣、高效!解放你的工作流程!

今天跟大家分享一套自动化操作流程解决方案,基于Python语言,涉及pyautogui、pyperclip、pythoncom、win32com依赖包。安装命令为: pip install pyautoguipip install pyperclippip install pythoncompip install win32compyautogui 是一个自…

二级教师属于什么职称

教师的职称评定对于他们的职业发展具有重要意义。教育体系中,教师的职称分为多个等级,其中二级教师是其中的一个重要级别。那么,二级教师属于什么职称呢? 职称的定义。职称是指根据工作性质、职责、难度、能力等因素,对…

I Doc View 多个高危漏洞复现

I Doc View在线文档预览是一款在线文档预览系统。近期出现了多个高危漏洞,因此集中复现一下,有兴趣的童鞋可以收藏一下。#头条首发挑战赛# 1.Upload接口任意文件读取漏洞 1.1 漏洞级别 高危 1.2 漏洞描述 I Doc View存在代码执行漏洞,使…

研究前沿| scNanoCOOL-seq:单分子测序平台的单细胞多组学测序技术

scNanoCOOL-seq 2023年9月12日,汤富酬课题组在Cell Research上发表了题为“scNanoCOOL-seq: a long-read single-cell sequencing method for multi-omics profiling within individual cells”的论文,首次报道了scNanoCOOL-seq单细胞多组学测序技术。该…

深度学习中常见的激活函数

前文介绍 我们在前面了解到了线性回归模型,其实我们可以把线性回归看成一个单个的神经元,它实际上就完成了两个步骤 1.对输入的特征的加权求和 2.将结果通过传递函数(或者激活函数)输出 这里我们提到了传递函数(或者…

如何本地搭建Zblog网站并通过内网穿透将个人博客发布到公网

文章目录 1. 前言2. Z-blog网站搭建2.1 XAMPP环境设置2.2 Z-blog安装2.3 Z-blog网页测试2.4 Cpolar安装和注册 3. 本地网页发布3.1. Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 正文开始前给大家推荐个网站,前些天发现了一个巨牛的 人工智能学习网站…

简单搭建一个Python自动化测试框架

1. 安装Python 首先需要安装Python,可以从官网下载对应的版本。安装完成后,可以在终端中输入python来检查是否安装成功。 2. 安装pip pip是Python的包管理工具,用于安装和管理Python模块。可以在终端中输入以下命令来安装pip: …

法大大邀业内大咖剖析汽车名企数智化实战路径

法大大发布中国首部《汽车行业合同数智化白皮书》,聚焦趋势,解读行业数字化转型攻坚战的破局之道;深入内部,剖析名企数字化的探索实践。 长安汽车、蔚来汽车、上汽大通、 东风汽车集团、奥托立夫、长城滨银汽金… 一众名企高层…

LiteClient工具箱:降低成本,减少监管风险

​​发表时间:2023年9月14日 BSV区块链协会的工程团队一直在为即将推出的LiteClient而努力工作,这是一套模块化的组件,可使简易支付验证(SPV)变得更加便利。 借助LiteClient工具箱,交易所可以通过区块头中…

数字化医疗新篇章:构建智能医保支付购药系统

在迎接数字化医疗时代的挑战和机遇中,智能医保支付购药系统的建设显得尤为重要。本文将深入介绍如何通过先进的技术实现,构建一套智能、高效的医保支付购药系统,为全面建设健康中国贡献力量。 1. 引言 随着医疗科技的飞速发展,…

node加密集合(前端加密、后台解密)

文章目录 一、crypto 加解密生成私密钥公钥加密(也可私钥加密)私钥解密(也可公钥解密) 二、node-rsa加解密生成公私秘钥使用公钥加密(也可私钥加密)使用私钥解密(也可公钥解密) 三、…

KSP音频抓包

1. 按照网上其他教程&#xff0c;安装KSP抓音频 Biu~笔记&#xff1a;高通蓝牙ADK&#xff08;38&#xff09;-- KSP in MDE - 大大通(简体站) Biu~笔记&#xff1a;高通蓝牙ADK&#xff08;22&#xff09;--DSP音频链路监听 - 大大通(简体站) <<Biu~笔记&#xff1a;高…

使用java调用python批处理将pdf转为图片

你可以使用Java中的ProcessBuilder来调用Python脚本&#xff0c;并将PDF转换为图片。以下是一个简单的Java代码示例&#xff0c;假设你的Python脚本名为pdf2img.py&#xff1a; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader…

虚拟展会展览如何搭建,虚拟展会展览有哪些优势

引言&#xff1a; 随着科技的不断进步&#xff0c;虚拟展会展览正逐渐成为企业推广和交流的新方式。那么虚拟展会展览应该如何搭建&#xff0c;虚拟展会展览又能带来哪些好处呢&#xff1f; 一.什么是虚拟展会展览 虚拟展会展览是一种通过网络平台进行的展览&#xff0c;与传…

做PPT必须知道这5个PPT模板网站

做PPT千万不能错过这5个网站&#xff0c;免费下载&#xff0c;各种类型风格很齐全&#xff0c;建议收藏起来。 1、菜鸟图库 https://www.sucai999.com/search/ppt/0_0_0_1.html?vNTYxMjky 菜鸟图库素材非常齐全&#xff0c;设计、办公、图片、视频等素材这里都能找到&#xf…

面试算法58:日程表

题目 请实现一个类型MyCalendar用来记录自己的日程安排&#xff0c;该类型用方法book&#xff08;int start&#xff0c;int end&#xff09;在日程表中添加一个时间区域为[start&#xff0c;end&#xff09;的事项&#xff08;这是一个半开半闭区间&#xff09;。如果[start&…

云原生之深入解析Kubernetes本地持久化存储方案OpenEBS LocalPV的最佳实践

一、K8s 本地存储 K8s 支持多达 20 种类型的持久化存储&#xff0c;如常见的 CephFS 、Glusterfs 等&#xff0c;不过这些大都是分布式存储&#xff0c;随着社区的发展&#xff0c;越来越多的用户期望将 K8s 集群中工作节点上挂载的数据盘利用起来&#xff0c;于是就有了 loca…

Prometheus全面学习教程

一、Prometheus概述 1、Prometheus介绍 Prometheus 是一个开源的服务监控系统和时序数据库&#xff0c;其提供了通用的数据模型和快捷数据采集、存储和查询接口。它的核心组件Prometheus server会定期从静态配置的监控目标或者基于服务发现自动配置的自标中进行拉取数据&…

基于单片机的视力保护及身姿矫正器设计(论文+源码)

1. 系统设计 在本次设计中&#xff0c;其系统整个框图如图2-1所示。其主要的核心控制模块由超声波模块&#xff0c;光敏电阻&#xff0c;按键模块&#xff0c;复位电路&#xff0c;红外模块&#xff0c;LCD显示等组成。其包括自动模式&#xff0c;手动模式。自动模式&#xff…