Elasticsearch知识

目录

  • Elasticsearch逻辑设计和物理设计
    • 逻辑设计
    • 物理设计
  • Elasticsearch原理
    • 倒排索引
    • 文档的分析过程
    • 保存文档
    • 搜索文档
    • 写数据的底层原理
      • 数据刷新(fresh)
      • 事务日志的写入
  • ES在大数据量下的性能优化
    • 文件系统缓存优化
    • 数据预热
    • 文档(Document)模型设计
    • 分页性能优化
  • Elasticsearch和DB的差异
  • 参考

Elasticsearch逻辑设计和物理设计

逻辑设计

  • 索引(Index):类似于ES中的一张表,可以通过映射(Mapping)定义索引的结构和设置。
  • 类型(Type):可以对ES的索引进一步做划分。ES 7中已经移除类型,建议一个索引一个类型即可
  • 映射(Mapping):索引结构的定义,包括索引的字段,字段类型,索引的设置等。
  • 文档(Document):索引中的一条记录。

物理设计

Elasticsearch本身是分布式搜索引擎。它的高可用高性能就是通过分片实现的。

  • 主分片:一个索引可以划分成多个主分片,通过将主分片分布到不同的ES节点,从而实现高性能。
  • 副本分片:副本分片和主分片保持数据同步,和主分片不能分布在同一个节点,从而实现主分片的读能力的横向扩展,同时保证主分片不可用时实现故障转移

Elasticsearch原理

倒排索引

每个文档都有唯一的文档ID,一个文档经过分析器变成一组词条

倒排索引:记录词条以及词条出现的文档ID的数据结构,同时倒排索引还会记录词条在文档中出现的频率

文档的分析过程

示例引用自《Elasticsearch实战》。

在文档加入倒排索引之前,需要经过分析器执行分析,转换成一组词条(Term)。

以下是文档“share your experience with Nosql & big data technologies”的分析过程。

  1. 过滤字符:字符过滤器转换个别字符。如:将&转换成and
  2. 切分文本:分词器将文本切分成多个词条
  3. 过滤分词:一组分词过滤器按序转换每个分词。如:小写分词过滤器,将所有的分词转换成小写。
  4. 创建索引:为词条创建倒排索引

保存文档

保存文档是写入主分片,然后,同步到副本分片;搜索文档是根据轮询算法,从主分片副本分片读取。

  1. 通过计算文档ID哈希值,决定文档的目标分片。如果文档的目标分片不在当前节点,将文档转发到目标分片的节点。
  2. 将文档加入倒排索引
  3. 数据同步所有的副本分片,即在副本分片创建倒排索引
  4. 所有的副本分片创建倒排索引成功,节点响应结果给客户端

说明:

  • 协调节点:接收客户端请求/响应客户端的节点,负责数据的请求转发,数据的汇总。

搜索文档

  1. 协调节点使用round-robin随机循环算法,将请求转发到包含完整数据集合的分片集合(包括主分片和副本分片)。

  2. 协调节点收集各节点的返回结果,将结果返回客户端:

    2.1 查询阶段(Query Phase):每个分片将自己的搜索结果的文档ID返回给协调节点,协调节点进行数据的合并排序分页,得到最终结果。

    2.2 拉取阶段(Fetch Phase):协调节点根据文档ID取各个节点上拉取文档数据,最终返回给客户端。
     

写数据的底层原理

Elasticsearch会将数据先写入内存的缓冲区,这时数据并不能用于查询。

  • 刷新数据:缓冲区过大或者默认每隔1秒,将缓冲区中的数据写入段文件(segment file),然后清空缓冲区。数据在缓冲区时是不可见的,变成段文件后,就可以用于查询。段文件不可变,所以每隔一秒ES就会生成一个新的段文件。
  • 事务日志的写入:为了防止数据丢失,ES会实时将数据写入事务日志(tranlog)文件,事务日志文件是在磁盘里的。
  • 数据冲刷:事务日志过大或者默认每隔30分钟,会触发数据冲刷,会将一个提交点(commit point)中的所有段文件(在操作系统缓冲区中的数据)和缓冲区所有的数据写入磁盘,然后,删除事务日志

数据刷新(fresh)

数据刷新负责将缓冲区的数据写入段文件。段文件实际上就Lucene索引。出于性能考虑,数据并不是直接写入磁盘的,而是默认每隔1秒,数据从缓冲区写入系统缓存(OS Cache),变成段文件。之后,就可以通过搜索接口查询到对应的数据了。因为,数据都是在内存中的,所以一旦宕机,数据会丢失。ES通过事务日志保存了数据,所以,能够保证数据的恢复。

ES是接近实时的(Near Real-time)

因为,数据是每1秒刷新的系统缓存,之后才可以访问,所以是接近实时的。

事务日志的写入

为了防止数据丢失,数据在写入缓冲区的同时写入事务日志文件。事务日志同样是先写入系统缓存(OS Cache),然后刷新到磁盘。

index.translog.durability参数- 刷盘策略

index.translog.durability取值:

  • request:每次请求都执行fsync刷盘,ES要等待日志文件刷盘后才返回成功响应。能够保证数据基本不丢失,但是,性能低下,不推荐使用。
  • async:每隔5秒fsync一次translog数据到磁盘,默认值。兼顾数据的持久化和性能。

数据丢失

因为事务日志的默认刷盘方式是每隔5秒fsync一次,所以如果ES宕机,最多可能丢失5秒的数据。

ES在大数据量下的性能优化

文件系统缓存优化

ES中的索引数据会持久化到磁盘中,查询的时候,索引数据从磁盘加载到系统缓存中。

这里的filesystem cache就是上文的OS cache,都是指系统缓存。

ES搜索性能非常依赖于系统缓存,因为系统缓存是在内存中的。如果查询走系统缓存,可以达到几毫秒几百毫秒不等的查询效率;但是,查询走磁盘的话,搜索性能就要达到秒级。

最佳的情况下,机器的内存要达到容纳总数据量的一半。

ES + HBase

为了减少ES的数据量,可以仅在ES索引中保存用于检索的几个字段,将完整的记录保存在HBase中。查询时,先通过ES获取doc id,然后,根据doc id到HBase获取完整的数据。

数据预热

开启定时任务,定时加载一些频繁被访问的热点数据。如:电商系统中,如iphone,后台开个任务,每隔1分钟访问一次相关数据,刷新到系统缓存中。

文档(Document)模型设计

ES尽量不要使用复杂的操作,如:join(关联)/nested/parent-child,对性能影响很大。

可以在Java应用里完成关联,将关联好的数据写入ES中。

分页性能优化

如果要取第100页的10条数据,那么ES的分页流程如下:

  1. 每个分片上的前1000条数据都查到协调节点上,如果有5个分片,那就是5000条数据。
  2. 接着协调节点对这5000条数据做合并、排序
  3. 返回第100页的10条数据。

所以,ES的分页越深,查询越慢。

有两种优化方案:

  1. 不允许深度分页:系统直接不允许深度的分页。
  2. 通过scroll API:类似于游标,或者Java中的迭代器,访问效率可以达到毫秒级。不过只能一页页的访问,不能随机跳到任意一页访问

Elasticsearch和DB的差异

  • Elasticsearch不支持事务,表连接。
  • ES是个自带分布式属性的,高可用、可扩展、高性能,传统关系型数据库存在单机的性能瓶颈
  • ES单个字段的数据类型丰富,除了核心的数据类型,还支持多字段,对象类型、数组类型等。

参考

部分图片引用自:advanced-Java

  • 《Elasticsearch实战》
  • Elasticsearch如何做到亿级数据查询毫秒级返回的:Elasticsearch如何做到亿级数据查询毫秒级返回的? - 掘金
  • 互联网 Java 工程师进阶知识完全扫盲 - Doocs 技术社区
  • 互联网 Java 工程师进阶知识完全扫盲 - Doocs 技术社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/184988.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

名酒新周期,西凤复兴的“四个自信”

执笔 | 文 清 编辑 | 萧 萧 11月18日,四大名酒之一、凤香品类龙头企业的西凤酒,携全系列产品亮相AIIC酒业创新展暨中国名酒成就展。 在当日下午举行的“筑梦新征程”2023中国名酒纪念大会暨《大师》影像志上线仪式上,陕西西凤酒股份有限…

linux网络之网络层与数据链路层

文章目录 一、网络层 1.IP协议 2.IP协议头格式 3.网段划分 4.特殊ip地址 5.IP地址的数量限制 6.私有ip和公网IP 7.路由 二、数据链路层 1.以太网 2.以太网帧格式 3.MAC地址 4.对比理解MAC地址和IP地址 5.MTU 6.ARP协议 ARP协议的工作流程 ARP数据报的格式 7.DNS 8.ICMP协议 9.N…

无需外接显示器,直接使用windows安装树莓派系统并可远程桌面登录

准备工作: 1.安装树莓派官方烧录工具 raspberry pi imager 2.下载树莓派系统镜像(也可选择在线下载安装) 打开imager工具,选择需要安装包树莓派版本 点击"NEXT",在弹出的选项中选择编辑设置。 设置登录名和密码,已经所连接的wif…

针对CSP-J/S的每日一练:Day 11

一、审题 题目描述 给定两个大小分别为 m m m 和 n n n 的正序(从小到大)数组 n u m s 1 nums1 nums1 和 n u m s 2 nums2 nums2。请你找出并返回这两个正序数组的中位数。 算法的时间复杂度应该为 O ( l o g ( m n ) ) O(log (mn)) O(log(mn)) 。…

如何做接口测试呢?接口测试有哪些工具!

回想入职测试已经10年时间了,初入职场的我对于接口测试茫然不知。后来因为业务需要,开始慢慢接触接口测试。从最开始使用工具进行接口测试到编写代码实现接口自动化,到最后的测试平台开发。回想这一路走来感触颇深,因此为了避免打…

软件测试基础知识 —— 白盒测试

白盒测试 白盒测试(White Box Testing)又称结构测试、透明盒测试、逻辑驱动测试或基于代码的测试。白盒测试只测试软件产品的内部结构和处理过程,而不测试软件产品的功能,用于纠正软件系统在描述、表示和规格上的错误,…

ESP32 ESP-IDF5.1 在Visual Studio Code中自定义分区表与调整Flash大小

好记心不如烂笔头 使用ESP-IDF开发ESP32的时候,要是同时用到蓝牙和WIFI的话,很多时候会提示Flash不够, 我是照着这样解决的,存档记录 来源 : zaixingxing2539 大佬的 ESP32 ESP-IDF5.0 在VSCODE中自定义分区表 用Visual Studio Code自定义分区表 # ESP-IDF Partition Table…

MATLAB实战 | MEX文件

应用接口是MATLAB与其他语言相互调用各自函数的方法,MEX文件使MATLAB程序中可以调用或链接其他语言编写的函数,而MATLAB引擎使其他语言程序中可以调用MATLAB函数。 01、MEX文件 MEX是MATLAB Executable的缩写,是MATLAB中用于调用其他语言编写…

GEE:生成超链接方式下载影像

作者:CSDN @ _养乐多_ 本文将介绍如何使用Google Earth Engine(GEE)平台以生成下载超链接的形式下载遥感数据。 结果如下图所示,只需点击链接,即可下载数据到本地。 文章目录 一、函数详解二、代码示例一、函数详解 用法返回值Image.getDownloadURL(params, callback)Ob…

【Jmeter进阶】压力测试大杀器:Jmeter使用技巧与总结!

一、基本概念 1.线程组N:代表一定数量的并发用户,所谓并发就是指同一时刻访问发送请求的用户。线程组就是模拟并发用户访问。 2.Ramp-Up Period(in seconds):建立所有线程的周期,就是告诉jmeter要在多久没启动所有线程&#xff…

CloudQuery x GBase,信创数据库管控革新之路

日前,杭州图尔兹信息技术有限公司自主研发的 CloudQuery 一体化数据库操作管控平台,已经和天津南大通用数据技术股份有限公司研发的南大通用安全数据库管理系统 [简称:GBase 8s] 完成兼容性测试,并获得兼容性认证证书。 现阶段&am…

红酒按照糖含量怎么分类?

我们常听人们形容葡萄酒为干型或甜型,这指的是葡萄酒的含糖量。不含糖就是干型,含糖少就是半干型,含糖多就是甜型,这是葡萄酒分类的一种——按糖量分。云仓酒庄的品牌雷盛红酒分享一般分为干型、半干型、半甜型、甜型四种。 云仓…

RocketMQ消息的一生

这篇文章我准备来聊一聊RocketMQ消息的一生。 不知你是否跟我一样,在使用RocketMQ的时候也有很多的疑惑: 消息是如何发送的,队列是如何选择的? 消息是如何存储的,是如何保证读写的高性能? RocketMQ是如何…

01-概述 - OpenCV介绍与环境搭建

目录 1、OpenCV概念 (1)OpenCV 的介绍 (2)图像处理(Image Processing) (3)OpenCV的架构和核心模块 2、开发环境搭建 3、代码与演示 1、OpenCV概念 (1)…

0基础能不能转行做网络安全?网络安全人才发展路线

最近有同学在后台留言,0基础怎么学网络安全?0基础可以转行做网络安全吗?以前也碰到过类似的问题,想了想,今天简单写一下。 我的回答是先了解,再入行。 具体怎么做呢? 首先,你要确…

2016年10月4日 Go生态洞察:HTTP追踪介绍

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

昇腾Atlas 200I DK A2实现安全帽识别

文章目录 环境依赖编译测试总结 环境依赖 软件版本说明获取方式mxVision5.0.RC2mxVision软件包获取方式Ascend-CANN-toolkit6.2.RC2Ascend-cann-toolkit开发套件包获取方式Ubuntu22.04 代码仓库地址: https://gitee.com/ascend/ascend_community_projects/tree/31…

RK WiFi部分信道在部分地区无法使用的原因

不同国家支持的WiFi信道不一样,需要正确设置wificountrycode 修改路径: device\rockchip\common\BoardConfig.mk 修改内容:androidboot.wificountrycodeXX 该属性会被解析为 ro.boot.wificountrycode framework层会在: framewor…

Oracle登录认证方式详解

文章目录 一、简介二、OS认证三、口令认证四、remote_login_passwordfile 详解 一、简介 在数据库管理中,登录认证是确保数据库安全性的重要环节。Oracle数据库提供 了两种认证方式,一种是“操作系统认证”,一种是“口令文件认证&#xff0c…

ate测试原理及ate测试系统(软件)知识科普 -纳米软件

ATE(Automatic Test Equipment)测试也叫自动化测试,通过计算机控制测试仪器对被测对象进行测试。以计算机编程代替人工测试,基于测试程序控制仪器并对待测品进行输入和输出信号检测分析,从而判断待测品的性能是否符合要求。 ATE测试需要根据测…