面试题-Elasticsearch集群架构和调优手段(超全面)

在这里插入图片描述


对于Elasticsearch(ES),我了解并有经验。在我之前的公司,我们有一个相对大型的ES集群,以下是该集群的架构和一些调优手段的概述:

1. 集群架构

在这里插入图片描述

  • 集群规模:我们的ES集群由15个节点组成,涵盖了数据节点和主节点。
  • 索引数量:我们有30多个索引,根据不同的数据通道进行划分。每天根据日期递增创建新的索引,大约每天增加20个以上的索引。
  • 分片数:每个索引有10个主分片,用于水平分布和并行处理数据。
  • 数据大小:每个索引的大小受限制在150GB以内。
    (根据实际的项目经验来说 如果没有就按照这个说就行,前提是你得理解技术细节 不然容易露馅)

2. 调优手段

在这里插入图片描述

2.1 设计阶段调优

在这里插入图片描述

  • 基于日期模板创建索引:通过使用roll over API,我们按照日期模板创建新的索引,以便更好地管理和维护数据。
  • 使用别名进行索引管理:通过别名来引用索引,而不是直接使用具体的索引名称,简化了索引切换和管理的过程。
  • 定时force_merge操作:每天凌晨定时执行force_merge操作,以减少碎片并释放磁盘空间。
  • 冷热分离机制:将热数据存储在SSD上,以提高检索效率,同时定期对冷数据进行shrink操作,以减少存储空间占用。
  • 使用Curator进行索引的生命周期管理:通过Curator工具自动管理索引的创建、删除和归档等操作。
  • 合理设置分词器:针对需要进行全文搜索的字段,选择合适的分词器以提高搜索质量和效率。
  • 结合字段属性进行Mapping设置:在Mapping阶段,根据字段的需求和特性,设置是否需要检索、是否需要存储等属性。
2.2 写入调优

在这里插入图片描述

  • 副本数设置为0:在写入数据之前暂时关闭副本,以提高写入性能。
  • 关闭refresh_interval:在写入过程中,将refresh_interval设置为-1,禁用刷新机制,以减少刷新操作对写入性能的影响。
  • 批量写入:使用bulk批量写入API,将多个文档一次性提交,减少频繁的网络开销和IO操作。
  • 恢复副本数和刷新间隔:在写入完成后,恢复副本数和刷新间隔,以确保数据的可靠性和及时可见性。
  • 自动生成ID:尽量使用ES自动生成的ID,避免额外的ID生成操作和性能消耗。
2.3 查询调优

在这里插入图片描述

  • 禁用通配符查询:尽量避免使用通配符查询,因为它们会增加查询的复杂性和开销。

  • 避免批量terms查询:对于包含大量terms的查询,尽量避免使用批量terms查询,以免影响查询性能。

  • 合理使用keyword类型:尽可能将字段设置为keyword类型,充分利用倒排索引机制,提高查询效率。

  • 基于时间范围进行索引选择:对于大量数据的情况,可以根据时间范围先确定索引,以减少需要搜索的索引数量。

  • 设置合理的路由机制,在选择合理的路由机制时,可以考虑以下几个因素:
    在这里插入图片描述

    数据特点:根据数据的特点,选择适合的路由字段。例如,如果数据中包含地理位置信息,可以选择将地理位置作为路由字段,以便将具有相似地理位置的文档存储在相邻的分片上,提高查询效率。

    查询需求:根据常见的查询需求,选择合适的路由策略。例如,如果经常根据时间范围进行查询,可以选择将时间作为路由字段,使具有相近时间的文档存储在相邻的分片上,以便快速定位需要查询的数据。
    分片数量:考虑集群中的分片数量和规模,选择适当的路由策略。如果集群中的分片较少,可以使用哈希路由(默认路由策略),以确保数据均匀分布。如果集群中的分片较多,可以选择更具体的路由策略,以满足特定的查询需求。

理的路由策略,以实现数据的均衡分布和查询的优化。


2.4 其他调优

在这里插入图片描述

  • 部署调优:优化硬件配置、网络拓扑和节点布局,以确保集群的性能和可靠性。
  • 业务调优:根据具体业务需求和查询模式,优化查询DSL语句、索引设计和数据模型,以提高搜索效率和准确性。(偏向于具体的业务怎么设计)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/491729.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

论文篇05-论文范文-论数据访问层设计技术及其应用(2024年软考高级系统架构设计师冲刺知识点总结系列文章)

试题:论数据访问层设计技术及其应用 在信息系统的开发与建设中,分层设计是一种常见的架构设计方法,区分层次的目的是为了实现“高内聚低耦合”的思想。分层设计能有效简化系统复杂性,使设计结构清晰,便于提高复用能力和产品维护能力。一种常见的层次划分模型是将信息系统分…

MySQL之MVCC如何实现可重复读和提交读

(/≧▽≦)/~┴┴ 嗨~我叫小奥 ✨✨✨ 👀👀👀 个人博客:小奥的博客 👍👍👍:个人CSDN ⭐️⭐️⭐️:Github传送门 🍹 本人24应届生一枚,技术和水平有…

质量研发模型---V模型

质量研发模型(V模型) V模型强调软件开发的协作和速度,将软件实现和验证有机结合起来,在保证较高的软件质量情况下缩短开发周期。 通过对该模型的水平和垂直的关联和比较分析,理解软件开发和测试的关系,该模…

WebAR开发简介

WebAR 开发使企业能够以独特且高度有趣的方式向客户和员工提供信息。 它提供增强现实 (AR) 内容,人们在智能手机上将其视为视觉叠加。 然而,WebAR 可在手机的普通网络浏览器上运行,无需下载任何应用程序。 WebAR 的多种用途包括帮助零售和在…

AI大模型学习:引领智能时代的新篇章

AI大模型学习 随着人工智能技术的不断发展,大模型学习已经成为当前人工智能领域的热门话题。这项技术正在改变着我们对AI的认识和应用,同时也为未来的智能时代开启了新的篇章。 ### 什么是AI大模型学习? AI大模型学习指的是利用大规模数据…

可视化图表:柱状图,最直观的比较数据的方式。

可视化图表是一种将数据通过图形化的方式展示出来的工具,它可以帮助我们更直观地理解数据的分布、趋势和关系。其中,柱状图是最常见和常用的一种图表类型,它通过长方形的柱子来表示数据的大小。本文将介绍柱状图的定义和作用、数学原理、样式…

fl studio21.2中文版下载及使用基础教学

FL Studio 21.2.2是一款功能强大的音乐制作软件,也被广大用户称为“水果编曲”。这款软件支持简体中文和英语,适用于Windows 10/11(仅限64位)以及MacOS 10.13.6或更高版本的系统。 在FL Studio 21.2.2中,用户可以享受…

软考高级:软件构件与中间件技术概念和例题

作者:明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

代码随想录训练营第58天 | LeetCode 739. 每日温度、​​​​​​LeetCode 496.下一个更大元素 I

目录 LeetCode 739. 每日温度 文章讲解:代码随想录(programmercarl.com) 视频讲解:单调栈,你该了解的,这里都讲了!LeetCode:739.每日温度_哔哩哔哩_bilibili 思路 ​​​​​​LeetCode 496.下一个更大元素 I 文…

深入理解TCP/IP协议:网络通信的基石

提示:本系列文章重点学习TCP/IP协议 深入理解TCP/IP协议:网络通信的基石 简介一、TCP/IP协议的基本原理二、TCP/IP协议的工作机制三、TCP面向连接建立连接:断开连接: 四、分层传输五、TCP流量控制滑动窗口机制流量控制的工作流程优…

011、获取Revit设计选项

今天来一段简单的代码,获取Revit设计选项,来说说Dynamo一个比较常用的方法: FilteredElementCollector Methods 这个方法的很有用,很多图元的获取都要通过这种方式。 我们打开API手册,直接搜索FilteredElementCol…

暴力破解笔记

1 暴力破解简介 暴力破解: 蛮力攻击,又称为穷举攻击,或暴力破解,将密码进行逐个尝试验证,直到尝试出真正的密码为止。 暴力破解是指采用反复试错的方法并希望最终猜对,以尝试破解密码或用户名或找到隐藏的…

yolov5+pyside6+登录+用户管理目标检测可视化源码

一、软件简介 这是基于yolov5目标检测实现的源码,提供了用户登录功能界面; 用户需要输入正确的用户名和密码才可以登录。如果是超级管理员,可以修改普通用户的信息,并且在检测界面的右上角显示【管理用户】按钮。 支持图片、视频、…

如何挑选品质较高的狗粮?

亲爱的狗友们,我们都知道,给狗狗选择一款高品质的狗粮是非常重要的。那么,如何在这琳琅满目的狗粮市场中挑选出最适合我们狗狗的优质狗粮呢?别担心,让我来给你支支招。 🐾 **1️⃣ 了解狗狗的营养需求** 首…

【JavaEE初阶系列】——多线程案例三——定时器

目录 🚩定时器是什么 🚩标准库中的定时器 🚩自定义定时器 🎈构造Task类 📝相对时间和绝对时间 🎈构造MyTime类 📝队列空和队列不为空 📝wait(带参)解决消耗资源问题 &#…

【面试经典150 | 动态规划】零钱兑换

文章目录 Tag题目来源解题思路方法一:动态规划 写在最后 Tag 【动态规划】【数组】 题目来源 322. 零钱兑换 解题思路 方法一:动态规划 定义状态 dp[i] 表示凑成总金额的最少硬币个数。 状态转移 从小到大枚举要凑成的金额 i,如果当前…

204基于matlab的图像融合

基于matlab的图像融合,包括三种方式,加权、PCA、IHS变换。比较三者融合后的图像差异。程序已调通,可直接运行。 204 matlab 图像融合 信息融合 - 小红书 (xiaohongshu.com)

便携式一体化气象站设备

TH-PQX7便携式一体化气象站设备是一种集多种气象监测仪器于一体的高科技装备,能够实现对温度、湿度、风速、风向、气压、降水量等关键气象要素的实时监测。该设备采用先进的传感器技术和数据处理技术,具有高精度、高可靠性、低功耗等特点,可广…

kubernetes-networkpolicies网络策略问题

kubernetes-networkpolicies网络策略问题 问题描述 重点重点重点,查看我的博客CKA考题,里面能找到解决方法 1.部署prometheus监控的时候,都部署成功,但是web访问503-504超时 2.添加ingress的时候也是访问不到,其他命…

matlab编译成jar包

1、输入deploytool命令 2、选择Library Compiler 3、配置打包 4、有效文件 5、java函数调用 package com.beescloud.frame.matlab;import com.mathworks.toolbox.javabuilder.MWException; import test.Class1;public class MatlabTest {public static void main(String[] arg…