ElasticSearch - 海量数据索引拆分的一些思考

文章目录

  • 困难
  • 解决方案
    • 初始方案及存在的问题
      • segment merge
      • 引入预排序
    • 拆分方案设计
      • 考量点
      • 如何去除冗余数据
      • 按什么维度拆分,拆多少个
      • 最终的索引拆分模型演进历程
      • 整体迁移流程
      • 全量迁移流程
      • 流量回放
      • 比对验证
      • 异步转同步
      • 多索引联查
      • 优化效果
  • 总结与思考
  • 参考

在这里插入图片描述


困难

在这里插入图片描述

  • 索引数据量亿+,查询请求耗时高,大量查询耗时超过 1s 的请求
  • 数据的快速膨胀,带来了很大的资源消耗和稳定性问题, 比如如查询抖动等等
  • 数据存在冗余,大量的冗余数据,带来了不必要的资源消耗
  • 索引所在集群资源已接近瓶颈,但是扩容的话机器成本较高

解决方案

一开始从索引参数调整, forcemerge 任务引入等多个手段来缓解问题,但是伴随数据的快速膨胀还是遇到类似高命中查询等难以优化的问题,从而引出了索引拆分方案的探索与实施。

初始方案及存在的问题

我们先看看参数调整这些局限性的方案

segment merge

  1. 调大 merge 线程数,调大 floor_segment 值。通过更多的 merge 来降低,大量写入带来的 Segment 数增长引发的查询速率下降问题。
	"merge": {
          "scheduler": {
            "max_thread_count": "2",
            "max_merge_count": "4"
          },
          "policy": {
            "floor_segment": "5mb"
          }
        }

segment merge 操作对系统 CPU 和 IO 占用都比较高,从 es 2.0 开始,merge 行为不再由 ES 控制,而是转由 lucene 控制,因此以下配置已被删除:

indices.store.throttle.type
indices.store.throttle.max_bytes_per_sec
index.store.throttle.type
index.store.throttle.max_bytes_per_sec

改为以下调整开关:

index.merge.scheduler.max_thread_count
index.merge.policy.*

最大线程数的默认值为:

Math.max(1, Math.min(4, Runtime.getRuntime().availableProcessors() / 2))

是一个比较理想的值,如果你只有一块硬盘并且非 SSD,应该把他设置为1,因为在旋转存储介质上并发写,由于寻址的原因,不会提升,只会降低写入速度。

merge 策略有三种:

  • tiered
  • log_byete_size
  • log_doc

默认情况下:index.merge.polcy.type: tiered

索引创建时合并策略就已确定,不能更改,但是可以动态更新策略参数,一般情况下,不需要调整。如果堆栈经常有很多merge,可以尝试调整以下配置:

  • index.merge.policy.floor_segment: 该属性用于阻止 segment 的频繁 flush,小于此值将考虑优先合并,默认为2M,可考虑适当降低此值。

  • index.merge.policy.segments_per_tier:该属性指定了每层分段的数量,取值越小最终 segment 越少,因此需要 merge 的操作更多,可以考虑适当增加此值。默认为10,他应该大于等index.merge.policy.max_merge_at_once。

  • index.merge.policy.max_merged_segment: 指定了单个segment 的最大容量,默认为5GB,可以考虑适当降低此值。


引入预排序

索引预排序的引入,实测排序条件和预排序一致时,亿级索引有3倍左右的提升。但是由于业务多样性,导致命中预排序的场景只占一小部分。

	"sort": {
          "field": [
            "id",
            "gmtModified",
            "gmtApplied"
          ],
          "order": [
            "asc",
            "desc",
            "desc"
          ]
        }
  • 优化索引字段类型,将精确匹配修改为 keyword ,范围匹配修改为数值类型。( ES 针对不同的字段类型,会采用不同的查询策略。keyword 使用 FST 的倒排索引方案,数值类型采用 BKD 方案。前者更适合精确匹配,后者对范围查询更优)。
  • 增加索引的分片。当集群资源相对充足是有一定效果,但是如果没有新的数据节点加入,新增分片并不会有明显的性能提升。"number_of_shards": "5"
  • 每天跑 forcemerge 任务,降低 Segment 数量,提升白天的查询性能。但是伴随索引体积越来越大, forcemerge 的时间越来越长,有时候整个晚上可能都无法结束。而且 forcemerge 期间,会造成一定的集群抖动,影响一些对请求耗时比较敏感的业务。
  • 难以解决的高命中字段查询。在实践中发现,在大表中,如果某个查询字段命中了大量文档,在缓存失效的情况下,大量时间会消耗在在这个字段上。

拆分方案设计

由于目前常规的操作都已经做过,到目前阶段提升相对较小,所以只能从拆索引的方案去入手。在方案的设计中,我们主要有下面的一些考虑。

考量点

  • 要实现不停机迁移

  • 要做到用户无感的底层数据表切换,支持流量逐步切换,用来观察集群压力,支持快速的回滚,用来应对可能出现的突发问题

  • 能否去除全量xx索引,降低数据冗余,降低集群资源占用

  • 按照何种维度去拆分拆分后的索引是否会有数据倾斜问题

  • 能否支持后续的二次拆分,伴随业务后续的发展,第一次拆分后的索引,在过了一两年后可能需要,进行二次拆分操作

  • 能否在查询时,尽可能的要降低扫描的数据行数,从而来规避可能遇到的高命中字段影响


如何去除冗余数据

重新划定的索引数据范围,将之前的全量xx索引数据,分散成三份索引数据。 假设因为索引数据有交叉重复的部分,可以对这部分重复数据打上特殊标识,当三类型索引联查时,过滤掉该部分数据,解决数据重复问题。


按什么维度拆分,拆多少个

一个索引怎么拆,主要看使用的具体场景。

  • 比如常见的日志索引,就是按日期滚动拆分。

  • 对应我们目前场景,大约77%的请求会带上店铺ID ,就基础商品查询而言,有93%的查询都会带上店铺ID 。因此索引拆分最终是按照店铺维度去拆分。

最后就是拆多少个索引,每个索引多少分片。拆多少个索引,主要是看数据的分布,拆多个索引,可以保证每个索引上的数据大致相同,不会有严重的数据倾斜问题。每个索引有多少个分片,主要是评估拆完后每个索引有多少个数据,以及未来一段时间的增量。


最终的索引拆分模型演进历程

【原始索引模型】
在这里插入图片描述

保留 基础索引 和 交易商品索引。 把全量商品索引拆分,拆分后的整体全貌如下

在这里插入图片描述
拆分后需要进行【多索引联查】

整体迁移流程

整体迁移在设计中主要,分为流量收集,全量写入,增量写入,数据验证,写入方式的异步转同步等阶段。通过完整的迁移流程设计,来保证最终迁移的数据正确性。

在这里插入图片描述

全量迁移流程

该过程主要为历史数据的迁移,并填充历史全量索引的部分数据,重组后的商品数据,分散写入到拆分后的新索引中。

全量迁移需要做到两点,其中一个是数据不丢失,第二就是较快的迁移速率。对于第一点,主要解决手段,就是在全量迁移任务开启前,通过消息队列,收集所有迁移过程中的数据。

在这里插入图片描述

【数据拉取慢的问题】

在迁移过程中,我们遇到的第一个问题,就是全量数据拉取过慢问题。

就迁移速度而言,因为本次和一般的索引拆分不同,不是单纯的将一个索引的数据,按店铺拆分到多个索引上,而需要额外填充字段,所以 Reindex 并不满足。即使是通过先将一部分数据 Redinex 数据迁移到新集群上,再二次填充也不太满足,因为 ES 跨集群 Reindex 会限制并发数为1,同时需要将两个集群添加白名单,这个需要将集群进行重启,操作成本也相对较高。之所以不在原集群进行拆分的原因,是原集群的资源已经到达瓶颈,没有足够的磁盘和内存空间,承接新索引。

如何在不使用 Reindex 的情况下,保证迁移速率呢。首先我们尝试了 Scroll 方案,但是后续发现,对一个亿级索引做全表 Scroll 查询,单次拉取时间,保持在500-600ms左右,这个拉取时间严重不满足我们的需求。因为在全量数据迁移期间,增量数据要保持收集的,而商品每天平均有千万级别的更新请求,同时在晚上会有大量的数仓回流任务。如果整个迁移要持续好几天,会对在 MQ 中,积压大量的写入消息,不光会导致到时候流量回流时间过长,也可能导致 MQ 集群磁盘被打满。

【优化方案】

那么如何提升拉取的效率呢,要提升查询速率,可以通过降低单次扫描数据量,来单次降低查询耗时的方案。提升了单次查询耗时后,就需要将大任务进行拆分,多节点并行的方案,来提升整体的拉取效率。最终我们选择按商品创建时间来作为任务拆分的方案,一个是该字段不可变,第二个是每天商品创建量相对比较恒定,任务相对均匀。任务首先按应用节点拆分为节点级大任务,节点内再按天拆分为更小的任务。这样可以做到多任务并行,并可以根据 ES 集群的压力,通过扩充节点的方案来加快数据迁移。

任务执行总共分为两步即数据拉取和写入阶段,首先是数据拉取,该阶段主要负责从原索引获取数据,并填充上全量商品索引的部分字段,这一个阶段的拉取是通过 SearchAfter 方案进行拉取,因为整个迁移流程持续时间较长,部分任务有可能因为网络抖动等问题执行失败,利用 SearchAfter 可以做到任务断点续跑。

数据写入阶段,组装完的数据就需要按店铺 ID,选择索引,并写到新集群了。将读写任务进行拆分,可以提升整体的资源利用率,并方便进行拉取或写入的限流。过程中只需要做好失败任务的从事,并监控系统资源即可。

通过上述优化,迁移完所有全量数据,总计用时 5 个小时左右。


流量回放

在全量任务开始之前,我们将老索引的流量拷贝了一份,放入到了消息队列中,流量回放即是将这部分流量在全量任务结束后,进行回放到新索引上。

回放没有什么特别,但是有一定要注意。在我们的数据写入场景中,有一种一对多更新的任务,比如店铺名称更新等,如果这种增量流量和普通的商品主表流量一起回放,可能会造成,部分商品店铺信息未修改成功的问题。因为商品主表更新,和店铺信息不处在同一个任务源。如果在商品主表流量未追平之前,就开始进行店铺信息的修改,就会导致部分商品漏改的情况。因此整个回放流程是,商品主表增量流量追平后,再开始回放一对多更新流量。


比对验证

在迁移完成后要进行比对验证,验证数据和查询逻辑改造的正确性后,才能开启。

【文档比对】

文档对比,主要是新老索引文档内容进行比较,比对分两次,一个是正向比对,即通过新索引的 Query 到的数据,去和老索引进行比对。这次主要确认新索引上的字段与老索引保持一致。一个是反向比对,即通过老索引 Query 到的数据,去和新索引进行比对。这次主要解决比如类似新索引数据没有删除,部分商品可能缺失的问题。由于整个商品数量级比较大,且数据在频繁更新。比对主要采用的是抽样 DSL 语句比对。

【查询流量比对】

因为本次不光涉及到索引的拆分,还涉及索引的合并。合并必然会带来查询逻辑的变更。因为三类索引上存在对同一个商品属性不同的索引字段名的情况,比如商品的ID,有的索引叫 ID ,有的叫 ItemId 。此外还有查询时路由选择问题,这些查询侧的改动,需要对查询流量进行比对。


异步转同步

在迁移过程中,为了保障服务的稳定性,采用的是 MQ 异步写入新索引的方案。这样可以在灰度开放过程中,限制新索引的写入流量,同时不影响老索引的写入性能。在完全切换到新索引后,需要由异步写入切换回同步写入。考虑切换回去主要有两点考虑,一个是写入流程中,增加了一个可能的不稳定性因素。一个是可能发生由于某个业务域推送大量变更消息,引发的消息积压。比如大店铺的店铺名称变更操作等,这些大任务可能会阻塞用户正常的商品发布,下架等核心链路流程。

因为数据要求最终一致性,核心问题就是如何保证从 MQ 消费写入,更改为直接请求 ES 写入过程中,消息没有乱序。

在这里插入图片描述

这里主要就是用 Redis 的分布式锁达到一种节点间的分布式共识。这中间主要分为 预备阶段,共识磋商阶段

【预备阶段】

首先在 Redis 中创建一把值为0成功锁,和一把值为0失败锁。

然后,当观察 MQ 中消费堆积的阈值比较低时,这时即可开启预备阶段。这样消费线程在投递到 MQ 队列之前,会先检测一下当前消息堆积值,当小于设定值时,进入共识磋商阶段。

【共识磋商阶段】

应用节点的消费者线程,进入该阶段后,会进行一定次数的自旋,并不投递消息,而是每隔 1s 去 Check 一下当前 MQ 队列的堆积值,如果连续两次 Check 到堆积值为 0,就在 Redis 中把成功锁的值加一。后续执行过程中,如果发现成功锁的值等于参加的节点数,直接将数据写入到 ES 。

期间如果有一个节点发现,自己超过设定的自旋次数,就会将失败锁加一,同时将消息投递到 MQ 中,其他节点发现失败锁大于0后,也会结束自旋,将数据投递到 MQ 中。后续可以再通过调整自旋次数等参数,直到所有节点全部达成一致。

这样就通过秒级的消费暂停,达到了 MQ 队列下线的效果。


多索引联查

解决了数据迁移的问题后,关键的问题就是要提升查询的效率,降低查询 RT ,提升请求 QPS 。一般来讲当查询遇到瓶颈,我们往往都会通过建索引,分库分表,历史归档等操作。这些操作之所以能提升查询性能,就在于能降低要扫描的数据规模。越早地降低数据规模,就代表更低的 CPU,磁盘, IO,内存,网络等开销。因此在设计拆分后的索引查询时,也要尽可能地降低要扫描的数据规模。在本次设计中,我们引入了请求改写、索引选择、返回体修改三个功能模块。

在这里插入图片描述

【请求改写】

当接收到用户请求后,首先要进行一次请求改写。

这一步主要有两个目的,一个是要将 DSL 语句改写为3种索引都兼容的格式,因为后续这个语句可能要扫描所有类型的索引。

还有一个是解决基础商品索引和交易商品索引中重合的那一部分数据。目前的解决方案是在基础商品索引中做上标识,在出现基础商品索引和交易商品索引联合扫描时,排除掉基础商品索引中的数据。

【索引选择】

整体上有两次降低数据规模的机会,在查询进来时,尝试判断用户要看哪一类的商品,基础商品还是交易商品等,这一路如果成功,可以减低 50% 左右的数据规模。在下一步判断供应商所在的具体索引,这一步可以进一步降低要扫描的数据规模。通过两次索引推荐可以降低绝大部分查询要扫描的数据量。后续可以再对全表扫描的请求做针对性优化和限流控制,即可保障整体的稳定性。


优化效果

在索引拆分完成后,我们达到了如下效果。

在这里插入图片描述

总结与思考

本次主要通过索引的拆分与合并,来提升查询性能,同时降低整体集群的资源使用量。过程中我们探索了在线数据的跨集群迁移,多索引联合查询的应用,数据写入的同步异步切换等,希望能够为大家提供解决 ES 大规模数据检索的瓶颈,提供参考。

虽然本次相对比较平滑的完成了索引的拆分,但是需要耗费大量的开发和测试资源。伴随业务的快速发展,遇到数据瓶颈的业务线,可能有会逐渐增多,如果届时每个业务域要独自开发和测试,成本还是相对较高的。

后续可能考虑将 ES 的索引层和存储层进行分离,通过引入类似 TiKv 或 HBase 等可以无限扩充的 KV 存储来替代 ES 的存储层。通过 KV 存储,来重建 ES 索引。这样可以做到业务方配置化的索引拆分,分片扩容等,无需任何的开发,进一步的降本增效。


参考

ES亿级商品索引拆分实战

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/95240.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

详细讲解移植u-boot.2022.10版本移植到开发板基本方法

大家好,我是ST​。​ 今天给大家讲一讲如何将u-boot.2022.10版本移植到imx6ull开发板上。 环境 选项内容编译主机UbuntuLTS 18.04目标板ATK I.MX6ULL(512MB DDR3 8GB EMMC)u-boot版本2022.10交叉编译工具链gcc-linaro-7.5.0-2019.12-i686…

Moonbeam生态跨链互操作项目汇总

立秋已过,今年的夏天已经接近尾声,即将迎来凉爽的秋天。Moonbeam生态一同以往持续成长,在8月也举办了不少活动、完成集成合作以及协议更新。让我们一同快速了解Moonbeam生态项目近期发生的大小事件吧! Moonwell Moonwell是一个建…

【c++】VC编译出的版本,发布版本如何使用

目录 使用release类型进行发布 应用程序无法正常启动 0xc000007b 版本对应 vcruntime140d 应用版本 参考文章 使用release类型进行发布 应用程序无法正常启动 0xc000007b "应用程序无法正常启动 0xc000007b" 错误通常是一个 Windows 应用程序错误&#xf…

Docker 安装rabbitmq:3.12-management

拉取镜像: docker pull rabbitmq:3.12-management mkdir -p /usr/local/rabbitmq chmod 777 /usr/local/rabbitmq docker run -id --restartalways --namerabbitmq -v /usr/local/rabbitmq:/var/lib/rabbitmq -p 15672:15672 -p 5672:5672 -e RABBITMQ_DEFAULT_U…

C++--动态规划背包问题(1)

1. 【模板】01背包_牛客题霸_牛客网 你有一个背包,最多能容纳的体积是V。 现在有n个物品,第i个物品的体积为vivi​ ,价值为wiwi​。 (1)求这个背包至多能装多大价值的物品? (2)若背包恰好装满&a…

Leetcode刷题:395. 至少有 K 个重复字符的最长子串、823. 带因子的二叉树

Leetcode刷题:395. 至少有 K 个重复字符的最长子串、823. 带因子的二叉树 1. 395. 至少有 K 个重复字符的最长子串算法思路参考代码和运行结果 2. 823. 带因子的二叉树算法思路参考代码和运行结果 1. 395. 至少有 K 个重复字符的最长子串 题目难度:中等 标签&#…

c#设计模式-结构型模式 之 外观模式

概述 外观模式(Facade Pattern)又名门面模式,隐藏系统的复杂性,并向客户端提供了一个客户端可以访问系统的接口。这种类型的设计模式属于结构型模式,它向现有的系统添加一个接口,来隐藏系统的复杂性。该模式…

加油站【贪心算法】

加油站 在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。 给定两个整数数组 gas 和…

ardupilot开发 --- 串韭菜篇解惑篇

几个疑问和个人理解 FLIGHT MODE ? sub mode ? costomer mode ? 联系?区别? 下面这个 _mode 是? // call the correct auto controllerswitch (_mode) {case SubMode::TAKEOFF:takeoff_run();break;case SubMode::WP:case SubM…

电子仓库预测水浸事件,他怎么做到的?

仓库环境中水浸事件可能导致严重的损失,不仅对货物造成损害,还可能影响设备的正常运行甚至威胁安全。 因此,为了应对这一挑战,引入一套完善的仓库水浸监控系统成为了不可或缺的措施。 客户案例 广东某电子公司是一家领先的电子设…

CPU和GPU的区别

介绍什么是GPU, 那就要从CPU和GPU的比较不同中能更好更快的学习到什么是GPU CPU和GPU的总体区别 CPU: 叫做中央处理器(central processing unit) 可以形象的理解为有25%的ALU(运算单元)、有25%的Control(控制单元)、50%的Cache(缓存单元)…

浅谈 Android Binder 监控方案

在 Android 应用开发中,Binder 可以说是使用最为普遍的 IPC 机制了。我们考虑监控 Binder 这一 IPC 机制,一般是出于以下两个目的: 卡顿优化:IPC 流程完整链路较长,且依赖于其他进程,耗时不可控&#xff0…

本地私有仓库、harbor私有仓库部署与管理

本地私有仓库、harbor私有仓库部署与管理 一、本地私有仓库1.本地私有仓库简介2.搭建本地私有仓库3.容器重启策略介绍 二、harbor私有仓库部署与管理1.什么是harbor2.Harbor的特性3.Harbor的构成4.harbor部署及配置5.客户端测试 三、Harbor维护1.创建2.普通用户操作私有仓库3.日…

PDFPrinting.Net Crack

PDFPrinting.Net Crack 它能够轻松灵活地预测完美的打印结果以及用户文件的示例性显示。在.NET的PDF打印中,可以快速浏览最关键的元素。如果用户需要获得更详细的概述,那么他可以查看快速入门手册,甚至现有文档的详细概述参考。 在这种情况下…

Java集合sort排序报错UnsupportedOperationException处理

文章目录 报错场景排查解决UnmodifiableList类介绍 报错场景 我们使用的是PostgreSQL数据库,存储业务数据,业务代码使用的是Spring JPA我们做的是智慧交通信控平台,有个功能是查询展示区域的交通态势,需要按照不同维度排序展示区…

SQL注入之布尔盲注

文章目录 布尔盲注是什么?布尔盲注获取sqli-labs名称 布尔盲注是什么? 当存在SQL注入时,攻击者无法通过页面或请求的返回信息,回显或获取到SQL注入语句的执行结果,这种情况就叫盲注。 布尔型盲注就是利用返回的True或F…

【校招VIP】前端算法考察之排序

考点介绍: 不同的场景中,不同的排序算法执行效率不同。 稳定:冒泡、插入、归并 不稳定:选择、快速、堆排序、希尔排序 『前端算法考察之排序』相关题目及解析内容可点击文章末尾链接查看! 一、考点题目 1、使用js实…

4.RabbitMQ高级特性 幂等 可靠消息 等等

一、如何保证生产者生产消息100%的投递成功 保障消息的成功发出保障MQ节点的成功接收发送端收到MQ节点(Broker)确认应答完善的消息进行补偿机制 1. 理解Confirm确认消息机制 消息的确认,是指生产者投递消息后,如果Broker收到消…

腾讯云学生服务器申请、学生认证入口及学生机价格表

腾讯云学生服务器申请、学生认证入口及学生机价格表,学生机申请流程,腾讯云学生服务器优惠活动:轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年,轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年&…

极智嘉(Geek+)再获重磅荣誉,持续力领跑智慧物流行业发展

近日,全球仓储机器人引领者极智嘉(Geek)再度传来好消息,凭借着全球化的专业服务能力和稳健增长的亮眼海外成绩,一举荣登“2023出海品牌服务商”价值榜,成为唯一登榜的物流机器人企业。 作为率先出海的物流机器人企业,极…