海量数据迁移:Elasticsearch到OpenSearch的无缝迁移策略与实践

文章目录

  • 一.迁移背景
  • 二.迁移分析
  • 三.方案制定
    • 3.1 使用工具迁移
    • 3.2 脚本迁移
  • 四.方案建议

一.迁移背景

  1. 目前有两个es集群,版本为5.2.2和7.16.0,总数据量为700T。
  2. 迁移过程需要不停服务迁移,允许一小时不写数据,但是需要提供数据存储方案。
  3. 迁移到opensearch的版本为1.3.4。

二.迁移分析

根据迁移背景中的描述进行分析:

  1. Opensearch的版本是基于elasticsearch 7.10版本做的二次开发迭代,因此,7.16的es集群迁移到os 1.3.4属于小版本之间数据迁移,可正常迁移,但 es 5.2.2版本迁移到os 1.3.4属于跨两个大版本迁移,需要开发协助验证数据结构和数据字段类型是否完全符合。
  2. 迁移过程不停服务,700T一小时无法迁移完成,需要考虑可以先迁业务,把业务的数据存储先指向os集群,然后历史数据追加到os集群。
  3. 历史数据迁移到os过程中,可能由于一些原因失败,需要考虑迁移方案是否具备断点续传的功能。
  4. 数据量较大,如果是es迁移到es建议使用snapshot方式,但是es迁移os此工具不行,虽然官方建议使用snapshot迁移es到os,但实际测试无法迁移。

总结

  1. 5.2.2 版本需要开在os版本中验证数据格式和数据类型是否可以,以确定是否可以迁移。
  2. 700T 数据量较大,需要考虑迁移时间和数据一致性的保证。
  3. 由于数据量较大,建议os使用商业版存储或SSD固态硬盘,以提升存储效率和查询效率。

三.方案制定

3.1 使用工具迁移

由于opensearch官网建议使用snapshot方式迁移,但实际测试过程中并不能迁移数据,使用elasticdump可实现数据迁移。

在这里插入图片描述
步骤:

  1. 将业务应用程序写入es断开
  2. 将业务应用程序的写入指向新的os集群
  3. 使用elasticdump将数据分批次导出/导入集群
比如导出1年数据
elasticdump --input ./data_mapping.json --output https://admin:admin@192.168.2.200:32001/test --type=data --searchBody "{ \"query\": { \"bool\": { \"filter\": { \"range\": { \"requestTime\": { \"gt\": \"20200000000000000\", \"lt\": \"20210000000000000\" } } } } } }"

优势:

  1. 开源程序,无需考虑自研
  2. 通过查询条件实现的类似断点续传的功能

劣势:

  1. 支持性不好,若elasticdump工具问题,不能快速解决
  2. 需要对es数据很熟悉,并且数据中有可以查询时间范围的字段
  3. 对es语法了解,需要会写es查询语句,删除语法
  4. 按时间段进行导入导出数据为了较少因导入过程中故障问题,可通过查询条件删除数据在重新导入,风险较大
  5. 由于分批次,导入导出周期很长
  6. 暂不支持5.2.2的导入导出,需开发先验证数据结构和字段是否支持两个版本
  7. 时间不可控,elasticdump工具不适合大数据量导入导出,时间周期会较长

3.2 脚本迁移

在这里插入图片描述
步骤:

  1. 将业务应用程序写入es断开
  2. 将业务应用程序的写入指向新的os集群
  3. 开启数据抽取脚本,并写入kafka
  4. 开启数据写入脚本,读取kafka消息,写入os中

为什么需要kafka呢?

  1. 解耦合
    使用程序可以实现从elasticsearch集群中抽取数据直接写入到opensearch集群中,但会增加opensearch集群的压力,所以中间加上kafka消息中间件进行解耦合。
  2. 多版本共存
    若是使用的java程序,elasticsearch的客户端java依赖一般是JDK8,而opensearch官方建议使用的客户端是JDK11, 一个java程序需要解决两个版本的JDK依赖问题,所以将抽取和写入程序分离开来。
    3.降成本
    对于数据抽取脚本,只需要按照数据格式可拆分的进行数据迁移,例如使用按照时间范围以及关键字进行数据查询抽取:
        "query": {
            "bool": {
                "must": [
                    {
                        "range": {
                            "access_time.keyword": {
                                "gte": 2023-01-01 00:00:00,
"lt": 2023-01-01 00:00:00,
                                "format": "yyyy-MM-dd HH:mm:ss"
                            }
                        }
                    }

                ],
                "filter": {
                    "term": {
                        "loglevel.keyword": "ERROR"
                    }
                }
            }
        }
}

这样每次只需改动数据抽取时间范围即可,同时将数据写入kafka中。若程序中断,可让写入脚本将消息消费完成,确定最后一条数据的写入时间,改动抽取脚本的时间范围即可再次启动抽取脚本,无需进行数据清理工作,只需等待写入完成即可。
数据写入脚本只需订阅相关topic即可,将数据写入到opensearch中,若脚本异常退出或网络中断,可重新进行消息的消费,无需考虑数据一致性问题。
优势:
1.自研脚本操作数据无需考虑版本兼容问题
2.可控数据传输(如:暂停,开始)
3.支持断点续传功能
4.无需停机迁移,业务可正常写入
5.支持性较好

劣势:
1.迁移过程应用程序读取数据问题,一段时间内无法读取到历史数据,因为在做数据同步过程,也可修改应用程序读取es集群中的历史数据

四.方案建议

综合以上优劣对比,建议使用方案3.2开发脚本进行数据迁移。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/912991.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

macOS开发环境配置与应用开发(详细讲解)

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 macOS作为Apple公司推出的桌面操作系统,以其稳定性、优雅的用户界面和强大的开发工具吸引了大量开发者。对于…

【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法

【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法 【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和深度迁移学习的遥感影像滑坡制图方法 文章目录 【深度学习滑坡制图|论文解读3】基于融合CNN-Transformer网络和…

前端学习之ES6+

1.ES6是什么 ES6,全称是ECMAScript 6,是JavaScript语言的下一代标准,由ECMA国际组织在2015年6月正式发布。ES6也被称作ECMAScript 2015,从这个版本开始,ECMA组织决定每年发布一个新的ECMAScript版本,以使J…

查缺补漏----用户上网过程(HTTP,DNS与ARP)

(1)HTTP 来自湖科大计算机网络微课堂: ① HTTP/1.0采用非持续连接方式。在该方式下,每次浏览器要请求一个文件都要与服务器建立TCP连接当收到响应后就立即关闭连接。 每请求一个文档就要有两倍的RTT的开销。若一个网页上有很多引…

【广西】《广西壮族自治区本级政务信息化建设和运维项目预算支出标准》(桂财建〔2023〕102号)-省市费用标准解读系列09

《广西壮族自治区本级政务信息化建设和运维项目预算支出标准》(桂财建〔2023〕102号)是广西壮族自治区财政厅于2023年9月26日发布的费用标准(了解更多可直接关注我们咨询)。我司基于专业第三方信息化项目造价机构角度,…

Linux基础-常用操作命令详讲

Linux基础-常用操作命令详讲 一、openssl加密简单介绍 1. 生成加密的密码散列(password hash)​编辑 1.1 常见的选项总结表 1.2 加密参数详解 2. 自签名证书 3. 证书转换 二、文件管理 1. 创建空文件 ​编辑 2. 删除文件 4. 新建目录 ​编辑…

ALB搭建

ALB: 多级分发、消除单点故障提升应用系统的可用性(健康检查)。 海量微服务间的高效API通信。 自带DDoS防护,集成Web应用防火墙 配置: 1.创建ECS实例 2.搭建应用 此处安装的LNMP 3.创建应用型负载均衡ALB实例 需要创建服务关联角…

C语言笔记(字符串函数,字符函数,内存函数)

目录 前言 1.字符串函数 1.1.strlen 1.2.strcpy 1.3.strcat 1.4.strcmp 1.5.strncpy 1.6.strncat 1.7.strncmp 1.8.strstr 1.9.strtok 1.10.strerror 2.字符函数 2.1字符分类函数 2.2字符转换函数 3.内存函数 3.1.mencpy 3.2.memmove 3.3.memcmp 前言 本文重…

HCIP-HarmonyOS Application Developer V1.0 笔记(五)

弹窗功能 prompt模块来调用系统弹窗API进行弹窗制作。 当前支持3种弹窗API,分别为: 文本弹窗,prompt.showToast;对话框,prompt.showDialog;操作菜单,prompt.showActionMenu。 要使用弹窗功能&…

Linux相关概念和易错知识点(20)(dentry、分区、挂载)

目录 1.dentry (1)路径缓存的原因 (2)dentry的结构 ①多叉树结构 ②file和dentry之间的联系 ③路径概念存在的意义 2.分区 (1)为什么要确认分区 (2)挂载 ①进入分区 ②被挂…

Redis 缓存击穿

目录 缓存击穿 什么是缓存击穿? 有哪些解决办法? 缓存穿透和缓存击穿有什么区别? 缓存雪崩 什么是缓存雪崩? 有哪些解决办法? 缓存预热如何实现? 缓存雪崩和缓存击穿有什么区别? 如何保…

电信网关配置管理系统 upload_channels.php 文件上传致RCE漏洞复现

0x01 产品简介 中国电信集团有限公司(英文名称“China Telecom”、简称“中国电信”)成立于2000年9月,是中国特大型国有通信企业、上海世博会全球合作伙伴。电信网关配置管理系统是一个用于管理和配置电信网络中网关设备的软件系统。它可以帮助网络管理员实现对网关设备的远…

澳鹏通过高质量数据支持 Onfido 优化AI反欺诈功能

“Appen 在 Onfido 的发展中发挥了至关重要的作用,并已成为我们运营的重要组成部分。我们很高兴在 Appen 找到了可靠的合作伙伴。” – Onfido 数据和分析总监 Francois Jehl 简介:利用人工智能和机器学习增强欺诈检测 在当今日益数字化的世界&#xff…

网站架构知识之Ansible模块(day021)

1.Ansible模块 作用:通过ansible模块实现批量管理 2.command模块与shell模块 command模块是ansible默认的模块,适用于执行简单的命令,不支持特殊符号 案列01,批量获取主机名 ansible all -m command -a hostname all表示对主机清单所有组…

应对AI与机器学习的安全与授权管理新挑战,CodeMeter不断创新引领保护方案

人工智能(AI)和机器学习(ML)技术正在快速发展,逐渐应用到全球各类主流系统、设备及关键应用场景中,尤其是在政府、商业和工业组织不断加深互联的情况下,AI和ML技术的影响日益广泛。虽然AI技术的…

实现uniapp-微信小程序 搜索框+上拉加载+下拉刷新

pages.json 中的配置 { "path": "pages/message", "style": { "navigationBarTitleText": "消息", "enablePullDownRefresh": true, "onReachBottomDistance": 50 } }, <template><view class…

布谷直播源码部署服务器关于数据库配置的详细说明

布谷直播源码搭建部署配置接口数据库 /public/db.php&#xff08;2019年8月后的系统在该路径下配置数据库&#xff0c;老版本继续走下面的操作&#xff09; 在项目代码中执行命令安装依赖库&#xff08;⚠️注意&#xff1a;如果已经有了vendor内的依赖文件的就不用执行了&am…

【C++】STL— stack的常见用法和模拟实现

目录 1、stack的介绍 2、stack的使用 构造一个空栈 stack的简单接口应用 3、stack的模拟实现 4、栈的相关题目 4.1 最小栈 4.1.2思路 4.1.3 实现代码 4.2 栈的压入、弹出序列 4.2.2 思路 4.2.3程序实现 1、stack的介绍 在C中&#xff0c;stack是一种标准模板库&am…

vue大疆建图航拍功能实现

介绍 无人机在规划一块区域的时候&#xff0c;我们需要手动的给予一些参数来影响无人机飞行&#xff0c;对于一块地表&#xff0c;无人机每隔N秒在空中间隔的拍照地表的一块区域&#xff0c;在整个任务执行结束后&#xff0c;拍到的所有区域照片能够完整的表达出一块地表&…

[ DOS 命令基础 2 ] DOS 命令详解-网络相关命令

&#x1f36c; 博主介绍 &#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 _PowerShell &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 &#x1f389;点赞➕评论➕收藏 养成习…