详解 HBase 的架构和基本原理

一、基本架构

在这里插入图片描述

  • StoreFile:保存实际数据的物理文件,StoreFile 以 HFile 的格式 (KV) 存储在 HDFS 上。每个 Store 会有一个或多个 StoreFile(HFile),数据在每个 StoreFile 中都是有序的
  • MemStore:写缓存,由于 HFile 中的数据要求是有序的,所以数据是先存储在 MemStore 中,排好序后,等到达刷写时机才会刷写到 HFile,每次刷写都会形成一个新的 HFile
  • WAL:由于数据要经 MemStore 排序后才能刷写到 HFile,但把数据保存在内存中会有很高的概率导致数据丢失,为了解决这个问题,数据会先写在一个叫做 Write-Ahead logfile 的文件中,然后再写入 MemStore 中。所以在系统出现故障的时候,数据可以通过这个日志文件重建

二、写流程原理

HBase 的读操作比写操作慢,且读写流程没有 master 参与

在这里插入图片描述

  • 老版本:Zookeeper 中存储的是 -root- 表的位置信息,-root- 表存储的 meta 表的位置信息(防止 meta 表进行切分)
  • Client 先访问 Zookeeper,获取 hbase:meta 表位于哪个 Region Server
  • 访问对应的 Region Server,获取 hbase:meta 表数据,根据写请求的 namespace:table/rowkey 信息查询出目标数据位于哪个 Region Server 中的哪个 Region 中,并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache,方便下次快速访问
  • 与目标表所在的 Region Server 进行通讯
  • 将写请求命令顺序写入(追加)到内存的 WAL,此时 wal 没有同步到 HDFS
  • 将数据写入对应的 MemStore,数据会在 MemStore 进行排序
  • 同步 wal 到 HDFS,若失败则回滚清空 MemStore 写入的数据
  • 向客户端发送 ack,此时的写请求已经完成
  • 等达到 MemStore 的刷写时机后,将数据刷写到 HFile

三、MemStore Flush

在这里插入图片描述

  • MemStore Flush:刷写,将 Region 中存储在内存中的数据刷写到 HDFS 的磁盘中
  • Flush 时机:
    • RegionServer 级别:
      • 当 RegionServer 中 memstore 的总大小达到 javaHeapSize × hbase.regionserver.global.memstore.size(默认 0.4) × hbase.regionserver.global.memstore.size.lower.limit(默认 0.95) 时,所有 region 会按照其所有 memstore 的大小顺序 (由大到小) 依次进行刷写。直到 RegionServer 中所有 memstore 的总大小减小到上述值以下;当 RegionServer 中 memstore 的总大小达到javaHeapsize × hbase.regionserver.global.memstore.size 时,会停止继续往所有的 memstore 写数据操作
      • 当 memstore 中最后一条数据的写入时间达到hbase.regionserver.optionalcacheflushinterval(默认 1h) 的值时,触发 memstore flush
      • 当 WAL 文件的数量超过 hbase.regionserver.max.logs,region 会按照时间顺序依次进行刷写,直到 WAL 文件数量减小到 hbase.regionserver.max.log 以下 (该属性名已经废弃,现无需手动设置,最大值为 32),该参数用于防止生产上内存配置过大导致刷写时数据积累过大
    • Region 级别:
      • 当某个 region 的 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认 128M) 时,这个 region 的所有 memstore 都会刷写
      • 当某个 region 的 memstore 的大小达到了 hbase.hregion.memstore.flush.size(默认 128M) × hbase.hregion.memstore.block.multiplier(默认 4)时,会停止继续往该 memstore 写数据

四、读流程原理

在这里插入图片描述

  • Client 先访问 Zookeeper,获取 hbase:meta 表位于哪个 Region Server
  • 访问对应的 Region Server,获取 hbase:meta 表,根据读请求的 namespace:table/rowkey 信息查询出目标数据位于哪个 Region Server 中的哪个 Region 中,并将该 table 的 region 信息以及 meta 表的位置信息缓存在客户端的 meta cache,方便下次访问
  • 与目标 Region Server 进行通讯
  • 分别在 BlockCache (读缓存),MemStore 和 StoreFile (HFile) 中查询目标数据,并将查到的所有数据进行合并 (merge)。此处所有数据是指同一条数据的不同版本 (timestamp) 或者不同的类型 (Put/Delete)
  • 将从 StoreFile 中查询到的数据块 (Block,HFile 数据存储单元,默认大小为 64KB) 缓存到 BlockCache
  • 将合并后 timestamp 最大的数据返回给客户端

五、StoreFile Compaction

在这里插入图片描述

  • 背景:由于 memstore 每次刷写都会生成一个新的 HFile,且同一个字段的不同版本 (timestamp) 和不同类型 (Put/Delete) 有可能会分布在不同的 HFile 中,因此查询时需要遍历所有的 HFile
  • 为了减少 HFile 的个数,以及清理掉过期和删除的数据,HBase 会进行 StoreFile Compaction
  • StoreFile Compaction 分为两种:
    • Minor Compaction:会将临近的若干个较小的 HFile 合并成一个较大的 HFile,但不会清理过期和删除的数据,shell 命令为 compact
    • Major Compaction:会将一个 Store 下的所有的 HFile 合并成一个大 HFile,并且会清理掉过期和删除的数据,shell 命令为 major_compact
  • Major Compaction 触发条件:
    • HFile 存储时长达到 hbase.hregion.majorcompaction(默认 7 天) 的值时自动进行 Major Compaction,但生产上一般会关闭 (设置为 0)
    • 当一个 store 中的 hfile 个数达到或超过 hbase.hstore.compactionThreshold(默认 3) 的值时自动进行 Major Compaction,或手动执行 compact 命令时也进行 Major Compaction

六、数据真正删除

  • 触发数据删除的条件:MemStore Flush 和 Major Compaction
  • 当同一个字段的不同版本数据都在内存中, MemStore Flush 会删除版本小的数据,只将最大版本的数据刷写到磁盘;当同一个字段的不同类型数据都在内存中, MemStore Flush 只会删除 put 类型的数据 (delete 类型可能还要限制磁盘中的同字段数据);当同一个字段的不同版本数据在不同的文件,此时 MemStore Flush 不会删除数据
  • Major Compaction 会删除需要保留的版本数之外的所有过时版本和 delete 类型的数据

七、Region Split

在这里插入图片描述

  • 默认情况下,每个 Table 起初只有一个 Region,随着数据的不断写入增加,Region 会触发自动进行拆分。刚拆分时,两个子 Region 都位于当前的 Region Server,但处于负载均衡的考虑,HMaster 有可能会将某个 Region 转移给其他的 Region Server
  • Region Split 触发时机:
    • 0.94 版本之前:当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 hbase.hregion.max.filesize(默认 10G),该 Region 就会进行拆分
    • 0.94 版本之后:当 1 个 region 中的某个 Store 下所有 StoreFile 的总大小超过 min(R^2 × hbase.hregion.memstore.flush.size, hbase.hregion.max.filesize), 该 Region 就会进行拆分,其中 R 为当前 Region Server 中属于该 Table 的 region 个数
  • 自动切分会造成数据倾斜,产生数据热点问题,在生产上一般不使用,而是在建表时先进行预分区,后续插入数据时轮询的插入到不同的分区
  • 官方建议使用一个列族,避免切分全局 flush 时产生大量小文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/716239.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Samba 服务器的搭建以及windows server 2008客户端的使用实验报告

一、 实验目的 通过 Samba 服务器的搭建,基本了解搭建服务器的基本步骤,理解 Samba 服务器的实现文件共享的功能,如何配置 Samba服务器配置文件等。 二、 实验环境 准备一台安装 centOS7系统的 Linux 虚拟机作为 Samba 服务器 server,准备…

手机ip地址怎么换成成都的

随着互联网的快速发展,我们越来越依赖于网络进行各种操作。而在某些情况下,为了更好地享受网络服务或保护个人隐私,我们可能需要改变手机的IP地址。本文将详细介绍如何将手机IP地址换成成都的,同时提醒大家在操作过程中需要注意的…

如何学习创建和使用 Java 归档(JAR)文件

1. 简介 JAR(Java ARchive)文件是一种用于打包多个Java类、资源文件和元数据的压缩文件格式。它在Java开发和发布过程中扮演着重要角色。通过使用JAR文件,开发者可以将应用程序的所有组件打包在一个文件中,方便分发和部署。 2. …

二次元资源汇总

获取更多资源,请关注公众号:阿宇的编程之旅,回复‘书签’获取 动漫网站 动漫世界 网站名称:动漫世界网址:nav.acgsq.com介绍:中国最大最权威的正版动漫网站,提供漫画、动画、资讯、论坛等全方…

一些激活函数

一些激活函数 摘要激活函数分类sigmoidTanhSoftsignSoftmaxReLUSoftplusNoisy ReLULeaky ReLUPReluELUSELUSwishGELUGLUGEGLUMishMaxout 摘要 本篇博客对一些激活函数进行总结,以便加深理解和记忆 激活函数分类 饱和激活函数:sigmoid、tanh… 非饱和激…

短链接生成器排名前三!长链接转化成短链接工具有哪些?

在现今的网络营销环境中,短链接的应用越来越广泛。它不仅能简化长链接,提高分享效果,还能提升企业品牌形象和用户体验。于是,市场上涌现出众多短链接生成工具。本文将为您揭秘短链接生成器排名前三的产品,帮您找到最适…

ABB工业喷涂机器人保养,轻松搞定!

小伙伴都知道机器人在长时间的使用下,难免遇到一些机械手故障。一旦发生了机器人故障,会影响整个生产线的作业,那么怎么才能做到防止机器人的故障率发生呢?定期的保养与维护显得尤为重要,一个好的维修保养服务商也很重…

yml配置文件快速上手

yml配置文件快速上手 springboot中,有三种文件可以作为配置文件 xml文件(不推荐,臃肿)application.propertis文件(层次不够分明)yml文件(推荐,层次分明,语法简洁) yml文件的基本语…

【递归、搜索与回溯】记忆化搜索

一、经验总结 以斐波那契数为例引入今天的主角:记忆化搜索和动态规划 题目链接 509. 斐波那契数 - 力扣(LeetCode) 题目描述 算法原理 编写代码 //解法二:递归->记忆化搜索 class Solution {int mem[31]; //备忘录 public…

揭秘未来:用线性回归模型预测一切的秘密武器!

线性回归模型 1. 引言2. 理论基础2.1 线性回归模型的定义与原理原理与关键假设模型参数估计 2.2 模型评估指标2.2.1 残差分析2.2.2 拟合优度指标2.2.3 统计检验 3. 应用场景3.1. 金融领域中的应用3.2. 医疗健康领域中的应用3.3. 其他领域的应用 4. 实例分析4.1、数据集选择4.2、…

目标检测算法YOLOv10简介

YOLOv10由Ao Wang等人于2024年提出,论文名为:《YOLOv10: Real-Time End-to-End Object Detection》,论文见:https://arxiv.org/pdf/2405.14458 ;源码见: https://github.com/THU-MIG/yolov10 以下内容主要来自论文&a…

Open To Buy(OTB)计划:零售业者的库存管理利器

在当今快速变化的服装市场中,如何高效、精准地进行商品管理成为了服装企业竞争的关键。OTB(Open-to-Buy)作为一种有效的商品管理方法,在企业管理中扮演着至关重要的角色。它基于预算、商品计划以及市场需求等多维度因素&#xff0…

《优化接口设计的思路》系列:第1篇—什么是接口缓存

一、缓存的定义: 缓存是一种存储数据的技术,用于提高数据访问的速度和效率。缓存通常存储在内存中,因为内存访问速度远快于磁盘和网络。数据接口通常会使用缓存技术,以降低对后端数据存储和处理的压力,提高系统性能。…

CSAPP -lecture01

##01COURSE OVERVIEW int or not intergers ,float and not reals that you need to understand what the system dose ,what make it run wll,what make it run poorly .in order to be able to do that kind of optimization

期货到底难在哪里?

第一难:使用杠杠,杠杠放大的其实是你性格、天赋和技能上的弱点,同时相应缩小你这三个方面的优点;第二难:双向交易。如果只能做多,理论上你每次交易将有50%的概率盈利。现在既能做多又能做空,只剩…

Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope

本文主要介绍如何在无需网关,无需配置 HttpClient 的情况下,使用 Semantic Kernel 直接调用本地大模型与阿里云灵积 DashScope 等 OpenAI 接口兼容的大模型服务。 1. 背景 一直以来,我们都在探索如何更好地利用大型语言模型(LLM&…

如何快速搭建产业数字化生态链?

如何快速搭建产业数字化生态链?这是当下许多企业都在思索的关键问题。 首先,要明确自身的核之心优势与定位,找到在数字化生态中的独特价值。 加强与产业链上下游企业的合作与协同,打破信息壁垒,实现资源共享与互补。 注…

重生奇迹mu圣导师介绍

出生地:勇者大陆 性 别:男 擅 长:统率&宠物使用 转 职:祭师(3转) 介 绍:当玩家账号中有一个Lv250以上角色时,便可以创建职业为圣导师的新角色,圣导师每升一级获得…

最适合程序员的编程字体,漂亮、独特、优雅!(2024-06-17)

Monaco Monaco 字体是一款专为编程和代码编辑设计的等宽字体,以其简洁明了的无衬线设计风格、高可读性和清晰的字符区分度,受到开发者们的青睐,Mac 自带 Monaco 字体。 Consolas Consolas 是一款等宽无衬线字体,专为编程和代码编…

C#语言入门详解 --- 方法(含传值 输出 引用 数组)

方法 方法标准式 <Access Specifier> <Return Type> <Method Name>(Parameter List) { Method Body } 让我们逐一对每一个模块进行解释&#xff1a; Access Specifier&#xff1a;访问修饰符&#xff0c;这决定了接下来的主题的可见性&#xff0c;包含p…