HBase理论_HBase架构组件介绍

        近来有些空闲时间,正好最近也在开发HBase相关内容,借此整理一下学习和对HBase组件的架构的记录和个人感受,付出了老夫不少心血啊,主要介绍的就是HBase的架构设计以及我的拓展内容。内容如有不当或有其他理解

matirx70@163.com

HBase架构设计

HBase master 架构介绍

        hbase master采用主备架构,master与regionserver采用主从架构(即一个HMaster会控制多个regionserver),HBase由zookeeper、HMaster、HRegionServer三部分组成,底层数据存储在HDFS上(存储到HDFS中的是Hfile文件)。

【个人拓展:主备架构和主从架构

        1、主备架构和主从架构有什么区别?

       主备架构:只有主库提供读写服务,备库冗余作故障转移用

hadoop中的namenode,一个是master(active),另一个master(standby)

也就是主机节点宕机了,另一台备用节点就会变为active,变为主,这是主备架构

        主从架构: master , slave

        就是我们namenode 下面挂着datanode ,他们之间的关系是主从,

        在CDH的平台上也可以看到它。具体操作如下进入到 HBase ->实例,可以看到Master和Regionserver。

                                                              【我自己拍的图】

        进入到配置中可以看到ZK,HBase要依赖ZK的,同时在下面有一个HBase的长连接的目录

                                                            【我自己拍的图】

        如何查看这个长连接目录?

# 进入集群,简单看一下zk存在的地方
[root@worker-1 ~]# zookeeper-client
[zk: localhost:2181(CONNECTED) 0] ls /
[hive_zookeeper_namespace_hive, zookeeper, ngdata, hbase, solr]
[zk: localhost:2181(CONNECTED) 1] ls /hbase
[meta-region-server, rs, splitWAL, backup-masters, table-lock, flush-table-proc, master-maintenance, online-snapshot, acl, switch, master, running, tokenauth, draining, namespace, hbaseid, table]
[zk: localhost:2181(CONNECTED) 2]  ls /hbase/master
[]

#f防伪标识:作者csdn: matrix70     --->  xidaolaoli

 HBase官方架构图

                                       【HBase官方架构图】

【个人经验拓展架构图理解】

        这个官方的架构图有歧义,在Memstore溢写时,溢写到StoreFile中,StoreFile中实际存储的是HFile文件,StoreFile实际存储在HDFS上,即图中StoreFile应放在HDFS中,而不应该划分到Region中,这就是有歧义的地方。后续我会给出一个新的架构图。

        要记住这个Hlog是做什么的,一个regionserver下面只有一个Hlog,wal这里还有一个协处理器,可二次开发,但是要注意我们处理器是监控不了我们的TSV + bulkload的,基于HBase底层做二次开发的,要注意这一个点,协比如麒麟做一个二次开发。这是题外话了,我在这里简单扩展一下。

简述官方架构图功能:

Client客户端

        Client客户端,它提供了访问HBase的接口,并且维护了对应的cache来加速HBase的访问。

Zookeeper

        存储HBase的元数据(meta表),无论是读还是写数据,都是去Zookeeper里边拿到meta元数据告诉给客户端去哪台机器读写数据

HRegionServer regionServer 服务器端

        它是处理客户端的读写请求,负责与HDFS底层交互,是真正干活的节点。

总结大致的流程就是:client请求到Zookeeper,然后Zookeeper返回HRegionServer地址给client,client得到Zookeeper返回的地址去请求HRegionServer,溢写HRegionServer读写数据后返回给client。

HBase 架构组件介绍

HMaster

        HBase引入zookeeper,避免HMaster单点问题,HMaster主要负责table和region的管理工作:

        1 )管理用户的读写操作

        2 )管理HRegionServer的负载均衡,调整region分布,这是region切分的时候要用的

        3 )region split后,负责新region重分

        4 )在HRegionServer停机后,负责失效的HRegionServer上region的迁移,如果这个HRS服服务挂了,那么Master会把RegionServer中的Region中的数据迁移到正常的HRS中

【个人扩展-->如何解决主备的单点问题?】

        与Namenode的单点问题解决方式是同一个,Namenode中单点问题是通过zookeeper解决,即如果主节点挂掉,则zk中的临时节点就会消失,然后备用的节点重新注册一个临时节点,然后它就升级为主节点了。

HRegionServer

        是HBase中最核心的模块,也是干活的模块,一般HRegionServer会选择和DataNode部署在同一个节点,实现短路读/数据本地化,HRS主要功能:

        1 )维护Region,每个Region下面存着数据的,处理这些Region的IO请求

        2 )Regionserver负责切分在运行过程中逐渐变大的Region​ 一个HRegionServer下面可以有多个Region

HRegion/Region

        HBase使用rowkey将表水平切割成多个HRegion/Region.

【个人拓展理解-->HRegion】

        从HMaster的角度,每个HRegion都记录了startkey和endkey(第一个Region的startkey为空,最后一个Region的endkey为空),由于rowkey是有序的,有序就会做一个索引,因此client端可以通过HMaster快速定位到某个rowkey在哪个HRegion中,不需要全表去扫描了,通过key-value的形式就干出来了。

【个人拓展理解-->Rowkey是如何水平切分HRegion 】

        这一个可是精华,学习的时候理解了半天,当然,我还是会用图演示出来方便些,我愿称之为全网最NB的理解,请把NB打在评论区!!

        废话不多说:如果建表时未进行预分region,startkey和endkey都为空,则区间为(负无穷,正无穷),随着数据增加,region分裂后会生成新的region,此时startkey和endkey会生成具体的值。

【演示Rowkey是如何水平切分HRegion的】

【演示Region分裂】

【个人拓展->Region是怎样产生的】

        1)按照Rowkey预分Region

        2)如果没有按照Rowkey预分Region,则当一个Region达到一定的值的时候,会自动进行Region分裂。具体到什么值,后面我会详细来说说,哈哈哈。

HStore/Store

        每一个列族对应一个HStore/Store,一个HRegion/Region里包含一个或者多个HStore/Store,由此在设计cf时,尽量将同一系列的数据存在一个列族中,便于同一系列的数据都存在同一个region中。

【列族设计】

Hlog

        hbase WAL(write ahead log)(预写日志机制),在用户发起写请求时先向Hlog写一份,然后再将数据向memstore中写,Hlog数据是写磁盘,为了避免HRegionServer故障时memstore数据丢失,Hlog并不是无限去存储的,否则就冗余了,他也有阈值,会滚动更新,达到阈值,会提示memstore把数据溢写到HDFS上,等memstore的数据全部溢写到磁盘上,则Hlog的备份的数据会清空,而新数据的加入会对应冲抵掉较早的Hlog数据。

Memstore(阈值128M)

        hbase写缓存,在用户发起写请求时先写入hlog,然后再写入memstore中,当memstore写入达到flush阈值时,将memstore中的数据写到hdfs上(hfile),每个列族对应一个memstore,即一个HStore/Store中只有一个memstore。

storefile

        当memstore写数据达到设定的阈值之后,会将数据溢写到hdfs,即storefile,内部存储hfile。storefile会进行合并,否则可能出现小文件的问题,当storefile经过多次合并后变得已经达到指定规则的分裂阈值,则再进行region分裂。

HRS、DataNode、table、region、columnfamily、Hstore/store、memstore、storefile关系图,修正了部分

有空补充

参考资料:

1、hbase官网Apache HBase® Reference Guide

2、大神给我的讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/915869.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序自定义顶部导航栏(适配各种机型)

效果图 1.pages.js,需要自定义导航栏的页面设置"navigationStyle": "custom" 2.App.vue,获取设备高度及胶囊位置 onLaunch: function () {// 系统信息const systemInfo uni.getSystemInfoSync()// 胶囊按钮位置信息const menuButtonInfo uni.…

ArkTs简单入门案例:简单的图片切换应用界面

在鸿蒙 OS 应用开发的过程中,我们常常需要通过组合各种组件和编写相应的逻辑来实现丰富多样的功能。今天,我就来和大家详细解析一段实现简单图片切换功能的代码,希望能帮助到那些刚接触鸿蒙 OS 应用开发的朋友们。 一、代码导入部分 Entry …

【项目组件】第三方库——websocketpp

目录 第三方协议:websocket websocket简介 websocket特点 websocket协议切换 websocket协议格式段 websocketpp库介绍 endpoint server connection websocketpp库搭建服务器流程 基本框架实现 业务处理回调函数的实现 http_callback open_callback …

【手撕 Spring】 -- Bean 的创建以及获取

🌈手写简化版 Spring 框架:通过构建一个精简版的 Spring 框架,深入理解 Spring 的核心机制,掌握其设计思想,进一步提升编程能力 🌈项目代码地址:https://github.com/YYYUUU42/mini-Spring 如果该…

Jdbc学习笔记(四)--PreparedStatement对象、sql攻击(安全问题)

目录 (一)使用PreparedStatement对象的原因: 使用Statement对象编写sql语句会遇到的问题 ​编辑 (二)sql攻击 1.什么是sql攻击 2.演示sql攻击 (三)防止SQL攻击 1.PreparedStatement是什么 …

Jmeter中的定时器(二)

5--JSR223 Timmer 功能特点 自定义延迟逻辑:使用脚本语言动态计算请求之间的延迟时间。灵活控制:可以根据测试数据和条件动态调整延迟时间。支持多种脚本语言:支持 Groovy、JavaScript、BeanShell 等多种脚本语言。 支持的脚本语言 Groov…

【Istio】Istio原理

第一章 Istio原理 一、服务网格(servicemesh)1、六个时代2、服务网格定义及优缺点二、Istio1、Istio定义2、Istio安装3、Istio架构1.5版本之前1.5版本之后4、bookinfo案例架构部署5、CRD一、服务网格(servicemesh) 微服务:架构风格,职责单一,api通信 服务网格:微服务时代的…

4.远程访问及控制

SSH 简介: SSH(Secure Shell)协议是一种安全通道协议,对通信数据进行了加密处理,用于远程管理。 OpenSSH简介 OpenSSH 服务名称:sshd 服务端主程序:/usr/sbin/sshd 服务端配置文件&#xf…

精通rust宏系列教程-入门篇

Rust最令人敬畏和强大的特性之一是它使用和创建宏的能力。不幸的是,用于创建宏的语法可能相当令人生畏,并且对于新开发人员来说,这些示例可能会令人不知所措。我向你保证Rust宏非常容易理解,本文将为你介绍如何创建自己的宏。 什么…

设计模式之装饰器模式(SSO单点登录功能扩展,增加拦截用户访问方法范围场景)

前言: 两个本想描述一样的意思的词,只因一字只差就让人觉得一个是好牛,一个好搞笑。往往我们去开发编程写代码时也经常将一些不恰当的用法用于业务需求实现中,但却不能意识到。一方面是由于编码不多缺少较大型项目的实践&#xff…

kubernetes简单入门实战

本章将介绍如何在kubernetes集群中部署一个nginx服务,并且能够对其访问 Namespace Namespace是k8s系统中一个非常重要的资源,它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离。 默认情况下,k8s集群中的所有的Pod都是可以相…

webpack5 + vue3 从零配置项目

前言 虽然在实际项目当中很少会从 0 到 1 配置一个项目,毕竟很多重复工作是没有必要的,脚手架将这些重复性的工作进行了整合,方便开发者使用。也正因如此,导致部分开发者过于依赖脚手架,却不清楚其内部的实现流程&…

Linux git-bash配置

参考资料 命令提示符Windows下的Git Bash配置,提升你的终端操作体验WindowsTerminal添加git-bash 目录 一. git-bash配置1.1 解决中文乱码1.2 修改命令提示符 二. WindowsTerminal配置git-bash2.1 添加git-bash到WindowsTerminal2.2 解决删除时窗口闪烁问题 三. VS…

(RK3566驱动开发 - 1).pinctrl和gpio子系统

一.设备树 pinctrl部分可以参考 rockchip 官方的绑定文档 :kernel/Documentation/devicetree/bindings/pinctrl PIN_BANK:引脚所属的组 - 本次例程使用的是 GPIO3_A1 这个引脚,所以所属的组为 3; PIN_BANK_IDX:引脚的…

基于OpenFOAM和深度学习驱动的流体力学计算与应用

在深度学习与流体力学深度融合的背景下,科研边界不断拓展,创新成果层出不穷。从物理模型融合到复杂流动模拟,从数据驱动研究到流场智能分析,深度学习正以前所未有的力量重塑流体力学领域。近期在Nature和Science杂志上发表的深度学…

uniapp设置tabBar高斯模糊并设置tabBar高度占位

1、设置tabBar高斯模糊 2、设置tabBar高度占位 (1)需要先在App.vue中获取一下 uni.getSystemInfoSync().windowBottom; //返回值是tabBar的高度(2)在全局样式文件/uview-ui/libs/css/style.vue.scss中定义一个全局样式 3、在需…

嵌入式Linux输入系统应用编程学习总结

嵌入式Linux输入系统应用编程学习总结 目录 嵌入式Linux输入系统应用编程学习总结1. 嵌入式Linux输入系统介绍2. Linux设备输入数据的几个结构体2.1 内核中表示一个输入设备的结构体2.2 APP从输入设备获取的数据类型结构体 3. 查看LCD设备信息和输入数据3.1 查看设备信息3.2 使…

力扣=Mysql-3322- 英超积分榜排名 III(中等)

一、题目来源 3322. 英超积分榜排名 III - 力扣(LeetCode) 二、数据表结构 表:SeasonStats --------------------------- | Column Name | Type | --------------------------- | season_id | int | | team_id …

HTML之列表学习记录

练习题&#xff1a; 图所示为一个问卷调查网页&#xff0c;请制作出来。要求&#xff1a;大标题用h1标签&#xff1b;小题目用h3标签&#xff1b;前两个问题使用有序列表&#xff1b;最后一个问题使用无序列表。 代码&#xff1a; <!DOCTYPE html> <html> <he…

【ElasticSearch】定位分片不分配

记录遇到的es集群分片不分配的情况--待补全 定位分片不分配的原因 定位分片不分配的原因 在shell客户端执行如下的语句&#xff1a; curl -X GET "http://192.168.0.209:9200/_cat/shards?v&hindex,shard,prirep,state,unassigned.reason"集群中各分片的状态都…