HBase 详细图文介绍

目录

一、HBase 定义

二、HBase 数据模型

2.1 HBase 逻辑结构

2.2 HBase 物理存储结构

​2.3 数据模型

2.3.1 Name Space

2.3.2 Table

2.3.3 Row

2.3.4 Column

2.3.5 Time Stamp

2.3.6 Cell

三、HBase 基本架构

架构角色

3.1 Master 

3.2 Region Server

3.3 Zookeeper

3.4 HDFS


一、HBase 定义

Apache HBase™ 是 以 hdfs 为数据存储的 ,一种分布式、可扩展的 NoSQL 数据库。

二、HBase 数据模型

        HBase 的设计理念依据 Google 的 BigTable 论文,论文中对于数据模型的首句介绍 。Bigtable 是一个稀疏的 、 分布式的 、 持久的多维排序 map 。之后对于映射的解释如下:该映射由行键、列键和 时间戳索引;映射中的每个值都是一个未解释的字节数组。

        最终 HBase 关于数据模型和 BigTable 的对应关系如下:HBase 使用与 Bigtable 非常相似的数据模型。用户将数据行存储在带标签的表中。数据行具有可排序的键和任意数量的列。该表存储稀疏,因此如果用户喜欢,同一表中的行可以具有疯狂变化的列。

        最终理解 HBase 数据模型的关键在于稀疏、分布式、多维、排序的映射。其中映射 map 指代非关系型数据库的 key-Value 结构。

2.1 HBase 逻辑结构

HBase 可以用于存储多种结构的数据,以 JSON 为例,存储的数据原貌为:

{
    "row_key1":{
        "personal_info":{
            "name":"zhangsan",
            "city":"北京",
            "phone":"131********"
        },
        "office_info":{
            "tel":"010-111111",
            "address":"qq.com"
        }
    },
{
    "row_key11":{
        "personal_info":{
            "name":"lisi",
            "city":"上海",
            "phone":"132********"
        },
        "office_info":{
            "tel":"010-222222",
            "address":"qq.com"
        }
    },
{
    "row_key11":{
    ······
}

        存储数据稀疏,数据存储多维,不同的行具有不同的列。数据存储整体有序,按照 RowKey 的字典序排列,RowKey 为 Byte 数组:

2.2 HBase 物理存储结构

物理存储结构即为数据映射关系,而在概念视图的空单元格,底层实际根本不存储。

2.3 数据模型

2.3.1 Name Space

        命名空间,类似于关系型数据库的 database 概念,每个命名空间下有多个表。HBase 两
个自带的命名空间,分别是 hbase 和 default,hbase 中存放的是 HBase 内置的表,default 表是用户默认使用的命名空间。

2.3.2 Table

        类似于关系型数据库的表概念。不同的是, HBase 定义表时只需要声明列族即可,不需
要声明具体的列。 因为数据存储时稀疏的所有往 HBase 写入数据时,字段可以动态、按需
指定 。因此,和关系型数据库相比,HBase 能够轻松应对字段变更的场景。

2.3.3 Row

        HBase 表中的每行数据都由一个 RowKey 和多个 Column (列)组成,数据是按照 RowKey
的字典顺序存储的,并且查询数据时只能根据 RowKey 进行检索,所以 RowKey 的设计十分重
要。 

2.3.4 Column

        HBase 中的每个列都由 Column Family 列族和 Column Qualifier (列限定符进行限定,例如 info:name,info:age 。建表时,只需指明列族,而列限定符无需预先定义。

2.3.5 Time Stamp

        用于标识数据的不同版本(version 每条数据写入时,系统会自动为其加上该字段,其值为写入 HBase 的时间。

2.3.6 Cell

        由 {rowkey, column Family column Qualifier, timestamp} 唯一确定的单元。cell 中的数据全部是字节码形式存贮。 

三、HBase 基本架构

  • Master:主要进程,具体实现类为 HMaster,通常部署在 namenode 上。功能:负责通过 ZK监控 RegionServer 进程状态,同时是所有元数据变化的接口。内部启动监控执行 region 的故障转移和拆分的线程。
  • RegionServer:主要进程,具体实现类为 HRegionServer,部署在 datanode 上。功能:主要负责数据 cell 的处理。同时在执行区域的拆分和合并的时候,由 RegionServer 来实际执行。 

架构角色

3.1 Master 

实现类为 HMaster,负责监控集群中所有的 RegionServer 实例。主要作用如下:

  1. 管理元数据表格 hbase:meta,接收用户对表格创建修改删除的命令并执行。
  2. 监控 region 是否需要进行负载均衡,故障转移和 region 的拆分。

通过启动多个后台线程监控实现上述功能:

  • LoadBalancer 负载均衡器:周期性监控 region 分布在 regionServer 上面是否均衡,由参数 hbase.balancer.period 控制周期时间,默认 5 分钟。
  • CatalogJanitor 元数据管理器:定期检查和清理 hbase:meta 中的数据。meta 表内容在进阶中介绍。
  • MasterProcWAL master 预写日志处理器:把 master 需要执行的任务记录到预写日志 WAL 中,如果 master 宕机,让 backupMaster 读取日志继续干。

3.2 Region Server

Region Server 实现类为 HRegionServer,主要作用如下: 

  1. 负责数据 cell 的处理,例如写入数据 put,查询数据 get 等。
  2. 拆分合并 region 的实际执行者,有 master 监控,有 regionServer 执行。

3.3 Zookeeper

        HBase 通过 Zookeeper 来做 master 的高可用、记录 RegionServer 的部署信息、并且存储有 meta 表的位置信息。

        HBase 对于数据的读写操作时直接访问 Zookeeper 的,在 2.3 版本推出 Master Registry 模式,客户端可以直接访问 master。使用此功能,会加大对 master 的压力,减轻对 Zookeeper 的压力。

3.4 HDFS

HDFS 为 Hbase 提供最终的底层数据存储服务,同时为 HBase 提供高容错的支持。

下一篇文章:HBase 高可用集群详细图文安装部署-CSDN博客 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/247037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

弹性搜索引擎Elasticsearch:本地部署与远程访问指南

🌈个人主页:聆风吟 🔥系列专栏:网络奇遇记、Cpolar杂谈 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 📋前言系统环境1. Windows 安装Elasticsearch2. 本地访问Elasticsearch3. Windows 安装…

有教师资格证就可以当老师吗

我是一名在教育事业中摸爬滚打了多年的老鸟,最近看到很多人在讨论一个话题:有教师资格证就能当老师吗?今天我就来给大家科普一下。 我们得明白教师资格证是什么。教师资格证是国家教育部门为了规范教育行业,提高教育质量而设立的一…

详解—C++右值引用

目录 一、右值引用概念 二、 左值与右值 三、引用与右值引用比较 四、值的形式返回对象的缺陷 五、移动语义 六、右值引用引用左值 七、完美转发 八、右值引用作用 一、右值引用概念 C98中提出了引用的概念,引用即别名,引用变量与其引用实体公共…

多线程 (下) - 学习笔记

常见锁策略 乐观锁和悲观锁 悲观锁 总是假设最坏的情况, 每次去拿数据的时候都会认为会被别人修改, 因此会上锁, 防止数据在使用过程中被别的线程修改, 乐观锁 假设数据一般情况下不会产生并发冲突,因此在拿数据,操作数据的过程中不加锁, 而在数据进行提交更新的时候, 才会正…

react经验7:高亮关键字

预期效果: 实现原理 将需要高亮的关键词做成正则表达式 new RegExp((${word}), "gi")使用上述正则表达式切割目标字符串 origin.split(new RegExp((${word}), "gi"))切割结果会包含正则匹配到的词 过滤掉空字符,并对关键词包裹…

使用代理IP时的并发请求是什么意思?

很多做过数据采集的技术们应该都有所了解,在选择代理IP时会有一个并发请求的参数,这个参数是什么意思呢?可能有很多新手不是很了解,其实代理IP的并发请求就是指同时发送多个请求到目标服务器,以提高请求的效率和速度。…

LeetCode刷题--- 二叉树的所有路径

个人主页:元清加油_【C】,【C语言】,【数据结构与算法】-CSDN博客 个人专栏 力扣递归算法题 【 http://t.csdnimg.cn/yUl2I 】 【C】 【 http://t.csdnimg.cn/6AbpV 】 数据结构与算法 【 http://t.csdnimg.cn/hKh2l 】 前言&…

详解高精度数字模拟混合信号温度传感芯片的工作原理及应用

高精度温度传感芯片是利用物质各种物理性质随温度变化的规律把温度转换为电量的传感芯片。这些呈现规律性变化的物理性质主要有体。温度传感芯片是温度测量仪表的核心部分,品种繁多。按测量方式可分为接触式和非接触式两大类,按照传感器材料及电子元件特…

DES的DPA攻击过程

一般智能卡只使用DES算法对数据进行加密,不采取其他防御措施,所以安全性不高。本博文主要研究智能卡使用DES算法对数据进行加密的具体细节,并针对加密过程中的关键步骤给出DPA攻击的设计思路。 DES数据加密过程 智能卡对密码算法的要求是功…

rocketmq启动nohup mqbroker 显示Exit 253错误解决方案

执行nohup mqbroker -c /usr/local/rocketmq/rocketmq-all-4.9.1-bin-release/conf/2m-2s-sync/broker-b-s.properties启动broker节点 退出253 出现这种错误的原因可能是broker-b-s.properties文件的路劲你提前mkdir了 解决办法,把创建好的文件删除,等…

星座生肖运势配对+周公解梦流量主小程序源码系统 带完整的安装部署教程·

近年来,人们对于星座和生肖的配对以及周公解梦的需求越来越大。罗峰发现了一款集星座、生肖配对和周公解梦于一体的流量主小程序源码系统。该系统具有丰富的功能和易于部署的特点,旨在为广大用户提供更加便捷、高效的星座生肖配对和周公解梦服务。 以下…

利用canvas封装录像时间轴拖动(uniapp),封装上传uniapp插件市场

gitee项目地址,项目是一个空项目,其中包含了封装的插件,自己阅读,由于利用了canvas所以在使用中暂不支持.nvue,待优化; 项目也是借鉴了github上的一个项目,timeline-canvas,​​​​​​​ ​​​​​​​

16--常用类和基础API--06

1、包装类 1.1 包装类概述 Java提供了两个类型系统,基本类型与引用类型,使用基本类型在于效率,然而很多情况,会创建对象使用,因为对象可以做更多的功能,如果想要我们的基本类型像对象一样操作&#xff0c…

Vue组件封装知识总结

一、为什么要封装组件 首先,一个好问题,面试要考的!为什么要封装组件呢? 提高代码的复用性:通过封装,可以将一段代码或一部分功能抽象为一个独立的组件,并在不同的项目或场景中重复使用。这样可…

【自定义View】android自定义渐变色圆弧+水波纹布局

本次用ko t lin 写了自定义渐变色圆弧水波纹布局。 备注:双水波纹的手写代码我放在文末了。但我自己写的运行起来有 亿点点难看。 所以效果图里用的 com.scwang.wave:MultiWaveHeader:1.0.0-andx 实现水波纹。--重要的是知道原理。。嘻嘻!😘 …

天猫数据分析(天猫数据查询):11月茅台涨价依然稳居销冠,白酒市场销售现状分析

11月份,贵州茅台宣布涨价。2023年11月1日起茅台上调53%vol贵州茅台酒(飞天、五星)出厂价格,平均上调幅度约为20%。有媒体报道,随着茅台酒出厂价宣布上调后,市场销售价普遍上涨50元至100元不等。 如今&#…

JVM类加载机制详解及双亲委派机制分析

类加载运行全过程 当我们用java命令运行某个类的main函数启动程序时,首先需要通过类加载器把主类加载到JVM。 public class Math {public static final int initData 666;public static User user new User();public int compute() { //一个方法对应一块栈帧内…

Jmeter接口自动化测试

之前我们的用例数据都是配置在HTTP请求中,每次需要增加,修改用例都需要打开JMeter重新编辑,当用例越来越多的时候,用例维护起来就越来越麻烦,有没有好的方法来解决这种情况呢?我们可以将用例的数据存放在cs…

Java 线程的基本概念

创建和运行线程 方法一,直接使用 Thread // 创建线程对象 Thread t new Thread() {public void run() {// 要执行的任务}};// 启动线程 t.start();例如: // 构造方法的参数是给线程指定名字,推荐 Thread t1 new Thread("t1") …

《PySpark大数据分析实战》-10.独立集群模式的代码运行

📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP…