HDFS 组织架构

优质博文:IT-BLOG-CN

一、HDFS 概述

HDFS 产生背景: 随着数据量越来越多,一个系统存储不下所有的数据,那么就需要分配到多个操作系统的磁盘中进行存储,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS 只是分布式文件管理系统的一种。

HDFS 定义: HDFS(Hadoop Distributed File System)分布式文件系统,用于存储文件,通过目录树来定位文件,其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。

HDFS 的使用场景: 适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来做网盘应用。

二、HDFS 优缺点

优点:
【1】容错性: 数据自动保存多个副本。通过增加副本的形式,提高容错性。如下三个副本中其中一个副本挂掉了:
在这里插入图片描述

某一个副本丢失以后,它可以自动恢复
在这里插入图片描述

【2】适合处理大数据:数据规模:能够处理数据规模达到 GB、TB、甚至 PB级别的数据。文件规模:能够处理百万规模以上的文件数量,数量相当之大。
【3】可以构建在廉价机器上,通过多副本机制,提高可靠性。

缺点:
【1】不适合低延时数据访问:比如毫秒级的存储数据,是做不到的。
【2】无法高效对大量小文件进行存储:存储大量小文件的话,它会占用 NameNode 大量的内存来存储文件目录和块信息。这样是不可取的,因为 NameNode的内存总是有限的。同时,小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
【3】不支持并发写入、文件随机修改:一个文件只能有一个写,不允许多个线程同时写。仅支持数据 append(追加),不支持文件的随机修改。

三、HDFS 组成架构

HDFS(Hadoop Distributed File System)的架构概述,易懂版,如图所示。
在这里插入图片描述

HDFS 组成架构(官网)
点击并拖拽以移动​

【1】NameNode(nn): 就是Master,作为管理者:
(1)管理 HDFS 的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)的映射信息;
(4)处理客户端读写请求;

【2】DataNode: 就是 Slave。NameNode 下达命令,DataNode 执行实际操作。
(1)存储实际的数据块;
(2)执行数据块的读/写操作;

【3】Secondary NameNode: 非 NameNode 的热备。当 NameNode 挂掉时,它并不能马上替换 NameNode 并提供服务。
(1)辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;
(2)在紧急情况下,可辅助恢复 NameNode;

【4】Client: 客户端
(1)文件切分。文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;
(2)与 NameNode 交互,获取文件的位置信息;
(3)与 DataNode 交互,读取或者写入数据;
(4)Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;
(5)Client 可以通过一些命令来访问 HDFS,比如对 HDFS 的增删改查操作;

【5】副本的复制策略: 首先 HDFS副本复制策略基于的前提是机架感知,对此首先需要了解网络的带宽是如何计算:
(1)相同机架的不同节点之间的网络传输速度都是2;
(2)不同机架的不同节点之间的网络传输速度是4;

【策略如下】:
第一个副本:如果客户端在当前 DataNode节点上发送请求,第一个副本就保存在客户端所在的节点上(遵循就近原则) 如果客户端不在集群的任意节点上,则随机选择一个节点保存副本;
第二个副本:和第一个副本不同的机架上的随机节点上 (为了保证数据的安全) ;
第三个副本:和第二个副本在同机架的不同节点上(为了副本的复制速度) ;

四、HDFS 文件块大小

HDFS 中的文件在物理上是分块存储(Block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认在 Hadoop2.x版本中是 128M,老版本是 64M。
在这里插入图片描述

HDFS 块大小设置: 为什么块的大小不能设置太小,也不能设置太大
【1】HDFS 块设置太小,会增加寻址时间,程序一直在找块的位置;
【2】如果块设置的太大,从磁盘传输数据的时间会明显大于块定位的时间。导致程序在处理块数据时,会非常慢。

总结: HDFS 块的大小设置取决于磁盘传输速率

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/644557.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

技术前沿 |【BLIP:统一理解和生成的自举多模态模型研究】

BLIP:统一理解和生成的自举多模态模型研究 摘要引言一、BLIP模型概述二、 BLIP模型在多模态任务中的应用三、总结 摘要 本文介绍了BLIP(Bootstrapping Language-Image Pre-training)模型,一个前沿的多模态模型,通过自…

2024 一键批量下载雪球和东方财富文章导出excel和pdf

之前分享过雪球批量下载工具2023 批量下载雪球文章导出pdf,以市场高标解读这个号为例,下载效果: 下载文章后用我开发的htmltopdf.exe批量转换html为pdf,不过要注意不要放在中文目录下,否则提示错误 utf-8 codec cant d…

数据结构之栈和队列(超详解

目录 一.栈 1.栈的基本概念 2.栈的基本操作 3.栈的储存结构 ①栈的顺序储存 (1)基本概念 (2)代码实现 ②栈的链式储存 (1)基本概念 (2)代码实现 二.队列 1.队列的基本概念 2.队列的基本操作 3.队列的储存结构 ①队列的链式储存 (1)基本概念 ​编辑 (2)代码实现 ②…

浅析3D NAND多层架构的可靠性问题

SSD的存储介质是什么,它就是NAND闪存。那你知道NAND闪存是怎么工作的吗?其实,它就是由很多个晶体管组成的。这些晶体管里面存储着电荷,代表着我们的二进制数据,要么是“0”,要么是“1”。 目前业内3D-NAND工…

【吊打面试官系列】Java高并发篇 - ReadWriteLock 是什么 ?

大家好,我是锋哥。今天分享关于 【ReadWriteLock 是什么 ?】面试题,希望对大家有帮助; ReadWriteLock 是什么 ? 首先明确一下,不是说 ReentrantLock 不好,只是 ReentrantLock 某些时候有局限。 …

【动态规划】斐波那契数列模型(C++)

目录 1137.第N个泰波那契数 解法(动态规划) 算法流程 1. 状态表⽰: 2. 状态转移⽅程: 3. 初始化: 4. 填表顺序: 5. 返回值: C算法代码 优化: 滚动数组 测试: …

bootstrap实现九宫格效果(猫捉老鼠游戏)

最近,孩子的幼儿园让家长体验“半日助教活动”,每个家长需要讲授15-20分钟的课程。作为一名程序员,实在没有能教的课程,只能做了一个小游戏,带着小朋友们熟悉数字。 效果大致是这样的。九宫格的左上角是一只小猫图片&…

一张图片中有多个一样的目标物体,分别进行识别定位分割(Python实现)

需求: 一张图片中有多个目标物体,将多个目标物体进行识别分割定位 import cv2 import numpy as npdef show_photo(name,picture):cv2.imshow(name,picture)cv2.waitKey(0)cv2.destroyAllWindows()img_path r"test3.png" img cv2.imread(img…

社交媒体数据恢复:聊天宝

请注意,本教程仅针对聊天宝应用程序,而非其他聊天软件。以下是详细的步骤: 首先,请确保您已经登录了聊天宝应用程序。如果您尚未登录,请使用您的账号登录。 在聊天宝主界面,找到您希望恢复聊天记录的对话框…

LeetCode - 数组 - 四数之和

题目地址 描述 给你一个由 n 个整数组成的数组 nums ,和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] (若两个四元组元素一一对应,则认为两个四元组重复)&#x…

【机器学习与大模型】驱动下的应用图像识别与处理

摘要: 本文深入探讨了机器学习在图像识别与处理领域的应用,特别是在大模型的推动下所取得的巨大进展。详细阐述了图像识别与处理的基本原理、关键技术,以及机器学习算法和大模型如何提升其性能和准确性。通过实际案例分析了其在多个领域的广泛…

[WUSTCTF2020]level3

base64换表 但是这的表有一个引用 模拟执行 #DRKCTF{}aABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789/ flag[ord(i) for i in a] for i in range(0,10):flag[i],flag[19-i]flag[19-i],flag[i] for i in flag:print(chr(i),end)新表 TSRQPONMLKJIHGFEDCBAU…

技术速递|无障碍应用程序之旅:键盘可访问性和 .NET MAUI

作者:Rachel Kang 排版:Alan Wang 首先让我们一起来看看您的应用程序是否支持键盘访问: 启动您的其中一个应用。如果您的设备尚未连接物理键盘,请连接物理键盘。像平常一样导航您的应用程序,并且仅使用键盘来执行此操…

DI-engine强化学习入门(三)DI-ZOO强化学习环境搭建与示例运行——Atari

Atari是一家知名的电子游戏公司,成立于1972年,是早期电子游戏产业的先驱之一。在强化学习领域,提到Atari通常指的是Atari 2600游戏的一系列环境,这些环境是用于开发和测试强化学习算法的标准平台。 Atari 2600 强化学习环境概述 …

ABC354学习笔记

高桥有一棵植物,这个植物在第 0 0 0 天时高度为 0 c m 0\,\mathrm{cm} 0cm,此后的第 i i i 天,他的植物会增高 2 i c m 2^i\,\mathrm{cm} 2icm。 高桥身高为 H c m H\,\mathrm{cm} Hcm。 高桥想知道在第几天,他的植物的高度会…

Vue移动端登录页面

使用的是vant组件&#xff0c;引用和使用组件请去官网学习&#xff0c;链接↓vant组件官网 <div class"center"><!-- 背景图片 --><div class"background"><imgsrc"/assets/background.jpg"width"100%"heigh…

STL题单总结

下周争取全部刷掉 牛客 知乎推荐的题 收藏的文章1 收藏的文章2 收藏的文章3 洛谷题单

ICQ 将于 6 月关闭,这是一种奇怪的方式,发现它在 2024 年仍然活跃

你知道ICQ还活着吗&#xff1f;不过&#xff0c;不要太兴奋;它将永远消失。 还记得ICQ吗&#xff1f;如果你这样做了&#xff0c;你可能会记得它是AOL在1998年购买的Messenger客户端&#xff0c;就在Yahoo Instant Messager和MSN Messenger加入竞争的时候。然后Skype出现了&…

嵌入式全栈开发学习笔记---C语言笔试复习大全23

目录 联合体 联合体的定义 联合体的长度 如果来判断设备的字节序&#xff1f; 如何把大端数据转换成小端数据&#xff1f; 枚举 枚举的定义 上一篇复习了结构体&#xff0c;这一节复习联合体和枚举。 说明&#xff1a;我们学过单片机的一般都是有C语言基础的了&#xff…

【资讯】5月巴塞罗那,东胜物联边缘计算网关亮相IOTSWC AWS展台

2024年5月21-23日&#xff0c;物联网解决方案世界大会 IOT SWC 在巴塞罗那举行&#xff0c;这是数字化转型趋势和颠覆性技术的顶级盛会。 作为AWS的硬件合作伙伴&#xff0c;东胜物联网边缘计算网关DSGW-210将在AWS展台1号馆展出&#xff0c;欢迎大家前来参观。 此次东胜在AW…