【大数据 复习】第3章 分布式文件系统HDFS(重中之重)

一、概念

1.分布式文件系统把文件分布存储到多个计算机节点上,通过网络实现、文件在多台主机上进行分布式存储的文件系统。(就是你的电脑存a,我的电脑存pple)

2.降低了硬件开销:

与之前使用多个处理器和专用高级硬件的并行化处理装置相比,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的。

3.设计目标:透明性、并发控制、可伸缩性、容错及安全需求 等 。

4.数据磁盘读写的最小单位是块。

(1)一个文件被分成多个块,以块作为存储单位。

(2)块的大小远远大于普通文件系统,可以最小化寻址开销。

5.采用块的好处

(1)支持大规模文件存储

(2)简化系统设计

(3)适合数据备份

二、名称节点

1.“主节点”(Master Node)或者也被称为“名称结点”(NameNode)

(1)存储元数据

(2)元数据保存在内存

(3)保存文件,块,数据节点 之间的映射关系

(4)在内存中保存着名称空间和文件数据块的地址映射,管理文件系统的命名空间,维护文件系统树及树内所有的文件和目录(通过fsimage)。

2.名称节点和数据节点的关系:

(1)记录每个文件中各个块所在的数据节点信息(即保存在数据节点的位置),但并不永久保存,这些信息会在系统启动时根据数据节点信息重建。

(2)整个HDFS可存储的文件数受限于NameNode的内存大小。

(3)数据流不经过NameNode,  会询问NameNode与哪个DataNode联系。

3.Fslmage、EditLog

(1)每个文件和每个数据块的引用关系数据会定期保存到本地磁盘,信息以两个文件形式永久保存在本地磁盘:FsImage镜像文件,EditLog日志文件。

(2)FsImage文件用于维护文件系统树和元数据,EditLog用于记录关于文件的操作。

(3)在Namenode 启动的时候,它会将FsImage文件中的内容加载到内存中,之后再执行EditLog文件中的各项操作,使得内存中的元数据和实际的同步。一旦在内存中成功建立文件系统元数据的映射,则创建一个新的FsImage文件和一个空的EditLog文件。

4.什么是命名空间?

主要包括以下几个方面的功能:

(1)文件系统的命名管理

(2)元数据存储:

(3)命名空间操作的控制与管理:

(4)数据块的管理:

所以命名空间和名称节点可以说就是一个玩意???

三、第二名称节点

1.用来EditLog 不断变大的问题

(1)用EditLog的操作更新FsImage里面的记录,然后格式化EditLog

(2)作为NameNode的检查点,周期性的备份名称节点的元数据信息。

四、数据节点

1.“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)

(1)存储文件内容

(2)文件内容保存在磁盘

(3)维护了 块id到 数据节点本地文件 的映射关系

(4)向名称节点定期发送自己所存储的块的列表

2.结构:

五、数据错误与恢复

1.名称节点出错

HDFS 设置了备份机制,故障时用第二名称节点当名称节点使用,但是我们的习题告诉我们这样说是不对的,估计是因为这样做仍然会丢失部分数据,所以判定为不对吧。

2.数据节点出错

每个数据节点会定期向名称节点发送“心跳”信息,向名称节点报告自己的状态,如果不发了就是认为死机了,就不用它了。

3.数据出错

有校验机制,如果校验失败,就报告这个数据块出错了。

HDFS 和其它分布式文件系统的最大区别就是可以调整冗余数据的位置。

六、HDFS常用命令(重点)

1.hadoop fs -ls <path>:显示路径指定文件的详细信息(不是内容)

2.hadoop fs -cat<path>:将该路径文件输出(就是运行)

3.hadoop fs -chown:改变路径文件的对应权限。

4.hadoop fs -touchz <path>:在该路径创建一个空文件

5.hadoop fs -mkdir <paths>:创建一个文件夹

6.hadoop fs -put <localsrc> <dst>:从本地通过hdfs上传到dst(就是上传到其他电脑那了)

7.hadoop fs -mv <src> <dest>:将文件从路径下移动到<dst>

8.hadoop fs -rm <path>:删除指定文件

9.hadoop fs -rm -r <path>:删除指定文件夹下所有文件还有文件夹自己

七、习题

单选题

1.HDFS核心的概念是()

A. 单元  

B. 节点  

C. 块  

D. 文件

正确答案:C

记住,记住,记住

2.下面哪个程序负责 HDFS 数据文件存储。( )

A. NameNode  

B. Jobtracker  

C. DataNode  

D. secondaryNameNode

正确答案:C

3.HDFS和其它分布式文件系统的最大区别就是 ( )

A. 可以调整冗余数据的位置  

B. HDFS在部署时都提供了客户端  

C. HDFS是一个部署在集群上的分布式文件系统  

D. HDFS集群中只有一个命名空间

正确答案:A

4.名称结点在分布式文件系统中又叫做( )

A. 数据节点  

B. 从节点  

C. 集群节点  

D. 主节点

正确答案:D

5.如何解决名称节点运行期间EditLog不断变大导致的名称节点启动缓慢的问题?( )

A. 第二名称节点  

B. FsImage  

C. 数据节点协议  

D. RPC(Remote Procedure Call)

正确答案:A

6.Hadoop平台中,创建一个或多个指定文件夹的命令是()。

A. hadoop fs -ls  

B. hadoop fs -chown  

C. hadoop fs -mkdir  

D. hadoop fs -copyFromLocal

正确答案:C

7.Hadoop平台中,显示指定文件夹详细信息的命令是()

A. hadoop fs -ls  

B. hadoop fs -chown  

C. hadoop fs -mkdir  

D. hadoop fs -copyFromLocal

正确答案:A

8.当客户端读取数据时,从名称节点获得数据块不同副本的存放位置列表,列表中包含了副本所在的数据节点,客户端通过什么判断读取那个副本?()

A. 块编号  

B. 地理位置  

C. 机架ID  

D. 名称节点指定

正确答案:C

记住,记住,记住

9.名称节点命名空间不足的问题通过下列哪种技术可以解决?()

A. HDFS Federation  (联邦)

B. HDFS HA  

C. SecondaryNameNode

正确答案:A

在后面的第8章会讲

10.副本复制的方式是()

A. 客户端同时在多个数据节点上执行写操作  

B. 数据节点之间流水线复制  

C. 名称节点将数据分别发送到多个数据节点  

D. 客户端直接将数据发送给名称节点

正确答案:B

多选题

11.下列各项中,属于名称节点的功能的有()

A. 管理分布式文件系统系统的命名空间  

B. 记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息  

C. 管理数据块(Block)映射信息  

D. 在运行过程中合并FSImage和Editlog的内容

正确答案:A,B,C

12.下列各项中,属于DataNode的功能的是()

A. 存储实际的数据块  

B. 执行数据块的读/写操作  

C. 周期性向NameNode汇报心跳信息和数据块信息  

D. 自动配置副本策略

正确答案:A,B,C

13.下列各项中,属于SecondaryNameNode的功能的有()

A. 辅助恢复NameNode  

B. NameNode出现故障的时候直接接管系统  

C. 解决单点故障  

D. 定期合并fsimage和edits,并推送给NameNode

正确答案:A,D

HDFS通过HA(高可用性)机制来解决单点故障问题。第8章内容。

14.下列属于正确的副本存放策略的是()

A. 第一个副本:放置在上传文件的数据节点;如果是集群外提交,则随机挑选一台磁盘不太满、CPU不太忙的节点  

B. 第二个副本:放置在与第一个副本不同的机架的节点上  

C. 第三个副本:与第一个副本相同机架的其他节点上  

D. 更多副本:随机节点

正确答案:A,B,C,D

这个属于副本存放策略内容,建议记忆,讲的是复制一堆作备用的。

15.下列对于HDFS错误与恢复的机制中,描述正确的有()

A. 名称节点出错时,就可以根据备份服务器SecondaryNameNode中的FsImage和Editlog数据进行恢复。  

B. 当数据节点发生故障,或者网络发生断网时,名称节点就无法收到来自一些数据节点的心跳信息,这时,这些数据节点就会被标记为“宕机”,节点上面的所有数据都会被标记为“不可读”,名称节点不会再给它们发送任何I/O请求  

C. 由于一些数据节点的不可用,会导致一些数据块的副本数量小于冗余因子;名称节点会定期检查这种情况,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,为它生成新的副本  

D. 当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块

正确答案:A,B,C,D

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/736140.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ的部署

一、前言 演示的为RabbitMQ的单机部署&#xff0c;在Centos7虚拟机中使用Docker来安装&#xff0c;需要掌握相应的docker命令 二、下载镜像 启动Docker: systemctl start docker 在线拉取&#xff1a;docker pull docker pull rabbitmq:3-management 三、安装MQ 运行容器&…

Python爬虫介绍

Python 作为一种广泛应用的编程语言&#xff0c;在 Web 开发、大数据开发、人工智能开发和嵌入式开发等领域都有着重要的应用。 Python 的易学性、清晰性和可移植性等特点使它得到很多技术人士的喜爱。对于数据科学和机器学习领域的程序员来说&#xff0c;Python 提供了强大的…

Structured Steaming结构化流详解:大案例解析(第12天)

系列文章目录 一、结构化流介绍&#xff08;了解&#xff09; 二、结构化流的编程模型&#xff08;掌握&#xff09; 三、Spark 和 Kafka 整合&#xff0c;流处理&#xff0c;批处理演示&#xff08;掌握&#xff09; 四、物联网数据分析案例&#xff08;熟悉&#xff09; 文章…

【html】用html写一个博物馆首页

效果图&#xff1a; 二级导航&#xff1a; 源码&#xff1a; <!DOCTYPE html> <html lang"zh"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><l…

如何在纯内网环境下,将EasyCVR视频汇聚网关通过4G与第三方公网云平台级联?

EasyCVR视频汇聚网关是TSINGSEE青犀软硬一体的一款产品&#xff0c;可提供多协议的接入、音视频采集、处理&#xff0c;能实现海量前端设备的轻量化接入/转码/分发、视频直播、云端录像、云存储、检索回看、智能告警、平台级联等&#xff0c;兼容多种操作系统&#xff0c;轻松扩…

搭建Vue的环境

目录 # 开篇 步骤一&#xff0c;准备Vue 的环境 步骤二&#xff0c;下载Vue.js的包 步骤三&#xff0c;创建并打开写前端代码的文件夹 步骤四&#xff0c;在VSCode中引入Vue.js的包 步骤五&#xff0c;创建第一个vue.html Vue其他知识 Vue.config命令 # 开篇 介绍&…

IEEE RAL 具有高运动性能的仿旗鱼机器人协同运动机制研究

水下机器人作为军用侦察、监测及攻击装置备受关注&#xff0c;目前传统水下机器人普遍采用螺旋桨作为推进器&#xff0c;但高噪音、高能耗等问题限制了应用范围。鱼类通过自然选择进化出优异的运动性能&#xff0c;特别是在海洋中游动速度快、机动性强的旗鱼。为了探究快速和高…

【服务器06】之【如何不开外网连接GitHub】

登录GitHub官网 GitHub: Let’s build from here GitHub 注册账号 登录账号 输入一个自定义名字&#xff0c;点击创建存储库就可以了 首先 如何在不开外网的条件下使用GitHub 第一步 下载安装Steam(Watt TooklKit) 区分一下如何查看哪个官网&#xff08;没有百度广告就是…

Mysql数据库约束的概述 , 逐渐约束 , 主键自增 , 表关系的概念和外键 ,多表关系约束介绍和使用

约束和表设计 1、DQL查询语句-limit语句(掌握) 目标 能够掌握limit语句的使用 讲解 作用&#xff1a; LIMIT是限制的意思&#xff0c;所以LIMIT的作用就是限制查询记录的条数。 LIMIT语句格式: select * from 表名 limit offset, row_count; mysql中limit的用法&#…

【服务器02】之阿里云平台

百度一下阿里云官网 点击注册直接使用支付宝注册可以跳过认证 成功登录后&#xff0c;点击产品 点击免费试用 点击勾选 选一个距离最近的 点满GB 注意&#xff1a;一般试用的时用的是【阿里云】&#xff0c;真正做项目时用的是【腾讯云】 现在开始学习使用&#xff1a; 首先…

【地质灾害监测实现有效预警,44人提前安全转移】

6月13日14时&#xff0c;国信华源地质灾害监测预警系统提前精准预警&#xff0c;安全转移10户44人。 该滑坡隐患点通过科学部署国信华源裂缝计、倾角加速度计、雨量计、预警广播等自动化、智能化监测预警设备&#xff0c;实现了对隐患点裂缝、位移、降雨量等关键要素的实时动态…

Java程序之让气球上升

问题&#xff1a; ACM比赛时间再次举行&#xff01;看到气球四处漂浮是多么的兴奋啊。但要告诉你一个秘密&#xff0c;评委们最喜欢的时间是猜测最流行的问题。比赛结束后&#xff0c;他们会数出每种颜色的气球&#xff0c;然后找到结果。今年&#xff0c;他们决定把这份可爱的…

累积阅读量高达1个亿了,刚好完成了一个小目标

大家好&#xff0c; 我是老洪。 做自媒体&#xff0c;这不仅仅是一个职业选择&#xff0c;更是我生活中不可或缺的一部分。 自从我踏入这个领域&#xff0c;时光如白驹过隙&#xff0c;转眼间已经走过了一段不短的旅程。 今天&#xff0c;当我打开后台数据&#xff0c;看到那累…

基于SpringBoot+Vue大学毕业设计管理系统设计和实现(源码+LW+调试文档+讲解等)

&#x1f497;博主介绍&#xff1a;✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者&#xff0c;博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f31f;文末获取源码数据库&#x1f31f; 感兴趣的可以先收藏起来&#xff0c;还…

《数字图像处理与机器视觉》案例一(库尔勒香梨果梗提取和测量)

一、引言 果梗是判断水果新鲜程度的重要标志&#xff0c;对水果的贮藏和保鲜也具有重要的参考价值。库尔勒香梨分级标准中对果梗有明确要求&#xff0c;要求果梗完整&#xff0c;但由于库尔勒香梨果梗颜色与果实接近&#xff0c;用传统的简单阈值分割方法难以提取。因此&#…

Vue79-路由组件独有的2个新的生命周期钩子

一、需求 news.vue路由组件被缓存了&#xff08;因为想要保留里面的输入框的数据&#xff01;&#xff09;&#xff0c;导致&#xff0c;路由页面切走&#xff0c;组件也不会被销毁&#xff0c;所以&#xff0c;beforeDestroy()函数就不会被执行&#xff0c;所以&#xff0c;定…

【数据挖掘】机器学习中相似性度量方法-闵可夫斯基距离

写在前面&#xff1a; 首先感谢兄弟们的订阅&#xff0c;让我有创作的动力&#xff0c;在创作过程我会尽最大能力&#xff0c;保证作品的质量&#xff0c;如果有问题&#xff0c;可以私信我&#xff0c;让我们携手共进&#xff0c;共创辉煌。 路虽远&#xff0c;行则将至&#…

Typora最新安装教程2024

Typora是一款广受好评的跨平台Markdown编辑软件&#xff0c;支持Windows、MacOS和Linux操作系统。它的设计旨在提供一个无干扰、高效且直观的写作环境。户快速管理和查找文档&#xff0c;支持直接在软件内浏览和操作文件结构。 Typora以其简洁而强大的功能集合&#xff0c;成为…

html做一个画热图的软件

完整示例 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><title>热图生成器</title><script src"https://cdn.plot.ly/plotly-latest.min.js"></script><style>body …

基于SpringBoot+大数据城市景观画像可视化设计和实现

&#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者&#xff0c;博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f31f;文末获取源码数据库&#x1f31f; 感兴趣的可以先收藏起来&#xff0c;…