HDFS分布式文件系统01-HDFS架构与SHELL操作

HDFS分布式文件系统

    • 学习目标
    • 第一课时
      • 知识点1-文件系统的分类
        • 单机文件系统
        • 网络文件系统
        • 分布式文件系统
      • 知识点2-HDFS架构
      • 知识点3-HDFS的特点
      • 知识点4-HDFS的文件读写流程
      • 知识点5-HDFS的健壮性
    • 第二课时
      • 知识点1-HDFS的Shell介绍
        • HDFS Shell的语法格式如下。
        • HDFS Shell客户端命令中dfs子命令的子命令选项:
          • -ls命令
          • -du
          • -mv
          • -cp
          • -rm
          • -put
          • -cat
          • -help
          • -mkdir
          • -get
        • 知识点2-案例-通过Shell脚本定时采集数据到HDFS

学习目标

使学生了解文件系统的分类,能够描述不同文件系统的特点
使学生熟悉HDFS架构,能够描述HDFS架构的主要组件及其作用
使学生了解HDFS的特点,能够简述HDFS的特点
使学生掌握HDFS的文件读写原理,能够叙述HDFS读写文件的流程
使学生熟悉HDFS的健壮性,能够叙述HDFS心跳机制、副本机制和负载均衡等策略
使学生掌握HDFS的Shell操作,能够灵活运用HDFS Shell命令操作HDFS
使学生掌握HDFS的Java API操作,能够灵活使用Java API编写应用程序操作HDFS
使学生熟悉Federation机制,能够描述Federation机制的结构、特点并实现Federation机制。
使学生了解Erasure Coding,能够简述Erasure Coding节省存储空间的原理

第一课时

知识点1-文件系统的分类

单机文件系统

单机文件系统是所有文件系统的基础,也是我们常用的一种文件系统,它通过单台计算机的本地磁盘存储文件,依靠操作系统提供的文件系统实现文件的存储和管理。随着互联网的兴起,数据对存储容量要求越来越高,单机文件系统的缺点逐渐显现出来。

网络文件系统

网络文件系统可以看作单机文件系统的一个网络抽象,其本质与单机文件系统相似,网络文件系统可以通过网络共享文件,用户可以像访问本地磁盘的文件一样便捷的访问远端计算机的文件。网络文件系统的出现一定程度上解决了单机文件系统存储容量的瓶颈,用户可以将文件存储在网络文件系统和本地文件系统两个位置。网络文件系统没有解决单机文件系统性能低、可靠性低的瓶颈。

分布式文件系统

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

知识点2-HDFS架构

HDFS架构图如下:
在这里插入图片描述

(1)Block

Block是HDFS文件系统中最小的存储单位,通常称之为数据块。
在HDFS文件系统中存储的文件会被拆分成多个Block,每个Block作为独立的单元进行存储,同一文件的多个Block通常存放在不同的DataNode。
在Hadoop 3.x版本中,默认Block大小是128M。
注意:如果文件大小或者文件被拆分后的Block没有达到128MB,则Block的大小也会根据实际情况进行调整。

(2)MetaData

MeataData用于记录HDFS文件系统的相关信息,这些信息称之为元数据。
在HDFS文件系统中,为了确保元数据的快速访问,元数据会保存在内存中。为了防止元数据的丢失,会在本地磁盘中生成Fsimage文件备份元数据。
Hadoop集群运行的过程中,用户频繁操作HDFS文件系统,内存中的元数据变化会非常快。如果内存中的元数据一旦更新,本地磁盘的Fsimage文件会同步更新,这些操作非常消耗NameNode资源。
HDFS文件系统引入了Edits文件,该文件以追加方式记录内存中元数据的每一次变化,如果NameNode宕机,可以通过合并Fsimage文件和Edits文件的方式恢复内存中存储的元数据。

(3)NameNode

NameNode是HDFS集群的名称节点,通常称为主节点。如果NameNode由于故障原因宕机无法使用,那么用户就无法访问HDFS。NameNode作为HDFS的主节点,起着至关重要的作用,主要功能如下:
管理文件系统的命名空间。
处理客户端对文件的读写请求。
维护HDFS的元数据。
维护和管理DataNode,并协调DataNode为客户端发起的读写请求提供服务。

(4)DataNode

DataNode是HDFS集群中的数据节点,通常称为从节点,主要功能如下。
存储Block。
根据NameNode的指令,对Block进行创建、复制、删除等操作。
定期向NameNode汇报自身存储的Block列表以及健康状态。
负责为客户端发起的读写请求提供服务。

(5)SecondaryNameNode

SecondaryNameNode是HDFS集群中的辅助节点;
定期从NameNode拷贝Fsimage文件并合并Edits文件,将合并结果发送给NameNode;
SecondaryNameNode和NameNode保存的Fsimage和Edits文件相同,可以作为NameNode的冷备份,当NameNode宕机无法使用时,可以通过手动操作将SecondaryNameNode切换为NameNode。

知识点3-HDFS的特点

(1)存储大文件
(2)高容错性
(3)简单的一致性模型
(4)移动计算比移动数据更经济
(5)可移植性
在这里插入图片描述

知识点4-HDFS的文件读写流程

客户端向HDFS写文件的具体流程。

在这里插入图片描述在这里插入图片描述在这里插入图片描述

客户端从HDFS读文件的具体流程。

在这里插入图片描述在这里插入图片描述

知识点5-HDFS的健壮性

(1)心跳机制

在这里插入图片描述

(2)副本机制

在这里插入图片描述

(3)数据完整性校验

在这里插入图片描述

(4)安全模式

在这里插入图片描述

(5)快照

在这里插入图片描述

高校教辅平台(http://tch.ityxb.com)发放测试题以巩固本节课的学习内容。

第二课时

知识点1-HDFS的Shell介绍

HDFS Shell类似于Linux操作系统中的Shell,都是一种命令语言,可以完成对HDFS上文件和目录的一系列操作。

HDFS Shell的语法格式如下。
hdfs [OPTIONS] SUBCOMMAND [SUBCOMMAND OPTIONS]

OPTIONS:可选,用来调试Hadoop。
SUBCOMMAND:表示HDFS Shell的子命令,用于操作HDFS。
SUBCOMMAND OPTIONS:表示HDFS Shell子命令的选项。

具体参考:
https://hadoop.apache.ac.cn/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

HDFS Shell客户端命令中dfs子命令的子命令选项:

ls:List files 列文件
du: Disk usage 磁盘使用率
mv: Move file 移动文件
cp: Copy file 复制文件
rm = ReMove
cat: concatenate 连锁 把多个文本连接起来
mkdir:Make Directory(创建目录)
在这里插入图片描述

-ls命令
hdfs dfs –ls [-S][-C][-r][-h][-R] <path>

参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。
参数-R:可选,用于递归显示指定目录及其子目录的信息。
参数path:用于指定查看的目录。

hdfs dfs –ls -S /data

参数-S:可选,用于根据文件的大小,按照由大到小的顺序显示指定目录的内容。

hdfs dfs –ls -r -h /data

参数-r:可选,用于根据文件的大小,按照由小到大的顺序显示指定目录的内容。
参数-h:可选,用于将默认的文件大小(字节数)格式化为便于查看的格式进行显示。

hdfs dfs –ls -R -C /data

递归显示目录/data及其子目录的信息,并且信息中仅显示文件和子目录的路径。
参数-C:可选,用于显示指定目录下文件和子目录的路径,不显示关于文件和子目录的其他信息。
参数-R:可选,用于递归显示指定目录及其子目录的信息。

-du

用于查看HDFS指定目录下每个文件和子目录大小,语法格式如下。

hdfs dfs -du [-s] [-h] <path>

参数-s:可选,用于查看指定目录下所有文件和子目录的总大小。
参数-h:可选,用于将默认的文件和子目录大小(字节数)格式化为便于查看的格式进行显示。

hdfs dfs –du –h /data

查看HDFS的目录/data中,每个文件和子目录的大小,并且将默认的文件和子目录大小格式化为便于查看的格式进行显示。

-mv

-mv用于移动HDFS指定目录或文件,语法格式如下。

hdfs dfs -mv <src> <dst>

参数src:用于指定要移动的目录或文件。
参数dst:用于将目录或文件移动到指定的目录,如果指定的目录不存在,并且与移动的目录或文件处于同一路径下,那么会对文件或者目录进行重命名操作。
注意:移动的目录或文件,在指定的目录中不能存在。

将目录/data中的子目录/dataChild1移动到目录/data/dataChild中。

hdfs dfs –mv /data/dataChild1 /data/dataChild

将目录/data中的文件dataA重命名为dataA_New。

hdfs dfs –mv /data/dataA /data/dataA_New
-cp

-cp用于复制HDFS指定目录或文件,语法格式如下

hdfs dfs -cp <src> <dst>

参数src:用于指定要复制的目录或文件,可以同时复制多个文件或目录,每个文件或目录用空格进行分隔。
参数dst:用于将目录或文件复制到指定的目录,该目录必须已经存在,并且要复制的文件或目录在指定的目录中不能存在。如果复制的是单文件或目录,则可以重新命名复制后的文件或目录名称。

将目录/data下的文件dataA_New和dataB复制到目录/data/dataChild。

hdfs dfs -ls -R /data
hdfs dfs -cp /data/dataA_New /data/dataB /data/dataChild

将目录/data下的文件dataA_New复制到子目录/dataChild,并且重命名为dataA。

hdfs dfs -cp /data/dataA_New /data/dataChild/dataA
-rm

-rm用于删除HDFS指定目录或文件,语法格式如下。

hdfs dfs -rm [-f] [-r] [-skipTrash] [-safely] <src>

参数-f:可选,用于判断删除的目录或文件是否存在。
参数-r:可选,用于递归删除指定目录中的所有子目录和文件。
参数-skipTrash:可选,表示删除的文件或目录不会放入回收站。
参数-safely:可选,用于启动安全确认,当删除目录时会提示是否删除,避免误删。

使用子命令选项-rm删除目录/data的子目录/dataChild。

hdfs dfs –rm –r /data/dataChild
-put

-put用于将本地文件系统中指定文件上传到HDFS指定目录,语法格式如下。

hdfs dfs -put [-f] <localsrc> <dst>

参数-f:可选,用于判断上传的文件在HDFS指定目录是否存在。如果存在则上传的文件会替换HDFS指定目录中已经存在的文件。
参数localsrc:用于指定本地文件系统中上传的文件,可以同时上传多个文件。
参数dst:用于指定上传到HDFS的目录,该目录必须存在。

使用子命令选项-put将本地文件系统中/export/data目录下的文件a.txt和b.txt,上传到HDFS的目录/data。

 hdfs dfs –put /export/data/a.txt /export/data/b.txt /data
-cat

-cat用于查看HDFS指定文件内容,语法格式如下。

hdfs dfs –cat <src>

参数src:用于指定查看的文件。

使用子命令选项-cat查看目录/data中文件a.txt的内容。

hdfs dfs –cat /data/a.txt
-help
-mkdir
hdfs dfs -mkdir [-p] <path>

参数-p:可选,它有两个作用:
第一是创建目录,如果要创建的目录存在,则不会返回错误信息,也不会重新创建。
第二是递归创建目录及其子目录。

在HDFS的目录/data中创建子目录/dataChild1,并在子目录/dataChild1中创建子目录/dataChild2。

hdfs dfs –mkdir –p /data/dataChild1/dataChild2

-get

-get用于将HDFS的指定文件下载到本地文件系统指定目录,语法格式如下。

hdfs dfs -get [-f] <src> <localdst>

参数-f:可选,用于判断下载的文件在本地文件系统的指定目录是否存在。如果存在则下载的文件会替换指定目录中已存在的文件。
参数src:用于指定HDFS中的文件,可以同时下载多个文件。
参数localdst:用于指定下载到本地文件系统的路径,该路径必须存在。

知识点2-案例-通过Shell脚本定时采集数据到HDFS

通过一个案例演示如何通过Shell脚本周期性的将Hadoop的日志文件上传到HDFS,操作步骤如下。

(1)创建Shell脚本

vi uploadHDFS.sh

内容融入

#!/bin/bash
# 添加hadoop环境变量
export HADOOP_HOME=/opt/module/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# 指定hadoop日志存放位置
hadoop_log_dir=/opt/module/hadoop-3.3.4/logs/ 
# hadoop日志的存放位置
log_toupload_dir=/opt/data/logs/toupload/
# 获取当前时间
date=`date +%Y_%m_%d_%H_%M` 
# 上传到hdfs上的目录名称
hdfs_dir=/hadoop_log/$date/
# 判断不同服务器的hadoop日志目录是否存在
# -d 判断是否为目录
if [ -d $log_toupload_dir ];
then
        echo "$log_toupload_dir exits"
else
        mkdir -p $log_toupload_dir
fi
# 将不同虚拟机的hadoop日志文件收集到目录/opt/data/logs/toupload/
ls $hadoop_log_dir | while read fileName
do
# 如果文件名是.log结尾
if [[ $fileName == *.log ]];
then
	echo "moving hadoop log to $log_toupload_dir"
	cp $hadoop_log_dir/*.log $log_toupload_dir
	# 如果有多台,需要把多个日志都复制到当前节点的的/opt/data/logs/toupload/目录
	#scp root@node2:$hadoop_log_dir/*.log $log_toupload_dir
	#scp root@node3:$hadoop_log_dir/*.log $log_toupload_dir
	echo "moving hadoop log willDoing"
	break
fi
done
echo "create $hdfs_dir"
# 创建hdfs目录
hdfs dfs -mkdir -p $hdfs_dir
ls $log_toupload_dir | while read fileName
do
	echo "upload hadoop log $fileName to $hdfs_dir"
	hdfs dfs -put $log_toupload_dir$fileName $hdfs_dir
	echo "upload hadoop log $fileName willDoing"
done
echo "delete $log_toupload_dir log"
# 删除临时目录/opt/data/logs/toupload/ 
rm -fr $log_toupload_dir

(2)执行Shell脚本
启动hadoop集群

start-dfs.sh
sh uploadHDFS.sh

如下:
在这里插入图片描述

(3)验证Hadoop日志文件是否上传成功

http://192.168.100.3:9870/

(4)定时执行Shell脚本文件
检查是否安装crontab

rpm -qa | grep crontab

rpm -qa:rpm 是一个用于管理RPM包的工具,-qa 选项表示列出所有已安装的软件包(其中 -q 表示查询,-a 表示所有包)。这条命令会输出一个包含所有已安装包名称的列表。
|(管道符号):这是一个管道操作符,它将前一个命令的输出作为后一个命令的输入。在这个例子中,rpm -qa 输出的所有包名会被传递给 grep 命令。
grep crontab:grep 是一个强大的文本搜索工具,它可以搜索文件中的指定模式。在这里,crontab 是一个模式,grep 将在管道传入的数据中搜索包含“crontab”的行。这将帮助你找到与crontab相关的已安装包。

若没有安装,可以执行

yum -y install vixie-cron
 yum -y install crontabs

启动crontab

service crond status
service crond start

为脚本添加权限
查看uploadHDFS.sh的权限
在这里插入图片描述

chmod 777 uploadHDFS.sh

在虚拟机node1执行“crontab -e”命令编辑Crontab文件,配置定时任务,在Crontab文件添加如下内容。

*/2 * * * * /export/data/uploadHDFS.sh

10分钟后,刷新HDFS Web UI界面可以看到,需要上传的日志文件已经按照日期分类上传到HDFS中
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/883867.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蜂窝物联网全网通sim卡切网技术方案软硬件实现教程(设备根据基站信号质量自动切网)

01 物联网系统中为什么要使用三合一卡 三合一卡为用户解决了单一运营商网络无法全覆盖的缺陷&#xff0c;避免再次采购的经济成本以及时间成本和因没有信号设备停止工作造成的损失&#xff0c;保证仅需一次采购并提高设备工作效率和入网活跃度。例如下面地区的设备&#xff0…

WPS中让两列数据合并的方法

有这样一个需求&#xff0c;就是把A列数据和B列数据进行合并&#xff08;空单元格略过&#xff09;具体实现效果如图下&#xff1a; 该如何操作呢&#xff1f; 首先在新的一列第一个单元格中输入公式"A1&B1" 然后回车&#xff0c;就出现了两列单元格数据合并的效…

APScheduler、Django实现定时任务,以及任务动态操作

环境&#xff1a;Windows 11、python 3.12.3、Django 4.2.11、 APScheduler 3.10.4 背景&#xff1a;工作需要使用且用法较为复杂&#xff0c;各种功能基本都使用了 事件&#xff1a;20240920 说明&#xff1a;记录&#xff0c;方便后期自己查找 1、搭建基础环境 文件结构图…

node.js从入门到快速开发一个简易的web服务器

浏览器中JavaScript学习路径: JavaScript基础语法浏览器内置API(DOMBOM)第三方库(jQuery,art-template等) Node.js的学习路径 JavaScript基础语法Node.js内置API模块(fs、path、http等)第三方API模块(express、mysql等) Node.js安装 通过Node.js 来运行Javascript 代码&am…

ElasticSearch的安装与使用

ElasticSearch的安装与使用 docker安装 docker进行安装Elasticsearch 1.拉取镜像 docker pull elasticsearch:7.6.22.创建实例 mkdir -p /docker/elasticsearch/config mkdir -p /docker/elasticsearch/data echo "http.host: 0.0.0.0" >> /docker/elastic…

C语言课程设计题目四:实验设备管理系统设计

序号系统设计题目进度1职工信息管理系统设计已完成&#xff0c;在本专栏2图书信息管理系统设计已完成&#xff0c;在本专栏3图书管理系统设计已完成&#xff0c;在本专栏4实验设备管理系统设计已完成&#xff0c;在本专栏5西文下拉菜单的设计链接6学生信息管理系统设计链接7学生…

c++9月20日

1.思维导图 2.顺序表 头文件 #ifndef RECTANGLE_H #define RECTANGLE_H#include <iostream>using namespace std;using datatype int ;//类型重定义class Seqlist { private://私有权限datatype *ptr; //指向堆区申请空间的起始地址int size;//堆区空间的长度int len …

汽车一键启动开关

‌ 一键启动点火开关是汽车上的一个重要功能&#xff0c;它替代了传统的机械钥匙&#xff0c;实现了简约的打火和熄火操作‌。移动管家一键启动点火开关的详细介绍&#xff1a; 汽车一键启动按钮12V24V通用超薄型汽车一键启动按键发动机启动按钮点火开关。超薄&#xff0c;…

软件测试学习笔记丨curl命令发送请求

本文转自测试人社区&#xff0c;原文链接&#xff1a;https://ceshiren.com/t/topic/32332 一、简介 cURL是一个通过URL传输数据的&#xff0c;功能强大的命令行工具。cURL可以与Chrome Devtool工具配合使用&#xff0c;把浏览器发送的真实请求还原出来&#xff0c;附带认证信…

嵌入式项目:STM32平衡车详解 (基础知识篇) (基于STM32F103C8T6)

前言&#xff1a; 本文是基于B站草履虫编写的平衡车相关内容&#xff0c;包括模块和基础知识&#xff0c;结合代码进行讲解&#xff0c;将知识进行汇总 &#xff08;由于本篇内容较长&#xff0c;请结合目录使用) 注&#xff1a;基于开源精神&#xff0c;本文仅供学习参考 目…

如何用ChatGPT制作一款手机游戏应用

有没有想过自己做一款手机游戏&#xff0c;并生成apk手机应用呢&#xff1f;有了人工智能&#xff0c;这一切就成为可能。今天&#xff0c;我们就使用ChatGPT来创建一个简单的井字棋游戏&#xff08;Tic-Tac-Toe&#xff09;&#xff0c;其实这个过程非常轻松且高效。 通过Cha…

windows 使用PortAudio 对电脑进行录音

PortAudio 采用回调方式&#xff0c;这样可以一帧一帧的处理 头文件&#xff1a; #ifndef __CAPTURE_AUDIO__ #define __CAPTURE_AUDIO__#include <functional> #include <windows.h> #include "portaudio.h"#define SAMPLE_RATE 44100class CaptureAu…

大数据毕业设计选题推荐-国潮男装微博评论数据分析系统-Hive-Hadoop-Spark

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、PHP、.NET、Node.js、GO、微信小程序、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇…

JavaSE——lombok、juint单元测试、断言

一、lombok的使用 默认jvm不解析第三方注解&#xff0c;需要手动开启 链式调用 二、juint单元测试 下载juint包 public class TestDemo {// 在每一个单元测试方法执行之前执行Beforepublic void before() {// 例如可以在before部分创建IO流System.out.println("befor…

89个H5小游戏源码

下载地址&#xff1a;https://download.csdn.net/download/w2sft/89791650 亲测可用&#xff0c;代码完整&#xff0c;都是htmljs&#xff0c;保存到本地即可。 游戏截图&#xff1a;

【AI创作组】工程方向的硕士研究生学习Matlab的路径

1. MATLAB软件概述 1.1 MATLAB发展历程 MATLAB自20世纪70年代诞生以来,已经经历了多次重要的版本更新和功能扩展。 初始版本:MATLAB的前身只是一个简单的交互式矩阵计算器,由Cleve B. Moler博士在1970年代初期开发,目的是为了方便学生和研究人员使用线性代数软件包LINPAC…

游戏如何对抗改包

游戏改包是指通过逆向分析手段及修改工具&#xff0c;来篡改游戏包内正常的设定和规则的行为&#xff0c;游戏包被篡改后&#xff0c;会被植入/剔除模块进行重打包。 本期图文我们将通过实际案例分析游戏改包的原理&#xff0c;并分享游戏如何应对改包问题。 安卓平台常见的改…

车载软件调试工具系列---Trace32简介UI界面简介

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…

基于nodejs+vue的旅游管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码 精品专栏&#xff1a;Java精选实战项目…

想要高音质的开放式耳机?看看开放式蓝牙耳机排行榜前列的这些品牌!

​开放式蓝牙耳机现在超流行&#xff0c;不仅年轻人爱用&#xff0c;连不少上了年纪的人也喜欢在公园里散步时戴上。这些耳机无论是听歌、学习、健身还是办公&#xff0c;都能派上用场。到了2024年&#xff0c;想要挑到一款既好用又好听的开放式蓝牙耳机&#xff0c;得好好比较…