2-HDFS常用命令及上传下载流程

HDFS

NameNode

安全模式(safemode)

  1. 当NameNode被重启的时候,自动进入安全模式

  2. 在安全模式中,NameNode首先会触发edits_inprogress文件的滚动。滚动完成之后,更新fsimage文件

  3. 更新完成之后,NameNode会将fsimage文件中的元数据加载到内存中。加载完成之后,NameNode等待DataNode的心跳

  4. 如果NameNode没有收到DataNode的心跳,那么此时NameNode就会认为这个DataNode已经lost,那么此时NameNode会将这个DataNode上的数据备份到其他的节点上来保证副本数量;如果NameNode收到了DataNode的心跳,那么会对这个DataNode上的Block存储情况进行校验。如果校验成功,那么NameNode自动退出安全模式;如果校验失败,那么NameNode会试图恢复这个DataNode上的数据(每个DataNode的全部数据都会在其他DataNode上有备份),恢复完成之后,会重新校验;校验成功之后,才会退出安全模式

  5. 在安全模式下,HDFS只提供读(下载)操作,不提供写(上传)操作

  6. 如果在合理的时间内,HDFS依然没有退出安全模式,那么说明数据已经产生了不可逆的损坏或者丢失(这个数据的所有副本都损坏或者丢失)

  7. 安全模式的命令

    命令解释
    hdfs dfsadmin -safemode enter进入安全模式
    hdfs dfsadmin -safemode leave退出安全模式
    hdfs dfsadmin -safemode get获取安全模式的状态

DataNode

  1. DataNode是HDFS的从进程,负责存储数据。DataNode会将数据以Block形式落地到本地的磁盘上
  2. Block在磁盘上的存储位置由dfs.datanode.data.dir属性来决定的,默认值是file://${hadoop.tmp.dir}/dfs/data,由hadoop.tmp.dir属性来决定
  3. DataNode会为每一个Block生成一个.meta文件,.meta文件实际上是这个Block的校验文件
  4. DataNode会通过心跳向NameNode注册信息
  5. DataNode的状态:预服役、服役、预退役、退役

SecondaryNameNode

  1. SecondaryNameNode不是NameNode的备份,而是辅助进程,用于辅助NameNode完成edits_inprogress文件的滚动和fsimage文件的更新

    1. 如果HDFS集群中存在SecondaryNameNode,那么fsimage文件的更新是由SecondaryNameNode来完成
    2. 如果HDFS集群中不存在SecondaryNameNode,那么fsimage文件的更新是由NameNode自己来完成
  2. 因此,SecondaryNameNode不是必须的进程。实际过程中,NameNode和SecondaryNameNode不是在同一个节点上

  3. fsimage文件的更新过程

    fsimage更新
  4. 由于HDFS集群的限制,HDFS集群支持两种模式

    1. 1个NameNode+1个SecondayNameNode+n个DataNode
    2. n个NameNode+n个DataNode

    考虑到NameNode作为核心节点,必须对NameNode来进行备份。所以实际过程中,采用上述的第二种结构

机架感知策略

  1. 在HDFS集群中,机架指的是逻辑机架。默认情况下,机架感知策略是不开启的

  2. 逻辑机架:通过一个映射(map)来定义主机和机架之间的关联。将主机名或者IP作为键,将机架作为值,只要值相同,就表示不同的服务器是位于相同的机架上的

    # hadoop01~hadoop03都是属于机架r1,hadoop04~05都是属于机架r2
    rack = {
    	"hadoop01":"r1",
    	"hadoop02":"r1",
    	"hadoop03":"r1",
    	"hadoop04":"r2",
    	"hadoop05":"r2"
    }
    
  3. 如果需要开启机架感知策略,那么需要在hadoop-site.xml文件中配置

    <property>
    	<name>net.topology.script.file.name</name>
        <value>脚本的路径</value>
    </property>
    

    实际过程中,一般是通过shell或者python来定义脚本文件

  4. 理论上而言,可以将同一个物理机架上的节点配置到不同的逻辑机架上,也可以将不同物理机架上的节点配置到同一个逻辑机架上

副本放置策略

  1. HDFS为了保证数据的可靠性,默认采用的是多副本策略。默认情况下,每一个Block对应了3个副本。副本数量可以通过dfs.replication属性来调节
  2. 在HDFS中,如果不开启机架感知策略,副本是放在相对空闲的节点上;如果开启了机架感知策略,那么对应的会开启副本放置策略
    1. 第一个副本:如果是集群内部上传,谁上传就放在谁身上;如果是集群外部上传,谁空闲就放在谁身上
    2. 第二个副本:放在和第一个副本相同机架的不同节点上
    3. 第三个副本:放在和第二个副本不同机架的节点上
    4. 更多副本:谁空闲放在谁身上

命令和操作

启动命令

命令解释
start-dfs.sh启动HDFS
stop-dfs.sh关闭HDFS
hdfs --daemon start namenode启动NameNode
hdfs --daemon start datanode启动DataNode
hdfs --daemon start secondarynamenode启动SecondaryNameNode
hdfs --daemon stop namenode关闭NameNode
hdfs --daemon stop datanode关闭DataNode
hdfs --daemon stop secondarynamenode关闭SecondaryNameNode

基本命令

命令解释
hadoop fs -put a.txt /
或者
hadoop fs -copyFromLocal a.txt / (过时)
将a.txt上传到HDFS的根目录下
hadoop fs -ls / 查看子文件和子目录
hadoop fs -ls -R /递归查看
hadoop fs -cat /a.txt查看文件内容
hadoop fs -appendToFile b.txt /a.txt将本地的b.txt的内容追加到HDFS的a.txt中
hadoop fs -checksum /a.txt计算校验和(就是获取这个文件的md5计算结果)
hadoop fs -chown tom /a.txt更改文件所属用户
hadoop fs -chmod 777 /a.txt更改文件的权限
hadoop fs -chgrp test /a.txt更改文件的用户组
hadoop fs -copyToLocal /a.txt /opt/test.txt
或者
hadoop fs -get /a.txt /opt/test.txt
下载文件
hadoop fs -cp /a.txt /b.txt复制文件
hadoop fs -mv /a.txt /test.txt剪切或者重命名文件
hadoop fs -df /查看HDFS的容量
hadoop fs -du /b.txt查看文件的大小
hadoop fs -setrep 3 /b.txt(上传文件时指定副本数量,这个参数优先级高于默认的副本数量)指定副本数量

回收站机制

  1. 在HDFS中,回收站机制默认是不开启的,即删除命令会立即生效,无法撤销

  2. 如果需要开启回收站机制,那么需要在core-site.xml文件中做配置

    <!-- 指定文件在回收站中临时的存放时间 -->
    <!-- 单位默认是min -->
    <!-- 如果不指定,默认情况下值为0,即删除要立即生效 -->
    <!-- 如果超过指定时间,没有将文件从回收站中移出来,那么这个文件就会被清理掉 -->
    <property>
            <name>fs.trash.interval</name>
            <value>1440</value>
    </property>
    
  3. 回收站的默认路径是:/user/${user.name}/.Trash/Current/

  4. 如果需要将文件从回收站中挪出来,那么使用hadoop fs -mv命令即可

流程

删除流程

  1. 客户端发起RPC请求到NameNode,请求删除指定文件
  2. NameNode收到请求之后,会进行校验
    1. 校验是否有写入权限 - AccessControlException
    2. 校验是否有指定文件 - FileNotFoundException
  3. 如果校验失败,那么会报错;如果校验成功,那么NameNode修改元数据;修改完元数据之后,NameNode会给客户端返回一个ACK信号表示删除成功!注意,此时文件并没有真正从HDFS上移除,仅仅是修改了元数据!
  4. NameNode会等待DataNode的心跳,收到DataNode的心跳之后,会在心跳响应中要求DataNode删除对应的Block
  5. DataNode收到心跳响应之后,才回去磁盘上删除这个文件对应的Block。注意,此时,文件才真正从HDFS上移除!

写入(上传)流程

  1. 客户端通过DistributedFileSystem向NameNode发送RPC请求,请求上传指定文件

  2. NameNode收到请求之后,会进行校验

    1. 校验是否有写入权限 - AccessControlException
    2. 校验是否有同名文件 - FileAlreadyExistException
  3. 如果校验失败,那么直接报错;如果校验成功,NameNode会给客户端返回一个信号表示允许上传

  4. 客户端在收到信号之后,会再次给NameNode发送请求,请求获取第一个Block的存储地址

  5. NameNode收到请求之后,会查询元数据,根据副本放置策略,将这个Block的存储位置放入队列中返回给客户端。存储位置其实就是DataNode的主机名/IP,默认情况下,返回的是3个地址(副本数量默认为3)

  6. 客户端收到队列之后,会从队列中将地址全部取出,取出之后,会从中选择一个较近(网络拓扑距离的远近)的节点,通过FSDataOutputStream来请求建立pipeline(管道),来写入当前Block的第一个副本;第一个副本写完之后,这个副本所在的节点会通过pipeline将这个Block的第二个副本写入;第二个副本写完之后,这个副本所在的节点会通过管道来写入下一个节点

  7. 当这个Block的最后一个副本写完之后,会给上一个副本所在的节点返回一个ACK信号表示成功;上一个副本所在的节点收到ACK之后,会继续往前返回ACK,直到返回给客户端

  8. 当客户端收到ACK之后,会再次给NameNode发送请求,请求获取下一个Block的存储位置,重复5.6.7三个步骤,直到所有的Block全部写完

  9. 当所有的Block全部写完之后,客户端会给NameNode发送一个结束信号(关流)。NameNode收到信号之后,会关闭文件。文件一旦关闭就不能修改!

    上传流程

读取(下载)流程

  1. 客户端通过DistributedFileSystem向NameNode发送RPC请求,请求读取指定文件

  2. NameNode收到请求之后,会进行校验

    1. 校验是否有读取权限 - AccessControlException
    2. 校验是否有指定文件 - FileNotFoundException
  3. 如果校验失败,则直接报错;如果校验成功, 那么NameNode会给客户端返回一个信号表示允许读取

  4. 客户端收到信号之后,会再次给NameNode发送请求,请求获取第一个Block的存储位置

  5. NameNode收到请求之后,会查询元数据,将这个Block的存储位置以及Block的校验信息放入队列中返回给客户端

  6. 客户端收到队列之后,会将地址从队列中全部取出,从中选择一个较近(网络拓扑距离较近)的节点,通过FSDataInputStream来读取这个Block

  7. 读取完成之后,客户端会对这个Block进行一次checkSum校验。如果校验失败,那么客户端会从剩余的地址中重新选取地址重新读取重新校验;如果校验成功,那么客户端会再次给NameNode发送请求,请求获取下一个Block的位置,重复5.6.7,直到所有的Block全部读取完毕

  8. 当所有的Block都读取完之后,客户端会给NameNode发送一个结束信号

    读取流程

特点

  1. 支持超大文件。HDFS会对文件进行切块处理,所以集群规模越大,能够存储的文件就越大
  2. 能够快速的应对和检测故障。HDFS通过心跳来管理DataNode,通过心跳可以确定DataNode的状态以及Block的状态
  3. 高容错性。HDFS对文件进行备份,从而保证不会因为一个节点宕机就产生数据丢失
  4. 可以在相对廉价的机器上来进行横向扩展
  5. 不支持低延迟数据访问。HDFS的设计初衷就是为了存储超大文件,因此考虑的是数据的吞吐量而不是响应速度
  6. 不建议存储小文件。每一个小文件对应的会产生一条元数据,小文件多了,就意味着元数据会增多,那么会导致内存占用变大,同时会导致查询效率降低
  7. 简化的一致性模型。HDFS支持一次写入多次读取,不支持修改但是支持追加写入
  8. 不支持事务或者支持弱事务。这就意味着在HDFS中,即使数据写错也不能修改
  9. 存储的超大文件允许小部分数据出错。HDFS通常是TB级的日志级别,然后对其数据分析。其中几MB的数据出错并不会影响最终的分析结果。

补充

RPC

  1. RPC(Remote Procedure Call),远程过程调用,指的是允许程序员在一个节点上远程调用另一个节点上的程序或者功能,而不需要显式的实现这个功能
  2. RPC是Nelson在1990年的论文中提出的理论,现在RPC已经成为了分布式中最重要的通讯方式
  3. 存储的超大文件允许小部分数据出错。HDFS通常是TB级的日志级别,然后对其数据分析。其中几MB的数据出错并不会影响最终的分析结果。

补充

RPC

  1. RPC(Remote Procedure Call),远程过程调用,指的是允许程序员在一个节点上远程调用另一个节点上的程序或者功能,而不需要显式的实现这个功能
  2. RPC是Nelson在1990年的论文中提出的理论,现在RPC已经成为了分布式中最重要的通讯方式
  3. stub(存根):保证两端能够调用的函数是相同的,在Java中通常使用接口来实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/498653.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(免费分享)基于springboot,vue付费自习室系统带论文

在当今数字化时代&#xff0c;高效、便捷的管理系统成为了各行各业不可或缺的工具。特别是在教育服务领域&#xff0c;自习室作为学生和在职人员重要的学习场所&#xff0c;其预约和管理需求日益增长。为了满足这一市场需求&#xff0c;本文开发了这款基于微信小程序的付费自习…

DC-5靶机

一.环境搭建 1.下载地址 靶机下载地址&#xff1a;https://download.vulnhub.com/dc/DC-5.zip 2.虚拟机配置 切换nat模式&#xff0c;有问题全选重试和是&#xff0c;打到这了&#xff0c;我感觉这个配置我都不用写了&#xff0c;启动靶机如下图所示即可 二.开始渗透 1.信…

设计模式 - 简单工厂模式

文章目录 前言 大家好,今天给大家介绍一下23种常见设计模式中的一种 - 工厂模式 1 . 问题引入 请用C、Java、C#或 VB.NET任意一种面向对象语言实现一个计算器控制台程序&#xff0c;要求输入两个数和运算符 号&#xff0c;得到结果。 下面的代码实现默认认为两个操作数为Inte…

2. Java基本语法

文章目录 2. Java基本语法2.1 关键字保留字2.1.1 关键字2.1.2 保留字2.1.3 标识符2.1.4 Java中的名称命名规范 2.2 变量2.2.1 分类2.2.2 整型变量2.2.3 浮点型2.2.4 字符型 char2.2.5 Unicode编码2.2.6 UTF-82.2.7 boolean类型 2.3 基本数据类型转换2.3.1 自动类型转换2.2.2 强…

报错:torch.distributed.elastic.multiprocessing.errors.ChildFailedError:

错误&#xff1a; torch.distributed.elastic.multiprocessing.errors.ChildFailedError: 这个主要是torch的gpu版本和cuda不适配 我的nvcc -V是11.8 torch使用的&#xff1a; pip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2 --index-url https://download.pyt…

Day47:WEB攻防-PHP应用文件上传函数缺陷条件竞争二次渲染黑白名单JS绕过

目录 文件上传与测试环境安装 1、前端 JS 2、.htaccess(apache独有的配置文件) 3、MIME类型 4、文件头判断 5、黑名单-过滤不严 6、黑名单-过滤不严 7、低版本GET-%00截断 8、低版本POST-%00截断 9、黑名单-过滤不严 10、逻辑不严-条件竞争 11、二次渲染 12、函数…

Leetcoder Day43| 单调栈2

503.下一个更大元素II 给定一个循环数组&#xff08;最后一个元素的下一个元素是数组的第一个元素&#xff09;&#xff0c;输出每个元素的下一个更大元素。数字 x 的下一个更大的元素是按数组遍历顺序&#xff0c;这个数字之后的第一个比它更大的数&#xff0c;这意味着你应该…

2024最新Guitar Pro 8.1中文版永久许可证激活

Guitar Pro是一款非常受欢迎的音乐制作软件&#xff0c;它可以帮助用户创建和编辑各种音乐曲谱。从其诞生以来就送专门为了编写吉他谱而研发迭代的。 尽管这款产品可能已经成为全球最受欢迎的吉他打谱软件&#xff0c;在编写吉他六线谱和乐队总谱中始终处于行业领先地位&#x…

大话设计模式之原型模式

原型模式&#xff08;Prototype Pattern&#xff09;是一种创建型设计模式&#xff0c;它用于创建对象的复制&#xff0c;同时又能保持对象的封装。原型模式通过复制现有对象的方式来创建新的对象&#xff0c;而无需知道具体创建过程的细节。 在原型模式中&#xff0c;通常会有…

Excel·VBA数组分组问题

看到一个帖子《excel吧-数据分组问题》&#xff0c;对一组数据分成4组&#xff0c;使每组的和值相近 目录 代码思路1&#xff0c;分组形式、可分组数代码1代码2代码2举例 2&#xff0c;数组所有分组形式举例 这个问题可以转化为2步&#xff1a;第1步&#xff0c;获取一组数据…

【大数据运维】minio 常见shell操作

文章目录 1. 安装2. 入门操作3. 命令帮助 1. 安装 下载 https://dl.min.io/client/mc/release/linux-amd64/ 赋权与使用 cp mc /usr/bin && chmod x /usr/bin/mc ./mc --help 2. 入门操作 # 添加minio到mc mc config host add minio_alias_name endpoint_adress …

SpringBoot动态数据源实现

一、背景 一个应用难免需要连接多个数据库&#xff0c;像我们系统起码连接了5个以上数据库&#xff0c;AWS RDS主库&#xff0c;ECS自搭MySQL从库&#xff0c;工厂系统三个SQLServer数据库&#xff0c;在线网站MySQL数据库&#xff0c;记得很早以前是用SessionFactory配置&…

Java中有哪些容器(集合类)?

Java中的集合类主要由Collection和Map这两个接口派生而出&#xff0c;其中Collection接口又派生出三个子接 口&#xff0c;分别是Set、List、Queue。所有的Java集合类&#xff0c;都是Set、List、Queue、Map这四个接口的实现 类&#xff0c;这四个接口将集合分成了四大类&#…

C语言--编译和链接

1.翻译环境 计算机能够执行二进制指令&#xff0c;我们的电脑不会直接执行C语言代码&#xff0c;编译器把代码转换成二进制的指令&#xff1b; 我们在VS上面写下printf("hello world");这行代码的时候&#xff0c;经过翻译环境&#xff0c;生成可执行的exe文件&…

WebGIS概述

1.地图组成 底图(Map): 所有信息的载体 图层(Layer):将不同地理信息分类形成的一个集合 要素(Feature):表示不同的地物 几何(Geometry): 信息的数据模型和抽象 2.地图容器Container 即在准备阶段所创建的指定了id的div对象&#xff0c;这个div将作为承载所有图层、点标记、矢量…

分布式部署LNMP+WordPress

需要四台虚拟机&#xff0c;实际上&#xff0c;我们只需要操作三台 一个数据库&#xff0c;一个nginx&#xff0c;一个php&#xff0c;还需要准备一个软件包wordpress-4.7.3-zh_C 首先配置nginx的服务环境 [rootnginx ~]# vi /usr/local/nginx/conf/nginx.conf 修改文件中的loc…

2024软件设计师备考讲义——(4)

知识产权和标准化 一、知识产权 1.特性 无体性专有性地域性时间性 2.保护期限 公民作品 署名权、修改权、保护作品完整权【没有限制】发表权、使用权、获得报酬权【终身及死亡后第50年12月31日】单位作品 发表权、使用权、获得报酬权【首次发表后到第50年12月31日】公民软件…

【Linux】nmcli命令详解(文末送书)

目录 一、概述 二、常用参数使用 2.1 nmcli networking 1.显示NM是否接管网络 2.查看网络连接状态 3.开/关网络连接 2.2 general ​编辑 1.显示系统网络状态 2.显示主机名 3.更改主机名 2.3 nmcli connection ​编辑1.显示所有网络连接 2.显示某个网卡的详细信息…

修改mysql数据库默认字符集

查看系统版本&#xff0c;数据库版本 前提你必须已经安装好了mysql。 参考&#xff1a;https://blog.csdn.net/qq_50247813/article/details/137137915 查看mysql的默认字符集 show variables like %char%; 查看数据库默认字符集 SELECT collation_database; 查看数据库默认…

携手伙伴 共赢智改数转 锐捷网络企业行业合作伙伴大会圆满举行

3月22日,锐捷网络2024全国企业行业合作伙伴大会在福州成功举行。大会以“追光而遇,沐光同行”为主题,吸引了来自全国各地的合作伙伴齐聚“有福之州”,共同探讨企业数智化转型新机遇和新方向。 会上,锐捷网络渠道客户系统部总经理王刚为此次合作伙伴大会开幕致辞。王刚对所有到场…