【hadoop】HDFS

HDFS

  • 操作HDFS
    • Web Console 网页工具
      • 操作NameNode
      • 操作SecondaryNameNode
    • 命令行
    • Java API
  • HDFS的原理解析
    • 数据上传的过程
    • 数据下载的过程
  • HDFS的高级特性
    • 回收站
    • 配额Quota
      • 名称配额
      • 空间配额
    • 快照Snapshot
    • 安全模式 SafeMode
    • 权限管理:类似Linux
    • HDFS的集群
  • HDFS的底层原理:Java程序(记得重新修改)

操作HDFS

操作HDFS有三种方式,分别是 使用Web Console网页工具命令行Java API

Web Console 网页工具

操作NameNode

NameNode:端口50070
访问地址:IP/dfshealth.html

在这里插入图片描述
在summary中,值得关注的是 safemode is off ,说明HDFS的安全模式是关闭的,如果是打开的,那么HDFS是处于只读的状态,不能进行操作HDFS。
在这里插入图片描述
下面是HDFS启动过程,比较重要
在这里插入图片描述

操作SecondaryNameNode

端口:50090
访问地址:Ip:50090/status.html

在这里插入图片描述

命令行

1、普通的操作命令:hdfs dfs ****

在这里插入图片描述
-mkdir 在HDFS中创建目录

hdfs dfs -mkdir /aaa
hdfs dfs -mkdir -p /bbb/ccc 如果父目录不存在,使用-p参数先创建父目录

-ls 查询HDFS的某个目录
-ls -R 查询HDFS的某个目录,包含子目录,简写:-lsr
-put 上传数据
-copyFromLocal 上传数据
-moveFromLocal 上传数据,本质ctrl+x 剪切
-copyToLocal 下载数据
-get 下载数据
在这里插入图片描述
-rm 删除目录
-rmr 删除目录,包含子目录
-getmerge:先把某个目录下的文件合并,再下载
demo:

[root@bigdata111 ~]# vi student01.txt

在这里插入图片描述

[root@bigdata111 ~]# vi student02.txt

在这里插入图片描述

[root@bigdata111 ~]# hdfs dfs -mkdir /students
[root@bigdata111 ~]# hdfs dfs -put student0* /students
[root@bigdata111 ~]# hdfs dfs -ls /students
Found 2 items
-rw-r--r--   1 root supergroup         19 2020-02-24 10:19 /students/student01.txt
-rw-r--r--   1 root supergroup         10 2020-02-24 10:19 /students/student02.txt
[root@bigdata111 ~]# hdfs dfs -getmerge /students ./allstudents.txt

在这里插入图片描述

-cp:拷贝 hdfs dfs -cp /input/data.txt /input/data2.txt
-mv:剪切
-count:举例 hdfs dfs -count /students 查看文件的个数
-du:类似-count,更详细

hdfs dfs -du /students
结果:
19  /students/student01.txt
10  /students/student02.txt

-text、-cat 查看文本文件的内容

hdfs dfs -cat /students/student01.txt

balancer:平衡操作
在这里插入图片描述

2、管理的命令:hdfs dfsadmin ****

在这里插入图片描述
-report:hdfs dfsadmin -report
在这里插入图片描述

-safemode 安全模式

[root@bigdata111 ~]# hdfs dfsadmin -safemode
Usage: hdfs dfsadmin [-safemode enter | leave | get | wait]
[root@bigdata111 ~]# hdfs dfsadmin -safemode get
Safe mode is OFF
[root@bigdata111 ~]# hdfs dfsadmin -safemode enter
Safe mode is ON
[root@bigdata111 ~]# hdfs dfs -mkdir /xyz
mkdir: Cannot create directory /xyz. Name node is in safe mode.
[root@bigdata111 ~]# hdfs dfsadmin -safemode leave
Safe mode is OFF

Java API

操作需要包含的jar包:

$HADOOP_HOME/share/hadoop/common/*.jar
$HADOOP_HOME/share/hadoop/common/lib/*.jar
$HADOOP_HOME/share/hadoop/hdfs/*.jar
$HADOOP_HOME/share/hadoop/hdfs/lib/*.jar

方式:
Java API连接HDFS并创建文件夹
使用Java API 上传下载数据
使用Java API获取HDFS的元信息

HDFS的原理解析

数据上传的过程

在这里插入图片描述

数据下载的过程

在这里插入图片描述

HDFS的高级特性

回收站

默认回收站是关闭的,可以通过在 core-site.xml 中添加 fs.trash.interval 来打开幵配置时间阀值。

<property>
	<name>fs.trash.interval</name>
	<value>1440</value>
</property>

可以设置一个时间阈值,当回收站里文件的存放时间超过返个阈值,就被彻底删除,并且释放占用的数据块,比如上面就设置了一个1440分钟的阀值。

在这里插入图片描述
在这里插入图片描述
从回收站里恢复文件
在这里插入图片描述

配额Quota

名称配额

名称配额:规定的是某个HDFS目录下文件的个数,
比如:设置名称配额是N,表示只能在该目录下存放N-1个文件或者目录

hdfs dfsadmin [-setQuota <quota> <dirname>...<dirname>]
hdfs dfsadmin [-clrQuota <dirname>...<dirname>]

举例:

hdfs dfs -mkdir /t1 

设置该目录的名称配额是3,所以该目录下只能放两个文件或文件夹。

hdfs dfsadmin -setQuota 3 /t1 

在这里插入图片描述

空间配额

空间配额:规定的是某个HDFS目录下文件的大小
比如:设置某个HDFS目录的空间配额是200M,只能存放200M以下的文件

hdfs dfsadmin [-setSpaceQuota <quota> [-storageType <storagetype>] <dirname>...<dirname>]
hdfs dfsadmin [-clrSpaceQuota [-storageType <storagetype>] <dirname>...<dirname>]

举例:

hdfs dfs -mkdir /t2

设置该目录的空间配额是1M (逻辑单位)

hdfs dfsadmin -setSpaceQuota 1M /t2

上传一个超过1M,大小为50M的文件,会发生下面的错误:

The DiskSpace quota of /t2 is exceeded: quota = 1048576 B = 1 MB but diskspace consumed = 134217728 B = 128 MB

由于是50M文件,占用一个数据块,所以会提示128M。

快照Snapshot

一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。(本质:就是cp命令)

在这里插入图片描述

安全模式 SafeMode

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。如果HDFS处于
安全模式,则表示HDFS是只读状态。

安全模式的作用:当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。(数据块是否满足冗余度的要求)
假设我们设置的副本数/冗余度(即参数dfs.replication)是5,那么在datanode上就应该有5个副本存在,假设只存在3个副本,那么比例就是3/5=0.6。在配置文件hdfs-default.xml中定义了一个最小的副本的副本率0.999。我们的副本率0.6明显小于0.99,因此系统会自动的复制副本到其他的dataNode,使得副本率不小于0.999.如果系统中有8个副本,超过我们设定的5个副本,那么系统也会删除多余的3个副本。

hdfs dfsadmin -safemode get 查看安全模式状态
hdfs dfsadmin -safemode enter 进入安全模式状态
hdfs dfsadmin -safemode leave 离开安全模式

权限管理:类似Linux

HDFS的集群

集群的两大功能和解决方式:
(1)负载均衡:联盟Federation
(2)失败迁移(单点故障):HA

注意:联盟是HDFS特有的,但HA是主从架构共有的

在这里插入图片描述

HDFS的底层原理:Java程序(记得重新修改)

1、Java的代理对象Proxy
在这里插入图片描述
案例:利用Java的代理对象实现数据库的连接池。
(1)通过连接池返回一个Connection对象
(2)使用完后,connection.close,把该连接直接还给数据库
(3)重写close方法,把该连接还给数据库的连接池

准备实验环境:MySQL的数据库
如何安装MySQL,在Hive的时候,再介绍

2、RPC协议(remote procedure call远程过程调用)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/40373.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

UART串口通信协议

一、串行通信 串行通信分为两种方式&#xff1a;同步串行通信和异步串行通信。 同步串行通信需要通信双方在同一时钟的控制下&#xff0c;同步传输数据。 异步串行通信是指通信双方使用各自的时钟控制数据的发送和接收过程。 二、UART 通用异步收发传输器&#xff08;Unive…

基于SpringBoot + EasyExcel + Vue + Blob实现导出Excel文件的前后端完整过程

首先前端发起HTTP请求之后&#xff0c;后端返回一个Excel输出流&#xff0c;然后前端用Blob类型接收数据&#xff0c;并且解析响应头数据以及提取源文件名&#xff0c;最后用a标签完成下载。 一、后端代码 &#xff08;1&#xff09;导入阿里巴巴的EasyExcel依赖&#xff08;…

云计算的学习(五)

五、虚拟化特性介绍 1.集群特性 1.1HA HA&#xff08;Hith Available&#xff0c;高可用特性)&#xff0c;克服单台主机的局限性&#xff0c;当一台服务器损坏&#xff0c;运行在损坏服务器上的虚拟机会自动迁移到其他运行状态正常的服务器上&#xff0c;整个迁移过程用户无感…

基于ssm的社区生活超市的设计与实现

博主介绍&#xff1a;专注于Java技术领域和毕业项目实战。专注于计算机毕设开发、定制、文档编写指导等&#xff0c;对软件开发具有浓厚的兴趣&#xff0c;工作之余喜欢钻研技术&#xff0c;关注IT技术的发展趋势&#xff0c;感谢大家的关注与支持。 技术交流和部署相关看文章…

设计模式-外观模式在Java中的使用示例

场景 外观模式 外观模式是一种使用频率非常高的结构型设计模式&#xff0c;它通过引入一个外观角色来简化客户端与子系统 之间的交互&#xff0c;为复杂的子系统调用提供一个统一的入口&#xff0c;降低子系统与客户端的耦合度&#xff0c;且客户端调用非常方便。 示例 自…

让小程序动起来-轮播图的两种方式--【浅入深出系列003】

浅入深出系列总目录在000集 如何0元学微信小程序–【浅入深出系列000】 文章目录 本系列校训学习资源的选择啥是轮播图轮播图的关键代码最常见的轮播图代码便于理解的轮播代码两种轮播代码的比较 实际操练第一步&#xff0c;就是找到文件。第二步&#xff0c;先改动一下最显眼…

HTTP1.1、HTTPS、HTTP2.0 、HTTP3.0

HTTP1.1 优点&#xff1a; 整体方面&#xff1a;简单、灵活和易于扩展、应用广泛和跨平台 性能方面&#xff1a;长连接、管道网络传输解决请求队头阻塞&#xff08;没有使用&#xff09; 缺点&#xff1a; 安全方面&#xff1a;无状态、明文窃听、伪装、篡改 性能方面&am…

基于jeecg-boot的nbcio-boot亿事达企业管理平台发布

目前这个演示系统与代码都同步&#xff0c;以后也尽量保持同步。 更多功能看演示系统 gitee源代码地址 后端代码&#xff1a; https://gitee.com/nbacheng/nbcio-boot 前端代码&#xff1a;https://gitee.com/nbacheng/nbcio-vue.git 在线演示&#xff08;包括H5&#xff…

Databend 开源周报第 102 期

Databend 是一款现代云数仓。专为弹性和高效设计&#xff0c;为您的大规模分析需求保驾护航。自由且开源。即刻体验云服务&#xff1a;https://app.databend.cn 。 Whats On In Databend 探索 Databend 本周新进展&#xff0c;遇到更贴近你心意的 Databend 。 为指定列创建 B…

MongoDB

MongoDB概述 MongoDB是一个基于分布式文件存储的数据库。由C语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB是一个介于关系数据库和非关系数据库之间的产品&#xff0c;是非关系数据库当中功能最丰富&#xff0c;最像关系数据库的。 它支持的数据结构非…

VMware安装Ubuntu(VMware版本17-Ubuntu版本16.0)

VMware安装Ubuntu&#xff08;VMware版本17-Ubuntu版本16.0&#xff09; 一&#xff0c;VMware虚拟机下载官网点击https://customerconnect.vmware.com/cn/downloads/info/slug/desktop_end_user_computing/vmware_workstation_pro/17_0 二&#xff0c;Ubuntu乌班图下载官网点…

Bootstrap编写一个兼容主流浏览器的受众巨幕式风格页面

Bootstrap编写一个兼容主流浏览器的受众巨幕式风格页面 虽然说IE6除了部分要求苛刻的需求以外已经被可以不考虑了&#xff0c;但是WIN7自带的浏览器IE8还是需要支持的。 本文这个方法主要的优点&#xff0c;个人觉得就是准备少&#xff0c;不需要上网寻找大量的图片做素材&…

Redis高级篇(一)

分布式缓存 -- 基于Redis集群解决单机Redis存在的问题 单机的Redis存在四大问题&#xff1a; 1.Redis持久化 Redis有两种持久化方案&#xff1a;RDB持久化、AOF持久化 1.1.RDB持久化 什么是RDB持久化 RDB全称Redis Database Backup file&#xff08;Redis数据备份文件&am…

Ubuntu18.04 拯救者R9-7945HX 4060 配置ZED 2i代双目相机驱动+ORBSLAM2

AMD的拯救者网卡很拉&#xff0c;研究了很久除了换网卡可以解决网络问题&#xff0c;其它没找到合适的办法&#xff0c;这里我用手机USB共享网络的方式勉强上网&#xff0c;这里不得不说华为的信号桥很好用。 之前在1050ti的电脑上布置过&#xff0c;很顺利&#xff0c;这个新…

算法竞赛字符串常用操作大全

算法竞赛字符串常用操作总结来啦~ &#x1f44a; 大家好 我是寸铁&#x1f4aa; 考前需要刷大量真题,大家一起相互监督&#xff0c;每日做N题&#xff0c;一起上岸吧✌️ ~ 冲刺蓝桥杯省一模板大全来啦 &#x1f4a5; ~ 蓝桥杯4月8号就要开始了 &#x1f64f; ~ 还没背熟模…

利用 jenkins 关联 Job 方式完善 RobotFramework 测试 Setup 以及 Teardown 后操作

目录 1.前言 2.Jekins 关联 Job 方式 1.前言 Jenkins是一个流行的持续集成和交付工具&#xff0c;它可以帮助自动化构建、测试和部署软件。与Robot Framework结合使用&#xff0c;可以实现更高效的测试工作流程。 在Robot Framework中&#xff0c;Setup和Teardown是测试用例…

Kafka 深度剖析

1、应用场景 1.1 kafka场景 Kafka最初是由LinkedIn公司采用Scala语言开发&#xff0c;基于ZooKeeper&#xff0c;现在已经捐献给了Apache基金会。目前Kafka已经定位为一个分布式流式处理平台&#xff0c;它以 高吞吐、可持久化、可水平扩展、支持流处理等多种特性而被广泛应用…

JavaSwing+MySQL的飞机订票系统(内含oracle版本)

点击以下链接获取源码&#xff1a; https://download.csdn.net/download/qq_64505944/88055544 JDK1.8 MySQL5.7 功能&#xff1a;接收客户端发来的数据、处理客户端发来的数据、发送数据包到客户端&#xff1b;客户端&#xff1a;查询所有航班的信息、查看自己所定的票、订票…

java学习路程之篇二、知识点、配置JAVA_HOME、跨平台、JVM、JRE、JDK

文章目录 1、Java背景介绍2、Java跨平台性3、JDK的下载和安装4、第一个Java程序5、HelloWorld案例详解6、JVM、JRE和JDK7、配置JAVA_HOME 1、Java背景介绍 2、Java跨平台性 3、JDK的下载和安装 4、第一个Java程序 5、HelloWorld案例详解 6、JVM、JRE和JDK 7、配置JAVA_HOME

Bash 第十行

195 第十行 给定一个文本文件 file.txt&#xff0c;请只打印这个文件中的第十行。 示例: 假设 file.txt 有如下内容&#xff1a; Line 1 Line 2 Line 3 Line 4 Line 5 Line 6 Line 7 Line 8 Line 9 Line 10 你的脚本应当显示第十行&#xff1a; Line 10 来源&#xff1a;…