大数据:HDFS存储原理,fsck命令查看文件副本状态,namenode元数据,edits流水账,fsimage合并,hdfs读取数据
2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试
文章目录
- 大数据:HDFS存储原理,fsck命令查看文件副本状态,namenode元数据,edits流水账,fsimage合并,hdfs读取数据
- @[TOC](文章目录)
- 大数据:HDFS存储原理
- fsck命令
- namenode元数据
- hdfs数据的读写流程
- 总结
文章目录
- 大数据:HDFS存储原理,fsck命令查看文件副本状态,namenode元数据,edits流水账,fsimage合并,hdfs读取数据
- @[TOC](文章目录)
- 大数据:HDFS存储原理
- fsck命令
- namenode元数据
- hdfs数据的读写流程
- 总结
大数据:HDFS存储原理
一个文件,分为part123
分别存储到服务器中
取回来呢
也是反向的合并即可
划分统一单位
hdfs中叫block块
大小可以修改
如果丢失了一个block怎么办????
鸡蛋不要放在同一个篮子中
都有备份
有备份即可
安全
这就很清楚了对吧
fsck命令
默认3个
2个副本
不需要自己设置,基本上OK的
临时更改的命令
存在的文件,-setrep命令
-R命令
改了
1个副本了
fsck
files check简写,检查文件的副本个数
2个不同的服务器位置
健康的
无丢失
美滋滋
再看看1个副本的test_3呢
在102服务器上
本分好大啊
骚的
gg
都存在不同的机子上
一般我们不会修改的
namenode元数据
流水账
edits
用户想查询目标文件,gg
太慢了
你要整个文件都要找,确保最后一个命令骚操作,没有动它
流水账不行的,尴尬
把流水账合并
记录最终状态LRU即可
我们只记录最后的状态,即可
直接用fsimage搞定
俩都行
骚
这种是有点像那个啥了,垃圾清理策略
垃圾回收策略【python的】
用辅助角色搞定这个事情
secondarynamenode来搞定元数据的合并
美滋滋
edits流水账
fsimage合并流水账
hdfs数据的读写流程
数据写入hadoop服务器的流程
请求【client申请】
审核【namenode是老大】
给地址【去DataNode写数据】
发送数据,写【package】
备份【DataNode互相沟通,复制备份即可】
记录元数据【namenode的secondarynamenode】
结束
很简单的
干活就是一步一步干完事
老大namenode只负责审批和记录,不写数据哦
DataNode才是负责写数据
客户只发送一次数据,剩下的由DataNode之间来互相备份。
数据读取就更简单了
数据跟namenode没关系哦
它只负责审批
block列表计算网络距离,尽量把最近的给客户,这样读取速度快点
客户分批去各个block上读取即可
namenode自动计算
总结
提示:重要经验:
1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。