一、集群安装知识
启动集群的命令start-all.sh位于 Hadoop安装目录的sbin文件夹 目录下。
bin文件夹下包含常见的Hadoop,yarn命令;sbin命令下包含集群的启动、停止命令。
启动集群的命令start-all.sh包含 同时启动start-dfs.sh和start-yarn.sh 功能。
先启动文件系统start-dfs.sh,然后启动计算相关start-yarn.sh。
集群完全启动(dfs和yarn)后,master端包括 NameNode、SecondaryNameNode、ResourceManager 进程
文件系统相关:NameNode、SecondaryNameNode;
计算相关的资源管理进程:ResourceManager
集群完全启动后,salve工作节点包含进程:DataNode、NodeManager
文件存储进程:DataNode;节点计算进程:NodeManager
集群启动dfs后,master端包含 NameNode、SecondaryNameNode 进程与dfs相关。
集群启动yarn后,工作节点包含 NodeManager 进程与yarn相关。
假设集群的安装目录是/home/zkpk/hadoop-3.1.3,则集群的配置文件子目录是 /home/zkpk/hadoop-3.1.3/etc/hadoop
配置文件在HADOOP_HOME的etc/hadoop子目录下
linux的系统环境配置文件是 /etc/profile
系统环境文件为/etc/profile,通常JAVA_HOME在此设置
Linux中记录主机Ip地址与主机名称的文件是 /etc/hosts
文件名为/etc/hosts;文件内容:每一行包含IP地址 主机名
Linux中:~表示用户的HOME目录;修改/etc/profile需要root用户操作;
语句cd和cd~相同,都是表示返回当前用户的HOME目录;cd..表示返回上一级目录。
二、HADOOP知识
大数据的4V理论:数据量大(Volume);数据类型繁多(Variety);
处理速度快(Velocity);价值密度低(Value)。
4V+特征
数据量大(Volume)
数据类型繁多(Variety)
数据价值密度低(Value)
数据速度快时效高(Velocity)
可变性(Variability)、真实性(Veracity)
大数据计量单位:GB-TB-PB-EB-ZB(其中ZB是容量最大的单位)
大数据的四种计算模式:批处理;流计算;图计算;查询分析计算。
关于Hadoop的说法:高可靠性;可容错性;高可扩展性;低成本
HADOOP生态系统组件:YARN、SPARK、MapReduce、Hive、Hbase......
安装HADOOP集训需要用到ssh面密码登录:
需要配置master到所有slave主机,slave相互之间的免密登录。
Hadoop 3.X的WebUI浏览端口是9870
查看/打印集群上的根目录下abc文件夹的文件:hadoop fs -ls /abc;hadoop fs -cat /abc/*
上传一个Linux当前目录下的test.a文件到集群根目录下,应该使用命令:hadoop fs -put test.a /
关于MapReduce的说法:核心思想是“分而治之”;Map阶段的输出作为Reduce阶段的输入;
Map任务全部完成后,才能进行Reduce任务;
不同Map/Reduce任务之间不会进行通信。
关于MR的说法:Map端的结果要写入本次磁盘;
一个Reduce任务处理一个分区数据;
Shuffle-就是从map端输出到reduce端输入之间的过程;
Map端输出时,要进行分区、排序、合并、归并等操作
一个文件大小是800M,集群block大小为256,Split分片大小为150M,则启动Map任务的数量是6
在Hadoop中,Map任务的数量通常是由输入文件被切分成的Split数量决定的。每个Split会对应一个Map任务。文件大小/split分片大小=800/150=6个
HADOOP序列化类型中与JAVA数据类型的描述中,
hadoop的Text类型与java的String对应;
hadoop的IntWritable类型与java的int 对应;
hadoop的LongWritable类型与java的long 对应;
hadoop的NullWritable空类型与Java的null对应
Yarn的说法中:yarn是一个通用的资源管理调度框架;
yarn的目标是“一个集群多个框架”;
yarn支持strom计算框架;
yarn把集群中的资源以容器(Container)方式分配给提出申请的应用程序。