大数据研发工程师课前环境搭建

大数据研发工程师课前环境搭建

第一章 VMware Workstation 安装

在Windows的合适的目录来进行安装,如下图

1.1 双击打开

1.2 下一步,接受协议

1.3 选择安装位置

1.4 用户体验设置

1.5 快捷方式

已经准备好安装,点击安装

1.6 安装中

1.7 安装完成

1.8 启动界面

注意,需要注册的时候,自己解决。

第二章 安装CentOS7操作系统

2.1 点击新建虚拟机

选择自定义安装

2.2 选择虚拟机硬件兼容性,默认即可

2.3 选择安装的操作系统位置

2.4 创建用户和密码

2.5 命名虚拟机并选择安装位置

2.6 处理器配置

根据自己的电脑的设置配置即可,后期可更改。

2.7 设置内存

根据自己的机器配置设置即可

2.8 设置网络类型

选择NAT即可

2.9 选择I/O控制器类型

默认即可

2.10 选择磁盘类型

默认即可

2.11 选择使用的磁盘

2.12 指定磁盘大小

尽量设置大一些,50gb往上。

2.13 指定磁盘文件

默认即可

2.14 已准备好创建虚拟机,确认页面

2.15 点击完成,进行安装

然后等待漫长的安装过程即可。

根据机器性能差异,安装时间在10-30分钟之间。

2.16 在安装过程中进行相关内容的设置

设置界面

2.17 设置时区

2.18 选择安装的内容

选择GUI,对初学者比较友好。

2.19 设置网络

2.20 设置之后的页面

2.21 继续安装页面

第三章 安装XShell和Xftp

首先准备软件

3.1 安装XShell

3.1.1 双击打开

3.1.2 点击接受协议

3.1.3 选择安装位置

选择自己的合适的目录即可

3.1.4 点击下一步,之后点击安装

3.1.5 安装过程

3.1.6 安装完成

3.1.7 点击完成,查看成功界面

3.2 安装Xftp

3.2.1 双击打开

3.2.2 点击接受协议

3.2.3 选择安装位置

3.2.4 点击下一步,之后点击安装

3.2.5 安装过程

3.2.6 安装完成

3.2.7 点击完成,查看成功界面

3.3 通过XShell连接虚拟机

3.3.1 在文件中点击新建

3.3.2 输入相应的信息

3.3.3 一些小操作

注意连接之前需要给虚拟机防火墙关闭

CentOS7查看防火墙状态

systemctl status firewalld.service

关闭防火墙

systemctl stop firewalld.service

永久关闭(重启也没有用)

systemctl enable firewalld.service

关闭selinux参考(其实不关闭也不影响):

临时关闭

[root@localhost ~]# setenforce 0

查看selinux状态

[root@localhost ~]# sestatus

永久关闭

可以修改配置文件/etc/selinux/config,将其中SELINUX设置为disabled。

[root@localhost ~]# vim /etc/selinux/config

注意,子网掩码的设置!!!

第四章 分布式集群安装前序准备

4.1 配置网络

网络配置修改成Manual手动的,并填写相应的ip地址

4.2 hostname查看并修改

CentOS6.x: vi /etc/sysconfig/network

CentOS7.4: vi /etc/hostname

修改主机名,修改之后要重启才能生效。

4.3 修改 /etc/hosts

修改hosts文件

vi /etc/hosts

192.168.22.136 hadoop10

192.168.22.137 hadoop11

192.168.22.138 hadoop12

示例如下:

4.4 防火墙策略

在虚拟机测试,关闭即可,阿里云主机上面需要配置策略

systemctl status firewalld.service

systemctl stop firewalld.service

只使用前面两行重启之后防火墙就开启了。

systemctl disable firewalld.service   永久关闭(重启也不行)

4.5 SSH相互免密码登录

先在hadoop0上面执行。

cd ~  也就是进入/root目录

ssh-keygen -t dsa

cd /root/.ssh/

cat id_dsa.pub >> authorized_keys

上面四步骤需要在三台虚机上做同样的操作

cat authorized_keys查看秘钥

若是有原来有秘钥先删除

rm -rf *

ssh-copy-id -i /root/.ssh/id_dsa.pub  hadoop2

在hadoop0上执行上面一句将hadoop0上面的秘钥拷贝到hadoop2上

然后再hadoop1上面再次执行上面一句将hadoop1上面的秘钥拷贝到hadoop2上

scp   /root/.ssh/authorized_keys  hadoop0:/root/.ssh/

在hadoop2上面执行上面一句将hadoop2上面的秘钥拷贝到hadoop0 上



scp   /root/.ssh/authorized_keys  hadoop1:/root/.ssh/

在hadoop2上面执行上面一句将hadoop2上面的秘钥拷贝到hadoop1 上

第五章 JDK安装

5.1 准备环境并上传软件

1、安装之前先查看一下有无系统自带jdk

rpm -qa |grep java

rpm -e --nodeps 软件名字

[root@hadoop0 /]# rpm -qa |grep java

tzdata-java-2020a-1.el7.noarch

java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64

java-1.7.0-openjdk-1.7.0.261-2.6.22.2.el7_8.x86_64

javapackages-tools-3.4.1-11.el7.noarch

java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

java-1.7.0-openjdk-headless-1.7.0.261-2.6.22.2.el7_8.x86_64

python-javapackages-3.4.1-11.el7.noarch

[root@hadoop0 /]# rpm -e --nodeps tzdata-java-2020a-1.el7.noarch

[root@hadoop0 /]# rpm -e --nodeps java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64

[root@hadoop0 /]# rpm -e --nodeps java-1.7.0-openjdk-1.7.0.261-2.6.22.2.el7_8.x86_64

[root@hadoop0 /]# rpm -e --nodeps javapackages-tools-3.4.1-11.el7.noarch

[root@hadoop0 /]# rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

[root@hadoop0 /]# rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.261-2.6.22.2.el7_8.x86_64

[root@hadoop0 /]# rpm -e --nodeps python-javapackages-3.4.1-11.el7.noarch

[root@hadoop0 /]# rpm -qa |grep java

使用下面的语句可以快捷删除完

rpm -qa |grep java

rpm -e --nodeps tzdata-java-2020a-1.el7.noarch

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.261-2.6.22.2.el7_8.x86_64

rpm -e --nodeps javapackages-tools-3.4.1-11.el7.noarch

rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

rpm -e --nodeps java-1.7.0-openjdk-headless-1.7.0.261-2.6.22.2.el7_8.x86_64

rpm -e --nodeps python-javapackages-3.4.1-11.el7.noarch

rpm -qa |grep java

实际配置的内容:

[root@hadoop10 ~]# rpm -qa |grep java

tzdata-java-2020a-1.el7.noarch

python-javapackages-3.4.1-11.el7.noarch

java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64

javapackages-tools-3.4.1-11.el7.noarch

[root@hadoop10 ~]# rpm -e --nodeps tzdata-java-2020a-1.el7.noarch

[root@hadoop10 ~]# rpm -e --nodeps python-javapackages-3.4.1-11.el7.noarch

[root@hadoop10 ~]# rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

[root@hadoop10 ~]# rpm -e --nodeps java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64

[root@hadoop10 ~]# rpm -e --nodeps javapackages-tools-3.4.1-11.el7.noarch

[root@hadoop10 ~]# rpm -qa |grep java

[root@hadoop10 ~]#

为了方便,整理一下:

rpm -qa |grep java

rpm -e --nodeps tzdata-java-2020a-1.el7.noarch

rpm -e --nodeps python-javapackages-3.4.1-11.el7.noarch

rpm -e --nodeps java-1.8.0-openjdk-headless-1.8.0.262.b10-1.el7.x86_64

rpm -e --nodeps java-1.8.0-openjdk-1.8.0.262.b10-1.el7.x86_64

rpm -e --nodeps javapackages-tools-3.4.1-11.el7.noarch

rpm -qa |grep java

2、在根目录下面创建software文件夹,然后将文件上传到此文件夹下面,将所有的文件的安装都放到这个文件夹下面,方便统一管理。

5.2 上传解压重命名文件

上传到software文件夹下面

tar -zxvf jdk-8u202-linux-x64.tar.gz

mv jdk1.8.0_202/ jdk

重命名

5.3 修改配置

修改之前最好先备份一下配置文件

vi /etc/profile

export JAVA_HOME=/software/jdk

export PATH=.:$PATH:$JAVA_HOME/bin

source /etc/profile

java

java -version

javac

同理在其他节点上一样安装即可。

第六章 Hadoop安装

先在一台机器上面安装,然后复制到其他的机器上面即可。

6.1 在节点1上面上传解压重命名

tar -zxvf hadoop-3.3.1.tar.gz

mv hadoop-3.3.1 hadoop

3.2 添加环境变量

vi /etc/profile

export JAVA_HOME=/software/jdk

export HADOOP_HOME=/software/hadoop

export PATH=.:$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

线上实际配置

export JAVA_HOME=/software/jdk

export PATH=.:$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/software/hadoop

export PATH=.:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

6.3 修改配置文件

在hadoop0上修改Hadoop的配置文件

cd  hadoop/etc/hadoop

6.3.1 在一个节点上配置

(1)配置hadoop-env.sh

vi hadoop-env.sh

export JAVA_HOME=/software/jdk

(2)配置hdfs-site.xml

<property>

    <name>dfs.datanode.data.dir</name>

    <value>file:///software/hadoop/data/datanode</value>

</property>

<property>

    <name>dfs.namenode.name.dir</name>

    <value>file:///software/hadoop/data/namenode</value>

</property>

<property>

    <name>dfs.namenode.http-address</name>

    <value>hadoop0:50070</value>

</property>

<property>

    <name>dfs.namenode.secondary.http-address</name>

    <value>hadoop1:50090</value>

</property>

<property>

    <name>dfs.replication</name>

    <value>1</value>

</property>

(3)配置yarn-site.xml

先使用默认的即可

(4)配置core-site.xml

<property>

    <name>fs.defaultFS</name>

    <value>hdfs://hadoop0/</value>

</property>

 注意:端口可以不指定,默认是8020,也可以指定<value>hdfs://hadoop0:9000/</value>

(5)配置workers

hadoop1

hadoop2

6.3.2 将hadoop0上的配置拷贝到其他节点上

拷贝hadoop0上的配置到hadoop1和hadoop2上面

(1)拷背hadoop配置

scp -r /software/hadoop  hadoop1:/software/

scp -r /software/hadoop  hadoop2:/software/

(2)拷贝

scp /etc/profile hadoop11:/etc/

scp /etc/profile hadoop12:/etc/

source /etc/profile

(3)或者手动配置

export HADOOP_HOME=/software/hadoop

export PATH=.:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3.4 启动/停止Hadoop集群

3.4.1 格式化文件系统

hdfs namenode -format

执行上面的命令后,在后面的提示中如果看到successfully formatted的字样,说明hdfs格式化成功!

3.4.2 第一次启动时候遇到的问题

start-all.sh或者start-dfs.sh 和 start-yarn.sh来启动

出现问题如下:

解决方案:

cd /software/hadoop/etc/hadoop

修改hadoop-env.sh。(只需要在主节点上面配置一些即可,因为只在主节点上启动)

在最上面添加如下内容:

export HDFS_NAMENODE_USER=root

export HDFS_DATANODE_USER=root

export HDFS_SECONDARYNAMENODE_USER=root

export YARN_RESOURCEMANAGER_USER=root

export YARN_NODEMANAGER_USER=root

配置结果如下:

3.4.3 正确启动关闭

查看进程

[root@hadoop0 hadoop]# jps

5538 Jps

5196 ResourceManager

4733 NameNode

[root@hadoop1 hadoop]# jps

3681 SecondaryNameNode

3860 Jps

3770 NodeManager

3567 DataNode

[root@hadoop2 software]# jps

51234 DataNode

51362 NodeManager

51452 Jps

3.4.4 查看页面

3.4.5 在页面创建文件夹时候出现的问题

问题如下:

Permission denied: user=dr.who, access=WRITE, inode="/":root:supergroup:drwxr-xr-x

解决方案:

配置权限:

[root@hadoop0 hadoop]# hadoop fs -chmod -R 777 /

修改之后创建文件夹以及上传文件都正常了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/161864.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

现在的各类解释非常混乱,到底什么是智慧城市?

智慧城市&#xff0c;简单来说&#xff0c;就是运用先进的信息和通信技术&#xff0c;让城市管理更加智能、高效&#xff0c;让市民的生活更加便捷、舒适。 在我们日常生活中&#xff0c;智慧城市带来的改变无处不在。 想象一下&#xff0c;当你早上醒来&#xff0c;你的手机已…

栈和队列的初始化,插入,删除,销毁。

目录 题外话 顺序表和链表优缺点以及特点 一.栈的特点 二. 栈的操作 2.1初始化 2.2 栈的销毁 2.3 栈的插入 2.3 输出top 2.4 栈的删除 2.5 输出栈 题外话 顺序表和链表优缺点以及特点 特点&#xff1a;顺序表&#xff0c;逻辑地址物理地址。可以任意访问&#xff0c…

2023年【四川省安全员A证】考试资料及四川省安全员A证考试试卷

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2023年四川省安全员A证考试资料为正在备考四川省安全员A证操作证的学员准备的理论考试专题&#xff0c;每个月更新的四川省安全员A证考试试卷祝您顺利通过四川省安全员A证考试。 1、【多选题】《建设工程安全生产管理…

英伟达AI布局的新动向:H200 GPU开启生成式AI的新纪元

英伟达Nvidia是全球领先的AI计算平台和GPU制造商&#xff0c;近年来一直在不断推出创新的AI产品和解决方案&#xff0c;为各行各业的AI应用提供强大的支持。 最近&#xff0c;英伟达在GTC 2023大会上发布了一款专为训练和部署生成式AI模型的图形处理单元&#xff08;GPU&#…

数据结构 栈与队列详解!!

一.栈 关于内存中的栈和数据结构中的栈是不同的&#xff0c;本章着重讲的是数据结构的栈。 这是一张关于栈的表达图。从图中可以看出栈很像是一副卡牌&#xff0c;发牌时只能从上取出&#xff0c;即出栈。 而入栈则是像你出牌后&#xff0c;要把你出的牌压在上一张出的牌上面。…

从C语言的面向过程编程过渡理解面向对象编程风格中的封装

黑发不知勤学早&#xff0c;白首方悔读书迟 专栏推荐Easyx学习实践 在C语言中&#xff0c;我们解决一个问题通常是采用在了解了问题如何解决后&#xff0c;设置一个一个的函数&#xff0c;依次调用实现不同的功能的函数从而解决问题&#xff0c;这种编程风格就叫做面向过程。  …

Trapezoidal Rule Integral

See https://byjus.com/maths/trapezoidal-rule/

如何用html css js 画出曲线 或者斜线;

效果图 解题思路 将图片全部定位至中心点&#xff0c;然后x轴就变动translateX &#xff0c;y轴同理&#xff1b; 这里有两个问题 浏览器&#xff1a; 以左上角为原点0&#xff0c;0 越往下y越大 数学坐标系&#xff1a;以中心点为原点0&#xff0c;0 越往下y越小&#xff1…

pyinstaller 打包pyqt6等ui文件为exe可执行程序的方法

刚开始使用auto-py-to-exe打包pyqt6的程序&#xff0c;折腾好半天都会出错&#xff0c;关键打包出来的exe单文件有快100兆了&#xff0c;真大啊&#xff01; auto-py-to-exe有图形界面&#xff0c;看起来比较直观。 还有中文语言&#xff0c;对使用者比较友善&#xff0c;可以…

【技术追踪】SAM(Segment Anything Model)代码解析与结构绘制之Mask Decoder

论文&#xff1a;Segment Anything   代码&#xff1a;https://github.com/facebookresearch/segment-anything 系列篇&#xff1a;   &#xff08;1&#xff09;【技术追踪】SAM&#xff08;Segment Anything Model&#xff09;代码解析与结构绘制之Image Encoder   &am…

LaTeX 数学公式常见问题及解决方案

本文汇总了博主在使用 LaTeX 写文档过程中遇到的所有数学公式常见问题及对应的 LaTeX 解决方案 持续更新... 目录 1. 连等式2. 公式重新开始编号2.1 图片/表格重新编号 1. 连等式 在数学公式推导过程中常常会遇到如 Figure 1 所示的连等式&#xff0c;一般需要保证等号或者不等…

消息积压了如何处理?

欢迎大家到我的博客阅读这篇文章。消息积压了如何处理&#xff1f; - 胤凯 (oyto.github.io)在系统中使用消息队列的时候&#xff0c;消息积压这个问题也经常遇到&#xff0c;并且这个问题还不太好解决。 消息积压的直接原因通常是&#xff0c;系统中的某个部分出现了性能问题…

经典ctf ping题目详解 青少年CTF-WEB-PingMe02

题目环境&#xff1a; 根据题目名称可知 这是一道CTF-WEB方向常考的知识点&#xff1a;ping地址 随便ping一个地址查看接受的数据包?ip0.0.0.0 有回显数据&#xff0c;尝试列出目录文件 堆叠命令使用’;作为命令之间的连接符&#xff0c;当上一个命令完成后&#xff0c;继续执…

Flink1.17 DataStream API

目录 一.执行环境&#xff08;Execution Environment&#xff09; 1.1 创建执行环境 1.2 执行模式 1.3 触发程序执行 二.源算子&#xff08;Source&#xff09; 2.1 从集合中读取数据 2.2 从文件读取数据 2.3 从 RabbitMQ 中读取数据 2.4 从数据生成器读取数据 2.5 …

【产品应用】一体化伺服电机在系留无人机中的应用

一体化伺服电机是一种将电机、驱动器、编码器结合在一起的伺服系统&#xff0c;具有高精度控制、快速响应和高效运行等优点。系留无人机则是一种通过绳索或链条与地面设施连接的无人机&#xff0c;能够实现长时间的稳定悬停和空中作业。 01.设备简介 电源线牵引装置&#xff1…

MATLAB Simulink和S7-1200PLC MOBUSTCP通信

MATLAB Simulink和SMART PLC OPC通信详细配置请查看下面文章链接: MATLAB和西门子SMART PLC OPC通信-CSDN博客文章浏览阅读749次,点赞26次,收藏2次。西门子S7-200SMART PLC OPC软件的下载和使用,请查看下面文章Smart 200PLC PC Access SMART OPC通信_基于pc access smart的…

人工智能-循环神经网络通过时间反向传播

到目前为止&#xff0c;我们已经反复提到像梯度爆炸或梯度消失&#xff0c; 以及需要对循环神经网络分离梯度。 例如&#xff0c;我们在序列上调用了detach函数。 为了能够快速构建模型并了解其工作原理&#xff0c; 上面所说的这些概念都没有得到充分的解释。 本节将更深入地探…