【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

Windows环境下编译Spark2

环境准备

git-2.14.1
maven-3.9.2
jdk-1.8
scala-2.11.8
zinc-0.3.15 主下载地址
spark-2.3.4 github官方地址

编译准备

maven远程仓库使用的是阿里云的
解压源码包spark-2.3.4.zip,修改根模块的pom文件。主要目的是为了变更hadoop的版本号，默认是2.6.5。

<hadoop.version>2.9.2</hadoop.version>

修改spark-2.3.4\dev\make-distribution.sh文件

# 增加mvn的内存
export MAVEN_OPTS="${MAVEN_OPTS:--Xmx4g -XX:ReservedCodeCacheSize=512m}"

# 跳过maven命令检查版本块，直接赋予版本

# VERSION=$("$MVN" help:evaluate -Dexpression=project.version $@ 2>/dev/null | grep -v "INFO" | tail -n 1)
# SCALA_VERSION=$("$MVN" help:evaluate -Dexpression=scala.binary.version $@ 2>/dev/null\
#     | grep -v "INFO"\
#     | tail -n 1)
# SPARK_HADOOP_VERSION=$("$MVN" help:evaluate -Dexpression=hadoop.version $@ 2>/dev/null\
#     | grep -v "INFO"\
#     | tail -n 1)
# SPARK_HIVE=$("$MVN" help:evaluate -Dexpression=project.activeProfiles -pl sql/hive $@ 2>/dev/null\
#     | grep -v "INFO"\
#     | fgrep --count "<id>hive</id>";\
#     # Reset exit status to 0, otherwise the script stops here if the last grep finds nothing\
#     # because we use "set -o pipefail"
#     echo -n)

VERSION=2.3.4
SCALA_VERSION=2.11
SPARK_HADOOP_VERSION=2.9.2
SPARK_HIVE=1

为了加速编译

将zinc-0.3.15和scala-2.11.8解压到spark-2.3.4\build下

在这里插入图片描述

执行编译

采用编译成像 Spark 下载页面分发的那样的 Spark 发行版那样，在Git bash下使用 ./dev/make-distribution.sh。
```
 ./dev/make-distribution.sh --tgz -Pyarn -Phive -Phive-thriftserve
```

在这里插入图片描述

编译结果包spark-2.3.4-bin-2.9.2.tgz。

Linux上部署Spark On Yarn

安装前提

JDK1.8

部署关键步骤

解压缩spark-2.3.4-bin-2.9.2.tgz

tar -zxvf /opt/software_package/spark-2.3.4-bin-2.9.2.tgz -C /opt/software/bigdata/

配置hadoop变量，主要配置HADOOP_CONF_DIR，YARN_CONF_DIR，HDFS_CONF_DIR，需要的目录就是Hadoop集群（HDFS、Yarn）的配置文件。

vim ~/.bashrc

# java config
export JAVA_HOME=/home/bigdata/software/java
export PATH=$JAVA_HOME/bin:$PATH

# hadoop config 
export HADOOP_CONF_DIR=/home/bigdata/software/hadoop/etc/hadoop
export YARN_CONF_DIR=/home/bigdata/software/hadoop/etc/hadoop
export LD_LIBRARY_PATH=/home/bigdata/software/hadoop/lib/native

source ~/.bashrc

验证

[bigdata@spark2host01 spark2]$　./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 1g --executor-memory 1g --executor-cores 1 examples/jars/spark-examples*.jar 10

成功执行即可。

开启spark-shell交互终端，可以打开WebUI界面

[bigdata@spark2host01 spark2]$　./bin/spark-shell

[bigdata@spark2host01 spark2]$ ./bin/spark-shell
23/07/04 20:41:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://IP:4040
Spark context available as 'sc' (master = local[*], app id = local-1688474490456).
Spark session available as 'spark'.
Welcome to
   ____              __
  / __/__  ___ _____/ /__
 _\ \/ _ \/ _ `/ __/  '_/
/___/ .__/\_,_/_/ /_/\_\   version 2.3.4
   /_/
      
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_131)
Type in expressions to have them evaluated.
Type :help for more information.

UI默认端口4040：http://IP:4040

在这里插入图片描述

使用:quit退出交互。

部署Spark-SQL

前提

需要使用hive中的hive-site.xml文件：需要使用hive中的hive-site.xml文件。拷贝到spark的配置文件夹下/home/bigdata/software/spark2/conf。需要确认hive-site.xml下的hive.metastore.warehouse.dir属性。
mysql-connector-java-8.0.29.jar：将mysql连接的包放到/home/bigdata/software/spark2/jars下。hive的元数据存储数据库使用的mysql。

启动

[bigdata@spark2host01 spark2]$./bin/spark-sql --master yarn

在这里插入图片描述

使用exit退出。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/34576.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

【Spark实战】Windows环境下编译Spark2 Linux上部署Spark On Yarn

Windows环境下编译Spark2

环境准备

编译准备

Linux上部署Spark On Yarn

安装前提

部署关键步骤

部署Spark-SQL

相关文章

在 TypeScript 中有效地使用 keyof 和 typeof 来表示类型

【论文导读】- Variational Graph Recurrent Neural Networks（VGRNN）

STM32 串口代码配置

选择高考志愿：聚焦计算机科学与技术，规避土木工程

从零开始 Spring Boot 60：一个实体映射到多个表

如何将采购报价请求流程自动化？

Excelize 是 Go 语言编写的用于操作 Office Excel 文档基础库

Git下载与安装（windows）

Spring 是什么框架？

PCA主成分分析

SpringBoot--超时熔断器

Python 学习之NumPy(一)

Apache Doris (十七) ：Doris分区和分桶3-分桶及建议

使用docker搭建mysql集群

SDK和API是什么？SDK和API的区别与联系

黑盟菜鸟剪辑短视频助手是什么

计算机基础---＞数据结构（6）【AVL树（平衡二叉树）】

【nav_msgs/Path.h发布路径】

解决：yarn 无法加载文件 “C:\Users\admin\AppData\Roaming\npm\yarn.ps1，因为在此系统上禁止运行脚本“ 的问题

Linux环境搭建（三）— 搭建数据库服务器