一,Spark是什么
1.定义:Aache Spark是用于大规模数据处理的统一分析引擎。
二,Spark的发展
三,Spark的特点
-
高效性
-
计算速度快
-
提供了一个全新的数据结构RDD(弹性分布式数据集)。整个计算操作,基于内存计算。当内存不足的时候,可以放置到磁盘上。整个流程是基于DAG(有向无环图)执行方案。
-
Task线程完成计算任务执行
-
-
-
易用性
-
支持多种语言开发 (Python,SQL,Java,Scala,R),降低了学习难度
-
-
通用性
-
在 Spark 的基础上,Spark 还提供了包括Spark SQL、Spark Streaming、MLlib 及GraphX在内的多个工具库(模块),我们可以在一个应用中无缝地使用这些工具库。
-
-
兼容性(任何地方运行)
-
支持三方工具接入
-
存储工具
-
hdfs
-
kafka
-
hbase
-
-
资源调度
-
yarn
-
Kubernetes(K8s容器)
-
standalone(spark自带的)
-
-
高可用
-
zookeeper
-
-
-
支持多种操作系统
-
Linux
-
windows
-
Mac
-
-
给一个快速记忆的方法: speed, easy use , general , runs everywhere