大数据之Spark基础环境

文章目录

  • 前言
  • 一、Spark概述
    • (一)Spark是什么
    • (二)Spark的四大特点
    • (三)Spark的风雨十年
    • (四)Spark框架模块
    • (五)Spark通信框架
  • 总结


前言

#博学谷IT学习技术支持#
本篇文章开始介绍Spark基础知识,包括Spark诞生的背景,应用环境以及入门案例等,还是Spark学习之旅前,得先安装Spark环境才行,具体安装步骤可以看Spark环境搭建,让我们接着往下聊。

一、Spark概述

(一)Spark是什么

Spark是Apache顶级的开源项目,主要用于处理大规模数据的分析引擎,该引擎的核心数据结构是RDD弹性分布式数据集,这是一种分布式内存抽象,程序员可以使用RDD在大规模集群中做内存运算,并具有一定的容错方式;
Spark保留了MapReduce的分布式并行计算的优点,还改进了其较为明显的缺陷,中间数据存储在内存中,大大提高了运行速度,同时还提供了丰富的API,提高了开发速度。
在这里插入图片描述

(二)Spark的四大特点

Spark底层使用Scala语言,是一种面向对象、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集,Spark具有运行速度快、易用性好、通用性强和随处运行等特点;
(1)速度快,Spark支持内存计算,并且通过DAG有向无环图执行引擎支持无环数据流,相对MapReduce来说,Spark处理数据时,可以将中间处理结果数据存储到内存中,Spark每个任务以线程方式执行,并不是像MapReduce以进程方式执行,线程的启动和销毁相对于进程来说比较快;
(2)易于使用,Spark 支持Java、Scala、Python 、R和SQL语言等多种语言;
(3)通用型强,Spark 还提供包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,可以在同一个应用中无缝地使用这些工具库;
(4)运行方式多,Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes上,获取数据的方式也很多,支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

(三)Spark的风雨十年

Spark的发展主要经历过几大阶段:
(1)2009年Spark起源于加州伯克利分校;
(2)2013年被捐赠给Apache;
(3)2014年称为Apache顶级项目;
(4)2016年Spark2.0发布
(5)2019年Spark3.0发布
在这里插入图片描述

(四)Spark框架模块

在这里插入图片描述
整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib,大部分模块的能力都在建立在其核心引擎之上;
(1)Spark Core,该模块的数据结构是RDD,实现了Spark的基本功能,包括RDD、任务调度、内存管理、错误恢复以及与存储系统交互等;
(2)Spark SQL,该模块的数据结构主要是DataFrame,是Spark用来操作结构化数据的程序包,通过该模块,可以直接使用SQL操作数据;
(3)Spark Streaming,其主要的数据结构是DStream离散化流,是Spark对实时数据进行流式计算的组件;
(4)Spark GraphX,该模块的数据结构为RDD或者DataFrame,是Spark中用于图计算的组件,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法;
(5)Spark MLlib,该模块的数据结构也是RDD或者DataFrame,主要用于机器学习,提供了常见的机器学习功能的程序库,包括分类、回归、聚类等,同时也支持模型评估和数据导入等功能。

(五)Spark通信框架

整个Spark 框架通信模块为Netty,Spark 1.6版本引入了Netty,在Spark 2.0之后,完全使用Netty,并移除了akka。


总结

Spark保留了MapReduce的分布式计算,基于内存计算,提高的数据的计算能力;
其主要模块有Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib,不仅可以通过SQL的方式操作数据,还可以对实时数据进行流式计算,同时也支持机器学习;
Spark的特点主要是计算速度快,支持多种编程语言,并且提供了众多友好的API,使得Spark的学习成本大大降低了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/3913.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【lwIP(第四章)】网络接口

目录一、lwIP网络接口简介二、lwIP的netif结构三、lwIP的netif相关函数1. lwIP网络接口的全局变量2. netif_add()函数3. netif_remove()函数4. netif_set_default()函数一、lwIP网络接口简介 lwIP协议栈支持多种不同的网络接口(网卡),由于网卡…

OSPF----优化

优化主要目的---减少LSA的更新量以及数量 路由汇总(减少骨干区域的LSA更新量)OSPF特殊秋雨(减少非骨干区域的LSA更新量)OSPF路由汇总(路由聚合) OSPF路由汇总是由手工部署的OSPF的汇总称为---区域汇总&…

Swagger快速入门【基础总结】

Swagger 背景信息 什么是前后端分离: 即: Vue Springboot 开发模式 以前是后端时代(后端是主力):前端只用管理静态页面;html—>后端。 前后端分离时代: 前端 :前端控制层、视图层【前端团队】后端:后…

客户端安装SSH工具Xshell图解

一、客户端安装SSH工具 windows客户端:安装Putty、XShell 或者 SecureCRT Linux客户端:yum install openssh-clients macOS客户端:默认已经安装了SSH客户端 我们这里安装windows客户端,选择XShell 工具。 Xshell5、Xftp5下载&am…

Linux系统之安装PostgreSQL数据库

Linux系统之安装PostgreSQL数据库一、PostgreSQL介绍1.PostgreSQL简介2.PostgreSQL特点二、本次实践介绍1.本次实践介绍2.实践环境介绍三、配置PostgreSQL的yum仓库源1.检查本地是否部署PostgreSQL2.配置镜像源3.检查yum仓库镜像源状态四、安装PostgreSQL1.安装PostgreSQL2.初始…

GPIO的八种模式分析

GPIO是general purpose input output,即通用输入输出端口,作用是负责外部器件的信息和控制外部器件工作。 GPIO有如下几个特点:1.不同型号的IO口数量不同;2,反转快速,每次翻转最快只需要两个时钟周期,以ST…

dubbo的SPI机制和服务暴露,引用原理

一、SPI引入:spi标准:1、需要在 classpath 下创建一个目录,该目录命名必须是:META-INF/service2、在该目录下创建一个 properties 文件,该文件需要满足以下几个条件 :2.1 文件名必须是扩展的接口的全路径名…

量子运算-比算子描述更广泛的一类刻画量子态在客观世界演化的数学工具

参考链接:1.1 量子运算 - 知乎 (zhihu.com)一个量子操作(包括量子测量和量子信道)指的是把一个密度矩阵变成另一个密度矩阵的变换,一般记为 背景演化算符是酉的。这里考虑考虑特殊的演化-测量。测量对应的算子是投影算子&#xff…

刘禹锡最经典诗文10首,每一首都是千古名作,读懂受益一生

他是唐代最乐观的诗人,是比他的好友乐天更乐天的人!他与柳宗元并称“刘柳”,与韦应物、白居易合称“三杰”,并与白居易合称“刘白”。他是在唐代诗人中,出了名的豪放豁达的刘禹锡。白居易称他为“诗豪”。自“永贞革新…

Elasticsearch:理解 Master,Elections,Quorum 及 脑裂

集群中的每个节点都可以分配多个角色:master、data、ingest、ml(机器学习)等。 我们在当前讨论中感兴趣的角色之一是 master 角色。 在 Elasticsearch 的配置中,我们可以配置一个节点为 master 节点。master 角色的分配表明该节点…

【javaEE】阻塞队列、定时器、线程池

目录 🌴一、阻塞队列 1.概念 2.生产者消费者模型 3.阻塞队列的实现 🏹二、定时器 1.引出定时器 2.定时器的实现 🔥三、线程池 1.引出线程池 2.ThreadPoolExecutor 构造方法 3.标准数据库的4种拒绝策略【经典面试题】【重点掌握】 …

2020年第十一届C/C++ B组第一场蓝桥杯省赛真题

准备参加第十四届蓝桥杯,今天开始刷题目的第一天,下面是2020年第十一届C/C B组第一场蓝桥杯省赛真题,以下是我的做题目心得。跑步训练第一次写的代码失误点如下:第一个错误点是因为好久没有写代码,忘记判断对才能循环&…

【SCL】博图——先入先出排序法

使用博图SCL语言来实现先入先出排序 前言 使用SCL完成一个先入先出排序 具体要求:最先输入的一个数值,最先输出出来,下面的数自动向前填充; 注:这里可能有两种理解:一是第一个输入的第一个出来&#xff…

解析vue中的process.env

一、介绍 1、process process是 nodejs 下的一个全局变量,它存储着 nodejs 中进程有关的信息。 2、process.env env 是 environment 的简称,process.env属性返回一个包含用户环境的对象。 3、dotenv Dotenv 是一个零依赖的模块,它能将环境变…

蓝桥杯刷题冲刺 | 倒计时16天

作者:指针不指南吗 专栏:蓝桥杯倒计时冲刺 🐾马上就要蓝桥杯了,最后的这几天尤为重要,不可懈怠哦🐾 文章目录1.青蛙跳杯子1.青蛙跳杯子 题目 链接: 青蛙跳杯子 - 蓝桥云课 (lanqiao.cn) X 星球的…

用于人工智能研究的开源Python微电网模拟器pymgrid(入门篇)

pymgrid是一个开源Python库,用于模拟微型电网的三级控制,允许用户创建或自行选择的微电网。并可以使用自定义的算法或pymgrid中包含的控制算法之一来控制这些微电网(基于规则的控制和模型预测控制)。 pymgrid还提供了与OpenAI Gy…

初识冯诺依曼体系结构

目录 1.冯诺依曼体系结构 2.冯诺依曼体系的原理 3.数据流向 4.冯诺依曼体系的意义 1.冯诺依曼体系结构 我们常见的计算机,如笔记本。我们不常见的计算机,如服务器,大部分都遵守冯诺依曼体系。 (1)输入单元:…

JavaEE-多线程中wait和notify都有哪些区别?

更多内容请点击了解 本篇文章将详细讲述wait和notify的区别,请往下看 目录 更多内容请点击了解 文章目录 一、wait和notify概念 二、wait()方法详解 三、notify()方法详解 代码如下: 3.1notifyAll()详解 四、wait和sleep的对比 一、wait和notif…

Docker容器高级篇

文章目录一、Dockerfile文件1.dockerfile基础知识2.docker执行dockerfile的大致流程3.dockerfile常用保留字4.dockerfile构建镜像示例二、docker network1.docker net常用指令2.docker的网络模式三、docker-compose容器编排1.下载安装2.三个步骤3.compose常用命令4.不使用docke…

Java Web 实战 17 - 计算机网络之传输层协议(2)

大家好 , 这篇文章继续给大家讲解 TCP 协议当中的一些操作 , 比如 : 滑动窗口、流量控制、拥塞控制、延时应答、捎带应答、面向字节流这几个提升 TCP 效率的操作 . 我们还会给大家分析 TCP 连接出现异常的时候 , 该如何处理 . 最后会将 TCP 和 UDP 进行比较 上一篇文章的链接也…