Spark 基础知识点

Spark 基础

本文来自 B站 黑马程序员 - Spark教程 :原地址

什么是Spark

什么是Spark 1.1

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎

在这里插入图片描述

Spark最早源于一篇论文 Resilient Distributed Datasets:A Fault-Tolerant Abstraction for In-Memory Cluster Computing,该论文是由加州大学柏克莱分校的Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集(即RDD)的概念。

在这里插入图片描述

翻译过来:RDD是一种分布式内存抽象,其使得程序员能够在大规模集群中做内存运算,并且有一定的容错方式。而这也是整个Spark的核心数据结构,Spark整个平台都围绕着RDD进行。

什么是Spark 1.2

定义:Apache Spark是用于大规模数据(large-scala data)处理的统一(unified)分析引擎

在这里插入图片描述

简而言之,Spark借鉴了MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷,让中间数据存储在内存中提高了运行速度,并提供丰富的操作数据的API提高了开发速度。

什么是Spark 1.3

统一分析引擎?

​ Spark是一款分布式内存计算的统一分析引擎。

​ 其特点就是对任意类型的数据进行自定义计算。

​ Spark可以计算:结构化,半结构化,非结构化等各种类型的数据结构,同时也支持使用Python,java,Scala,R以及SQL语言去开发应用程序计算数据。

​ Spark的适用面非常广泛,所以,被称之为统一的(适用面广)的分析引擎(数据处理)

Spark 历史

Spark 历史 1.1

Spark 是加州大学伯克分校AMP实验室(Algorithms Machines and People Lab)开发的通用大数据处理框架

Spark的发展历史,经历过几大重要阶段,如下图所示:

在这里插入图片描述

Spark 历史 1.2

Stack Overflow的数据可以看出,2015年开发Spark每月的问题提交数量已经超越Hadoop,而2018年Spark Python版本的API PySpark每月的问题提交数量也已超过Hadoop。2019年排名Spark第一,PySpark第二,而十年的累计排名是Spark第一,PySpark第三。按照这个趋势发展下去,Spark和PySpark在未来很长的一段时间内应该还会处于垄断地位。

在这里插入图片描述

Spark 历史 1.3

十年走来,Spark目前已经迭代到了3.2.0版本(2021.10.13发布)

在这里插入图片描述

Spark VS Hadoop(MapReduce)

Spark VS Hadoop(MapReduce) 1.1

Spark和前面学习的Hadoop技术栈有何区别呢?

HadoopSpark
类型基础平台,包含计算,存储,调试纯计算工具(分布式)
场景海量数据批处理(磁盘迭代计算)海量数据的批处理(内存迭代计算,交互式计算),海量数据流计算
价格对机器要求低,便宜对内存有要求,相对较贵
编程范式Map+Reduce,API较为底层,算法适应性差Rdd组成Dag有向无环图,API较为顶层,方便使用
数据存储结构MapReduce中间计算结果在HDFS磁盘上,延迟大RDD中间运算结果在内存中,延迟小
运行方式Task以进程方式维护,任务启动慢Task以线程方式维护,任务启动快,可批量创建提高并行能力

尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop

  • 在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR构架,比如非常成熟的Hive
  • Spark仅做计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调试(Yarn),HDFS和Yarn仍是许多大数据体系的核心架构

Spark VS Hadoop(MapReduce) 1.2

面试题:Hadoop的基于进程的计算和Spark基于线程方式优缺点?

答案:Hadoop中的MR中每个map/reduce task都是一个java进程方式运行,好处在于进程之间是相互独立的,每个task独享进程资源,没有互相干扰,监控方便,但是问题在于task之前不方便共享数据,执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加载到每个map task中,造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率,Spark采用线程的最小执行单位,但缺点是线程之间会有资源竞争。

线程的基本概念

  • 线程是cpu的基本调度单位
  • 一个进程一般包含多个线程,一个进程下的多个线程共享进程的资源
  • 不同进程之间的线程相互不可见
  • 线程不能独立执行
  • 一个线程可以创建和撤销另外一个线程

Spark 四大特点

在这里插入图片描述

速度快

由于Apache Spark 支持内存计算,并且通过DAG(有向无环图)执行引擎支持无环数据流,所以官方宣称其在内存中的运行速度比Hadoop的Map Reduce快100倍,在硬盘中要快10倍。

在这里插入图片描述

Spark处理数据与MapReduce处理数据相比,有如下两个不同点:

  • 其一 spark处理数据时,可以将中间处理的结果数据存储到内存中
  • 其二 spark提供了非常丰富的算子(API),可以做到复杂任务在一个Spark程序中完成。

易于使用

spark 的版本已经更新到 spark 3.2.0 (截止日期2021.10.13),支持包括java, scala, python, R和sql语言在内的多种语言,为了兼容spark2.x 企业级应用场景,spark 仍然持续更新 spark2 版本

在这里插入图片描述

通用性强

在spark 的基础上,spark还提供了包括spark sql, spark streaming, Mlib及GraphX在内的多个工具库,我们可以在一个应用中无缝地使用这些工具库。

在这里插入图片描述

运行方式

spark 支持多种运行方式,包含在hadoop 和Mesos上,也支持Standalone的独立运行模式,同时也可以运行在云Kubernetes (Spark 2.3开始支持)上。

在这里插入图片描述

对于数据源而言,spark支持从HDFS, HBase, Cassandra及 Kafka等多种途径获取数据。

Spark 框架模块-了解

整个Spark框架模块包含:spark Core, spark SQL, Spark Streaming, Spark GraphX, Spark Mlib,而后四项的能力都是建立在核心引擎之上

在这里插入图片描述

Spark Core: Spark的核心,Spark核心功能均由Spark core模块提供,是Spark运行的基础,Spark Core以RDD为数据抽象,提供Python,java,scala, R 语言的API,可以编程进行海量离线数据批处理计算。

SparkSQL:基于SparkCore之上,提供结构化数据的处理模块,SparkSql支持以Sql语言对数据进行处理,SparkSql本身针对离线计算场景。同时基于SparkSql,Spark提供了StructuredStreaming模块,可以以SparkSql为基础,进行数据的流式计算。

SparkStreaming:以SparkCore为基础,提供数据的流式计算功能

MlIib:以sparkcore 为基础,进行机器学习计算,内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。

GraphX:以SparkCore为基础,进行图计算,提供了大量的图计算API, 方便用于以分布式计算模式进行图计算。

Spark 运行模式-了解

在这里插入图片描述

spark 提供了多种运行模式,包括:

  • 本地模式(单机)

    本地模式就是以一个独立的进程,通过其内部的多个线程来模拟整个spark运行时环境

  • Standalone模式(集群)

    spark中的各个角色以独立进程的形式存在,并组成spark集群环境

  • Hadoop Yarn模式(集群)

    spark中的各个角色运行在yarn的容器内部,并组成spark集群环境

  • Kubernetes模式(容器集群)

    spark中的各个角色运行在kubernetes的容器内部,并组成spark集群环境

  • 云服务模式(运行在云平台上)

    aws,华为云,阿里云

Spark的架构角色-理解

Spark的架构角色-理解 1.1

yarn角色回顾

在这里插入图片描述

yarn主要有4类角色,从2个层面去看:

资源管理层面

  • 集群资源管理者(master)resourceManager
  • 单机资源管理者(worker)nodeManager

任务计算层面

  • 单任务管理者(master)applicationMaster
  • 单任务执行者(worker)Task(容器内计算框架的工作角色)

Spark的架构角色-理解 1.2

spark运行角色

在这里插入图片描述

Spark的架构角色-理解 1.3

spark运行角色

spark中由4类角色组成整个spark的运行时环境

  • master角色,管理整个集群的资源 类比与yarn的ResouceManager
  • worker角色,管理单个服务器的资源 类比与yarn的NodeManger
  • Driver角色,管理单个Spark任务在运行的时候的工作 类比于yarn的applicationMaster
  • Executor角色,单个任务运行的时候的一堆工作者,干活的, 类比于yarn的容器内运行的task

从2个层面划分

资源管理层面

  • 管理者:spark是master角色,yarn是ResourcesManger
  • 工作中:spark是worker角色,yarn是NodeManager

从任务执行层面

  • 某任务管理者:spark是Driver角色,yarn是applicationMaster
  • 某任务执行者:spark是Executor角色,yarn是容器中运行的具体工作进程

相关问题

spark解决什么问题?

​ 海量数据的计算,可以进行离线批处理以及实时流计算

spark有哪些模块?

​ 核心sparkCore,sql计算(SparkSql),流计算(sparkStreaming),图计算(GraphX), 机器学习(MLib)

spark特点有哪些?

​ 速度快,使用简单,通用性强,多种模式运行

spark的运行模式?

​ 本地模式

​ 集群模式(standAlone,yarn,K8s)

​ 云模式

Spark的运行角色(对比yarn)

​ master: 集群资源管理(类同ResourceManager)

​ worker: 单机资源管理(类同NodeManager)

​ Driver:单任务管理者(类同ApplicationMaster)

​ Executor:单任务执行者(类同Yarn容器内的Task)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/122439.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【IP固定】地平线开发板如何实现重启IP地址不变

文章目录 1 背景2 临时解决方案3 真正解决方案 1 背景 重新刷了地平线工具链OE包中BSP20230417的系统镜像,结果只能串口连接,无法实现网口连接,串口连接后,发现eth0和eth1的IP竟然是一样的,如下图所示 还挺少见的。 …

单目标应用:粒子群优化算法(PSO)求解微电网优化MATLAB

一、微网系统运行优化模型 微电网优化模型介绍: 微电网多目标优化调度模型简介_IT猿手的博客-CSDN博客 二、粒子群优化算法(PSO)求解微电网优化 (1)部分代码 close all; clear ; clc; global P_load; %电负荷 gl…

低代码平台的探究与分析

目录 1.低代码行业现状 2.产品分析 2.1可视化应用开发 2.2流程管理 2.3特别支持整个平台源码合作 3.架构和技术 3.1技术栈 4.规划和展望 低代码平台(Low-code Development Platform)是一种让开发者通过拖拽和配置,而非传统的手动编写…

物联网水表有什么弊端吗?

物联网水表作为新一代智能水表,虽然在很大程度上提高了水资源的管理效率,但也存在一定的弊端。在这篇文章中,我们将详细讨论物联网水表的弊端,以帮助大家更全面地了解这一技术。 一、安全隐患 1.数据泄露:物联网水表通…

12.(vue3.x+vite)组件间通信方式之$attrs与$listeners

前端技术社区总目录(订阅之前请先查看该博客) 示例效果 在vue3中的$attrs的变化 $ listeners已被删除合并到$ attrs中。 $ attrs现在包括class和style属性。 也就是说在vue3中$ listeners不存在了。vue2中$listeners是单独存在的。 在vue3 $attrs包括class和style属性, vue…

运动蓝牙耳机哪个品牌好?推荐五款好用的运动耳机

​无论你是赛跑者、自行车手还是健身爱好者,运动耳机绝对是你追求极致、超越自我的最佳搭档。它不仅具备优秀的音质和耐用的性能,更重要的是,它可以激发你的运动激情,让你的运动生活更加充满动力。推荐以下几款不错的运动耳机给大…

网站引流绝技:如何通过外链持续给网站带来高质量流量

做网站的人,不论是写文章还是搞外链,最终都是希望能获得更多的流量。既然是为了搞来流量和收入,你可能还不知道有一种方法既能搞来外链还能带来源源不断的高质量流量。 这个方法我在8年前就已经掌握,而且至今我仍认为它是一种有效…

OSPF下的MGRE实验

一、实验要求 1、R1-R3-R4构建全连的MGRE环境 2、R1-R5-R6建立hub-spoke的MGRE环境,其中R1为中心 3、R1-R3...R6均存在环回网段模拟用户私网,使用OSPF使全网可达 4、其中R2为ISP路由器,仅配置IP地址 二、实验拓扑图 三、实验配置 1、给各路…

iOS如何通过在线状态来监听其他设备登录的状态

前提条件 1、完成 3.9.1 或以上版本 SDK 初始化 2、了解环信即时通讯 IM API 的 使用限制。 3、已联系商务开通在线状态订阅功能 实现方法 你可以通过调用 subscribe 方法订阅自己的在线状态,从而可以监听到其他设备在登录和离线时的回调,示例代码如下…

(六)库存超卖案例实战——使用mysql分布式锁解决“超卖”问题

前言 本节内容是关于使用分布式锁解决并发访问“超卖”问题的最终篇,在前面的章节中我们介绍了使用mysql的行锁、乐观锁、悲观锁解决并发访问导致的超卖问题,存在的问题是行锁、乐观锁、悲观锁不太灵活,需要和具体的业务耦合到一起&#xff…

数据结构与算法C语言版学习笔记(4)-栈与队列再回顾

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言:一、栈的定义:栈(stack)是限定仅在表尾进行插入和删除操作的线性表(1)栈是特殊的线性表(2&#xff…

Sui学术研究奖公布,资助研究者探索人工智能、能源市场和区块链游戏

Sui基金会高兴地宣布首轮Sui学术研究奖(SARAs)的获奖者。SARAs计划提供资助,支持推动Sui区块链技术的研究。学术和研究界对我们的初次征集呈现出大量高质量的提案。 已接受的九个提案涵盖了各种主题,如token经济学、智能合约机制…

Java 设计模式——状态模式

目录 1.概述2.结构3.案例实现3.1.抽象状态类3.2.具体状态类3.3.上下文类3.4.测试 4.优缺点5.使用场景 1.概述 【例】通过按钮来控制一个电梯的状态,电梯有开门状态,关门状态,停止状态,运行状态。每一种状态改变,都有可…

银行APP虚拟金额软件,建设农业工商邮政余额生成器,易语言开源版

用易语言开发了一个虚拟余额装逼软件,可以生成虚拟的余额截图,就是APP端的截图,用的画板组件,但是生成出来的图片是非常高清的,软件里面因为图片是缩放状态,所以看起来有点失真的感觉,生成图片的…

Mysql进阶-视图篇

介绍 视图(View)是一种虚拟存在的表。视图中的数据并不在数据库中实际存在,行和列数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的。 通俗的讲,视图只保存了查询的SQL逻辑,不保存查询结果。…

汇编-EQU伪指令(数值替换)

EQU伪指令将一个符号名称与一个整数表达式或一个任意文本相关联, 它有3种格式 在第一种格式中, expression必须是一个有效的整数表达式。在第二种格式中, symbol是一个已存在的符号名称, 已经用或EQU定义过。在第三种格式中&…

想水目标检测sci论文的同学看过来:第一个用于目标检测的扩散模型

目标检测新范式!在 COCO、CrowdHuman 和 LVIS上取得了良好的性能,尤其是跨不同场景的零样本迁移 本文提出了 DiffusionDet,这是一个新框架,它将目标检测制定为从噪声框到对象框的去噪扩散过程。 在训练阶段,目标框从真…

echart的tooltip显示不同的单位

效果 实现 在每个series中添加不同的 tooltip: { valueFormatter: function (value) { return value.toFixed(0) ‘A’; } }, 代码如下 var option {// grid: {// left: -13vw,//左边距72px// right: 32%,// bottom: 64%,// top:…

clickhouse通过java jdbc实现增删改查,保姆级教程

一、clickhouse是一款开源的用于在线分析处理查询(OLAP :Online Analytical Processing)MPP架构的列式存储数据库。 二、clickhouse可以做用户行为分析,流批一体 三、我们现在用java通过jdbc的方式来操作clickhouse 四、先安装clickhouse,安装资料自行…

通达OA V12版,引入thinkphp5.1框架,及获取session

通达OA V12版,引入thinkphp5.1框架 如下过程引入如下问题,按上述问题解决htmlentities(): charset cp936 not supported, assuming utf-8 内容绝对原创,希望对您有帮助。您的打赏,是让我持续更新的牛奶和面包 如下过程引入 在D:/…