01_Spark概述

文章目录

  • 1.Spark概述
    • Spark就是基于MR开发
    • 分布式计算
    • 分布式存储
    • 分布式传输
    • 集群中心化
    • 集群去中心化
    • Spark集群中心化
    • 框架与系统
    • 引擎Driver
  • 2.Spark核心模块
  • 3.spark和MR
    • 开发语言上
    • 处理方式
    • Spark能否代替MR?
  • 4.Spark运行模式
    • 部署Spark
    • 部署方式
    • local模式

1.Spark概述

Spark是基于内存的一种快速,统一,可扩展的大数据分析计算引擎;

kafka	是分布式的消息传输
MR		分布式计算
HDFS	分布式存储
Spark	分布式计算

Spark就是基于MR开发

分布式概念
--单机:一个app应用到,单进程,单节点,一般不应用到生产环境,资源太少。
--伪分布式:多进程,单节点;受制于单节点,生产环境不会使用。 
--完全分布式:多进程,多节点;生产环境使用。

分布式计算

分布式计算会将数据进行切分,然后发送各个节点,各个节点分别进行计算最终得到资源进行整合

在这里插入图片描述

分布式存储

将文件进行切分

分布式传输

将数据切分分为不同的区进行传输

集群中心化

一个集群有一个NameNode来统一管理节点,客户端连接到一个集群的NameNode即可连接到集群的所有节点

在这里插入图片描述

风险并存,NameNode宕机,其他节点不可用;解决方式就是备份

在这里插入图片描述

集群去中心化

集群任何节点都可以作为中心节点,例如Kafka

在这里插入图片描述

spark,yarn采用集群中心化
kafka采用去中心化策略

Spark集群中心化

与传统不同,其没有备份。其次它干活的是Exector

管理者是Driver

在这里插入图片描述

框架与系统

系统:完整的计算机程序(HDFS,Kafka)

框架:不完整的计算机程序(MR,Spark),核心功能已经开发完毕;

Spark需要根据用户的业务逻辑来具体使用,其提供一个入口给开发人员 ,业务代码(jar包)通过In传到Spark的操作叫做Submit

在这里插入图片描述

引擎Driver

spark内部的核心功能

2.Spark核心模块

在这里插入图片描述

主流讲解Spark Core,Spark Streaming ,Spark SQL

第一行表示是内置模块

MR离线,Spark Streaming实时
实时的延迟是以毫秒为单位

本次课程,主要学习Spark SQL,Spark Streaming

在这里插入图片描述

3.spark和MR

开发语言上

Spark是Scala开发

MR是java开发

MR创建大量的对象,资源占用较多
Scala适合大量的数据处理

处理方式

MR基于磁盘,进行单一计算

Spark基于内存,执行复杂计算

在这里插入图片描述

Spark能否代替MR?

反问:内存是否无限大?内存不是无限大,那就还是需要往磁盘读写,还是需要MR操作;

你快是快,但是收到内存制约

4.Spark运行模式

部署Spark

–单机模式 资源是单节点

–集群模式 资源是多节点提供

部署Spark其实指的就是Spark的程序逻辑谁提供的资源中执行

在这里插入图片描述

如果资源是yarn提供的,那么就称之为Yarn部署环境
部署环境是xx提供,那就叫xx模式
--yarn提供称之为yarn部署环境
--spark提供称之为spark部署环境也叫standalone

目前的模式是计算资源调度分开

在这里插入图片描述

工作生产环境,主要采用	yarn + spark
(spark on yarn)模式

部署方式

1.local

2.standalone

3.yarn

4.Mesos

local模式

local模式就是运行在一台计算机上的模式,通常就是用于练手和测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/640365.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

汇编实现的操作系统

掌握X86汇编语言和GDB程序调试工具对于程序员来说是非常重要的_gdb 查看x86汇编-CSDN博客 掌握编译器和虚拟机的开发有哪些方面的好处-CSDN博客 Ville Mikael Turjanmaan开发的一个操作系统MenuetOS可运行在IA-32, x86-64平台上,完全用 64 位汇编语言编写。功能包…

【vue-1】vue入门—创建一个vue应用

最近在闲暇时间想学习一下前端框架vue&#xff0c;主要参考以下两个学习资料。 官网 快速上手 | Vue.js b站学习视频 2.创建一个Vue3应用_哔哩哔哩_bilibili 一、创建一个vue3应用 <!DOCTYPE html> <html lang"en"> <head><meta charset&q…

Unreal Engine5 Landscape地形材质无法显示加载

UE5系列文章目录 文章目录 UE5系列文章目录前言一、解决办法 前言 在使用ue5做地形编辑的时候&#xff0c;明明刚才就保存的Landscape地形完全消失不见&#xff0c;或者是地形的材质不见了。重新打开UE5发现有时候能解决&#xff0c;但大多数时候还是没有解决&#xff0c;我下…

AI应用案例:服务器智能分析管理系统

服务器硬件配置、性能状态、所运行的应用系统等信息分散于多个不同的信息管理系统。人为查询判断现有的服务器资源是否满足用户需求&#xff0c;且需结合资产管理系统与Maximo基础资源、性能监控、运维管理等各个系统互不关联&#xff0c;数据分散不能为运维管理提供完整一致的…

探索AI写作工具:五款推荐

在现实生活中&#xff0c;除了专业的文字工作者&#xff0c;各行各业都避免不了需要写一些东西&#xff0c;比如策划案、论文、公文、讲话稿、总结计划……等等。而随着科技的进步&#xff0c;数字化时代的深入发展&#xff0c;AI已经成为日常工作中必不可少的工具了&#xff0…

特征融合篇 | YOLOv8改进之利用新的空间金字塔池化FocalModulation取代SPPF

前言:Hello大家好,我是小哥谈。Focal Modulation Networks(FocalNets)的基本原理是替换自注意力(Self-Attention)模块,使用焦点调制(focal modulation)机制来捕捉图像中的长距离依赖和上下文信息。本文所做的改进是将新的空间金字塔池化FocalModulation取代SPPF模块。…

AWS Elastic Beanstalk 监控可观测最佳实践

一、概述 Amazon Web Services (AWS) 包含一百多种服务&#xff0c;每项服务都针对一个功能领域。服务的多样性可让您灵活地管理 AWS 基础设施&#xff0c;然而&#xff0c;判断应使用哪些服务以及如何进行预配置可能会非常困难。借助 Elastic Beanstalk&#xff0c;可以在 AW…

LLM大模型的7种推理框架分析

LLM的7种推理框架 Hugging Face的transformers 这是一个Python库&#xff0c;可以简化本地运行LLM的过程。 Transformers的优点&#xff1a; 自动模型下载提供代码片段非常适合实验和学习 Transformers的缺点&#xff1a; 需要对ML和NLP有深入了解需要编码和配置技能 2.L…

探寻最强性能云电脑:ToDesk云电脑、无影云、网易云游戏、易腾云横测大比拼

大家好&#xff0c;我是herosunly。985院校硕士毕业&#xff0c;现担任算法研究员一职&#xff0c;热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名&#xff0c;CCF比赛第二名&#xff0c;科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

Linux基础(二):环境搭建

本文准备从0开始&#xff0c;一步步搭建一套属于自己的Linux系统环境&#xff0c;这将是后续学Linux、用Linux、Linux环境编程、应用和项目部署、工具实验等一系列学习和实践的基石&#xff0c;希望对小伙伴们有帮助。提前备好Linux编程实验环境非常重要&#xff0c;建议人手一…

齐护K210系列教程(三十一)_视觉小车

视觉小车 齐护编程小车端程序动作说明联系我们 在经常做小车任务项目时会用的K210的视觉与巡线或其它动作结合&#xff0c;这就关系到要将K210的识别结果传送给小车的主控制器&#xff0c;K210为辅助传感器&#xff08;视觉采集&#xff09;。 这节课我们用K210识别图像&#x…

加速度传感器的冲击振动的原始特征与解算(部分)

这里是工作中测得的一组数据&#xff0c;设备有多个加速度传感器通道&#xff0c;我们可以看到冲击振动发生前后&#xff0c;各个振动传感器的的反馈以及其他的细化特征&#xff1a; 1.随机振动&#xff08;加速度传感器视角&#xff09; 2.冲击振动&#xff08;加速度&#x…

不平衡数据研究:分配权重 合并2个loader

分配权重&#xff08;基于实例分配&#xff0c;基于类分配&#xff09; import numpy as np import torch from torch.utils.data import DataLoader, WeightedRandomSampler, Dataset# Mock dataset class class MockDataset(Dataset):def __init__(self, data, targets):sel…

“AIGC行业投资时机分析:评估当前市场发展阶段与未来需求趋势“

文章目录 每日一句正能量前言行业前景当前发展前景相关领域的发展趋势行业潜力竞争情况结论 市场需求人才需求情况机会挑战结论 选择与规划自我评估行业调研职业规划风险管理个人陈述示例 后记 每日一句正能量 胖了就减&#xff0c;没钱就赚&#xff0c;不会就学&#xff0c;不…

上位机图像处理和嵌入式模块部署(mcu中的串口接口)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 在mcu开发中&#xff0c;mcu扮演着非常重要的角色。一方面&#xff0c;串口可以帮助我们对固件功能进行调试&#xff0c;另外一方面&#xff0c;串…

申请表填写错误?河南道路与桥梁乙级资质申请表填写技巧

在填写河南道路与桥梁乙级资质申请表时&#xff0c;为了避免错误并确保申请顺利进行&#xff0c;以下是一些填写技巧&#xff1a; 仔细阅读申请指南&#xff1a; 在填写申请表之前&#xff0c;务必仔细阅读相关的申请指南或说明文件。这些文件会详细解释每个填写项的要求和目的…

【Linux系列】软链接使用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【耕地保卫战:揭秘“占补平衡”】守护粮仓的智慧策略

嗨&#xff0c;各位小伙伴们&#xff0c;今天咱们来聊聊一个与我们每日餐桌紧密相关的主题——耕地占补平衡。在现代化的车轮滚滚向前时&#xff0c;如何在发展与保护之间找到那个微妙的平衡点&#xff0c;确保我们的“米袋子”满满当当呢&#xff1f;这就不得不提到耕地占补平…

PY32F系列32位单片机 特殊引脚复用说明

一 、 PY32F030 系 列 &#xff0c; 包 括 PY32F030 、PY32F003、 PY32F002A、 XL32F003 的特殊引脚使用说明。 1、晶振引脚的复用&#xff0c;使用 HSE/LSE 引脚作为 GPIO 功能引脚时&#xff0c;只要没有配置相关功能的情况下&#xff0c;正常配置 GPIO 功能即可。 其中&am…

法那科机器人M-900iA维修主要思路

发那科工业机器人是当今制造业中常用的自动化设备之一&#xff0c;而示教器是发那科机器人操作和维护的重要组成部分。 一、FANUC机械手示教器故障分类 1. 硬件故障 硬件故障通常是指发那科机器人M-900iA示教器本身的硬件问题&#xff0c;如屏幕损坏、按键失灵、电源故障等。 2…