2024-02-20(DataX,Spark)

1.Oracle利用DataX工具导出数据到Mysql。Oracle利用DataX工具导出数据到HDFS。

只是根据导入导出的目的地不同,DataX的Json文件书写内容有所不同。万变不离其宗。

书写的Json格式的导入导出规则文件存放再Job目录下的。

2.Spark概念

Apache Spark是用于大规模数据处理的统一分析引擎

Spark对任意的数据类型都能进行自定义的计算,Spark可以计算结构化,半结构化,非结构化等各种类型的数据结构,同时,还支持Python,Java,Scala,R以及SQL语言去开发应用程序计算数据。

3.Spark和Hadoop比较

Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。

Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)。

Spark是由于Hadoop中MR效率低下而产生的高效率快速计算引擎

Spark和Hadoop的区别和比较-CSDN博客

尽管Spark相对于Hadoop而言具有较大的优势,但是Spark并不能完全替代Hadoop

在计算层面,Spark相比较MR(MapReduce)有巨大的性能优势,但至今仍有许多计算工具基于MR架构,比如非常成熟的Hive。

Spark仅作计算,而Hadoop生态圈不仅有计算(MR)也有存储(HDFS)和资源管理调度(YARN),HDFS和YARN仍是许多大数据体系的核心架构。

4.三大分布式计算系统

Hadoop适合处理离线的静态的大数据;

Spark适合处理离线的流式的大数据;

Storm/Flink适合处理在线的实时的大数据。

5.Spark和MR处理数据相比有两个不同点

其一,Spark处理数据时,可以将中间处理数据结果存储到内存中(MR是通过磁盘来保存和读取处理数据的结果的)

其二,Spark提供了非常丰富的算子(API),可以做到复杂任务也能在一个Spark程序中完成。

6.Spark的架构角色

左边是YARM的架构角色,右边是Spark的架构角色

资源层面:

Master角色:集群资源管理

Worker角色:单机资源管理

任务运行层面:

Driver:单个任务的管理

Executor角色:单个任务的计算(给worker干活的)

7.Spark解决什么问题

海量数据的计算,可以进行离线批处理以及实时流计算

8.Spark有哪些模块

核心SparkCore,SQL计算(SparkSQL),流计算(SparkStreaming),图计算(GraphX),机器学习(MLlib)

9.Spark特点有哪些

速度快,使用简单,通用性强,多种模式运行

10.Spark的运行模式

本地模式

集群模式(StandAlone,YARN,K8S)

云模式

11.Spark的运行角色(对比YARN)

Master:集群资源管理(类比ResourceManager)

Worker:单机资源管理(类比NodeManager)

Driver:单任务管理者(类比ApplicationMaster)

Executor:单任务执行者(类比YARN容器内的Task)

12.Spark中Local模式的运行原理

Local模式原理就是以一个独立进程配合其内部的线程们来提供完成Spark运行时的环境,Local模式可以通过spark-shell/pyspark/spark-submit等来开启

13.bin目录下的pyspark是什么程序

是一个交互式的解释器执行环境,环境启动后就得到了一个Local Spark环境,可以运行python代码去进行spark计算

14.Spark的4040端口是什么

Spark的任务在运行后,会在Driver所在的机器绑定到4040端口,提供当前任务的监控页面以供查看。

15.Spark的StandAlone架构

StandAlone模式是Spark自带的一种集群模式,不同于Local本地模式启动多个进程来模拟集群环境,StandAlone模式真实的在多个机器之间搭建Spark集群的环境,完全可以利用该模式搭建多机器集群,用于真实的大数据处理。

StandAlone是完整的Spark运行环境,其中:

Master角色是以Master进程存在,Worker角色是以Worker进程存在。

Driver角色在运行时存在于Master进程内,Executor运行与Worker进程内

进一步阐述

StandAlone集群上主要有三类进程:

1.主节点Master进程:

Master角色,管理整个集群资源,并托管运行各个任务的Driver

2.从节点Workers:

Worker角色,管理每个机器的资源,分配对应的资源来运行Executor(Task).。

每个从节点分配资源信息给Worker管理,资源信息包含内存Memory和CPU Cores核心数

3.历史服务器HistoryServer(可选):

Spark Application运行完成后,保存事件日志数据至HDFS,启动HistoryServer可以查看应用运行相关信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/406691.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用向量数据库pinecone构建应用06:日志系统异常检测 Anomaly Detection

Building Applications with Vector Databases 下面是这门课的学习笔记:https://www.deeplearning.ai/short-courses/building-applications-vector-databases/ Learn to create six exciting applications of vector databases and implement them using Pinecon…

【算法与数据结构】1971、LeetCode寻找图中是否存在路径

文章目录 一、题目二、解法三、完整代码 所有的LeetCode题解索引,可以看这篇文章——【算法和数据结构】LeetCode题解。 一、题目 二、解法 思路分析:本题应用并查集的理论直接就可以解决:【算法与数据结构】回溯算法、贪心算法、动态规划、图…

Golin 弱口令/漏洞/扫描/等保/基线核查的快速安全检查小工具

下载地址: 链接:https://pan.quark.cn/s/db6afba6de1f 主要功能 主机存活探测、漏洞扫描、子域名扫描、端口扫描、各类服务数据库爆破、poc扫描、xss扫描、webtitle探测、web指纹识别、web敏感信息泄露、web目录浏览、web文件下载、等保安全风险问题风险…

QPaint绘制自定义仪表盘组件02

网上视频抄的&#xff0c;用来自己看一下&#xff0c;看完就删掉 最终效果 ui&#xff0c;创建一个空的widget widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QPainter> #include <QTimer>QT_BEGIN_NAMESPACE namespace Ui { c…

HCIA(11)OSPF 数据包构成(Hello、DBD、LSR、LSU、LSAck包)、状态机、工作流程(建立邻居关系、主从关系协商、LSDB同步)

OSPF&#xff08;Open Shortest Path First&#xff09;是IETF组织开发的一个基于链路状态的内部网关协议&#xff08;Interior Gateway Protocol&#xff09;。 目前针对IPv4协议使用OSPF Version 2&#xff0c;针对IPv6协议使用OSPF Version 3。 在OSPF出现前&#xff0c;网络…

TensorRT及CUDA自学笔记003 CUDA编程模型、CUDA线程模型及其管理、CUDA内存模型及其管理

TensorRT及CUDA自学笔记003 CUDA编程模型、CUDA线程模型及其管理、CUDA内存模型及其管理 各位大佬&#xff0c;这是我的自学笔记&#xff0c;如有错误请指正&#xff0c;也欢迎在评论区学习交流&#xff0c;谢谢&#xff01; CUDA编程模型 我们使用CUDA_C语言进行CUDA编程&am…

软考-中级-系统集成2023年综合知识(三)

&#x1f339;作者主页&#xff1a;青花锁 &#x1f339;简介&#xff1a;Java领域优质创作者&#x1f3c6;、Java微服务架构公号作者&#x1f604; &#x1f339;简历模板、学习资料、面试题库、技术互助 &#x1f339;文末获取联系方式 &#x1f4dd; 软考中级专栏回顾 专栏…

协议的概念+本质+作用+最终表现形式,网络问题(技术+应用+解决的协议+存在原因),主机的对称性

目录 协议 概念 示例 -- 摩斯密码 本质 作用 网络问题 引入 技术问题 应用问题 主机的对称性 问题对应的协议 问题出现的原因 理解协议(代码层面) 举例 -- 快递单 协议的最终表现形式 协议被双方主机认知的基础 协议 概念 协议是在计算机通信和数据传输中规定通…

CSAPP-计算机系统漫游

文章目录 概念扫盲思想理解经典好图 概念扫盲 1.主存由DRAM&#xff08;动态随机存储器&#xff09;组成 2.处理器的核心为PC&#xff08;程序计数器&#xff09;&#xff0c;大小为一个字 3.总线被设计为传送定长的字节块&#xff08;字&#xff09; 4.堆在运行时由malloc类型…

arcgisPro制图输出

1、设置地图底图 2、导入数据 3、 设置图形颜色&#xff0c;如下&#xff1a;右键“浙江省”数据层&#xff0c;选择符号系统 4、在右侧可看到打开的符号系统栏&#xff0c;进行如下设置: 5、移除“其他所有值”项&#xff0c;如下&#xff1a; 6、设置图形轮廓&#xff0c;如下…

一些可以参考的文档集合16

之前的文章集合: 一些可以参考文章集合1_xuejianxinokok的博客-CSDN博客 一些可以参考文章集合2_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合3_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合4_xuejianxinokok的博客-CSDN博客 一些可以参考的文档集合5…

【Ubuntu】Anaconda的安装和使用

目录 1 安装 2 使用 1 安装 &#xff08;1&#xff09;下载安装包 官网地址&#xff1a;Unleash AI Innovation and Value | Anaconda 点击Free Download 按键。 然后 点击下图中的Download开始下载安装包。 &#xff08;2&#xff09;安装 在安装包路径下打开终端&#…

社区志愿者齐心协力,为社区居民营造温馨和谐环境

近日&#xff0c;在我们的社区里&#xff0c;一场温暖而有力的力量正在悄然兴起。一群热心居民自发组织成为社区志愿者团队&#xff0c;积极投身于服务社区的各项活动中&#xff0c;为居民们营造了一个温馨和谐的生活环境。 在每个周末的清晨&#xff0c;志愿者们早早地聚集在社…

新手入门C语言之移位操作符和位操作符

在C语言中&#xff0c;移位操作符和位操作符是专门针对二进制的数字进行&#xff0c;因此&#xff0c;在描述移位操作符和位操作符之前&#xff0c;我们先来了解十进制&#xff0c;二进制&#xff0c;八进制&#xff0c;十六进制等的含义以及相互之间的转化。 一.进制以及相互…

Qt 设置隐式加载dll路径

在c++中DLL的加载方式有两种,显式加载和隐式加载。 隐式加载 在程序从开始运行时,就会按照系统中一定的搜索路径,寻找动态库,找到就自动加载它,才能成功运行程序,这些步骤,是系统自动完成的。 显示加载 我们对动态库的调用,是在代码中直接使用LoadLibrary,或其他加载函…

Project_Euler-26 题解

Project_Euler-26 题解 题目 思路 暴力枚举。 题目中已经给了一个范围&#xff1a; d < 1000 d<1000 d<1000&#xff0c;我们可以尝试顺着这个思路往下走&#xff0c;遍历这1000个值&#xff0c;分别查看 1 / d 1/d 1/d 的值中有没有循环节&#xff0c;并看看他们有…

python快速实现可使用不同颜色画笔的画布功能界面

核心组件&#xff1a;tkinter库 Tkinter是Python的标准GUI&#xff08;图形用户界面&#xff09;工具包&#xff0c;它提供了创建GUI应用程序的功能。Tkinter是Python自带的库&#xff0c;因此无需额外安装即可使用。它基于Tk GUI工具包&#xff0c;是Python的标准GUI工具包之一…

Linux修改shell工具连接端口

nano /etc/ssh/sshd_config 或者 vi /etc/ssh/sshd_config 或者 vim /etc/ssh/sshd_config

idea2023新UI风格不见了怎么办?

用了一段时间idea2023,有一天不知道点了什么&#xff0c;整个UI又变成了2022的风格 如果想换成2023的UI风格怎么办&#xff1f; 点击file->setting->new UI->勾选Enable new UI&#xff0c;restart就可以回到最新版本的UI了 新风格

JavaSE-05笔记【面向对象02】

文章目录 1. 类之间的关系2. is-a、is-like-a、has-a2.1 is-a2.2 is-like-a2.3 has-a 3. Object类3.1 toString()3.2 finalize()&#xff08;了解即可&#xff09;3.3 与 equals 方法 4. package 和 import4.1 package4.2 import4.3 JDK 常用开发包 5. 访问权限控制5.1 privat…