Spark 的容错机制:保障数据处理的稳定性与高效性

Spark 的介绍与搭建:从理论到实践_spark环境搭建-CSDN博客

Spark 的Standalone集群环境安装与测试-CSDN博客

PySpark 本地开发环境搭建与实践-CSDN博客

Spark 程序开发与提交:本地与集群模式全解析-CSDN博客

Spark on YARN:Spark集群模式之Yarn模式的原理、搭建与实践-CSDN博客

Spark 中 RDD 的诞生:原理、操作与分区规则-CSDN博客

Spark 中的 RDD 分区的设定规则与高阶函数、Lambda 表达式详解-CSDN博客

RDD 算子全面解析:从基础到进阶与面试要点-CSDN博客

PySpark 数据处理实战:从基础操作到案例分析-CSDN博客

目录

一、Spark 容错机制概述

1、各个软件为了防止数据丢失的解决方案

2、Spark如何保障数据的安全

二、RDD 持久化机制

(一)cache 算子

(二)persist 算子

(三)unpersist 算子

(四)示例代码分析

三、RDD 检查点机制

(一)功能与原理

(二)适用场景

四、RDD 的 cache、persist 持久化机制和 checkpoint 检查点机制的区别

五、将日志分析案例进行优化

六、总结


        在大数据处理领域,Spark 作为一款强大的分布式计算框架,面临着数据丢失和性能优化的双重挑战。为了确保数据的安全性和处理效率,Spark 构建了一套完善的容错机制。本文将深入探讨 Spark 的容错机制,包括 RDD 的持久化机制(persist 和 cache 算子)以及检查点机制(checkpoint),并分析它们的特点、适用场景以及相互之间的区别。

一、Spark 容错机制概述

1、各个软件为了防止数据丢失的解决方案

操作日志:

将内存变化操作日志追加记录在一个文件中,下一次读取文件对内存重新操作
  - NAMENODE:元数据的操作日志记录在edits
  - MySQL:日志记录binlog ()


 副本机制:

将数据构建多份冗余副本
  - HDFS:构建每个数据块的3个副本


依赖关系:

每份数据保留与其他数据之间的一个转换关系
  - RDD:保留RDD与其他RDD之间的依赖关系

2、Spark如何保障数据的安全

        每个RDD在构建数据时,会根据自己来源一步步导到数据来源,然后再一步步开始构建RDD数据。

问题:如果一个RDD被触发多次,这个RDD就会按照依赖关系被构建多次,性能相对较差,怎么解决?

例如:日志分析的时候,三个问题,tupleRdd 之前的所有操作都要执行三次,每次读取100M多的数据,效率非常的低

  • 第一次:一定会通过血脉构建这个RDD的数据
  • 希望从第二次开始,就不要重复构建,直接使用第一个构建的内容
  • 实现:Spark持久化机制:主动将RDD进行保存,供多次使用,避免重复构建

二、RDD 持久化机制

(一)cache 算子

  • 功能:将 RDD 缓存在内存中,以便后续多次使用时无需重新计算。
  • 语法cache()
  • 本质:底层实际调用的是 persist(StorageLevel.MEMORY_ONLY),即只尝试将 RDD 缓存在内存。但如果内存资源不足,缓存操作可能会失败。
  • 场景:适用于资源充足且确定 RDD 只需在内存中缓存的情况,例如对于一些频繁使用且数据量较小能够完全容纳在内存中的 RDD,可以使用 cache 算子提高数据读取速度。

(二)persist 算子

  • 功能:能够将 RDD(包含其依赖关系)进行缓存,并且可以根据需求自行指定缓存的级别,这是它与 cache 算子的主要区别。
  • 语法persist(StorageLevel)
  • 级别
    • 将 RDD 缓存在磁盘中
      • StorageLevel.DISK_ONLY = StorageLevel(True, False, False, False):将庞大且暂时不急需使用的 RDD 放入磁盘,释放 Executor 内存。
      • StorageLevel.DISK_ONLY_2 = StorageLevel(True, False, False, False, 2):在磁盘中多存储一个缓存副本,提高数据的冗余性和可用性。
      • StorageLevel.DISK_ONLY_3 = StorageLevel(True, False, False, False, 3):类似地,存储三个副本。
        StorageLevel.DISK_ONLY = StorageLevel(True, False, False, False)
        StorageLevel.DISK_ONLY_2 = StorageLevel(True, False, False, False, 2)
        StorageLevel.DISK_ONLY_3 = StorageLevel(True, False, False, False, 3)

    • 将 RDD 缓存在内存中
      • StorageLevel.MEMORY_ONLY = StorageLevel(False, True, False, False):仅使用内存进行缓存,常用于高频使用且数据量不大能适应内存容量的 RDD。
      • StorageLevel.MEMORY_ONLY_2 = StorageLevel(False, True, False, False, 2):增加一个内存缓存副本。
        StorageLevel.MEMORY_ONLY = StorageLevel(False, True, False, False)
        StorageLevel.MEMORY_ONLY_2 = StorageLevel(False, True, False, False, 2)

    • 将 RDD 优先缓存在内存中,如果内存不足,就缓存在磁盘中
      • StorageLevel.MEMORY_AND_DISK = StorageLevel(True, True, False, False):对于高频使用的大 RDD 较为合适,先利用内存缓存,当内存空间不足时,自动将多余数据溢出到磁盘。
      • StorageLevel.MEMORY_AND_DISK_2 = StorageLevel(True, True, False, False, 2):多一个缓存副本。
        StorageLevel.MEMORY_AND_DISK = StorageLevel(True, True, False, False)
        StorageLevel.MEMORY_AND_DISK_2 = StorageLevel(True, True, False, False, 2)
        

    • 使用堆外内存StorageLevel.OFF_HEAP = StorageLevel(True, True, True, False, 1):提供了除内存和磁盘之外的存储选择,可利用堆外内存资源。
      StorageLevel.OFF_HEAP = StorageLevel(True, True, True, False, 1)
      

    • 使用序列化StorageLevel.MEMORY_AND_DISK_DESER = StorageLevel(True, True, False, True):在内存和磁盘缓存时采用序列化方式,有助于减少内存占用,但在读取时需要进行反序列化操作,会有一定性能开销。
      StorageLevel.MEMORY_AND_DISK_DESER = StorageLevel(True, True, False, True)

  • 场景:根据实际的资源状况,灵活地将 RDD 缓存在不同的存储介质中或者设置多个缓存副本,以平衡内存使用、数据读取速度和数据安全性。例如在内存和磁盘资源都较为充裕但内存使用较为紧张的情况下,可以选择 MEMORY_AND_DISK 级别进行缓存,既能保证数据的快速读取,又能在内存不足时利用磁盘空间。

  • 总结:Spark的StorageLevel共有9个缓存级别

DISK_ONLY:缓存入硬盘。这个级别主要是讲那些庞大的Rdd,之后仍需使用但暂时不用的,放进磁盘,腾出Executor内存。
DISK_ONLY_2:多一个缓存副本。
MEMORY_ONLY:只使用内存进行缓存。这个级别最为常用,对于马上用到的高频rdd,推荐使用。
MEMORY_ONLY_2:多一个缓存副本。
MEMORY_AND_DISK:先使用内存,多出来的溢出到磁盘,对于高频的大rdd可以使用。
MEMORY_AND_DISK_2:多一个缓存副本。
OFF_HEAP:除了内存、磁盘,还可以存储在OFF_HEAP

常用的:

项目中经常使用

MEMORY_AND_DISK_2

MEMORY_AND_DISK_DESER

(三)unpersist 算子

  • 功能:释放已缓存的 RDD,回收缓存占用的资源。
  • 语法unpersist,还可以使用 unpersist(blocking=True),表示等待 RDD 释放完资源后再继续执行下一步操作。
  • 场景:当确定某个 RDD 不再被使用,且后续还有大量代码需要执行时,及时调用 unpersist 算子将其数据从缓存中释放,避免资源的浪费。需要注意的是,如果不手动释放缓存,在 Spark 程序结束时,系统也会自动清理该程序中的所有缓存内存。

(四)示例代码分析

以下是一个简单的 Spark 程序示例,展示了如何使用 cache 、 persist 和 unpersist 算子:

import os
import time

# 导入pyspark模块
from pyspark import SparkContext, SparkConf
from pyspark.storagelevel import StorageLevel

if __name__ == '__main__':
    # 配置环境
    os.environ['JAVA_HOME'] = 'C:/Program Files/Java/jdk1.8.0_241'
    # 配置Hadoop的路径,就是前面解压的那个路径
    os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1'
    # 配置base环境Python解析器的路径
    os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径
    os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'

    # 获取 conf 对象
    # setMaster  按照什么模式运行,local  bigdata01:7077  yarn
    #  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核
    #  appName 任务的名字
    conf = SparkConf().setMaster("local[*]").setAppName("spark的持久化机制")
    # 假如我想设置压缩
    # conf.set("spark.eventLog.compression.codec","snappy")
    # 根据配置文件,得到一个SC对象,第一个conf 是 形参的名字,第二个conf 是实参的名字
    sc = SparkContext(conf=conf)
    print(sc)

    fileRdd = sc.textFile("../resources/1.dat")
    # cache 是转换算子
    #cacheRdd = fileRdd.cache()
    cacheRdd = fileRdd.persist(StorageLevel.MEMORY_AND_DISK_2)
    print(type(cacheRdd))

    cacheRdd.foreach(lambda x: print(x))

    time.sleep(20)

    cacheRdd.unpersist(blocking=True)

    time.sleep(10)

    # 使用完后,记得关闭
    sc.stop()

# unpersist(blocking=True):等RDD释放完再继续下一步
# blocking = True:阻塞

        在上述代码中,首先配置了 Spark 运行所需的环境变量,然后创建了 SparkConf 和 SparkContext 对象。通过 textFile 方法读取文本文件创建了 fileRdd,接着使用 persist 算子将其缓存到内存和磁盘,并设置了两个副本。之后对缓存的 cacheRdd 进行了遍历操作,模拟了对 RDD 的使用。在暂停 20 秒后,调用 unpersist 算子释放缓存,最后关闭 SparkContext。

三、RDD 检查点机制

(一)功能与原理

  • 功能:将 RDD 的数据(不包含 RDD 依赖关系)存储在可靠的存储系统(如 HDFS)中。可以将其类比为虚拟机中的快照,作为数据处理过程中的一个重要里程碑。
  • 设置与使用
    • 首先需要设置一个检查点目录,例如:sc.setCheckpointDir("../datas/chk/chk1")
    • 然后对需要设置检查点的 RDD 调用 checkpoint() 方法,如:rs_rdd.checkpoint()。需要注意的是,一定要在触发该 RDD 的算子之前调用 checkpoint() 方法,否则检查点中可能没有数据。
  • 注意事项:启用检查点机制后,在代码执行过程中会专门多一个 job,用于将 RDD 数据持久化存储到 HDFS 中。

(二)适用场景

        适用于对 RDD 数据安全性要求极高,但对性能要求相对不那么苛刻的场景。例如在一些数据处理任务中,数据的准确性和完整性至关重要,不容许因为任何故障导致数据丢失或错误,即使这可能会带来一定的性能开销,如在金融数据处理、关键业务数据分析等领域。

四、RDD 的 cache、persist 持久化机制和 checkpoint 检查点机制的区别

  1. 存储位置
    • persist:可以将 RDD 缓存在内存或者磁盘中,根据指定的缓存级别灵活选择存储介质。
    • checkpoint:将 RDD 的数据存储在文件系统磁盘(通常是 HDFS)中,提供更可靠的持久化存储。
  2. 生命周期
    • persist:当代码中遇到了 unpersist 算子调用或者整个 Spark 程序结束时,缓存会被自动清理,释放资源。
    • checkpoint:检查点的数据不会被自动清理,需要手动删除,这使得数据在长时间内都能保持可用状态,有利于数据的长期保存和回溯。
  3. 存储内容
    • persist:会保留 RDD 的血脉关系,即与其他 RDD 的依赖关系。这样在缓存丢失时,可以依据依赖关系重新构建 RDD,恢复数据。
    • checkpoint:会斩断 RDD 的血脉关系,仅存储 RDD 的数据本身。这意味着一旦检查点数据可用,就不再依赖之前的 RDD 依赖链,简化了数据恢复过程,但也失去了基于依赖关系的灵活重建能力。

五、将日志分析案例进行优化

 对前文的一个案例进行优化

import os
import re

# 导入pyspark模块
from pyspark import SparkContext, SparkConf
import jieba
from pyspark.storagelevel import StorageLevel

if __name__ == '__main__':
	# 配置环境
	os.environ['JAVA_HOME'] = 'D:/Program Files/Java/jdk1.8.0_271'
	# 配置Hadoop的路径,就是前面解压的那个路径
	os.environ['HADOOP_HOME'] = 'D:/hadoop-3.3.1/hadoop-3.3.1'
	# 配置base环境Python解析器的路径
	os.environ['PYSPARK_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'  # 配置base环境Python解析器的路径
	os.environ['PYSPARK_DRIVER_PYTHON'] = 'C:/ProgramData/Miniconda3/python.exe'

	# 获取 conf 对象
	# setMaster  按照什么模式运行,local  bigdata01:7077  yarn
	#  local[2]  使用2核CPU   * 你本地资源有多少核就用多少核
	#  appName 任务的名字
	conf = SparkConf().setMaster("local[*]").setAppName("第一个Spark程序")
	# 假如我想设置压缩
	# conf.set("spark.eventLog.compression.codec","snappy")
	# 根据配置文件,得到一个SC对象,第一个conf 是 形参的名字,第二个conf 是实参的名字
	sc = SparkContext(conf=conf)

	fileRdd = sc.textFile("../datas/sogou.tsv")
	print(fileRdd.count())
	print(fileRdd.first())
	listRdd = fileRdd.map(lambda line: re.split("\\s+", line))
	filterList = listRdd.filter(lambda l1: len(l1) == 6)
	# 这个结果只获取而来时间 uid 以及热词,热词将左右两边的[] 去掉了
	tupleRdd = filterList.map(lambda l1: (l1[0], l1[1], l1[2][1:-1]))
	# 将tupleRdd 缓存到内存中
	tupleRdd.cache()
	#tupleRdd.persist(storageLevel=StorageLevel.MEMORY_AND_DISK)

	# 求热词
	wordRdd = tupleRdd.flatMap(lambda t1: jieba.cut_for_search(t1[2]))
	filterRdd2 = wordRdd.filter(lambda word: len(word.strip()) != 0 and word != "的").filter(
		lambda word: re.fullmatch("[\u4e00-\u9fa5]+", word) is not None)
	# filterRdd2.foreach(print)
	result = filterRdd2.map(lambda word: (word, 1)).reduceByKey(lambda sum, num: sum + num).sortBy(
		keyfunc=lambda tup: tup[1], ascending=False).take(10)

	for ele in result:
		print(ele)


	# 第二问:  ((uid,"功夫")  10)
	# [(time,uid,"中华人民"),()]
	def splitWord(tupl):
		li1 = jieba.cut_for_search(tupl[2]) # 中国 中华 共和国
		li2 = list()
		for word in li1:
			li2.append(((tupl[1], word),1))
		return li2
	newRdd = tupleRdd.flatMap(splitWord)
	#newRdd.foreach(print)
	reduceByUIDAndWordRdd = newRdd.reduceByKey(lambda sum,num : sum + num)
	# reduceByUIDAndWordRdd.foreach(print)

	valList =reduceByUIDAndWordRdd.values()
	
	print(valList.max())
	print(valList.min())
	print(valList.mean()) # 中位数
	print(valList.sum() / valList.count()) #

	# 第三问 统计一天每小时点击量并按照点击量降序排序
	reductByKeyRDD = tupleRdd.map(lambda tup: (tup[0][0:2],1)).reduceByKey(lambda sum,num : sum + num)
	sortRdd = reductByKeyRDD.sortBy(keyfunc=lambda tup:tup[1],ascending=False)
	listNum = sortRdd.take(24)
	for ele in listNum:
		print(ele)

	tupleRdd.unpersist(blocking=True)
	# 使用完后,记得关闭
	sc.stop()

 将任务运行,运行过程中,发现内存中存储了50M的缓存数据

 适用场景:RDD需要多次使用,或者RDD是经过非常复杂的转换过程所构建。

一般缓存的RDD都是经过过滤,经过转换之后重复利用的rdd,可以添加缓存,否则不要加。

六、总结

        Spark 的容错机制通过多种方式保障了数据处理的稳定性和高效性。RDD 的持久化机制(包括 cache 和 persist 算子)为频繁使用的 RDD 提供了灵活的缓存策略,能够有效减少重复计算,提高处理效率。而检查点机制则侧重于数据的高安全性存储,在面对可能的缓存丢失或系统故障时,确保数据的完整性和可用性。在实际应用中,需要根据数据处理任务的特点、资源状况以及对数据安全性和性能的要求,合理选择使用持久化机制和检查点机制,以充分发挥 Spark 框架的优势,构建可靠高效的大数据处理应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/913884.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

NLP论文速读(NeurIPS2024)|使用视觉增强的提示来增强视觉推理

论文速读|Enhancing LLM Reasoning via Vision-Augmented Prompting 论文信息: 简介: 这篇论文试图解决的问题是大型语言模型(LLMs)在处理包含视觉和空间线索的推理问题时的局限性。尽管基于LLMs的推理框架(如Chain-of-Thought及其…

在 RHEL 8 | CentOS Linux release 8.5.2111上安装 Zabbix 6

1. 备份YUM源文件 cd /etc/yum.repos.d/ mkdir bak mv C* ./bak/ wget -O /etc/yum.repos.d/CentOS-Linux-BaseOS.repo https://mirrors.aliyun.com/repo/Centos-vault-8.5.2111.repo yum clean all yum makecache2. 将 SELinux 设置为宽容模式,如下所示。 sudo s…

在 Mac 和 Windows 系统中快速部署 OceanBase

OceanBase 是一款分布式数据库,具备出色的性能和高扩展性,可以为企业用户构建稳定可靠、灵活扩展性能的数据库服务。本文以开发者们普遍熟悉的Windows 或 Mac 环境为例,介绍如何快速上手并体验OceanBase。 一、环境准备 1. 硬件准备 OceanB…

【jenkins】jenkins使用pipeline配置django项目

目录 一、部署jenkins 二、配置 2.1 获取gitee账户凭证 2.2 安装pipeline插件 三、创建一个流水线项目 四、选择创建的项目 4.1 源码设置 4.2 配置 前言:个人使用,比较简单,做个笔记,这里我使用的是gitee作为仓库 一、部署…

qt QSyntaxHighlighter详解

1、概述 QSyntaxHighlighter是Qt文本处理框架中的一个强大工具,它专门用于实现文本编辑器中的语法高亮功能。通过自定义高亮规则,QSyntaxHighlighter可以实现对代码编辑器、富文本编辑器中的关键字、注释等内容的高亮显示。这一功能对于提升代码的可读性…

macOS 设置固定IP

文章目录 以太网Wifi![请添加图片描述](https://i-blog.csdnimg.cn/direct/65546e966cae4b2fa93ec9f0f87009d8.png) 基于 macOS 15.1 以太网 Wifi

从0开始深度学习(28)——序列模型

序列模型是指一类特别设计来处理序列数据的神经网络模型。序列数据指的是数据中的每个元素都有先后顺序,比如时间序列数据(股票价格、天气变化等)、自然语言文本(句子中的单词顺序)、语音信号等。 1 统计工具 前面介绍…

SpringBoot(八)使用AES库对字符串进行加密解密

博客的文章详情页面传递参数是使用AES加密过得,如下图所示: 这个AES加密是通用的加密方式,使用同一套算法,前端和后端都可以对加密之后的字符串进行加密解密操作。 目前线上正在使用的是前端javascript进行加密操作,将加密之后的字符串再传递到后端,PHP再进行解密操作。…

JVM双亲委派与自定义类加载器

一. 类加载过程 Java Application运行前需要将编译生成的字节码文件加载到JVM中,JVM类加载过程如下: 1. 加载 加载阶段是类加载的第一步,在加载阶段JVM会查找并加载类的字节码文件,这个过程通常从类路径(Classpath…

多媒体信息检索

文章目录 一、绪论二、文本检索 (Text Retrieval)(一) 索引1.倒排索引2.TF-IDF (二) 信息检索模型 (IR模型,Information Retrieval)1.布尔模型 (Boolean模型)(1)扩展的布尔模型 (两个词)(2)P-Norm模型 (多个词) 2.向量空间模型 (Vector Space Model,VSM)…

Python | Leetcode Python题解之第559题N叉树的最大深度

题目: 题解: class Solution:def maxDepth(self, root: Node) -> int:if root is None:return 0ans 0queue [root]while queue:queue [child for node in queue for child in node.children]ans 1return ans

【Pikachu】SQL-Inject实战

困难、痛苦、挫折总是接踵而至,这正是世间的常理。要是输了,就只能说明我不过是如此程度的男人。 1.Sql Inject(SQL注入)概述 Sql Inject(SQL注入)概述 在owasp发布的top10排行榜里,注入漏洞一直是危害排名第一的漏洞,其中注入…

VSCode中python插件安装后无法调试

问题 VSCode中python插件安装后无法调试,如下,点击调试,VScode中不报错,也没有调试 解决方法 1、查看配置 打开所在路径 2、拷贝 将整个文件夹拷贝到vscode默认路径下 3、问题解决 再次调试,可以正常使用了…

官方压测工具memtier-benchmark压测redis

1 概述 memtier_benchmark是一种高吞吐量的性能基准测试工具,主要用于Redis和Memcached。它是 Redis官方开发团队开发的,旨在生成各种流量模式,以便测试和优化以上两个数据库的性能。 memtier_benchmark的一些关键特点如下: 多…

海外云手机在出海业务中的优势有哪些?

随着互联网技术的快速发展,海外云手机已在出海电商、海外媒体推广和游戏行业都拥有广泛的应用。对于国内的出海电商企业来说,短视频引流和社交平台推广是带来有效流量的重要手段。借助云手机,企业能够更高效地在新兴社交平台上推广产品和品牌…

kafka 的一些问题,夺命15连问后续

16、kafka是如何做到高效读写 因为kafka本身就是分布式集群,可以采用分区技术,并行度高 读取数据可以采用稀疏索引,可以快速定位要消费的数据(mysql中索引多了以后,写入速度就慢了) 可以顺序写磁盘&#…

Vue Cli 脚手架目录文件介绍

小试牛刀 //vetur高亮; vuetab 快速生成 <template><div class"box">我是个盒子<button click"fn">按钮</button></div> </template><script> export default {methods:{fn(){alert("Hello Vue")}} …

基于springboot的家装平台设计与实现

项目描述 临近学期结束&#xff0c;还是毕业设计&#xff0c;你还在做java程序网络编程&#xff0c;期末作业&#xff0c;老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下&#xff0c;你想解决的问…

Docker平台搭建方法

Docker平台搭建方法 1.1在VMware中创建两个虚拟机&#xff0c;只需要1个网卡&#xff0c;连接192.168.200.0网络。 虚拟机分配2个CPU,2G内存&#xff0c;60G硬盘&#xff0c;主机名分别为server和client,IP地址分别为192.168.200.137和192.168.200.138。server节点还兼做regis…

cache(二)直接缓存映射

在知乎发现一份不错得学习资料 请教CPU的cache中关于line,block,index等的理解&#xff1f; PPT 地址 https%3A//cs.slu.edu/%7Efritts/CSCI224_S15/schedule/chap6-cache-memory.pptx 课程主页 https://cs.slu.edu/~fritts/CSCI224_S15/schedule/ 0. 缓存定义 这张图展示了缓…