Spark介绍及RDD操作

Spark介绍及RDD操作

    • PySpark简介
      • spark特点
      • 运行原理
      • spark实例化
    • SparkCore-RDD
      • RDD创建
      • 转换(Transformation)
      • 行动(Action)

PySpark简介

spark特点

  • 运行速度快:DAG+内存运算
  • 容易使用:Java、Scala、Python、R
  • 通用性强:完整而强大的技术栈(Graphx:图计算,SparkSQL:结构化数据处理,MLib/ML:机器学习,Streaming:流式计算框架(微批处理)这方面Flink做的比较好)
  • 运行模式多样:Kubernetes、Standalone、YARN、Mesos
  • 兼容多种数据源:
    备注:使用python调Spark性能稍微不如Java、Scala

运行原理

spark封装了python接口,使用python调用spark工作原理如下
在这里插入图片描述

spark实例化

#初始化spark上下文
spark = (
         SparkSession
         .builder
#        .master("spark://192.168.2.123:7077") # 程序运行环境
         .master("local[4]")                   # 如果有集群,这里填写集群资源信息。例如:spark://IP:port
         .appName("SparkCoreDemo")             # 运行程序任务名
#        .config("youkey","youvalue") \        # 配置信息
#        .config('spark.dynamicAllocation.enabled',True)\ 开启动态分配资源
#        .config('spark.dynamicAllocation.initialExecutors',1)\ 动态分配初始executor个数默认值
#        .config('spark.dynamicAllocation.minExecutors',1)\ 最少分配1个
#        .config('spark.dynamicAllocation.maxExecutors',12)\ 最多分配12个
#        .config('spark.executor.memory','12G') \ # 设置每个执行器 内存大小
#        .config('spark.executor.cores','4') \ # 设置每个执行器 CPU核数 
         .getOrCreate()
        )
sc = spark.sparkContext    # 用于RDD操作
sc.setLogLevel('ERROR') # 设置日志输出等级
spark.version  # 查看spark版本
# spark.stop() # 释放资源

SparkCore-RDD

RDD(Resilient Distributed DataSes)指一个只读的,可分区的分布式数据集。这个数据集放在内存或缓存中,可在计算中重复读取,RDD特点:

  • 它是在集群节点上的不可变的、已分区的集合对象
  • 通过并行转换的方式来创建,如map、filter、join
  • 失败自动重建
  • 可以控制存储级别(内存、磁盘等)来进行重用
  • 必须是可序列化的
  • 是静态类型的
    基于RDD的操作:转换、行动

RDD创建

  • 基于内存对象
    rdd1=sc.parallelize([(“A”,23),(“B”,24),(“C”,29)])
    在这里插入图片描述
  • 读取文件属于转换操作
RDD_A = sc.textFile("./data/A.txt")

在这里插入图片描述

转换(Transformation)

返回值还是一个RDD,如Map、GroupBy操作。转换操作是延迟操作的,只有遇到后续的行动(Action)操作才会执行,这也为代码优化提供可能。转换操作如下:

  • map(func):对RDD中的每个element都使用func,返回一个新的RDD
  • filter(func) : 对RDD中的每个元素都使用func,返回每个执行func为true的元素构成的RDD
  • flatMap(func):和map差不多,但是flatMap生成的是多个结果,扁平化的结果。
  • mapPartitions(func):和map很像,但是map是每个element,而mapPartitions是每个partition
  • mapPartitionsWithSplit(func):和mapPartitions很像,但是func作用的是其中一个split上,所以func中应该有index
  • sample(withReplacement,faction,seed):抽样
  • union(otherDataset):返回一个新的dataset,包含源dataset和给定dataset的元素的集合
  • distinct([numTasks]):返回一个新的dataset,这个dataset含有的是源dataset中的distinct的element
  • groupByKey(numTasks):返回(K,Seq[V]),也就是hadoop中reduce函数接受的key-valuelist
  • reduceByKey(func,[numTasks]):就是用一个给定的reduce func再作用在groupByKey产生的(K,Seq[V]),比如求和,求平均数
  • sortByKey([ascending],[numTasks]):按照key来进行排序,是升序还是降序,ascending是boolean类型
  • join(otherDataset,[numTasks]):当有两个KV的dataset(K,V)和(K,W),返回的是(K,(V,W))的dataset,numTasks为并发的任务数
  • cogroup(otherDataset,[numTasks]):当有两个KV的dataset(K,V)和(K,W),返回的是(K,Seq[V],Seq[W])的dataset,numTasks 为并发的任务数
  • cartesian(otherDataset):笛卡尔积
    对部分方法举例介绍使用
  • map实现数据的迭代转换,传入的函数接受的参数为RDD中的每个元素
RDD_A.map(lambda x:x.upper()).collect()

在这里插入图片描述

  • filter 实现数据的过滤筛选,传入的函数接受的参数为rdd的每个元素,函数的返回值必须为布尔型
# 筛选RDD_A最后一个字符是C的数据
RDD_A.filter(lambda x:x[-1]=="c").collect()
  • flatMp会将每次返回的结果扁平化,例如:map 返回的 是 [1,2] 那么flatmap返回的是1,2
    在这里插入图片描述

  • reduceByKey可用于文件去重问题
    在这里插入图片描述

行动(Action)

行动(action)操作经常有返回结果或者将数据写入某个地址,比如count、save等,常用方法如下:

  • reduce(func):按照func对数据进行约减
  • collect():将RDD封装成数组返回
  • count():计算数据集中element的个数
  • first():返回数据集中的第一个元素
  • take(n):返回前n个elements
  • takeSample(withReplacement,num,seed):抽样返回数据集中的num个元素,随机种子seed
  • saveAsTextFile(path):写入文本文件到path中
  • saveAsSequenceFile(path):将key-value型数据保存到path中
  • countByKey():返回的是key对应的个数
  • foreach(func):对dataset中的每个元素都使用func
    使用介绍如下
  • take
rdd_a.take(2)

在这里插入图片描述

  • countByKey
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/672876.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes——YAML文件编写

目录 一、创建Kubernetes对象YAML文件必备字段 1.apiVersion 2.kind 3.metadata 4.spec 二、YAML格式基本规范 1.结构表示 2.键值对 3.列表(数组) 4.字典(映射) 5.数据类型 6.注释 7.多文档支持 8.复杂结构 9.示例 …

快速排序与归并排序(非递归)

目录 快速排序(双指针法) 原理 代码 快速排序(非递归) 原理 代码 归并排序 介绍 优点 缺点 图片 原理 代码 归并排序(非递归) 代码 快速排序(双指针法) 快速排序的精…

【讲解下常见的分类算法,什么是分类算法?】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出…

redis如何实现分布式锁

Redisson是怎么实现分布式锁的 分布式锁:Redisson 提供了一种简单而强大的方式来实现分布式锁。 它支持多种锁模式,如公平锁、可重入锁、读写锁等,并且提供了锁的超时设置和自动释放功能。 锁的获取 在Redisson中常见获取锁的方式有 lock() …

面向对象概述

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 面向对象(Object Oriented)的英文缩写是OO,它是一种设计思想。从20世纪60年代提出面向对象的概念到现在&#xff…

Cyber Weekly #9

赛博新闻 1、OpenAI:GPTs向全部用户开放,使用GPT-4o OpenAI宣布所有ChatGPT免费用户现在可以在GPT商店中使用GPTs,并且这些GPTs现在使用最新的GPT-4o模型。 2、马斯克 vs. Yann LeCun 这一周,AI圈最热闹的莫过于马斯克和LeCun的…

scGPT实验解读

本篇内容为发表在Nature Methods上的scGPT的部分实验内容 来自:scGPT: toward building a foundation model for single-cell multi-omics using generative AI, Nature Methods, 2024 目录 scGPT揭示特定细胞状态的基因网络缩放法则和迁移学习中的上下文效应 scGP…

基于安卓的虫害识别软件设计--(2)模型性能可视化|混淆矩阵、热力图

1.混淆矩阵(Confusion Matrix) 1.1基础理论 (1)在机器学习、深度学习领域中,混淆矩阵常用于监督学习,匹配矩阵常用于无监督学习。主要用来比较分类结果和实际预测值。 (2)图中表达…

物理模拟技术在AI绘画中的革新作用

引言: 随着人工智能(AI)技术的飞速发展,艺术领域也迎来了一场创新的革命。AI绘画,作为这场革命的重要组成部分,不仅改变了传统艺术创作的模式,而且为艺术家提供了前所未有的创作工具。在这一过程…

Linux基础1-基本指令1

1.Linux学习前言 Linux的学习非常重要,我们学习Linux的第一步是在电脑中搭建Linux环境。 对于没有搭建过的可以看这阿伟t的一篇文章 【Linux入门】Linux环境配置-CSDN博客 我的环境为XShell,运行的云服务器是阿里云 2.本章重点 1.显示当前目录下的所有文件…

软件杯 题目:基于卷积神经网络的手写字符识别 - 深度学习

文章目录 0 前言1 简介2 LeNet-5 模型的介绍2.1 结构解析2.2 C1层2.3 S2层S2层和C3层连接 2.4 F6与C5层 3 写数字识别算法模型的构建3.1 输入层设计3.2 激活函数的选取3.3 卷积层设计3.4 降采样层3.5 输出层设计 4 网络模型的总体结构5 部分实现代码6 在线手写识别7 最后 0 前言…

展现市场布局雄心,ATFX再度亮相非洲峰会,开启区域市场新篇章

自2023年全球市场营销战略部署实施以来,ATFX在全球各区域市场取得了丰硕成果,其品牌实力、知名度、影响力均有大幅提升。在这场全球扩张的征程中,非洲市场日益成为集团关注的焦点。自2023年首次踏上这片充满潜力的市场以来,ATFX持…

定义类并创建类的实例

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中,类表示具有相同属性和方法的对象的集合。在使用类时,需要先定义类,然后再创建类的实例,通…

谨以此文章记录我的蓝桥杯备赛过程

以国优秀结束了蓝桥杯cb组 鄙人来自电信学院,非科班出身,在寒假,大约2024年2月份,跟着黑马程序员将c基础语法学完了,因为过年,事情较多,没在学了。 最初就是抱着拿省三的态度去打这个比赛的&a…

低代码是什么?开发系统更有什么优势?

低代码(Low-Code)是一种应用开发方法,它采用图形化界面和预构建的模块,使得开发者能够通过少量的手动编程来快速创建应用程序。这种方法显著减少了传统软件开发中的手动编码量,提高了开发效率,降低了技术门…

图形学初识--多边形剪裁算法

文章目录 前言正文为什么需要多边形剪裁算法?前置知识二维直线直线方程:距离本质:点和直线距离关系: 三维平面平面方程距离本质:点和直线距离关系: Suntherland hodgman算法基本介绍基本思想二维举例问题描…

mysql中EXPLAIN详解

大家好。众所周知,MySQL 查询优化器的各种基于成本和规则的优化会后生成一个所谓的执行计划,这个执行计划展示了接下来具体执行查询的方式。在日常工作过程中,我们可以使用EXPLAIN语句来查看某个查询语句的具体执行计划, 今天我们…

椭圆轨道的周期性运动轨道

一、背景介绍 本节将从轨道六根数的角度,探究目标星为椭圆轨道,追踪星周期性环绕目标的必要条件。根据航天动力学的原理,对于一个椭圆轨道,其轨道能量为 对于能够不产生漂移的情况,绕飞编队的能量。对于追踪星到目标星…

(2024,扩散,去噪调度,维度,误差,收敛速度)适应基于分数的扩散模型中的未知低维结构

Adapting to Unknown Low-Dimensional Structures in Score-Based Diffusion Models 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 1. 引言 1.1 扩散模型 1.2 现有结果的不…

Xilinx RFSOC 47DR 8收8发 信号处理板卡

系统资源如图所示:  FPGA采用XCZU47DR 1156芯片,PS端搭载一组64Bit DDR4,容量为4GB,最高支持速率:2400MT/s;  PS端挂载两片QSPI X4 FLASH;  PS支持一路NVME存储;  PS端挂载SD接口,用于存储程序&…