Spark-Scala语言实战(8)

在之前的文章中,我们学习了如何在spark中使用RDD方法的map,sortby,collect。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢。

Spark-Scala语言实战(7)-CSDN博客文章浏览阅读802次,点赞22次,收藏8次。​今天开始的文章,我会带给大家如何在spark的中使用我们的RDD方法,今天学习RDD方法中的map,sortby,collect三种方法。希望我的文章能帮助到大家,也欢迎大家来我的文章下交流讨论,共同进步。​https://blog.csdn.net/qq_49513817/article/details/137143284?今天的文章,我会继续带着大家如何在spark的中使用我们的RDD方法,今天学习RDD方法中的flatMap,take,union三种方法。

目录

一、知识回顾

二、RDD方法

1.flatMap

2.take

3.union

拓展- 方法参数设置

1.方法参数

 2.sortBy参数设置

一、知识回顾

昨天我们学习了RDD的三种方法,分别是map,sortby,collect。

其中map的作用是转换操作

它会转化成一个新的RDD

其次就是sortby,它可以对我们RDD中的元素进行排序

当然,升序降序都是我们可以通过参数自行设置的

最后就是我们的collect,它的作用是将数据转化成数组

现在复习完毕,开始今天的学习吧

二、RDD方法

1.flatMap

  •  flatMap()方法将函数参数应用于RDD之中的每一个元素,将返回的迭代器(如数组、列表等)中的所有元素构成新的RDD。
  • 使用flatMap()方法时先进行map(映射)再进行flat(扁平化)操作,数据会先经过跟map一样的操作,为每一条输入返回一个迭代器(可迭代的数据类型),然后将所得到的不同级别的迭代器中的元素全部当成同级别的元素,返回一个元素级别全部相同的RDD。
  • 这个转换操作通常用来切分单词。 

例: 

import org.apache.spark.{SparkConf, SparkContext}

object p1 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local").setAppName("p2")
    val sc=new SparkContext(conf) 
    // 创建一个包含字符串的列表,并将其转换为RDD  
    val ppp = List("1,2,3", "4,5,6", "7,8,9")  
    val rdd = sc.parallelize(ppp)  
    // 定义一个函数来拆分字符串并返回数字列表  
    def ppppp(s: String): List[Int] = {  
      s.split(",").map(_.toInt).toList  
    }  
    
    val pppp = rdd.flatMap(ppppp)  
    val pppppp = pppp.collect()  
    pppppp.foreach(println)  
  
  }  
}

 

可以看到,我们的代码预期效果就是用flatMap方法将列表中三个字符串给拆分,那么运行看看效果吧

 可以看到输出结果,成功拆分

2.take

  • take(N)方法用于获取RDD的前N个元素,返回数据为数组。
  • take()与collect()方法的原理相似,collect()方法用于获取全部数据,take()方法获取指定个数的数据。

例: 

import org.apache.spark.{SparkConf, SparkContext}

object p1 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local").setAppName("p2")
    val sc=new SparkContext(conf)
    // 创建一个包含一些数字的RDD
    val p = sc.parallelize(Seq(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
    // 使用take操作取出前3个元素
    val pp = p.take(3)
    // 打印取出的元素
    pp.foreach(println)
  }
}

看我们的代码,可以知道我们要用take方法取出我们前三个元素,那么就应该是元素 1,2,3,那么现在运行代码看下是否输出这些值。

可以看到成功输出1,2,3,代码正确,快去尝试吧~ 

3.union

  • union()方法是一种转换操作,用于将两个RDD合并成一个,不进行去重操作,而且两个RDD中每个元素中的值的个数、数据类型需要保持一致。
  • 使用union()方法合并两个RDD。

例: 

import org.apache.spark.{SparkConf, SparkContext}

object p1 {
  def main(args: Array[String]): Unit = {
    val conf=new SparkConf().setMaster("local").setAppName("p2")
    val sc=new SparkContext(conf)
    // 创建第一个RDD
    val p1 = sc.parallelize(Seq(1, 2, 3))
    // 创建第二个RDD
    val p2 = sc.parallelize(Seq(4, 5, 6))
    // 使用union操作合并两个RDD
    val ppp = p1.union(p2)
    // 收集结果并打印
    val ppppp = ppp.collect()
    ppppp.foreach(println)
  }
}

 可以看到代码预期效果是使用union方法将p1与p2合并,那么ppppp输出的应该是123456,那么来运行试试吧

 

 可以看到成功输出123456。

注意,union合并需要两个数据类型相同,否则会报错

  

 一个字母,一个数字,是肯定不行的

  

如果这样全是字母,就可以,快去动手试试吧~ 

拓展- 方法参数设置

1.方法参数

方法参数描述与效果
mapfunc(函数)对RDD中的每个元素应用函数func,返回一个新的RDD。每个元素都会根据func定义的规则进行转换。
sortBykeyfunc(函数,可选),ascending(布尔值,可选,默认为True),numPartitions(整数,可选)根据keyfunc指定的键对RDD中的元素进行排序,返回一个新的RDD。ascending决定排序方向,numPartitions决定输出RDD的分区数。未指定keyfunc时,默认按照元素本身排序。
collect将RDD中的所有元素收集到驱动程序中,并返回列表。这对于获取RDD的全部内容并在驱动程序中处理非常有用,但请注意,对于大RDD可能会导致性能问题。
flatMapfunc(函数)对RDD中的每个元素应用函数func,并将返回的所有元素“压平”成一个新的RDD。这常用于将嵌套结构的数据扁平化。
takenum(整数)从RDD的开头返回前num个元素。这可以用于获取RDD的部分数据,而不必处理整个RDD。
unionother(另一个RDD)返回两个RDD的并集。这不会删除重复的元素,因此如果两个RDD中有相同的元素,它们都会在结果RDD中出现。

 2.sortBy参数设置

参数描述效果
keyfunc(函数,可选)指定用于排序的键的函数。如果未指定keyfuncsortBy将默认按照RDD中的元素本身进行排序。如果指定了keyfunc,则sortBy将按照keyfunc处理后的结果对RDD中的元素进行排序。例如,如果RDD的元素是元组,你可以通过keyfunc来指定按照元组的某个字段进行排序。
ascending(布尔值,可选,默认为True)指定排序方向。如果ascending为True,则按照升序排序;如果为False,则按照降序排序。这允许你根据需要选择正序或倒序排列RDD中的元素。
numPartitions(整数,可选)指定输出RDD的分区数。这个参数决定了排序后RDD的分区数。如果未指定,则排序后的RDD的分区数通常与原始RDD的分区数相同。分区数的设置会影响排序操作的并行度和性能,因此在实际应用中需要根据集群资源和任务需求进行合理设置。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/503233.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

在Java中对SQL进行常规操作的通用方法

SQL通用方法 一、常规方法增删改查二、具体优化步骤1.准备工作2.getcon()方法,获取数据库连接对象3.closeAll()方法,关闭所有资源4.通用的增删改方法5.通用的查询方法6.动态查询语句 总结 一、常规方法增删改查 在常规方法中,我们在Java中对…

基于视觉的机器人抓取——从物体定位、物体姿态估计到平行抓取器抓取估计——综述

综述 本文对基于视觉的机器人抓取进行了全面的综述。我们总结了基于视觉的机器人抓取过程中的三个关键任务,即物体定位、物体姿态估计和抓取估计。详细地说,对象定位任务包括无分类的对象定位、对象检测和对象实例分割。此任务提供输入数据中目标对象的…

基于微信小程序医院挂号系统的设计与实现(论文+源码)_kaic

摘 要 进入21世纪网络和微信小程序得到了飞速发展,并和生活进行了紧密的结合。目前,网络的运行速度以达到了千兆,覆盖范围更是深入到生活中的脚脚落落。这就促使微信小程序的发展。微信小程序可以实现远程处理事务,远程提交工…

Predict the Next “X” ,第四范式发布先知AIOS 5.0

今天,第四范式发布了先知AIOS 5.0,一款全新的行业大模型平台。 大语言模型的原理是根据历史单词去不断预测下一个单词,换一句常见的话:Predict the Next “Word”。 当前对于行业大模型的普遍认知就是沿用这种逻辑,用大…

HTTP/1.1 特性(计算机网络)

HTTP/1.1 的优点有哪些? 「简单、灵活和易于扩展、应用广泛和跨平台」 1. 简单 HTTP 基本的报文格式就是 header body,头部信息也是 key-value 简单文本的形式,易于理解。 2. 灵活和易于扩展 HTTP 协议里的各类请求方法、URI/URL、状态码…

聊聊多版本并发控制(MVCC)

多版本并发控制(MVCC) MVCC一直是数据库部分的高频面试题,这篇文章来聊聊MVCC是什么,以及一些底层原理的实现。 当前读和快照读: 当前读:读取的是事务最新的版本,读取的过程中其他并发事务不…

Docker 笔记

1.Ubuntu安装Docker 安装Docker看这篇文章 http://t.csdnimg.cn/IsSsJ 2.在docker中运行python代码 2.1搭建python环境 docker部署python环境看这篇文章 http://t.csdnimg.cn/TYz0G 2.2在python shell中运行python代码 2.2.1查看镜像 2.2.1启动python,厦门这个…

在 Three.js 中,OBJExporter 是一个用于将 Three.js 中的场景导出为 OBJ 格式的类。

demo案例 在 Three.js 中,OBJExporter 是一个用于将 Three.js 中的场景导出为 OBJ 格式的类。下面是关于它的入参、出参、属性和方法的解释: 类名:OBJExporter 构造函数: THREE.OBJExporter()说明: 创建一个 OBJE…

4月1日起,未备案App小程序将下架

关注卢松松,会经常给你分享一些我的经验和观点。 最后2天了、最后2天了。 从2024年4月1日起,工信部要求所有的APP、小程序都要备案,否则下架、关停、限制更新。这是去年8月份出的新规,没想到十个月这么快就过去了。 现在广东省…

面向对象:多态

文章目录 一、什么是多态二、构成多态的条件2.1什么是虚函数2.1如何构成虚函数的重写(原理层面上叫:重写)2.2父类指针的调用 三、多态调用父类指针出现的情况四、构成多态的一种特殊情况(协变)五、析构函数构成的多态六…

jmeter性能压测的标准和实战中会遇到的问题

1.性能标准建议 CPU 使用率:不超过 70% 内存使用率:不超过 70% 磁盘:%util到达80%严重繁忙 (os.disIO.filesystem.writeKbPS 每秒写入的千字节) 响应时间:95%的响应时间不超过8000ms 事务成功率&#xff1a…

EXCEL 通过FILES函数获取指定路径中的所有文件名

FILES函数 用途 获取指定文件路径中的所有文件名。 语法 FILES(“路径\*.*”)指定从哪个路径下返回一个文件名。 *.*是通配符,代表所有类型的文件,第一个*是文件名的通配符,第二个* 是文件的后缀名,表示文件类型,如…

【c++】简单的日期计算器

🔥个人主页:Quitecoder 🔥专栏:c笔记仓 朋友们大家好啊,在我们学习了默认成员函数后,我们本节内容来完成知识的实践,来实现一个简易的日期计算器 目录 头文件声明函数函数的实现1.全缺省默认构…

手机真机连接USB调试adb不识别不显示和TCPIP连接问题

手机真机连接USB调试adb devices不显示设备和TCPIP连接 本文手机型号为NOVA 7 ,其他型号手机在开发人员模式打开等方式可能略有不同,需根据自己的手机型号修改。 文章目录 1. 打开和关闭开发者模式2. 真机USB连接调试adb不显示设备问题的若干解决方法3…

CKS之安全沙箱运行容器:gVisor

目录 一、gVisor介绍 二、gVisor架构 三、gVisor使用前置条件 四、Docker中使用gVisor 五、containerd中使用gVisor 六、Kubernetes结合gVisor使用 一、gVisor介绍 gVisor是Google开源的一种容器沙箱技术,其设计初衷是在提供较高安全性的同时,尽量…

二十四种设计模式与六大设计原则(一):【策略模式、代理模式、单例模式、多例模式、工厂方法模式、抽象工厂模式】的定义、举例说明、核心思想、适用场景和优缺点

目录 策略模式【Strategy Pattern】 定义 举例说明 核心思想 适用场景 优缺点 代理模式【Proxy Pattern】 定义 举例说明 核心思想 适用场景 优缺点 单例模式【Singleton Pattern】 定义 举例说明 核心思想 适用场景 优缺点 多例模式【Multition Pattern】…

【2023】kafka在linux和docker安装(kafka-1)

目录💻 一、linux安装kafka1. 安装jdk2. 上传解压到/usr/local目录下3、使用kafka 二、docker安装kafka1. 下载2. 安装zookeeper3. 安装kafka 一、linux安装kafka 环境主机 mac m2、虚拟机Ubuntu22.04.4 1. 安装jdk yum install -y java-1.8.0-openjdk.x86_64下载k…

.NET使用HttpClient以multipart/form-data形式post上传文件及其相关参数

前言: 本次要讲的是使用.Net HttpClient拼接multipark/form-data形式post上传文件和相关参数,并接收到上传文件成功后返回过来的结果(图片地址,和是否成功)。可能有很多人会说用ajax不是就可以轻松的实现吗&#xff1f…

最优算法100例之16-连续子数组的最大和

专栏主页:计算机专业基础知识总结(适用于期末复习考研刷题求职面试)系列文章https://blog.csdn.net/seeker1994/category_12585732.html 题目描述 输入一个整型数组,数组里有正数也有负数。 数组中连续的一个或多个整数组成一个子数组,每个子数组都有一个和。 题…

Datacom HCIP笔记-OSPF协议 之二

链路:路由器之间的相连的链路 状态:链路上的参数在某一时刻的状态 单边邻居 one way? 收到对端发来的hello报文,其中没有自己的router id LSA类型: 1类LSA:描述路由器自身加入到ospf进程中的直连链路的状态…