Spark算子

一、编写spark程序的准备工作（程序入口 SparkContext）

1.创建SparkConf

val conf = new SparkConf().setMaster("local[2]").setAppName("hello-app")

2.创建sparkContext

val sc: SparkContext = new SparkContext(conf)

二、基于sparkContext创建RDD

简略的说, RDD 有三种创建方式

RDD 可以通过本地集合直接创建
RDD 也可以通过读取外部数据集来创建
RDD 也可以通过其它的 RDD 衍生而来

通过本地集合直接创建 RDD

val list = List(1, 2, 3, 4, 5, 6)
val rddParallelize = sc.parallelize(list, 2)
val rddMake = sc.makeRDD(list, 2)

通过读取外部文件创建 RDD

val source1: RDD[String] = sc.textFile("hdfs://node01:8020/dataset/wordcount.txt")
val source2: RDD[String] = sc.textFile("/data/input/wordcount.txt")

通过其它的 RDD 衍生新的 RDD

val source: RDD[String] = sc.textFile("hdfs://node01:8020/dataset/wordcount.txt", 20)
val words = source.flatMap { line => line.split(" ") }

三、RDD算子的使用

RDD 中的算子从功能上分为两大类（Transformation和Action）

Transformation(转换) 它会在一个已经存在的 RDD 上创建一个新的 RDD, 将旧的 RDD 的数据转换为另外一种形式后放入新的 RDD。
Action(动作) 执行各个分区的计算任务, 将的到的结果返回到 Driver 中。

spark 常用的 Transformation 算子如下表：

Spark 常用的 Action 算子如下：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/135356.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

Spark算子

一、编写spark程序的准备工作（程序入口 SparkContext）

二、基于sparkContext创建RDD

简略的说, RDD 有三种创建方式

通过本地集合直接创建 RDD

通过读取外部文件创建 RDD

通过其它的 RDD 衍生新的 RDD

三、RDD算子的使用

RDD 中的算子从功能上分为两大类（Transformation和Action）

spark 常用的 Transformation 算子如下表：

Spark 常用的 Action 算子如下：

相关文章

可视化 | echarts饼图改编

Python字符串字母大小写变换

基于猕猴感觉运动皮层的神经元Spike信号分析

区块链游戏，游戏开发

Java必刷入门递归题×5（内附详细递归解析图）

ZDH-智能营销-执行流程解析

C++套接字库sockpp介绍

基于JavaWeb的网上体育商城的设计与实现

Docker容器编排

【Windows Docker:安装nginx】

【蓝桥杯选拔赛真题18】C++病毒繁殖第十二届蓝桥杯青少年创意编程大赛C++编程选拔赛真题解析

IDEA搭建ssm项目

2023 年最新 Alipay 支付包商户接入实现 Java 网站在线支付功能（详细指南教程）

基于STM32单片机抢答器设计

2023亚太杯数学建模A题B题C题思路代码分析

冯·诺伊曼体系结构--操作系统

Leetcode—69.x的平方根【简单】

Openlayers：自定义Controls

Clickhouse学习笔记（12）—— 物化视图

链表经典OJ题（链表回文结构，链表带环，链表的深拷贝）