Spark Streaming 概述及入门案例

一、介绍

1. 不同的数据处理

  • 从数据处理的方式:
    • 流式数据处理(Streaming)
    • 批量数据处理(Batch)
  • 从数据处理的延迟:
    • 实时数据处理(毫秒级别)
    • 离线数据处理(小时或天级别)

2. 简介

  • SparkStreaming 是一个准实时(秒或分钟级别)、微批量的数据处理框架
  • SparkStreaming 支持的很多数据输入源,如: Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等。数据输入后可以用 Spark 的高度抽象原语,如: map、 reduce、 join、 window 等进行运算。结果能保存在很多地方,如 HDFS,数据库等
  • SparkStreaming 使用离散化流 (discretized stream) 作为抽象表示,称为 DStream,它是对 RDD 在实时数据处理场景的一种封装

3. 特点

  • 易用
  • 容错
  • 易整合到 Spark 体系

二、基本架构

在这里插入图片描述

1. 背压机制

  • Spark 1.5 以前版本:通过设置静态配制参数 spark.streaming.receiver.maxRate 来限制 Receiver 的数据接收速率,来解决生产和消费速率不对等造成的内存溢出等问题,但当数据生产和数据消费的能力都高于 maxRate 时会造成资源利用率下降等问题
  • Spark 1.5 版本及以后版本:为了动态控制数据接收速率来适配集群数据处理能力,引入了背压机制 (Spark Streaming Backpressure),即根据 JobScheduler 反馈作业的执行信息来动态调整 Receiver 数据接收率
  • 通过属性 spark.streaming.backpressure.enabled 来配置启用 backpressure 机制,默认值为 false,即不启用

三、入门 WordCount 案例

需求:使用 netcat 工具向 9999 端口不断的发送数据,通过 SparkStreaming 读取端口数据并统计不同单词出现的次数

1. 引入依赖

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming_2.12</artifactId>
    <version>3.0.0</version>
</dependency>

2. 代码实现

object SparkStreamingWC {
    def main(args: Array[String]): Unit = {
        // 1.创建 SparkStreaming 环境对象
        val conf = new SparkConf().setMaster("local[*]").setAppName("SparkStreaming")
        /*
        创建 StreamingContext 对象需要传递两个参数
        1.SparkConf:配置对象
        2.Duration:批处理的周期,即数据采集周期,单位为毫秒,内置有 Seconds/Minute 等对象 
        */
        val ssc = new StreamingContext(conf, Seconds(3))
        
        // 2.逻辑处理
        val line: ReceiverInputDStream[String] = ssc.socketTextStream("localhost", 9999)
        val words = line.flatMap(_.split(" "))
        val wordAsOne = words.map((_, 1))
        val wordCount: DStream[(String, Int)] = wordAsOne.reduceByKey(_ + _)
        
        wordCount.print()
        
        // 3.运行采集器并等待关闭
        /*
        采集器是一个长期运行的任务,所以不能关闭 ssc,也不能让 main 方法执行完毕
        */
        ssc.start()
        ssc.awaitTermination()
    }
}

3. 测试

  • 打开 cmd 命令窗口,执行 nc -lp 9999 命令(Linux 下为 nc -lk 999)
  • 运行程序 main 方法
  • 在窗口中输入测试字符串(以空格分隔),观察程序命令行输出结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/678687.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第28天(py)| 回溯 | 93.复原IP地址、78.子集、90.子集II

93.复原IP地址 力扣链接 给定一个只包含数字的字符串&#xff0c;复原它并返回所有可能的 IP 地址格式。 有效的IP地址不能含有前导0&#xff0c;共有4个字段&#xff0c;且每个字段不能超过255 思路 class Solution:def restoreIpAddresses(self, s: str) -> List[str]:r…

异或炸弹(easy)(牛客小白月赛95)

题目链接: D-异或炸弹&#xff08;easy&#xff09;_牛客小白月赛95 (nowcoder.com) 题目&#xff1a; 题目分析&#xff1a; 一看 还以为是二维差分的题呢 到后来才发现是一维差分问题 这里的距离是 曼哈顿距离 dis abs(x - xi) abs(y - yi) 暴力的做法 就是枚举 n * n 个…

NFC隐藏功能大公开:乘车刷门禁,NFC实用无风险

手机到底集成了多少功能&#xff1f;如今恐怕已经没有人能数的清了。但是你又用到了多少呢&#xff1f;有些功能是不是就从来没打开过呢&#xff1f;花了全款却只用功能的百分之一&#xff0c;是不是感觉很不划算呢&#xff1f; 费流量、占内存、费电通常是用户浪费手机功能的…

SG7050CCN CMOS输出石英晶体振荡器适用于防盗防灾装置

爱普生晶振SG7050CCN是一款额定频率范围2.5MHz至50MHz的石英晶体振荡器(SPXO)&#xff0c;支持CMOS输出&#xff0c;具有小尺寸7.0x5.0mm四脚贴片晶振&#xff0c;体积小巧,高稳定性&#xff0c;其中爱普生的一款额定频率16.000MHz,/-50ppm晶振&#xff0c;7050封装常规有源晶振…

大量单号中如何分析出异常单号

什么情况下单号算异常单号呢&#xff0c;首先根据单号物流信息过程轨迹判断哦&#xff0c;比如某个单号已显示快递公司已揽收了&#xff0c;超过24或36、48甚至更长时间也没有看到走件信息哦&#xff0c;一般这类单号也叫揽收后无走信息&#xff0c;这类单号就只能一条揽收信息…

【智能体】文心智能体大赛第二季持续进行中,一起在智能体的海洋里发挥你的创意吧

目录 背景作文小助手AI迅哥问答程序员黄历助手比赛时间第二期赛题丰厚奖品评选说明获奖智能体推荐文章 背景 AI应用&#xff08;智能体&#xff09;&#xff0c;持续火热&#xff0c;一句话就能创建一个有趣、好玩的应用。 可以说一分钟内就能创建一个有创意的智能体。 看大多…

【第十课】空间数据基础与处理——空间范围处理

一、前言 在利用Arcgis分析中通常会研究我国局部地区的发展&#xff0c;如长江中游城市群、 某个省、长江经济带等&#xff0c;在对这类区域进行可视化时&#xff0c;经常会需要一幅局部地图&#xff0c;通常这种局部地图是很难直接获取的&#xff0c;需要通过一定的方法进行处…

2024年云计算、信号处理与网络技术国际学术会议(ICCCSPNT 2024)

2024年云计算、信号处理与网络技术国际学术会议&#xff08;ICCCSPNT 2024&#xff09; 2024 International Academic Conference on Cloud Computing, Signal Processing, and Network Technology&#xff08;ICCCSPNT 2024&#xff09; 会议简介&#xff1a; 2024年云计算、…

cesium Material的理解与使用

1.简介 材质Material可以是比较简单的&#xff0c;比如直接将一张图片赋予表面&#xff0c;或者使用条纹状、棋盘状的图案&#xff1b;也可以使用Fabric和GLSL&#xff0c;重新创建一个新的材质或者组合现有的材质。例如&#xff0c;我们可以通过程序生成的纹理(procedural bri…

【leetcode--盛水最多的容器】

给定一个长度为 n 的整数数组 height 。有 n 条垂线&#xff0c;第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。 找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可以容纳最多的水。 返回容器可以储存的最大水量。 写出来了一半&#xff0c;想到用双指针&am…

高精度滚珠丝杆在自动化生产中的关键因素!

如今&#xff0c;自动化技术正以前所未有的速度改变着人们的生活和工作方式&#xff0c;特别是在高精度精密设备的制造与应用领域&#xff0c;提高生产效率和优化生产流程正变得越来越重要。在自动化生产中&#xff0c;滚珠丝杆的优化应用对于提高生产效率、保证产品质量至关重…

【OCPP】ocpp1.6协议第4.3章节DataTransfer的介绍及翻译

目录 4.3、DataTransfer-概述 DataTransfer 消息 数据传输请求&#xff08;DataTransfer Request&#xff09; 数据传输响应&#xff08;DataTransfer Response&#xff09; 使用场景 示例 DataTransfer 请求示例 处理 DataTransfer 响应 示例代码 可能的错误处理 总…

Java1.8语言+ springboot +mysql + Thymeleaf 全套家政上门服务平台app小程序源码

Java1.8语言 springboot mysql Thymeleaf 全套家政上门服务平台app小程序源码 家政系统是一套可以提供上门家政、上门维修、上门洗车、上门搬家等服务为一体的家政平台解决方案。它能够与微信对接、拥有用户端小程序&#xff0c;并提供师傅端app&#xff0c;可以帮助创业者在…

AutoCutVideo自动剪辑软件

随着视频内容创作的普及&#xff0c;找到一款既高效又便捷的视频剪辑工具成为了创作者的迫切需求。在众多选择中&#xff0c;AutoCutVideo以其杰出的功能脱颖而出&#xff0c;提供了一个无与伦比的视频编辑解决方案。这款软件不仅能够支持多样化的视频格式导入&#xff0c;其直…

C#上位机开发

目录 一、上位机简介二、C#语法三、新建VS工程四、WinForm控件4.1 属性4.2 事件4.3 窗体方法4.4 常用控件4.5 布局 五、Serial上位机六、项目打包成安装包6.1 前提准备6.2 打包步骤 一、上位机简介 在单片机项目开发中&#xff0c;上位机也是一个很重要的部分&#xff0c;主要用…

【游戏】Goc赚钱模拟器

Hello!大家好&#xff0c;我是学霸小羊&#xff0c;今天分享一个Goc游戏。 //注&#xff1a;以下代码为Goc原创代码。 大家可以在下面网址写入代码www.51goc.com慧通教育http://www.51goc.com注&#xff1a;Goc编辑器路径&#xff1a; www.51goc.com ➡ 登录 ➡ 游客登陆 ➡…

⌈ 传知代码 ⌋ 微表情识别系统

&#x1f49b;前情提要&#x1f49b; 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间&#xff0c;对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

什么是室内外一体化定位

室内外一体化定位是一种技术&#xff0c;它允许在室内外环境中对设备或人员进行连续、无缝的定位跟踪。这种技术结合了多种定位技术的优势&#xff0c;以克服单一技术在室内外环境中可能遇到的局限性。 室内外一体化定位通常涉及以下几种技术&#xff1a; 1. 卫星定位系统&am…

Qt 【Object::connect: No such slot 。。。】解决方法

发生如下所示问题&#xff0c;有三种原因造成&#xff1a; 1.下图中的Q_OBJECT被注释掉或者漏了&#xff08;该问题不常见&#xff09; 2.下图中声明slots漏了&#xff08;新手较常见&#xff09; 3.发生下面两行中的错误&#xff0c;在下面两行代码中仅仅是一个参数名字的区别…

【Android Studio】导入import android.support.v7.app.AppcompatActivity;时报错

一、问题描述 在进行安卓项目开发时使用import android.support.v7.app.AppcompatActivity;报错&#xff1a; 运行后会有乱码出现&#xff1a; 二、解决办法 将import android.support.v7.app.AppcompatActivity;改为import androidx.appcompat.app.AppCompatActivity;基本上…