一、Spark Streaming是什么
Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等
Spark Streaming 是 Spark Core 的扩展,它支持高吞吐量、可容错的实时数据流处理。在 Spark Streaming 中,数据被切分为一系列连续的批处理,每个批处理被当作一个 RDD。
二、Spark Streaming的特点
1.易用、2.容错、3.易整合到Spark体系
三、Spark Streaming 常用的 API
-
StreamingContext
: 这是 Spark Streaming 的主要入口点,用于创建和配置流式计算。 -
textFileStream(directory)
: 从指定目录中读取新文件作为数据源。 -
queueStream(rddQueue)
: 从给定的RDD队列中获取数据。 -
socketTextStream(hostname, port)
: 从指定主机名和端口上的TCP套接字接收数据。 -
receiverStream(blockReceiver)
: 使用自定义的BlockReceiver来接收数据。 -
fileStream(directory)
: 监视指定目录下的新文件,与textFileStream
类似,但可以设置检查间隔和滚动时间间隔。 -
foreachRDD(func)
: 对每个RDD执行操作,通常用于将数据写入外部系统或进行复杂的批处理操作。 -
count()
: 返回每个批次中的元素数量。 -
reduce(func)
: 使用给定的函数将所有元素聚合成一个值。 -
collect()
: 将数据收集到驱动程序节点上。 -
updateStateByKey(func)
: 根据键值更新状态。 -
mapWithState(func)
: 使用给定的函数和状态映射RDD。 -
window(windowLength, slideInterval)
: 创建一个滑动窗口。 -
reduceByWindow(func, windowLength, slideInterval)
: 在给定的窗口长度和滑动间隔内进行归约操作。 -
transform(rddFunc, outputMode)
: 使用给定的RDD函数转换输入RDD。 -
union(otherStream)
: 合并两个DStream。 -
intersection(otherStream)
: 计算两个DStream的交集。 -
subtract(otherStream)
: 计算两个DStream的差集。 -
join(otherStream)
: 连接两个DStream。 -
filter(func)
: 过滤DStream中的元素。 -
flatMap(func)
: 扁平化DStream中的元素。 -
map(func)
: 映射DStream中的元素。 -
foreachRDD(func)
: 对每个RDD执行操作,但不返回结果。 -
start()
: 启动流式计算。 -
awaitTermination()
: 等待流式计算终止。
这些 API 提供了强大的功能,使 Spark Streaming 能够处理各种实时数据流任务。