一、Flink 不同级别的 API
- Flink 拥有易于使用的不同级别分层 API 使得它是一个非常易于开发的框架
- 最底层的 API 仅仅提供了有状态流处理,它将处理函数(Process Function )嵌入到了 DataStream API 中。底层处理函数(Process Function)与 DataStream API 相集成,可以对某些操作进行抽象,允许用户可以使用自定义状态处理来自一个或多个数据流的事件,且状态具有一致性和容错保证。除此之外,用户可以注册事件时间并处理时间回调,从而使程序可以处理复杂的计算。
- 核心 API(Core APIs),比如 DataStream API (用于处理有界或无界流数据)以及 DataSet API (用于处理有界数据集)在实际生产中一般使用较多。这些 API 为数据处理提供了通用的构建模块,比如由用户定义的多种形式的转换(transformations)、连接(joins)、聚合(aggregations)、窗口(windows)操作等。
- Table API 是以表为中心的声明式编程,其中表在表达流数据时会动态变化。 Table API 遵循关系模型:表有二维数据结构(schema)(类似于关系数据库中的表),同时 API 提供可比较的操作,例如 select、join、group-by、aggregate 等。
- Flink 提供的最高层级的抽象是 SQL。这一层抽象在语法与表达能力上与 Table API 类似,但是是以 SQL 查询表达式的形式表现程序。SQL 抽象与 Table API 交互密切,同时 SQL 查询可以直接在 Table API 定义的表上执行。
二、ProcessFunction 介绍
- 相较于 map、filter 和 window 等特定的具体的操作而言,Flink 在底层 API 中提炼出一个统一通用的 process 操作,它是所有转换算子的一个概括性的表达,可以在对应的接口中自定义处理逻辑,而这一层接口就被叫作“处理函数”(ProcessFunction)
- 处理函数 (ProcessFunction) 提供了一个“定时服务”(TimerService),可以通过它访问流中的事件(event )、时间戳(timestamp )、水位线(watermark),甚至可以注册“定时事件”
- 处理函数 (ProcessFunction) 继承了 AbstractRichFunction 抽象类,所以拥有富函数类的所有特性,同样可以访问状态(state)和其他运行时信息
- 处理函数 (ProcessFunction) 可以直接将数据输出到侧输出流(side output)中
- 所以,处理函数 (ProcessFunction) 是最为灵活的处理方法,可以实现各种自定义的业务逻辑;同时也是整个 DataStream API 的底层基础
三、常见的 ProcessFunction 类
- ProcessFunction:最基本的处理函数,基于 DataStream 直接调用
process()
时作为参数传入 - KeyedProcessFunction:对流按键分区后的处理函数,基于 KeyedStream 调用
process()
时作为参数传入 - CoProcessFunction:合并(connect)两条流之后的处理函数,基于 ConnectedStreams 调用
process()
时作为参数传入 - ProcessJoinFunction:间隔连接(interval join)两条流之后的处理函数,基于 IntervalJoined 调用
process()
时作为参数传入 - BroadcastProcessFunction:广播连接流处理函数,基于 BroadcastConnectedStream 调用
process()
时作为参数传入。“广播连接流” BroadcastConnectedStream,是一个未 keyBy 的普通 DataStream 与一个广播流(BroadcastStream)做连接(conncet)之后的产物 - KeyedBroadcastProcessFunction:按键分区的广播连接流处理函数,基于 BroadcastConnectedStream 调用
process()
时作为参数传入。与 BroadcastProcessFunction 不同的是,这时的广播连接流, 是一个 KeyedStream 与广播流(BroadcastStream)做连接之后的产物 - ProcessWindowFunction:KeyedStream 开窗之后的处理函数,也是全窗口函数的代表。基于 WindowedStream 调用
process()
时作为参数传入 - ProcessAllWindowFunction:DataStream 开窗之后的处理函数,基于 AllWindowedStream 调用
process()
时作为参数传入
四、ProcessFunction API 实战
1. KeyedProcessFunction
1.1 解析
public abstract class KeyedProcessFunction<K, I, O> extends AbstractRichFunction {
//1.两个核心方法:
//1.1 流中的每一个元素都会调用这个方法,调用结果将会放在 Collector 数据类型中输出。Context 可以访问元素的时间戳,元素的 key,以及 TimerService 时间服务。Context 还可以将结果输出到别的流(side outputs)
public abstract void processElement(I value, Context ctx, Collector<O> out);
//1.2 一个回调函数。当processElement中注册的定时器触发时调用。参数 timestamp 为定时器所设定的触发的时间戳。Collector 为输出结果的集合。OnTimerContext 和 processElement 的 Context 参数一样,提供了上下文的一些信息,例如定时器触发的时间信息(事件时间或者处理时间)
public abstract void onTimer(long timestamp, OnTimerContext ctx, Collector<O> out);
//2.富函数的以下方法:open()/close()/getRuntimeContext()
}
1.2 ProcessFunction 的 Context
//Context的常用方法
context.timestamp(); //获取当前数据的时间戳
context.getCurrentKey(); //获取当前数据的 key
context.output(OutputTag<X> outputTag, X value); //输出侧输出流
context.timerService(); //获取 TimerService 对象
1.3 Timer 和 TimerService
ProcessFunction 的 Context 对象调用 timerService() 方法可以直接返回一个 TimerService 对象;定时器 Timer 只能在 KeyedStream 上面使用
//TimerService 是 Flink 关于时间和定时器的基础服务接口,包含以下六个方法:
//获取当前的处理时间
long currentProcessingTime();
//获取当前的水位线(事件时间)
long currentWatermark();
//注册处理时间定时器,当处理时间超过 time 时触发
void registerProcessingTimeTimer(long time);
//注册事件时间定时器,当水位线超过 time 时触发
void registerEventTimeTimer(long time);
//删除触发时间为 time 的处理时间定时器
void deleteProcessingTimeTimer(long time);
//删除触发时间为 time 的处理时间定时器
void deleteEventTimeTimer(long time);
1.4 案例
需求:监控温度传感器的温度值,如果温度值在 10 秒钟之内 (processing time) 连续上升,则报警
public class ProcessFunctionCase {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
DataStream<String> inputStream = env.socketTextStream("localhost", 7777);
DataStream<SensorReading> dataStream = inputStream.map(line -> {
String[] fields = line.split(",");
return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
});
dataStream.keyBy("id").process(new TempContIncreWarning(10)).print();
env.execute();
}
//自定义处理函数,用于监测一段时间内某个传感器温度值是否连续上升,输出报警信息
public static class TempContIncreWarning extends KeyedProcessFunction<Tuple, SensorReading, String> {
//定义私有属性:监测的时间间隔
private Integer interval;
public TempContIncreWarning(Integer interval) {
this.interval = interval;
}
//定义两个值状态属性,分别保存上一次的温度值和定时器的时间戳
private ValueState<Double> lastTempState;
private ValueState<Long> timerTsState;
@Override
public void open(Configuration parameters) throws Exception {
lastTempState = getRuntimeContext().getState(new ValueStateDescriptor<Double>("last-temp", Double.class));
timerTsState = getRuntimeContext().getState(new ValueStateDescriptor<Long>("timer-ts", Long.class));
}
@Override
public void processElement(SensorReading value, Context ctx, Collector<String> out) throws Exception {
//获取状态值
Double lastTemp = lastTempState.value();
Long timerTs = timerTsState.value();
//如果上一次的温度值为null或者上一次的温度值小于当前温度值并且定时器为null则注册定时器
if(lastTemp == null || (lastTemp != null && value.getTemperature() > lastTemp && timerTs == null)) {
Long ts = ctx.timerService().currentProcessingTime() + interval * 1000L;
ctx.timerService().registerProcessingTimeTimer(ts);
timerTsState.update(ts);
} else if(value.getTemperature() < lastTemp && timerTs != null) {//如果上一次的温度值大于当前温度值且定时器不为null则删除定时器,清空定时器值状态
ctx.timerService().deleteProcessingTimeTimer(timerTs);
timerTsState.clear();
}
//更新温度值状态
lastTempState.update(value.getTemperature());
}
@Override
public void onTimer(long timestamp, OnTimerContext ctx, Collector<String> out) throws Exception {
//定时器触发则输出报警信息
out.collect("传感器" + ctx.getCurrentKey().getField(0) + "的温度在" + interval + "s内连续上升");
timerTsState.clear();
}
@Override
public void close() throws Exception {
lastTempState.clear();
}
}
}
2. 侧输出流
监控传感器温度值,将温度值低于 30 度的数据输出到 side output
/**
核心方法:ProcessFunction中的 Context 对象的 output(OutputTag<X> outputTag, X value)
*/
public class SideOutputCase {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.setParallelism(1);
DataStream<String> inputStream = env.socketTextStream("localhost", 7777);
DataStream<SensorReading> dataStream = inputStream.map(line -> {
String[] fields = line.split(",");
return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
});
//定义OutputTag,用来标记侧输出流的低温流
OutputTag<SensorReading> lowTempTag = new OutputTag<SensorReading>("lowTemp"){};
//DataStream不做keyBy,使用ProcessFunction的侧输出流进行高低温分流
SingleOutputStreamOperator<SensorReading> highTempStream = dataStream.process(new ProcessFunction<SensorReading, SensorReading>(){
@Override
public void processElement(SensorReading value, Context ctx, Collector<SensorReading> out) throws Exception {
if(value.getTemperature() > 30) {//高温流,输出到主流
out.collect(value);
} else {//低温流,输出到侧输出流
ctx.output(lowTempTag, value);
}
}
});
//高温流
highTempStream.print("high-temp");
//低温流
highTempStream.getSideOutput(lowTempTag).print("low-temp");
env.execute();
}
}