Flink有状态计算的状态容错

状态容错 State Fault Tolerance

首先来说一说状态容错。Flink 支持有状态的计算，可以把数据流的结果一直维持在内存（或 disk）中，比如累加一个点击数，如果某一时刻计算程序挂掉了，如何保证下次重启的时候，重新恢复计算的数据可以从状态中恢复，并且每条数据只被计算了一次呢？

从数据的流入到计算流出，整个过程看成事务的话，就是如何保证整个过程具有原子性。

Flink 是怎么做的呢？只靠状态本身是远远不够的，状态只是保存了某个值，还需要保存一个计算的位置。

如果是单机的情况下，这个很好实现。

假设来自 Kafka 的数据流，经过应用逻辑的计算，生成状态保存到 state 中，这个过程是源源不断的，如图所示，为了保证state的容错性，程序会周期性的保存数据消费的位置和该时刻的状态，叫做快照，如果程序有异常需要重启的时候，就会从快照中恢复。这个过程保证了精准一次的计算，一条数据只会被计算一次。

分布式环境下没有这个简单，众所周知，任何问题到了分布式环境下，就变得复杂。

Flink 是如何做到状态分布式容错的呢？如何在不中断计算的情况下产生快照呢？

如图，Flink 会在数据流中插入 checkpoint barrier n ，他们会随着数据的流向流入下游的算子，首先记录开始的位置，然后每经过一个算子就记录该算子计算之后的状态，直至结束。

上图只一个静态图，下面我将演示整个过程。

第一步，记录数据开始计算的位置

第二步，记录各个算子的名称以及 state

以此类推到整个 DAG 的结束。（DAG 是有向无环图）

整个过程 checkpoint barrier 会同时存在多个，也就是数据流中插入的多个 checkpoint barrier ,当算子遇到它的时候，就会发生 checkpoint。

只有就会在不中断计算的情况下，生成全局一致的快照。

应用

默认情况下，检查点不被保留，只用于从失败中恢复作业。当程序取消时，它们将被删除。但是，您可以配置要保留的定期检查点。根据配置，这些保留的检查点不会在作业失败或取消时自动清除。这样，如果您的工作失败，您将有一个检查点可以从中恢复。

CheckpointConfig config = env.getCheckpointConfig();
config.enableExternalizedCheckpoints(ExternalizedCheckpointCleanup.RETAIN_ON_CANCELLATION);

配置 checkpoint 目录

state.checkpoints.dir: hdfs:///checkpoints/

或者给每个 job 配置目录：

env.setStateBackend(new RocksDBStateBackend("hdfs:///checkpoints-data/"));

虽然检查点可以用来容错，但是一般我们不用检查点来恢复程序，如果修改了任务的逻辑或其他原因导致程序需要重启，那就需要用到 savepoint 。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/21888.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

Flink有状态计算的状态容错

状态容错 State Fault Tolerance

应用

相关文章

一文了解customRef 自定义ref使用

5.2 标准IO：文件的打开、关闭及代码实现

历经70+场面试，我发现了大厂面试的套路都是···

Kali-linux使用社会工程学工具包（SET）

HNU-计算机系统-Challenge

项目管理：有效的沟通对项目的成功至关重要

Java多线程异常处理

LOTO示波器如何测试阻抗的频响曲线

ChatGPT 聊天接口API 使用

从供应链协同角度挖掘数字化应用场景

为什么我们应该选择Renderbus瑞云渲染进行 EEVEE 渲染？

openldap介绍以及使用

【Linux】进程信号“疑问？坤叫算信号吗？“

统计一个数的二进制中1的个数（三种方法）

VTKmimics Calculate Parts

宝塔面板快速搭建贪吃蛇小游戏web网站 - 无需云服务器，网站发布上线

RoyalScope-总线工作状况和信号质量“体检”

Vue3-黑马（十四）

ARM学习笔记_2 模式，寄存器，流水线

GPT-2（Transformer Decoder）的TensorFlow实现（附源码）