Flink 系列二 Flink 状态化流处理概述

在这里插入图片描述
本篇作为Flink系列的第二篇,第一篇是环境准备,需要的同学可以看:https://blog.csdn.net/lly576403061/article/details/130358449?spm=1001.2014.3001.5501。希望可以通过系统的学习巩固该方面的知识,丰富自己的技能树。废话不多说咱们开始吧。

1、传统数据处理架构

在我们的日常生活中数据和数据处理无处不在,随着数据的采集和使用量的不断增加,设计并构建了各种架构来管理数据,传统的数据处理架构分为两类:事务性处理架构和分析型处理架构。

1.1、事务型处理架构

咱们在平时开发的各类应用都属于事务性处理架构。例如:客户管理系统(CRM)、任务系统(ZEUS)、订单系统(SHUTTLE-ORDER)以及所有的基于Web的应用等。
在这里插入图片描述上图就是一个将数据存储在远程关系型数据库内的传统事务型应用的设计。传统的事务型机构有以几个特点。

  1. 连接的实际用户或者外部的服务。
  2. 持续接受来自外部(用户或者系统)的请求并实时处理返回数据,期间处理每个请求的时候基本上都会通过执行远程数据库的事务来进行CRUD。
  3. 很多时候都是共享同一个DB和同一个table。
    以上系统设计有个弊端就是在需要更新或者扩缩容是会导致一些问题,所以就出现微服务,通过将复杂庞大紧耦合的服务进行优化,分化出很多独立、微型、独立的应用,各个服务之间通过标准化接口进行通行。

1.2、分析型处理架构

存储于不同数据库的数据为可以为我们的业务分析做好数据准备,但是由于事务型的数据库都是相互隔离的,我们不会在事务型的数据库上进行数据查询,所以想要将这些数据进行统一分析要做的就是将不同的DB的数据转换为某种通用的形式。这就出现了分析型数据处理架构(数据仓库)。
为了将分散的数据填充到数据仓库我们要将事务型数据库中的数据copy过去,这个过程分为三步:提取-转换-加载(ETL)。整个过程比较复杂和性能挑战,为了保证数据同步需要进行周期型的同步数据。
在这里插入图片描述
上图就是一个分析型数据仓库架构,分析型数据仓库可以提供两大类的查询。

  1. 定期类的报告查询:将业务数据进行周期型的分析计算,统计重要指标,为企业健康状态提供评估依据。(收入、产出、用户增长、订单量等等)
  2. 即溪查询:提供较为实时的数据基础辅助关键性的商业决策。(广告投入、获客、转换等等)目前ApacheHaDoop生态组建已经为我们提供了强大而且丰富的存储查询引擎,我们的海量的日志文件、社交媒体、点击等等数据不再使用传统的关系型数据库存储而是是用HaDoop分布式文件系统(HDFS)、S3、Apache Hbase等大容量存储系统中,并且他们还提供了丰富的基于HaDoop的SQL引擎(Apache Hive、Apache Dirll)进行查询和处理。

2、状态化流处理架构

我们都知道现实生活中的数据都是不间断的产生的,在处理事件流的过程中我们要支持多条记录的转换并且能够存储和访问中间结果,并且在进行数据分析的时候有时候业务需要的是比较实事的分析结果,在海量的事件处理中,传统的事物型数据架构和ETL架构就难以支撑。基于以上的各方面就设计出现了有状态的流处理架构。有状态的流处理架构(Flink)可以接收大量的请求并且天生支持并行计算,具有高吞吐,低延迟特性,并且将计算的中间结果存储到本地或者存储到远程存储,Flink还会定期进行检查点(CheckPoint)写入到持久化存储,在进行故障恢复的时候根据检查点进行恢复。
在这里插入图片描述

3、Flink的主要特点

3.1、事件驱动

事件驱动其实是借鉴于传统的事务型架构,接收事件请求(可以是实时触发的操作或者事件日志Kafka、redis等等存储介质),并且存储中间状态到本地或者远程存储,最后将计算结果返回可以出发操作或者写入到相关的存储介质中(Mysql、Redis、Kafka等等)供消费方使用。

3.2、基于流的世界观

在Flink的世界中都是流,分为有界流和无界流。无界流:定义了开始,但是没有定义终点,所以没有办法获得所有的事件,这就要求无界流需要实时进行处理,通常情况下无界流需要根据某种特定的顺序处理以便获得准确的结果(比如事件时间)。无界流就是定义了开始和终点的流,因为能够获得所有的事件所以不需要定义特定的顺序。
在这里插入图片描述

3.3、分层API

Flink提供了三层API。每个API在简洁性和表达性之间提供不同的权衡。越顶层越抽象,表达的含义越简洁,使用越方便。越底层越具体,表达能力越丰富,使用越灵活。
在这里插入图片描述

这里我们采用的是DataStream API进行系统的学习,下面是一个简介的Flink的执行框架
1、定义了Flink的执行环境。
2、从数据源获取数据。
3、进行转换计算。
4、输出到控制台。

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.util.Collector;

public class SocketTextStreamWordCount {
    public static void main(String[] args) throws Exception {
        //参数检查
        if (args.length != 2) {
            System.err.println("USAGE:\nSocketTextStreamWordCount <hostname> <port>");
            return;
        }

        String hostname = args[0];
        Integer port = Integer.parseInt(args[1]);


        // set up the streaming execution environment
        final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

        //获取数据
        DataStreamSource<String> stream = env.socketTextStream(hostname, port);

        //计数
        SingleOutputStreamOperator<Tuple2<String, Integer>> sum = stream.flatMap(new LineSplitter())
                .keyBy(0)
                .sum(1);

        sum.print();

        env.execute("Java WordCount from SocketTextStream Example");
    }

    public static final class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        public void flatMap(String s, Collector<Tuple2<String, Integer>> collector) {
            String[] tokens = s.toLowerCase().split("\\W+");

            for (String token : tokens) {
                if (token.length() > 0) {
                    collector.collect(new Tuple2<String, Integer>(token, 1));
                }
            }
        }
    }
}

3.4、时间语义

Flink的支持以下三种时间语义,默认情况下使用的处理时间。

@PublicEvolving
public enum TimeCharacteristic {
   ProcessingTime,
   
   IngestionTime,

   EventTime
}
  1. 事件时间:根据事件的时间戳处理流数据,事件时间配合水位线能够针对无序的事件提供一致、精确的计算结果。
  2. 处理时间:处理时间是具体的算子接收到事件的时间,使用处理时间的应用程序一定是要求延迟比较低的数据流。
  3. 摄取时间:摄入时间是时间进入到Flink 的时间,一般情况下不会使用该时间进行计算。

3.5、精确一次处理

exactly-once精确一次的状态保障:Flink的检查点和恢复算法可确保发生故障时应用程序状态的一致性。
因此,可以透明地处理故障,并且不会影响应用程序的正确性。

3.6、众多存储系统连接

Flink可以连接众多的存储介质。常见的Source和Sink包括:Apache Kafka 、Mysql、Redis、ES 、S3、HDFS等等。

3.7、其他特点

1、支持高可用配置:K8s、Yarn等等集群部署。
2、低延迟,每秒可处理百万级别的事件,毫秒级的延迟。
3、同事也支持批处理,具有成熟的API( DataSet API)。
4、支持窗口操作,为无限的数据流处理提供了成熟的计算机制。

总结

Apache Flink 是一个分布式流处理引擎,它提供了直观且极富表达力的 API 来实现有状态的流处理应用,并且支持在容错的前提下高效、大规模地运行此类应用。本篇通过Flink状态化流处理的各种概念的介绍,大家从整体上了解了相关概念和特点,下一篇咱们进行实践,从实际操作来看看Flink的运行机制,敬请期待!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/28564.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jmeter模拟多用户并发

目录 前言&#xff1a; 一、100个真实的用户 二、100个用户同时登录 前言&#xff1a; JMeter可以轻松地模拟多用户并发&#xff0c;从而测试Web应用程序的性能和稳定性。 一、100个真实的用户 1、一个账号模拟100虚拟用户同时登录和100账号同时登录 区别 &#xff08;…

运维圣经:Webshell应急响应指南

目录 Webshell简介 Webshell检测手段 Webshell应急响应指南 一. Webshell排查 二. 确定入侵时间 三. Web日志分析 四. 漏洞分析 五. 漏洞复现 六. 清除Webshell并修复漏洞 七. Webshell防御方法 Webshell简介 Webshell通常指以JSP、ASP、 PHP等网页脚本文件形式存在…

Webstorm 加载vue项目时,特别卡顿,完美解决。觉得有用加好友打赏

觉得有用加好友打赏&#xff1a;QQ&#xff1a;854138497 上图cpu直接干满。 根据上图提示&#xff0c;直接 disable hints&#xff0c;或者到下图的settings里面设置。 Code vision取消后&#xff0c;webstorm 明显就不卡了。记得重启webstorm。 还有一种方式&#xff0c;根…

组合模式(十二)

请相信自己&#xff0c;请再次相信自己&#xff0c;请一定要相信自己 上一章简单介绍了装饰者模式(十一), 如果没有看过, 请观看上一章 一. 组合模式 引用 菜鸟教程里面的 组合 模式介绍: https://www.runoob.com/design-pattern/composite-pattern.html 组合模式&#xff0…

2. CompletableFuture

2.1 Future接口理论知识复习 Future接口&#xff08;FutureTask实现类&#xff09;定义了操作异步任务执行一些方法&#xff0c;如获取异步任务的执行结果、取消异步任务的执行、判断任务是否被取消、判断任务执行是否完毕等。 举例&#xff1a;比如主线程让一个子线程去执行任…

电脑小白不要错过这五款小众但强大的软件

电脑上的各类软件有很多&#xff0c;除了那些常见的大众化软件&#xff0c;还有很多不为人知的小众软件&#xff0c;专注于实用功能&#xff0c;简洁干净、功能强悍。 多语言翻译——QTranslate QTranslate是一款实用的多语言翻译工具。它可以在任何应用程序中选中文本&#…

c++学习之多态

目录 1&#xff0c;什么是多态&#xff1f; 2&#xff0c;什么是虚函数&#xff1f; 1.如何实现父类对各个派生子类的操作&#xff1f; 2&#xff0c;父类指针保存子类空间产生的问题。 3&#xff0c;虚函数的定义 4&#xff0c;虚函数的动态绑定机制 5&#xff0c;重载&…

ESXI 环境搭建和配置

ESXI 环境搭建和配置 ESXI简介 ESXi专为运行虚拟机、最大限度降低配置要求和简化部署而设计。只需几分钟时间&#xff0c;客户便可完成从安装到运行虚拟机的全过程&#xff0c;特别是在下载并安装预配置虚拟设备的时候。 在VMware Virtual Appliance Marketplace 上有800多款…

FPC的发展及应用,软板行业未来将持续增长

FPC系列文章目录 1.什么是FPC 2.什么是R-FPC 3&#xff0c;FPC的基材 4.FPC基材压延铜和电解铜的区别 5&#xff0c;FPC的辅材 6&#xff0c;FPC常见的四种类型 7&#xff0c;FPC的生产流程简介 8&#xff0c;R-FPC的生产流程简介 9&#xff0c;FPC的发展及应用 提示&…

咖啡店小程序开发 让烟火小店更有生机

随着人们生活水平的提高和生活压力的增大&#xff0c;很多人都靠喝咖啡来缓解疲劳和压力&#xff0c;也为我们的生活增添了一丝情趣&#xff0c;但高峰时期排队购买一杯咖啡很浪费时间&#xff0c;很多赶时间的上班族不得不放弃。随着互联网技术深入到各行各业&#xff0c;传统…

【word wps文字】目录页码中的格式在打印或打印预览时变为和正文页码格式一样,如何调整?

一、问题背景 之前在闲鱼上&#xff0c;有个人找我改word排版&#xff0c;有一个需求就是正文页码两边需要横杠。 但是目录中显示的页码&#xff0c;不需要横杠。 我当时是一个一个在目录中删除横杠的&#xff0c;借助了查找与替换功能。 更改后&#xff0c;目录页码如下所…

Vscode 配置 wxWidgets 调试配置

在 .vscode 下创建 launch.json 加入以下内容 {// 使用 IntelliSense 了解相关属性。 // 悬停以查看现有属性的描述。// 欲了解更多信息&#xff0c;请访问: https://go.microsoft.com/fwlink/?linkid830387"version": "0.2.0","configurations&qu…

snmp默认团体名/弱口令漏洞及安全加固

一、漏洞描述 SNMP&#xff08;简单网络管理协议&#xff09;被广泛用于计算机操作系统设备、网络设备等领域监测连接到网络上的设备是否有任何引起管理上关注的情况。在运行SNMP服务的设备上&#xff0c;若管理员配置不当运行默认团体名/弱口令访问,将导致敏感信息泄露。敏感…

视频点播系统

服务端功能模块划分 数据管理模块&#xff1a;负责针对客户端上传的视频信息进行管理。 网络通信模块&#xff1a;搭建网络通信服务器&#xff0c;实现与客户端通信。 业务处理模块&#xff1a;针对客户端的各个请求进行对应业务处理并响应结果。 前端界面模块&#xff1a;…

RabbitMQ 安装

目录 一、安装RabbitMQ1、Linux 安装⑴、官网rpm包安装①、下载rpm安装包官网下载erlangrabbitmq packagecloud下载erlangrabbitmq ②、安装 erlang③、安装rabbitmq ⑵、packagecloud快速安装⑶、添加用户账号及权限并登陆⑷、卸载erlang与rabbitmq卸载rabbitmq卸载erlang 2、…

手把手教你实战TDD | 京东云技术团队

1. 前言 领域驱动设计&#xff0c;测试驱动开发。 我们在《手把手教你落地DDD》一文中介绍了领域驱动设计&#xff08;DDD&#xff09;的落地实战&#xff0c;本文将对测试驱动开发&#xff08;TDD&#xff09;进行探讨&#xff0c;主要内容有&#xff1a;TDD基本理解、TDD常…

了解D-Galactopyranose pentaacetate,CAS号25878-60-8的性质和应用

​ 中文名称&#xff1a;1,2,3,4,6-D-葡萄糖五乙酸酯 英文名称&#xff1a;D-Galactopyranose pentaacetate 规格标准&#xff1a;1g、5g、10g CAS&#xff1a;25878-60-8 分子式&#xff1a;C16H22O11 分子量&#xff1a;390.34 熔点&#xff1a;113C 沸点&#xff1a;451C 密…

MATLAB文化算法

目录 文化算法 主要代码 Sphere AdjustCulture 结果 文化算法 基本概念&#xff1a;优化算法 | 详解文化算法&#xff08;附MATLAB代码&#xff09; - 知乎 不同于遗传算法只有种群进化空间&#xff0c;文化算法包含信念空间、种群空间两个进化空间&#xff0c;因此&#…

ceph分布式存储实战

ceph分布式存储实战 分布式存储系统简介 性能与优势对比 虚拟机安装ceph集群 ceph存储系统简介 分布式存储概述 ceph基础 高可用ceph分布式存储系统部署 部署ceph集群 节点管理 ceph使用基础及数据存储案例 PG状态、数据读写流程及存储池操作 mon服务器的高可用: # apt in…

KaiwuDB 受邀亮相 IOTE 2023 第十九届国际物联网展

5月17日&#xff0c;IOTE 2023 第十九届国际物联网展在上海拉开序幕&#xff0c;全球超过 350 家参展企业到场展示先进的物联网技术和产品&#xff0c;行业专家、领军企业代表等人物齐聚一堂&#xff0c;共话 IoT 未来趋势。KaiwuDB 受邀亮相参展并就《工业物联网产业数字化转型…