Flink SQL -- 反压

1、测试反压:
        1、反压:

指的是下游消费数据的速度比上游产生数据的速度要小时会出现反压,下游导致上游的Task反压。

        2、测试反压:使用的是DataGen
CREATE TABLE words (
    word STRING
) WITH (
    'connector' = 'datagen',
    'rows-per-second'='100000', -- 每秒随机生成的数据量
    'fields.word.length'='4'
);

CREATE TABLE blackhole_table (
    wprd STRING,
    num BIGINT
) WITH (
  'connector' = 'blackhole'
);

insert into blackhole_table
select 
word,
count(1) as num from 
words /*+ OPTIONS('rows-per-second'='1000000','fields.word.length'='5') */
group by word;
2、解决反压:
        1、增加资源:
--1、增加并行度,一个并行度对应一个slot
SET 'parallelism.default' = '2';

--2、增加内存
-- 如果状态太大,内存放不下导致的反压可以通过增加内存解决
-- -tm : taskmanager的内存
-- -jm : jobmanager的内存
yarn-session.sh -tm 4G -d
        2、微批处理和预聚合:

1、MiniBatch 聚合的核心思想是将一组输入的数据缓存在聚合算子内部的缓冲区中。当输入的数据被触发处理时,每个 key 只需一个操作即可访问状态。这样可以大大减少状态开销并获得更好的吞吐量。但是,这可能会增加一些延迟,因为它会缓冲一些记录而不是立即处理它们。这是吞吐量和延迟之间的权衡。

2、预聚合:

数据流中的记录可能会倾斜,因此某些聚合算子的实例必须比其他实例处理更多的记录,这会产生热点问题。本地聚合可以将一定数量具有相同 key 的输入数据累加到单个累加器中。全局聚合将仅接收 reduce 后的累加器,而不是大量的原始输入数据。这可以大大减少网络 shuffle 和状态访问的成本。每次本地聚合累积的输入数据量基于 mini-batch 间隔。这意味着 local-global 聚合依赖于启用了 mini-batch 优化。

3、开启微批处理和预聚合,可以减少shuffle过程中传输的数据量,减轻下游算子计算的压力 

-- 开启微批处理
set 'table.exec.mini-batch.enabled'='true';

-- 批次的时间
set 'table.exec.mini-batch.allow-latency'='5 s';

-- 批次大小
set 'table.exec.mini-batch.size'='5000';

-- 开启预聚合
set 'table.optimizer.agg-phase-strategy'='TWO_PHASE'; 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/140952.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SPSS时间序列分析:序列图

前言: 本专栏参考教材为《SPSS22.0从入门到精通》,由于软件版本原因,部分内容有所改变,为适应软件版本的变化,特此创作此专栏便于大家学习。本专栏使用软件为:SPSS25.0 本专栏所有的数据文件请点击此链接下…

智能设备管理软件有什么用?如何让工厂设备维修管理更高效?

在当今这个数字化、智能化的时代,企业的生存与发展离不开高效、有序的管理。特别是在制造业中,设备报修与维修管理是关系到企业生产效益、安全和持续发展的关键环节。今天,我们就来聊聊如何通过智能化的设备管理软件,让工厂设备的…

高版本模拟器安装burp证书

一、下载burp证书,安装openssl http://burp自己找官网安装opensslWin32/Win64 OpenSSL Installer for Windows - Shining Light Productions (slproweb.com)二、查看模拟器端口并连接 adb devices openssl x509 -inform der -in cacert.der -out burp.pem openssl…

AI工具-PPT-SlidesAI

SlidesAI 使用手册 https://tella.video/get-started-with-slidesai-tutorial-18yq 简介 SlidesAI 是一款快速创建演示文稿的AI工具,适用于无设计经验的用户。 开始使用 1. **安装与设置** - 访问 [SlidesAI官网](https://www.slidesai.io/zh)。 - 完成简单的设置…

Java事务详解

一、事务的理解: 1、事务的特性: 1) 原子性(atomicity):事务是数据库的逻辑工作单位,而且是必须是原子工作单位,对于其数据修改,要么全部执行,要么全部不执行。 2) 一致性…

不同优化器的应用

简单用用,优化器具体参考 深度学习中的优化器原理(SGD,SGDMomentum,Adagrad,RMSProp,Adam)_哔哩哔哩_bilibili 收藏版|史上最全机器学习优化器Optimizer汇总 - 知乎 (zhihu.com) import numpy as np import matplotlib.pyplot as plt import torch # …

注意力机制(Attention)、自注意力机制(Self Attention)和多头注意力(Multi-head Self Attention)机制详解

目录 参考一、Attention注意力机制原理计算过程 二、自注意力机制2.1 自注意力关键!!2.2 实现步骤1. 获取 K Q V2. MatMul3. scale softmax归一化4. MalMul 2.3 自注意力机制的缺陷 三、多头自注意力机制3.1 简介3.2 实现步骤3.3 公式 参考 感谢我的互…

介绍 Docker 的基本概念和优势,以及在应用程序开发中的实际应用

Docker是一种基于容器的虚拟化技术,它允许开发者将应用程序及其依赖项打包到一个轻量级容器中,然后在任何可用的开发、测试和生产环境中进行部署和运行。 下面是Docker的基本概念和优势: 容器:Docker容器是一种独立运行的软件包&a…

【QT】飞机大战

0 项目简介 飞机大战是我们大家所熟知的一款小游戏,本教程就是教大家如何制作一款自己的飞机大战 首先我们看一下效果图 玩家控制一架小飞机,然后自动发射子弹,如果子弹打到了飞下来的敌机,则射杀敌机,并且有爆炸的特…

C语言--假设共有鸡、兔30只,脚90只,求鸡、兔各有多少只​

一.题目描述 假设共有鸡、兔30只,脚90只,求鸡、兔各有多少只? 二.思路分析 本题是一个典型的穷举法例题,而穷举法,最重要的就是条件判断。⭐⭐ 本题中的条件很容易发现: 假设鸡有x只,兔有y只…

基于php+thinphp+vue的教材管理系统

运行环境 开发语言:PHP 数据库:MYSQL数据库 应用服务:apache服务器 使用框架:ThinkPHPvue 开发工具:VScode/Dreamweaver/PhpStorm等均可 项目简介 教材管理系统,主要的模块包括首页、个人中心、学生管理、老师管理、教材征订管理、教师教材退订管理、…

电源基础元件

文章目录 电源基础元件理想电压源理想电流源受控电源 电源基础元件 理想电压源 定义 其两端电压总能保持定值或一定的时间函数,其值与流过它的电流i无关的元件叫理想电压源 理想电压源的电压、电流关系 1.电源两端电压由电源本身决定,与外电路无关&…

【兔子王赠书第7期】机器学习与人工智能实战:基于业务场景的工程应用

文章目录 写在前面机器学习推荐图书写给读者前言本书面向的读者我为什么要写这本书运行本书的示例代码本书导航本书采用的约定使用代码示例 推荐理由粉丝福利写在后面 写在前面 新的一周开始啦,本周博主给大家带来《机器学习与人工智能实战:基于业务场景…

五分钟利用Vite创建Vue项目

1.准备工具 Vite是尤雨溪团队开发的,官方称是下一代新型前端构建工具,能够显著提升前端开发体验。 上面称是下一代,当前一代当然是我们熟悉的webpack Vite 优势 开发环境中,无需打包操作,可快速的冷启动。轻量快速…

初始MySQL(五)(自我复制数据,合并查询,外连接,MySQL约束:主键,not null,unique,foreign key)

目录 表复制 自我复制数据(蠕虫复制) 合并查询 union all(不会去重) union(会自动去重) MySQL表的外连接 左连接 右连接 MySQL的约束 主键 not null unique(唯一) foreign key(外键) 表复制 自我复制数据(蠕虫复制) #为了对某个sql语句进行效率测试,我们需要海量…

【GEE学习日记】GEE下载ERA5指定小时数据

1 背景 ERA5数据集提供了逐小时的气象产品,最近做实验需要用到指定日期的14点的气象数据,所以学习了一下。 我的目的:获取2003年每月5,15,25日 14点的空气温度 2 代码 var roi table.geometry(); // table是我上传…

【计算机网络】VRRP协议理论和配置

目录 1、VRRP虚拟路由器冗余协议 1.1、协议作用 1.2、名词解释 1.3、简介 1.4、工作原理 1.5、应用实例 2、 VRRP配置 2.1、配置命令 2.2、拓扑与配置: 1、VRRP虚拟路由器冗余协议 1.1、协议作用 虚拟路由冗余协议(Virtual Router Redundancy Protocol&am…

11.13 牛客刷题8/10

11.13 信号完整性 指针地址 的加减,注意 最后转为16进制

插件式换肤框架原理解析

作者:ak 插件换肤实现原理概述 收集到需要换肤的控件确定控件中需要换肤的属性和资源ID加载插件APK,构造AssetManager并生成插件的Resource类,就可以加载插件包中的资源执行换肤:通过ID加载插件包中的资源,然后再通过…

C# 并发编程

C# 并发编程 前言 对于现在很多编程语言来说,多线程已经得到了很好的支持, 以至于我们写多线程程序简单,但是一旦遇到并发产生的问题就会各种尝试。 因为不是明白为什么会产生并发问题,并发问题的根本原因是什么。 接下来就让…