kafka笔记

      • 消息队列 场景
      • 模式
      • 基础架构
      • 发送原理
        • 异步发送
        • 同步发送
      • 分区
      • 生产者提高吞吐量:
      • 数据可靠性
        • ack应答
      • 数据重复
        • 幂等性
        • 事务
      • 数据有序
        • 数据乱序
      • broker工作流程
        • follower故障
        • leader故障
      • 数据查找
      • 文件清除
      • 高效读写
      • 消费者流程
        • 消费者组初始化
          • 分区分配策略
        • 自动提交offset
        • 手动提交
        • 指定位置消费
        • 数据积压(消费者提高吞吐量)

Kafka:数据管道、流分析、数据集成和关键任务应用。存储、计算、分析、集成

消息队列 场景

缓存/消峰:数据量过大时,消息队列缓存数据,服务端缓慢读取

解耦:数据源、目的地不同,符合接口约束即可
在这里插入图片描述
异步通信:无所谓的工作,由其他从kafka中读取完成

模式

  • 点对点:一对一,消费者读取后删除
  • 发布订阅模式(设计模式):多对多,消费者相互独立,消费后不删除,其他消费者可以读到数据。多个topic主题

基础架构

  • 海量数据,为提高吞吐量分区,一个topic分为多个partition。一个分区的数据只能由一个消费者来消费
  • 为提高可用性,为每个partition增加若干副本,partition为leader,副本为follower,生产和消费只针对leader,leader挂掉后follower推举产生新的leader
  • 分区信息, leader和follower信息由zk存储,新版本可以不使用zk存储
  • Consumer Group(CG):消费者组,由多个consumer组成。消费者组内每个消
    费者负责消费不同分区的数据,一个分区只能由一个组内消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。

发送原理

在这里插入图片描述
序列化器:客户指定,java自带的过重
分区器:分区器在内存中,大小32m,实际上为一个缓存队列,包含多个双端队列。一个分区一个队列,将数据发送到对应的队列中(一个数据发往多个队列)。分区器中还包含一个内存池,每一批次数据从内存池取内存插入队列,发送成功后删除数据,内存释放回内存池
sender:从分区器中读取数据发到kafka,队列中累积16k数据为一组读取发送。如果未达到16k,在达到linger.ms时间也读取发送。每个分区一个队列,读取对应分区队列的数据发送到对应分区(leader和follower)。如果分区未应答,可继续发送,最多可发送五组数据,如果仍未应答则不再发送。分区应答,回复成功,则清除sender发送的数据以及分区器队列中的数据,失败则重试(次数不限)。
异步发送:将外部数据发送到分区器中(同步发送,等上一批数据已发送到kafka集群中再继续发送)

异步发送

// 1.创建kafka生产者的配置对象
Properties properties = new Properties();

// 2.给kafka配置对象添加配置信息
properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
// key,value序列化(必须):key.serializer,value.serializerproperties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
StringSerializer.class.getName());
properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class.getName());

// 3.创建kafka生产者对象
KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

// 4.调用send方法,发送消息
for (int i = 0; i <5; i++) {
	//添加回调
	kafkaProducer.send(new ProducerRecord<>("first", "atguigu" + i),new Callback(){
		//该方法在Producer收到ack时调用,为异步调用
		@Override
		public void onCompletion(RecordMetadata metadata, Exception exception) {
			if (exception == null) {
				//没有异常,输出信息到控制台
				System.out.println("主题:" +
				metadata.topic()+ "->"  + "分区:" +metadata.partition());
			} else {
				//出现异常打印
				exception.printStackTrace();
			}
		}
	});
	//延迟一会会看到数据发往不同分区
	Thread.sleep(2);
}

// 5.关闭资源
kafkaProducer.close();

同步发送

// 1.创建kafka生产者的配置对象
Properties properties = new Properties();

// 2.给kafka配置对象添加配置信息
properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "hadoop102:9092");
// key,value序列化(必须):key.serializer,value.serializerproperties.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG,
StringSerializer.class.getName());
properties.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG,StringSerializer.class.getName());

// 3.创建kafka生产者对象
KafkaProducer<String, String> kafkaProducer = new KafkaProducer<String, String>(properties);

// 4.调用send方法,发送消息
for (int i = 0; i <5; i++) {
	//异步发送默认
//            kafkaProducer.send(newProducerRecord<>("first","kafka" + i));
	//同步发送
	kafkaProducer.send(new ProducerRecord<>("first","kafka" + i)).get();
}

// 5.关闭资源
kafkaProducer.close();

分区

  • 便于合理使用存储资源,数据存储在多台Broker上。合理控制分区的任务,可以实现负载均衡的效果。
  • 提高并行度,生产者可以以分区为单位发送数据;消费者可以以分区为单位进行消费数据。

有指定分区,按指定分区,没有制定分区按key,没有制定分区没有key,随机一个一直使用直到已满或已完成,再随机一个(必须和上一个随机的不同)

可自定义分区器:实现Partitioner接口

生产者提高吞吐量:

batch.size:批次大小,默认16k
linger.ms:等待时间,修改为5-100ms
compression.type:压缩snappy
RecordAccumulator:缓冲区大小,修改为64m

数据可靠性

ack应答

  • 0:生产者发送过来的数据,不需要等数据落盘应答。效率最高。如果服务端挂掉则数据丢失(此时数据在内存中,或未收到),不安全
  • 1:生产者发送过来的数据,Leader收到数据后应答。应答后,leader数据还未与follower同步就挂掉,则数据丢失
  • -1(all):生产者发送过来的数据,Leader+follower(ISR队列)收齐数据后应答。数据可靠,若一个follower挂掉则无法收齐。
    ISR队列:和Leader保持同步的Leader+follower,follower一段时间内未与leader同步数据或通信则认为follower挂掉,踢出ISR队列。
    若分区副本数为1,或ISR应答最小副本数量=1,当follower挂了,则与ack=1情况相同
    数据完全可靠条件:ack=-1+分区副本数>=2+ISR应答最小副本数量>=2
    数据重复(ack=-1)
    leader+部分follower获得数据,未收齐时leader挂掉,没有回复ack,则重新选举leader,重发数据,follower可能获得一个已获得的数据。

数据重复

最多收一次:ack=0
最少收一次:ack=-1
精确一次:

幂等性

幂等性就是指Producer不论向Broker发送多少次重复数据,Broker端都只会持久化一条,保证了不重复。
精确一次(ExactlyOnce)=幂等性+至少一次(ack=-1+分区副本数>=2+ISR最小副本数量>=2)。
重复数据的判断标准:具有<PID,Partition,SeqNumber>相同主键的消息提交时,Broker只会持久化一条。
其中PID是生产者id,kafka每重启一次,产生一个新的id;Partition表示分区号;SequenceNumber是单调自增的。
所以幂等性只能保证的是在单分区单会话内不重复。
如果重复,不会在磁盘中落盘,在内存中删掉

事务

在这里插入图片描述

数据有序

保证单分区内有序
可以完成多分区内有序:多个分区统一读取,排序,效率低。不如只用一个topic

数据乱序

生产者最多可接受kafka五个数据包没有应答
eg:①②正常发送,③失败,④正常,③重发

方案:
(1)未开启幂等性
max.in.flight.requests.per.connection需要设置为1。
(2)开启幂等性
max.in.flight.requests.per.connection需要设置小于等于5。
原因说明:因为在kafka1.x以后,启用幂等后,kafka服务端会缓存producer发来的最近5个request的元数据,故无论如何,都可以保证最近5个request的数据都是有序的。

①②有序,正常落盘,应到③,实际收到④,则内存中缓存④,直到收到③

broker工作流程

offset存于kafka 的topic中
broker启动向zk注册,zk存储broker、leader相关信息
zk选举leader 按照AR中的顺序,要求ISR中存活的
follower主动拉取数据,与leader同步
在这里插入图片描述
数据以log形式存放,实际分为多个segment,为segment建立索引,便于查找

follower故障

LEO(Log End Offset):每个副本的最后一个offset,LEO其实就是最新的offset + 1。
HW(High Watermark):所有副本中最小的LEO。

消费者能见到的最大的offset = HW-1
在这里插入图片描述

leader故障

从ISR中选出一个新的Leader
为保证多个副本之间的数据一致性,其余的Follower会先将各自的log文件高于HW的部分截掉,然后从新的Leader同步数据。
只保证副本之间的数据一致性,并不能保证数据不丢失或者不重复。

数据查找

分区数据以log形式存储,log分片为segment,对segment建索引
数据在末尾插入到log中
index为稀疏索引,4kb数据一条索引

index文件名中有offset
根据文件名,判断使用哪个index文件
index文件名中的offset+index存储的相对offset 选择适当的log文件
根据log文件查找位置

文件清除

delete:以segment中最后文件的时间为时间戳,计算过期时间
数据过大,超出最大范围,则删除最早的segment
compact压缩:
同一个key只留最新的value,其余删掉

高效读写

  • 分布式
  • 稀疏索引,快速定位
  • 顺序写磁盘
  • 页缓存+零拷贝:不对数据进行处理,不走应用层,所以零拷贝(linux提供),效率更高。数据到kafka存储于页缓存,然后存于内存/落盘
  • 16kb一个包,传输次数减少

消费者流程

消费者消费的offset,存于kafka集群,topic相关位置。如果存在zk,会导致客户端和zk频繁通信

一个消费者可以消费多个分区
一份分区只能由消费者组内的一个消费者消费
组内每个消费者负责消费不同分区

消费者组初始化

根据groupid 选择分区,所有消费者与分区的coordinator通信,coordinator选择一个消费者做leader,将相关信息反馈给消费者leader,leader制定合适的消费计划把方案发给coordinator,coordinator发给所有消费者。如果消费者挂掉或者消费时间过长,则将其消费工作Rebalance,分配给其他消费者

消费一次,1k-50m数据/一定时间内的数据为一条,一次五百条

分区分配策略

range:一个topic的全部分区按分区号排序,平均分给所有消费者,除不尽的给最前面的几个消费者。
数据倾斜:最前面的几个消费者获取更多数据,如果多个topic,则前面几个消费者总能获得更多数据,压力大
RoundRobin:所有Topic所有的partition按照hashcode排序,轮询分配partition给到各个消费者。
Sticky:全部分区乱序,其他约等于range

自动提交offset

每隔五秒,自动提交
重复消费:已消费,未提交,消费者挂了,则重启后,从旧offset处消费

手动提交

同步/异步提交:消费数据&提交offset
漏消费:已消费,offset已提交,数据未落盘,消费者挂了,则数据丢失。重启后从offset位置向后消费

避免数据重复/丢失:生产端,消费者应支持事务

指定位置消费

指定offset:消费者中设置offset
指定时间:时间转为offset

数据积压(消费者提高吞吐量)

增加分区和消费者
消费者拉取数据50m,500条,修改参数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/9245.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes调度器源码学习(一):调度器工作原理、调度器启动流程、调度队列

本文基于Kubernetes v1.22.4版本进行源码学习 1、调度器工作原理 1&#xff09;、调度流程 kube-scheduler的主要作用就是根据特定的调度算法和调度策略将Pod调度到合适的Node节点上去&#xff0c;是一个独立的二进制程序&#xff0c;启动之后会一直监听API Server&#xff0…

thanos prometheus 的高可用、长期存储二进制部署

1.简介 http://thanos.io/ thanos 是具有长期存储功能的开源、高可用性 Prometheus的集群组件。 全局查询视图 跨多个 Prometheus 服务器和集群查询指标 无限保留 使用对象存储扩展系统&#xff0c;不限时间保留指标。 Prometheus兼容 兼容 Prometheus api&#xff0c;用于…

FPGA时序知识点(基本方法总结就两点:1.降低时钟频率2.减小组合逻辑延迟(针对Setup Slack公式来的)

1.我们说的所有时序分析都是建立在同步电路的基础上的&#xff0c;异步电路不能做时序分析&#xff08;或者说只能做伪路径约束&#xff08;在设伪路径之前单bit就打拍&#xff0c;多bit就异步fifo拉到目的时钟域来&#xff09;&#xff09;。——FPGA 设计中寄存器全部使用一个…

Spring的事务

(1) 事务的定义 事务就是用户定义的一系列数据库操作&#xff0c;这些操作可以视为一个完成的逻辑处理工作单元&#xff0c;要么全部执行&#xff0c;要么全部不执行&#xff0c;是不可分割的工作单元。 (2)事务的使用&#xff1a; begin transaction commit rollback. begin …

谈谈软件系统重构

「头条关注【Java思享汇】&#xff0c;面试、各种技术栈、架构设计持续更新中&#xff5e;」 分享初衷&#xff1a;工作几年之后基本都会经历过大大小小的系统重构&#xff0c;笔者经历过单体应用拆分微服务的系统重构&#xff0c;数据异构&#xff0c;业务系统重构。借助此次…

总结819

学习目标&#xff1a; 4月&#xff08;复习完高数18讲内容&#xff0c;背诵21篇短文&#xff0c;熟词僻义300词基础词&#xff09; 第二周&#xff1a; 学习内容&#xff1a; 暴力英语&#xff1a;早上背诵《think different》记150词&#xff0c;默写了两篇文章&#xff0c…

Java中的Iterator底层原理实现

两个抽象方法 Iterator主要有两个抽象方法&#xff0c;让子类实现。 hasNext()用来判断还有没有数据可供访问。next()方法用于访问集合的下一个数据。 这两个方法不像List的get()那样依赖索引获取数据&#xff0c;也不像Queue的poll方法那样依赖特定规则获取数据。 迭代器的…

3月更新 | Visual Studio Code Python

我们很高兴地宣布&#xff0c;2023年3月版 Visual Studio Code Python 和 Jupyter 扩展现已推出&#xff01; 此版本包括以下改进&#xff1a; 后退按钮和取消功能添加到创建环境命令默认情况下&#xff0c;Python 扩展不再附带 isortJupyter 笔记本中内核选择的改进Python P…

代码随想录Day49

今天继续学习动规解决完全背包问题。 322.零钱兑换 给你一个整数数组 coins &#xff0c;表示不同面额的硬币&#xff1b;以及一个整数 amount &#xff0c;表示总金额。 计算并返回可以凑成总金额所需的最少的硬币个数 。如果没有任何一种硬币组合能组成总金额&#xff0c;…

java 线段树

线段树是一种二叉搜索树&#xff0c;什么叫做二叉搜索树&#xff0c;首先满足二叉树&#xff0c;每个结点度小于等于二&#xff0c;即每个结点最多有两颗子树&#xff0c;何为搜索&#xff0c;我们要知道&#xff0c;线段树的每个结点都存储了一个区间&#xff0c;也可以理解成…

【JavaWeb】8—过滤器

⭐⭐⭐⭐⭐⭐ Github主页&#x1f449;https://github.com/A-BigTree 笔记链接&#x1f449;https://github.com/A-BigTree/Code_Learning ⭐⭐⭐⭐⭐⭐ 如果可以&#xff0c;麻烦各位看官顺手点个star~&#x1f60a; 如果文章对你有所帮助&#xff0c;可以点赞&#x1f44d;…

C语言中宏的一些高级用法举例

C语言中宏的一些高级用法 文章目录C语言中宏的一些高级用法1.字符串化2.标记的拼接3.宏的嵌套替换多条语句防止头文件被重复包含宏的可变参数应用方式1方式2方式34.常用宏宏和函数的区别1.字符串化 #include <stdio.h> #include <stdbool.h> #include <string.…

测试开发常问面试题

Postman Postman实现接口关联 步骤 通过正则表达式或则JSON提取器取值的方式&#xff0c;提取需要的参数。将参数设置为全局变量或则环境变量。在之后接口中&#xff0c;通过{{全局变量/环境变量}}代替要替换的参数值。 - JSON提取器方式 var jsonData JSON.parse(respons…

【Spring6】数据校验:Validation

10、数据校验&#xff1a;Validation 10.1、Spring Validation概述 在开发中&#xff0c;我们经常遇到参数校验的需求&#xff0c;比如用户注册的时候&#xff0c;要校验用户名不能为空、用户名长度不超过20个字符、手机号是合法的手机号格式等等。如果使用普通方式&#xff0c…

TenserRT(三)PYTORCH 转 ONNX 详解

第三章&#xff1a;PyTorch 转 ONNX 详解 — mmdeploy 0.12.0 文档 torch.onnx — PyTorch 2.0 documentation torch.onnx.export 细解 计算图导出方法 TorchScript是一种序列化和优化PyTorch模型的格式&#xff0c;将torch.nn.Module模型转换为TorchScript的torch.jit.Scr…

unicloud 模糊查询解决方案

序 1、where和aggregate的模糊搜索 2、第一种是“你好”去匹配“你好啊大家” 3、第二种是“家啊”去匹配“啊&#xff01;你家呢” 只要有1个字匹配就匹配 4、第三种是“家啊”去匹配“啊&#xff01;你家呢” 必须有“家”又有“啊”才匹配” 想看效果&#xff0c;大家可以自…

ROBOGUIDE教程:FANUC机器人摆焊焊接功能介绍与虚拟仿真操作方法

目录 摆焊功能简介 摆焊指令介绍 摆焊功能设置 摆焊条件设置 机器人摆焊示教编程 仿真运行 摆焊功能简介 使用FANCU机器人进行弧焊焊接时&#xff0c;也可以实现摆动焊接&#xff08;简称摆焊&#xff09;。 摆焊功能是在机器人弧焊焊接时&#xff0c;焊枪面对焊接方向…

面试字节,三面HR天坑,想不到自己也会阴沟里翻船....

阎王易见&#xff0c;小鬼难缠。我一直相信这个世界上好人居多&#xff0c;但是也没想到自己也会在阴沟里翻船。我感觉自己被字节跳动的HR坑了。 在这里&#xff0c;我只想告诫大家&#xff0c;offer一定要拿到自己的手里才是真的&#xff0c;口头offer都是不牢靠的&#xff0…

【CE】Mac下的CE教程Tutorial:进阶篇(第8关:多级指针)

▒ 目录 ▒&#x1f6eb; 导读开发环境1️⃣ 第8关&#xff1a;多级指针翻译操作验证其它方案&#x1f6ec; 文章小结&#x1f4d6; 参考资料&#x1f6eb; 导读 开发环境 版本号描述文章日期2023-03-操作系统MacOS Big Sur 11.5Cheat Engine7.4.3 1️⃣ 第8关&#xff1a;多…

MySQL数据库中的函数怎样使用?

函数 是指一段可以直接被另一段程序调用的程序或代码。 也就意味着&#xff0c;这一段程序或代码在MySQL中已经给我们提供了&#xff0c;我们要做的就是在合适的业务场景调用对应的函数完成对应的业务需求即可。 那么&#xff0c;函数到底在哪儿使用呢? 我们先来看两个场景&a…