kafka了解-笔记

文章目录

  • kafka快速上手
    • Kafka介绍
    • Kafka快速上手
    • 理解Kafka的集群工作机制
    • Kafka集群的消息流转模型
  • Kafka客户端小型流转流程
    • 客户端工作机制

kafka快速上手

Kafka介绍

MQ的作用
MQ:MessageQueue,消息队列,是一种FIFO先进先出的数据结构,消息则是跨进程传递的数据。一个典型的MQ系统,会将消息由消息的生产者发送到MQ进行排队,然后根据一定的顺序交由消息的消费者进行处理。
MQ的作用主要有下面3个方面:
异步:异步能够提高系统的响应速度、吞吐量
解耦:1.服务之间进行解耦,才可以减少服务之间的影响,提高系统整体的稳定性及可扩展性。2.另外解耦后可以实现数据分发。生产者发送一个消息后,可以由一个或者多个消费者进行消费,并且消费者的增加或者减少对生产者没有影响
削峰:以稳定的系统资源应对突发的流量冲击
Kafka产品介绍
Kafka是目前最具有影响力的开源MQ产品,官网地址:https://kafka.apache.org/
apache Kafka最初由linkelin开发并于2011年开源,他主要解决大规模数据的实时流式处理和数据管道问题。
Kafka是一个分布式的发布-订阅消息系统,可以快速地处理高吞吐量的数据流,并将数据实时地分发到多个消费者种。Kafka消息系统由多个broker(服务器)组成,这些broker可以在多个数据中心之前分布式部署,以提供高可用性和容错性。
Kafka使用高效的数据存储和技术管理,能够轻松地处理TB级别的数据量。其优点包括高吞吐量、低延迟、可扩展性、持久性、容错性等。
Kafka在企业级应用种被广泛应用,包括实时流处理、日志聚合、监控和数据分析等方面。同时Kafka还可以与其他大数据工具集成,如Hadoop、Spark和Storm等,构建一个完整的数据处理生态系统。
Kafka特点
Kafka最初诞生于LinkedIn公司,其核心作用就是用来收集并处理庞大复杂的应用日志。一个典型的日志聚合应用场景如下:
在这里插入图片描述
业务场景决定了产品的特点:
1.数据吞吐量很大:需要能够快速收集海量日志
2.集群容错性高:允许集群中少量节点崩溃
3.功能不用太复杂:Kafka的设计目标是高吞吐、低延迟和可扩展,主要关注消息传递而不是消息处理。Kafka并没有支持死信队列、顺序消息等高级功能
4.允许少量数据丢失:在海量的应用日志中,少量的日志丢失是不会影响结果的。服务的稳定性要求比数据安全高

Kafka快速上手

Kafka基础工作机制是消费发送者可以将消息发送到指定的topic,而消费消费者,可以从指定的topic上消费消息。
实际操作:1.创建一个topic;2.启动一个消息发送者,往topic发送消息;3.启动消息消费者从topic消费消息
在这里插入图片描述
Kafka的消费传递机制
在这里插入图片描述
Kafka体系,以下概念需要知道
客户端client:包括消息生产者和消息消费者
消费者组:每个消费者可以指定一个所属的消费者组,相同消费者组的消费者共同构成一个逻辑消费者组。每一个消息会被多个感兴趣的消费者组消费,但是在每一个消费者组内部,一个消息只会被消费一次。
服务端Broker:一个Kafka服务器就是一个Broker
话题Topic:这是一个逻辑概念,一个Topic被认为是业务含义相同的一组消息。客户端都是通过绑定Topic来生产或者消费自己感兴趣的话题
分区partition:topic只是一个逻辑概念,而partition就是实际存储消息的组件、每个partition就是一个queue队列结构。所有消息以FIFO先进先出的顺序保存在这些partition分区中。

理解Kafka的集群工作机制

对于Kafka这样一个追求消费吞吐量的产品来说,集群基本上是必备的。kafka的集群结构大体是这样的:
在这里插入图片描述
消息尽可能均匀的分布到不同的partition设计原因:
1.Kafka设计需要支持海量的数据,而这样大的数据量,一个Broker是存不下的,那就拆分成多个partition,每个broker只存一部分数据,这样极大的扩展了集群的吞吐量。
2.每个partition保留了一部分的消息副本,如果放到一个broker上,就容易出现单点故障。所以就给每个partition设计follower节点,进行数据备份,从而保证数据安全。另外多备份的partition设计也提高了读取消息时的并发度
3.在同一个Topic的多个partition中,会产生一个partition作为leader。这个leader partition会负责响应客户端的请求,并将数据往其他partition分发。

Kafka集群的消息流转模型

在这里插入图片描述

Kafka客户端小型流转流程

在这里插入图片描述

Kafka提供了两套客户端API,HighLevel API和LowLevel API。HighLevel API封装了Kafka的运行细节,使用起来比较简单,是企业开发过程中最常用的客户端API。而LowLevel API则需要客户端自己管理Kafka的运行细节,partition,offset这些数据都是由客户端自行管理,这层API功能更灵活,但是使用起来非常复杂,也更容易出错。只在极少数对性能要求非常极致的场景才会偶尔使用。
Kafka提供了非常简单的API,只需要引入一个Maven依赖即可
在这里插入图片描述

客户端工作机制

消费者分组消费机制
在consumer中,都需要指定一个GROUP_ID_CONFIG属性,这表示当前Consumer所属的消费者组。
生产者往topic下发消息时,会尽量均匀的将消息发送到Topic下的各个partition当中,而这个消息,会向所有订阅该topic的消费者推送,推送时,每个consumer Group中只会推送一份。也就是同一个消费者组中的多个消费者实例,只共同消费一个消息副本。而不同消费者组之间,会重复消费消息副本,这就是消费者组的作用。与之相关的还有offset偏移量,这个偏移量表示每个消费者组在每个partition中已经消费处理的进度,在Kafka中,可以看到消费者组的offset记录情况。
在这里插入图片描述生产者拦截器机制
生产者拦截器机制允许客户端在生产者在消息发送到Kafka集群之前,对消息进行拦截,甚至可以修改消息内容。这里涉及到producer中指定的一个参数:INTERCEPTOR_CLASSES_CONFIG
消费序列化机制
producer指定了两个属性KEY_SERIALIZER_CLASS_CONFIG和VALUE_SERIALIZER_CLASS_CONFIG,对于这两个属性,在ProducerConfig中都有配套的说明属性。通过这两个参数,可以指定消息生产者如何将消息的key和value序列化成二进制数据。
在Kafka的消息定义中,key和value的作用是不同的:
key是用来进行分区的可选项。Kafka通过key来判断消息要分发到哪个partition。如果没有填写key,Kafka会自动选择partition。如果填写了key,那么会通过声明的Serializer序列化接口,将key转换成一个byte[]数组,然后对key进行hash,选择partition。这样可以保证key相同的消息会分配到相同的partition中。
value是业务上比较关心的消息,Kafka同样需要将value对象通过声明的Serializer序列化接口,将value转换成一个byte[]数组,这样才能较好的在网络上传输value信息,以及将value信息落盘到操作系统的文件当中。
在Kafka中,对于常用的一些基础数据类型,都已经提供了对应的实现类。在自己进行序列化机制时,需要考虑的是如何用二进制来描述业务数据。例如对于一个通常的pojo类型,可以将他的属性拆分为两种类型,一种类型是定长的基础类型,比如integer,long,double等。这些基础类型转化成二进制数组都是定长的。这类属性可以直接转成序列化数组,在反序列化时,只要按照定长去读取二进制数据就可以反序列化;另一种是不定长的浮动类型,比如string或者基于string的json类型等,这种浮动类型的基础数据转化成二进制数组,长度都是不一定的,对于这类数据,通常的处理方式都是先往二进制数组中写入一个定长的数据的长度数据,然后再继续写入数据本身,这样,反序列化时,就可以先读取一个定长的长度,再按照这个长度去读取对应长度的二进制数据,这样就能读取到数据的完整二进制内容。
“渔与鱼”序列化机制是在高并发场景中非常重要的一个优化机制。高效的系列化实现能够极大的提升分布式系统的网络传输以及数据落盘的能力。
在这里插入图片描述
消息分区路由机制
producer会根据消息的key选择partition,一个消费者组会共同消费一个topic下的多个partition中的同一套消息副本,在producer中,可以指定一个partition来对消息进行分配。
Kafka默认提供了三种分区分配策略:
range策略:比如一个topic有10个partition(0-9)一个消费者组下有3个consumer(consumer1-3).range策略就会将分区0-3分给一个consumer,4-6给一个consumer,7-9给一个consumer
round-robin策略:轮询分配策略,可以理解为在consumer中一个一个轮流分配分区。比如0,3,6,9分区给一个Consumer1;1,4,7分区给一个consumer2;然后2,5,8给一个consumer3
sticky策略:粘性策略,这个策略有两个原则:1.在开始分区时,尽量保持分区的分配均匀。2.分区的分配尽可能的与上一次分配的保持一致
在这里插入图片描述
生产者消息缓存机制
Kafka生产者为了避免高并发请求对服务端造成过大压力,每次发消息时并不是一条一条发往服务端,而是增加了一个高速缓存,将消息集中到缓存后,批量进行发送。这种缓存机制也是高并发处理时非常常用的一种机制。Kafka的消息缓存机制涉及到KafkaProducer中的两个关键组件:accumulator和sender
在这里插入图片描述
其中RecordAccumulator就是Kafka生产者的消息累加器。Kafkaproducer要发送的消息都会在reocrdaccumulator中缓存起来,然后再分批发送给Kafkabroker.在RecordAccumulator中,会针对每一个partition,维护一个Deque双端队列,这些dequeue队列基本上是和Kafka服务器端的topic下的partition对应的。每个dequeue里会放入若干个ProducerBatch数据。Kafkaproducer每次发送的消息,都会根据key分配到对应的deque队列中,然后每个消息都会保存在这些队列中的某一个producerbatch中。而消息分发的规则是由上面的partition组件完成的。
在这里插入图片描述
生产者发送应答机制
这是在开发过程中比较重要的一个机制,涉及到的,就是producer端一个属性ACKS_CONFIG。这个属性更大的作用在于保证消息的安全性,尤其在replica-factor备份因子比较大的Topic中,尤为重要。
asks=0,生产者不关系broker端有没有将消息写入到partition,只发送消息就不管了。吞吐量是最高的,但是数据安全性是最低的。
asks=all or -1,生产者需要等broker端的所有partition都写完了才能得到返回结果,这样数据是最安全的,但是每次发消息需要等待更长的时间,吞吐量是最低的。
asks=1,则是一种相对中和的策略。leader partition在写完自己的消息后,就向生产者返回结果
在这里插入图片描述

生产者消息幂等性
当producer的acks=1 or -1时,producer每次发送消息都是需要获取broker端返回的recordmetadata的,这个过程中就需要两次跨网络请求。如果要保证消息安全,那么对于每个消息,这两次网络请求就必须要求是幂等的。但是网络是不靠谱的,在高并发场景下,往往没有办法保证幂等,producer会重复发送多条消息到broker中,Kafka如何保证无论发送多少次重复数据,broker端都只保留一条消息,这就是消费生产者的幂等性问题。
在这里插入图片描述
分布式数据传递过程中的三个语义:at-least-once:至少一次;at-most-once:最多一次;exactly-once:精确一次
Kafka为了保证消息发送的exactly-once语义,增加了几个概念:
PID:每个新的Producer在初始化的过程中就会被分配一个唯一的PID。这个PID是对用户不可见的
Sequence Number:对于每个PID,这个producer针对partition会维护一个SequenceNumber。这是一个重0开始单调递增的数字。当producer要往同一个partition发送消息时,这个sequencenumber就会加1,然后会随着消息一起发给broker
broker会针对每个(pid,partition)维护一个序列号(SN),只有当对应的sequencenumber=SN+1时,broker才会接收消息,同时将SN更新为SN+1.否则就认为消息以及写入了,不需要再重复写入。

在这里插入图片描述

生产者消费压缩机制以及消息事物机制
当生产者往broker发送消息时,还会对每个消息进行压缩,从而降低producer到broker的网络数据传输压力,同时也降低了broker的数据存储压力。具体涉及到producerconfig中的COMPRESSION_TYPE_CONFIG配置项
生产者消息事物
通过生产者消息幂等性问题,能够解决单生产者消息写入单分区的幂等性问题,无法解决一次发多条消息问题,这个时候就出现了一个事物机制,保证这一批消息最好同时成功的保持幂等性,或者这一批消息同时失败,这样生产者就可以开始进行整体重试,消息不至于重复。针对这个问题,卡夫卡引入了消息事物机制,者涉及到producer的几个API:
在这里插入图片描述
Kafka的事物消息还会做两件事:
一个transactionld只会对应一个PID
跨会话事物对齐

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/968298.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

支持向量机原理

支持向量机(简称SVM)虽然诞生只有短短的二十多年,但是自一诞生便由于它良好的分类性能席卷了机器学习领域。如果不考虑集成学习的算法,不考虑特定的训练数据集,尤其在分类任务中表现突出。在分类算法中的表现SVM说是排…

解决VsCode的 Vetur 插件has no default export Vetur问题

文章目录 前言1.问题2. 原因3. 解决其他 前言 提示: 1.问题 Cannot find module ‘ant-design-vue’. Did you mean to set the ‘moduleResolution’ option to ‘node’, or to add aliases to the ‘paths’ option? Module ‘“/xxx/xxx/xxx/xxx/xxx/src/vie…

常用的python库-安装与使用

常用的python库函数 yield关键字openslide库openslide库的安装-linuxopenslide的使用openslide对象的常用属性 cv2库numpy库ASAP库-multiresolutionimageinterface库ASAP库的安装ASAP库的使用 concurrent.futures.ThreadPoolExecutorxml.etree.ElementTree库skimage库PIL.Image…

Word成功接入DeepSeek详细步骤

原理 原理是利用Word的VBA宏,写代码接入API。无需下载额外插件。 步骤一、注册硅基流动 硅基流动统一登录 注册这个是为了有一个api调用的api_key,有一些免费的额度可以使用。大概就是这个公司提供token,我们使用这个公司的模型调用deepsee…

【Ubuntu VScode Remote SSH 问题解决】Resolver error: Error: XHR failed

1. 问题描述 VScode使用remote ssh 远程服务器,报错类似: [12:06:01.219] Downloading VS Code server locally... [12:06:01.310] Resolver error: Error: XHR failedat k.onerror (vscode-file://vscode-app/private/var/folders/g1/cvs2rnpx60qc3b4…

系统思考—双环学习

前几天,一个企业高管向我提到:“我们调整了N次方案,市场策略、团队激励、管理制度,能改的全改了,怎么还是不见起色?” 这让我想到典型的单环学习,简单来说就是:发现问题 → 采取行动…

2.11寒假

今天复习了深搜和广搜然后做了作业中的一个题目。 解析&#xff1a;外层 for 循环&#xff1a;for (int i 1; i < n; i)&#xff0c;循环变量 i 从 1 递增到 n&#xff0c;表示要依次将数字 1 到 n 分配到数组 a 中。内层 for 循环&#xff1a;for (int j 1; j < 2; j)…

使用 AlexNet 实现图片分类 | PyTorch 深度学习实战

前一篇文章&#xff0c;CNN 卷积神经网络处理图片任务 | PyTorch 深度学习实战 本系列文章 GitHub Repo: https://github.com/hailiang-wang/pytorch-get-started 本篇文章内容来自于 强化学习必修课&#xff1a;引领人工智能新时代【梗直哥瞿炜】 使用 AlexNet 实现图片分类…

基于进化式大语言模型的下一代漏洞挖掘范式:智能对抗与自适应攻防体系

摘要 本文提出了一种基于进化式大语言模型(Evolutionary LLM)的智能漏洞挖掘框架,突破了传统静态分析的局限,构建了具备对抗性思维的动态攻防体系。通过引入深度强化学习与多模态感知机制,实现了漏洞挖掘过程的自适应进化,在RCE、SQLi、XXE等关键漏洞类型的检测中达到97…

python自动化测试之Pytest框架之YAML详解以及Parametrize数据驱动!

一、YAML详解 YAML是一种数据类型&#xff0c;它能够和JSON数据相互转化&#xff0c;它本身也是有很多数据类型可以满足我们接口 的参数类型&#xff0c;扩展名可以是.yml或.yaml 作用&#xff1a; 1.全局配置文件 基础路径&#xff0c;数据库信息&#xff0c;账号信息&…

SQLMesh系列教程-2:SQLMesh入门项目实战(上篇)

假设你已经了解SQLMesh是什么&#xff0c;以及其他应用场景。如果没有&#xff0c;我建议你先阅读《SQLMesh系列教程-1&#xff1a;数据工程师的高效利器-SQLMesh》。 在本文中&#xff0c;我们将完成一个小项目或教程&#xff0c;以帮助你开始使用SQLMesh。你可以选择一步一步…

人工智能与低代码如何重新定义企业数字化转型?

引言&#xff1a;数字化转型的挑战与机遇 在全球化和信息化的浪潮中&#xff0c;数字化转型已经成为企业保持竞争力和创新能力的必经之路。然而&#xff0c;尽管“数字化”听上去是一个充满未来感的词汇&#xff0c;落地的过程却往往充满困难。 首先&#xff0c;传统开发方式…

使用云效解决docker官方镜像拉取不到的问题

目录 前言原文地址测试jenkins构建结果:后续使用说明 前言 最近经常出现docker镜像进行拉取不了&#xff0c;流水线挂掉的问题&#xff0c;看到一个解决方案: 《借助阿里个人版镜像仓库云效实现全免费同步docker官方镜像到国内》 原文地址 https://developer.aliyun.com/artic…

R语言LCMM多维度潜在类别模型流行病学研究:LCA、MM方法分析纵向数据

全文代码数据&#xff1a;https://tecdat.cn/?p39710 在数据分析领域&#xff0c;当我们面对一组数据时&#xff0c;通常会有已知的分组情况&#xff0c;比如不同的治疗组、性别组或种族组等&#xff08;点击文末“阅读原文”获取完整代码数据&#xff09;。 然而&#xff0c;…

java项目之基于用户兴趣的影视推荐系统设计与实现源码(ssm+mysql)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于ssm的基于用户兴趣的影视推荐系统设计与实现。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 基于用户…

0基础租个硬件玩deepseek,蓝耘元生代智算云|本地部署DeepSeek R1模型

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 0基础…

vue2 多页面pdf预览

使用pdfjs-dist预览pdf&#xff0c;实现预加载&#xff0c;滚动条翻页。pdfjs的版本很重要&#xff0c;换了好多版本&#xff0c;终于有一个能用的 node 20.18.1 "pdfjs-dist": "^2.2.228", vue页面代码如下 <template><div v-loading"loa…

堆排序

目录 堆排序&#xff08;不稳定&#xff09;&#xff1a; 代码实现&#xff1a; 思路分析&#xff1a; 总结&#xff1a; 堆排序&#xff08;不稳定&#xff09;&#xff1a; 如果想要一段数据从小到大进行排序&#xff0c;则要先建立大根堆&#xff0c;因为这样每次堆顶上都能…

【C++】多态原理剖析

目录 1.虚表指针与虚表 2.多态原理剖析 1.虚表指针与虚表 &#x1f36a;类的大小计算规则 一个类的大小&#xff0c;实际就是该类中成员变量之和&#xff0c;需要注意内存对齐空类&#xff1a;编译器给空类一个字节来唯一标识这个类的对象 对于下面的Base类&#xff0c;它的…

【Git】完美解决git push报错403

remote: Permission to xx.git denied to xx. fatal: unable to access https://github.com/xx/xx.git/: The requested URL returned error: 403出现这个就是因为你的&#xff08;personal access tokens &#xff09;PAT过期了 删掉旧的token 生成一个新的 mac系统 在mac的…