面试大杂烩之kafka

面试这个领域最近环境不行,所以卷起来流量挺大 

搭建:

     总体来说 比较简单,主要是配置文件,命令的话分开了producer /consumer/ topic 大概这么个意思。具体可以看里面的博客 

#host配置
#安装包
wget https://archive.apache.org/dist/kafka/3.2.0/kafka_2.13-3.2.0.tgz
#压缩 配置系统变量
#zk集群搭建 当然kafka自带zk 这都行,集群中zk的配置是都需要改的
#3.x kafka提供了kraft取代zk
https://blog.csdn.net/qq_41865652/article/details/126588263

 点对点:生产者 发送 消息 到队列,消费者从队列 取出 并 消费(消费后不再储存)

     一条消息 只会被一个消费者消费,想发给多个消费者 多次发送

发布/订阅:一对多,多个订阅者消费 消息,数据保留指定期限,默认7天

     同一个消费组 中消费者 不能消费同一个partition中的数据

     一个消费者一个分区(消费组)

0.9 偏移量储存在kafka的topic中

   0.9将offset保存在zk中,0.9及后保存在Kafka“__consumer_offsets”主题

生产者

       生产消息追加到log文件,采用分片/索引机制,将每个partition 分为多个segment,每个segment对应2个文件 index log,同一文件夹(topic名称+分区序号)。

同步

    同步:ISR列表(同步副本 里面的follow与leader同步,选择从这个里面选  H W/LEO)

      HW:消费者能看到的offset,isr队列min的LED ,hw-led待同步的消息

          选leader (epoch,offset)二位数组,前面是任期 后面是标识大小谁最新

      follower故障,从isr剔除,恢复后读取上一次HW高于的截取掉 从hw开始向leader同步 加入isr

  • ack-1 数据不丢但会重,生产者pid消息seqnumber 如pid partion seqnumber一样,重复数据
  • 0不重复 丢失

消费者

拉取pull,无消息 死循环,消费者 消费数据时传递timeout参数,当时无数据 等待一段时间再返回

topic多个partion

  • 轮询rountRobin对topic组生效,一个消费组内all消费者订阅主题是一样的
  • rang单个topic生效,数据不均衡

消费者不能同时消费 同组的 同一个分区

分区策略:消费者组 消费者个数 发生变化

offset维护

断电 宕机,消费者恢复后 记录的offset(zk/kafka)

  消费者/topic/partion 确定offset 

流程

producer两个线程,主线程 拦截/序列化/分区==》处理消息 到 消息累加器(32M / 队列) producerBatch批量发送到sender线程,批量组织request 给selector 送到kafka

   kafka 数据 存储在 pageCache 异步刷盘 flusher 追加到日志文件

       partition . segment:

            log 存储数据 位置:offset 

            index索引,相对位移:物理位置;稀疏索引  msg设置指针 mmap进行内存操作

   被消费ack 清缓存

   消费者带着offset,去fetch 利用sendfile底层NIO(transferTo/transferFrom)

消费者能力不足:

原因:

  • 大量数据流 consumer崩溃 rebalance 消费速率下降
  • 洪峰时consumer从broker取出大量数据,在session.timeout.ms内没有消费完 consumer coordinator没有接受到心跳 挂断,自动提交offset失败(重新分配partition重新消费超时死循环),触发rebalance 
  • kafka限速

rebalance本质是协议,consumer group下all消费者如何达成一致分配订阅topic每个分区

     coordinator执行consumer group管理

  1. 组成员变更,新consumer入组 consumer离开/崩溃
  2. 主题变更,使用正则进行订阅,新建正则匹配到topic触发rebalance
  3. 订阅主题分区数变化
partition分配的高效率
  1. consumer都要和coordinator连接
  2. coordinator选出一个consumer作为leader分配partition
  3. leader分配完后通知coordinator,由coordinator通知其他consumer
  4. 如一个consumer不能工作(心跳 session_timeout),coordinator触发rebalance重新分配partition
delayed_task

    取出一批数据/执行delayed_task/循环yield这批数据/重复执行上述过程

    consumer的offset提交机制定时向delayed_task加入autoCommitTask,衡量数据/时间 是否提交

offset提交失败

   topicPartition提交单元,consumer消费 发送rebalance,当前消费分配到的partition>1,这个partition分配给其他consumer,如已经被消费再提交offset commitOffsetError,因为partition不属于自

   producer带上create_time字段

   https://zhuanlan.zhihu.com/p/33238750

消费者挂了之后重启 直接消费最新的数据,历史数据另起线程补漏

     或者从上一次提交offset开始,积压量大 增加任务处理能力

分区少了,数据量大增加分区数

优化/解决

分区数量不能太小/生产者key要均匀(增加随机后缀 均衡分布)

增加消费者数量,或者每次拉取的(合理)数量

主题增加分区,消费者并行处理能力

优化消费逻辑,多线程

max.poll.interval.msrang消费者更长时间处理消息

监控 报警 /及时调整

   kafka内置指标

kafka stream:内置了自适应调节机制

数据清理策略:及时清理

    数据量太大 生成很多文件 占磁盘空间

   设置cleanup.policy清理特定大小日志文件,时间点清理

   压缩操作对topic每个键处理,清理重复项,保留最后一个值

kafka调优_kafka 关闭flush-CSDN博客

启动kafka压缩

   compression.type,none不压缩/lz4压缩 加大cpu开销

升级版本

命令

topic的./bin/kafka-topics.sh

生产者./bin/kafka-console-producer.sh

消费者./bin/kafka-console-consumer.sh

百度安全验证

https://zhuanlan.zhihu.com/p/347822019

大数据之Kafka(心得)_集群级kafka数据消费的挑战与实践-CSDN博客

Kafka集群搭建及生产者消费者案例_kafka 消费者组 多机器-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/645557.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

国内最受欢迎的7大API供应平台对比和介绍||电商API数据采集接口简要说明

本文将介绍7款API供应平台:聚合数据、百度APIStore、Apix、数说聚合、通联数据、HaoService、datasift 。排名不分先后! 免费实用的API接口 第一部分 1、聚合数据(API数据接口_开发者数据定制) 2、百度API Store(API集市_APIStore…

C++第十九弹---string模拟实现(下)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】 目录 1、修改操作 2、迭代器操作 3、字符串操作 4、非成员函数重载操作 总结 1、修改操作 1、string& operator (const char* s); //尾部插入…

骑行 - 新区永旺出发的环太湖路线

环过好几次太湖,但对路线都没太在意,都是跟着别人走的。这次自己制定一个路书,方便下次自己一个人环太湖时使用。 开始是使用高德地图做路书,只能在PC上做。我用的是网页版,每次选点太麻烦了。要输入地址搜索&#xff…

【C语言】八进制、十六进制

前言 在我们日常生活中使用的数往往是十进制的,而当我们学习C语言后我们会接触到许多不同的进制并且时常需要去思考与使用这些不同的进制(尤其是2的幂相关的进制,因为这种计数系统比十进制更接近于计算机的二进制系统)&#xff0…

5.26机器人基础-空间描述和变换2

在前文的基础上引入平移算子和旋转算子 1.平移算子 2.旋转算子 3.变换算子

推荐一款媒体影音嗅探神器—Chrome扩展插件(猫抓cat-catch)

目录 1.1、前言1.2、下载地址1.3、github Releases 版本说明1.4、安装步骤1.5、猫抓插件常规设置1.5.1、设置抓取文件的类型1.5.2、设置抓取文件的后缀名 1.1、前言 我们在日常上网的过程中,很多音频、视频网站下载资源都非常不方便,要么需要安装客户端&…

联邦学习(一)

世界第一本“联邦学习”专著——《联邦学习》。作者阅读数书籍《联邦学习实战》。 1.联邦学习概述 在构件全局模型时,其效果与数据被整合在一起进行集中式训练的效果几乎一致,这便是联邦学习提出的动机和核心思想。 核心理念:数据不动模型动,数据可用不可见。 传统训练范式…

初步认识栈和队列

Hello,everyone,今天小编讲解栈和队列的知识!!! 1.栈 1.1栈的概念及结构 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。 进行数据插入和删除操作的一端 称为栈顶&…

hsql学习笔记

1. row_number() over (partition by uid order by dt 分析: row_number(): 这是一个窗口函数,用于为结果集中的每一行分配一个唯一的序号。默认情况下,这个序号是按照查询结果的顺序来分配的,但你可以通过OVER()子句…

Mybatis源码剖析---第二讲

Mybatis源码剖析—第二讲 那我们在讲完了mappedstatement这个类,它的一个核心作用之后呢?那下面我有一个问题想问问各位。作为mappedstatement来讲,它封装的是一个select标签或者insert标签。但是呢,我们需要大家注意的是什么&am…

文件夹打开出错?这里有你需要的数据恢复与预防指南

在日常使用电脑时,我们有时会遇到文件夹打开出错的情况。当你尝试访问某个文件夹时,系统可能会弹出一个错误提示,告诉你无法打开该文件夹。这种情况不仅会影响我们的工作效率,还可能导致重要数据的丢失。接下来,我们将…

Java进阶学习笔记24——Object类

Object类: Object类是Java中所有类的祖宗类,因此,Java中所有类的对象都可以直接使用Object类中提供的一些方法。 所有类都是Object类的子孙类。 API文档: Object类的成员方法: Object类的常见方法: Student类&…

HCIP-Datacom-ARST自选题库_02_网络安全【道题】

一、单选题 1.关于网络安全性优化的内容,下列哪个选项是错误的? 管理安全 边界安全 访问控制 日志管理 2.如图所示,网络管理员为了抵御DHcP Server仿冒者攻击,在交换机上部署了DHcp snoping功能,那么以下哪一个接口应该被设…

简单的python程序,把它做成docker镜像

1,python程序准备 在linux主机的/tmp/pythontest路径下创建一个test.py程序文件, 程序内容很简单 就是一句打印 print(hello world, docker)2,再准备一个Dockerfile文件 这个Dockerfile也是放在主机linux中的/tmp/pythontest路径下&#x…

RPA+AI 应用案例集合:自动推流直播

使用场景: 自动定时推流直播 使用技术: python playwright 每个解决一个小问题 During handling of the above exception, another exception occurred:Traceback (most recent call last): File "D:\pythonTryEverything\putdonwphone\not_watch_…

队列(C语言)

文章目录 [TOC](文章目录) 前言1.队列的概念及结构2.队列的实现3.相关操作的具体实现3.1.初始化队列(QueueInit)和销毁队列(QueueDestory)3.2.队尾入队(QueuePush)和队头出队(QueuePop)3.3.判空(QueueEmpty)、获得队尾元素(QueueBack)以及获得队头元素(QueueFront) 前言 前面我…

数据清洗操作及众所周知【数据分析】

各位大佬好 ,这里是阿川的博客 , 祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 前面的博客 数据分析—技术栈和开发环境搭建 …

如何从零开始搭建公司自动化测试框架?

搭建的自动化测试框架要包括API测试,UI测试,APP测试三类。以上三类其实可以简化为两类,那就是: 1)接口自动化测试框架搭建 2)UI自动化测试框架搭建。 没问题,安排,且是手把手教你…

国内服务器未备案使用域名443访问的方法

参考国内服务器未备案使用域名443访问的方法 | LogDicthttps://www.logdict.com/archives/guo-nei-fu-wu-qi-wu-fa-shi-yong-yu-ming-de-jie-jue-fang-fa

科林Linux6_网络

#include<sys/socket.h> #include<arpa/inet.h> //大小端转换 #include<netdb.h> //DNS一、Socket套接字 为了开发网络应用&#xff0c;系统提供一套API函数接口&#xff0c;用于网络应用开发&#xff0c;这些接口称为套接字函数 struct sockaddr_in…