11-Kafka

1 Kafka

  • Kafka是一个分布式流式数据平台,它具有三个关键特性

    • Message System: Pub-Sub消息系统
    • Availability & Reliability:以容错及持久化的方式存储数据记录流
    • Scalable & Real time

    在这里插入图片描述

1.1 Kafka架构体系
  • Kafka系统中存在5个关键组件
    • Producer
    • Consume
    • Kafka Cluster
      • Broker:Kafka Server,或Kafka Node
      • Zookeeper: 集群状态存储
    • Connector:连接应用程序和Topic
    • Stream Processor:流处理器,从一个Topic接收并处理流式数据,并将结果存入另一个Topic
  • 还有两个重要逻辑组件
    • Topic
    • Partition

在这里插入图片描述

1.2 Topic和Partition
  • 关于Topic和Partition

    • Topic分类的消息流,相关的消息保存于Partition中

      • 一个Topic中的数据,可以分布保存于一至多个Partition中
      • 每个Partition中,通常存在一个leader,以及一至多个replicas/followers
    • Topic是Producer发布消息,以及consumer消费消息使用的端点

在这里插入图片描述

1.3 Topic中的消息记录
  • 消息及存储方式
    • Kafka中,每个消息记录(record)的标准格式通常由key、value、timestamp和一些metadata组成;
    • 待存入Topic的消息记录未明确指定目标Partition时,Kafka会根据记录的key的hash码选择一个Partition;未明确指定timestamp时,Producer将会使用当前时间(创建时间或附加到日志的时间)作为其时间戳;
    • Kafka将数据持久存储在log.dir参数指定 的目录中,而各topic会映射进该目录的子目录中;
      • Kafka会保留所有记录,无论它们是否已被消费
      • 记录在broker配置中定义的retention period内保留,默认时长为7天(168小时)
    • Kafka基于Pub/Sub和Queue模型构建Topic,它使用消费者组(Consumer Group)的概念将处理任务划分为一组消费者进程并行运行,并且可以将消息广播到多个组中;
1.4 Partition
  • Partition代表Topic中的数据分片,在其它数据库系统中,通常称为replica或shard

    • 每个Partition都是一个按时间排序的不可变记录序列,该序列存储于日志中;
    • 消费者按照记录在日志中的存储顺序读取消息;
    • 每个消息都有一个称为offset的id
  • 能够将一个Topic中的数据并行存储于多个broker上;

  • 支持以冗余机制(复制因子大于1)存储多个副本,并能容忍最多N-1个服务器故障,N为复制

    因子数量;

  • 消费者读取一个Topic时,它将从所有Partition中读取数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/269137.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

路由器介绍和命令操作

先来回顾一下上次的内容: ip地址就是由32位二进制数组 二进位数就是只有数字0和1组成 网络位:类似于区号,表示区域作用 主机位:类似于号码,表示区域中编号 网络名称:网络位不变,主机位全为0 …

基于Java SSM框架实现二手交易平台网站系统项目【项目源码+论文说明】

基于java的SSM框架实现二手交易平台网站系统演示 摘要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认…

易基因2023年度DNA甲基化研究项目文章精选

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 2023年,易基因参与的DNA甲基化研究成果层出不穷,小编选取其中5篇不同方向的论文与您一起来回顾。 01、易基因微量DNA甲基化测序助力中国科学家成功构建胚胎干细胞…

IDEA中Git的常用使用方式

IDEA中Git的常用使用方式 1.初次拉取远程仓库项目代码到本地2.初次提交本地项目代码到远程仓库新分支方式一:提交时把.git目录删除掉,不保留以往修改记录方式二:提交时不删除.git目录,保留以往修改记录 3.日常拉取、提交、推送代码…

如何清洗眼镜?清洗眼镜方法有哪些?好用超声波洗眼镜机推荐

随着现代人对于眼睛健康越来越重视,清洗眼镜成为了日常生活中不可或缺的一环。眼镜上的污渍和细菌不仅会影响视线,还可能对眼睛健康造成威胁。那么,如何清洗眼镜呢?清洗眼镜的方法有哪些呢?今天,我们将为大…

第二证券:A股“磨底”中等待向上突破

A股“磨底”中等候向上打破。从A股两市成交额、首要指数估值和风险溢价看,当时A股处于中长时刻底部区间,投资者倾向于将中长时刻问题在短期定价,市场风险偏好还有待修正。工作装备上,年底板块轮动加速将成为首要特征,大…

基于VUE3+Layui从头搭建通用后台管理系统(前端篇)十七:演示功能模块相关功能实现

一、本章内容 本章实现常见业务功能,包括文章管理、商品管理、订单管理、会员管理等功能。 1. 详细课程地址: https://edu.csdn.net/course/detail/38183 2. 源码下载地址: 点击下载 二、界面预览 三、开发视频 3.1 B站视频地址:

JVM初识-----01章

一.虚拟机与java虚拟机的区别以及共同点 1.虚拟机(Virtual Machine,简称VM) 是一种能够在物理计算机上模拟一台完整的计算机系统的软件。它运行在宿主操作系统之上,可以提供一个独立的运行环境,使得在不同的操作系统上…

Node.js(二)-模块化

1. 模块化的基本概念 1.1 什么是模块化 模块化是指解决一个复杂问题时,自顶向下逐层将系统拆分成若干模块的过程。对于整个系统来说,模块是可组合、分解和更换的单元。 1.2 编程领域中的模块化 编程领域中的模块化,就是遵守固定的规则&…

1224. 交换瓶子(蓝桥杯/图论)

题目: 1224. 交换瓶子 - AcWing题库 输入样例1: 5 3 1 2 5 4输出样例1: 3输入样例2: 5 5 4 3 2 1输出样例2: 2 思路:图论 1.将对应的位置与当前的瓶子序列相连形成环。 2.最少交换次数能形成的最多…

基于深度学习的瓷砖色差分类方法研究——学习笔记(评价:色差的定义太模糊。。。问题描述不清楚,太水了)

文章目录 摘要0 引言1 瓷砖图像处理1.1 图像采集1.2 图像处理 2 基于深度学习的瓷砖色差分类算法设计2.1 数据预处理2.2 卷积神经网络的设计2.3 实验设计 3 瓷砖色差分类平台的设计与实现 摘要 瓷砖是人类建筑不可或缺的一种材料,而瓷砖品质最重要的指标之一就是色…

ggplot2 | line plot 分组及均值线:聚类后的表达变化趋势图

1. 效果图 2. 预处理及绘图 # 输入数据 > head(dat)Species cid variable value 1 setosa 1 Sepal.Length 5.1 2 setosa 2 Sepal.Length 4.9 3 setosa 3 Sepal.Length 4.7 4 setosa 4 Sepal.Length 4.6 5 setosa 5 Sepal.Length 5.0 6 setos…

iOS技术博客:App备案指南

📝 摘要 本文介绍了移动应用程序(App)备案的重要性和流程。备案是规范App开发和运营的必要手段,有助于保护用户权益、维护网络安全和社会秩序。为了帮助开发者更好地了解备案流程,本文提供了一份最新、最全、最详的备…

React 路由传参

引言 在上一篇中&#xff0c;我们学习了 React 中使用路由技术&#xff0c;以及如何使用 MyNavLink 去优化使用路由时的代码冗余的情况。 这一节我们继续上一篇 React 路由进行一些补充 1. Switch 解决相同路径问题 首先我们看一段这样的代码 <Route path"/home&q…

C#与php自定义数据流传输

C#与php自定义数据流传输 介绍一、客户端与服务器数据传输流程图客户端发送数据给服务器&#xff1a;服务器返回数据给客户端&#xff1a; 二、自定义数据流C#版本数据流PHP版本数据流 三、数据传输测试1.在Unity中创建一个C#脚本NetWorkManager.cs2.服务器www目录创建StreamTe…

RHCE9学习指南 第8章 用户管理

8.1 基本概念 用户在操作系统中是非常重要的一块&#xff0c;我们登录系统&#xff0c;访问共享文件夹等都需要用户进行验证。所以&#xff0c;掌握管理用户的知识是非常有必要的。 说到用户&#xff0c;我们会提到两个名词账户信息和木马信息。 账户信息&#xff1a;我们可以…

新零售模式:重新定义商业未来

随着科技的飞速发展&#xff0c;我们的生活方式正在经历着前所未有的变革。其中&#xff0c;新零售模式正逐渐成为商业领域的新热点&#xff0c;它正在重新定义我们的购物方式&#xff0c;并为企业带来更多的商业机会。 一、新零售模式概述 新零售模式是指将互联网、大数据、…

阿里云服务器记录

阿里云服务器记录 CentOS 8.4 64位 SCC版 CentOS 7.9 64位 SCC版 CentOS 7.9 64位 CentOS 7.9 64位 UEFI版 Alibaba Cloud Linux Anolis OS CentOS Windows Server Ubuntu Debian Fedora OpenSUSE Rocky Linux CentOS Stream AlmaLinux 阿里云服务器有个scc版&#xff0c;这个…

用CHAT了解更多知识点

问CHAT&#xff1a;什么是硅基生命和碳基生命&#xff1f; CHAT回复&#xff1a;硅基生命和碳基生命是两种理论性的生物体类型&#xff0c;这些生物体主要是由硅或碳元素以及其他元素构成的。 碳基生命是我们当前所熟知的生命形式。碳元素能够形成稳定且复杂的分子&#xff0c;…

Java网络爬虫拼接姓氏,名字并写出到txt文件(实现随机取名)

目录 1.爬取百家姓1.爬取代码2.爬取效果 2.爬取名字1.筛选男生名字2.筛选女生名字 3.数据处理&#xff08;去除重复&#xff09;4.拼接数据5.将数据写出到文件中 1.爬取百家姓 目标网站&#xff0c;仅作为实验目的。 ①爬取姓氏网站&#xff1a; https://hanyu.baidu.com/shic…