从0开始带你成为Kafka消息中间件高手---第一讲

从0开始带你成为Kafka消息中间件高手—第一讲

网站的用户行为日志,假设电商网站,我现在需要买一个阅读架,看书的架子

京东,我平时比较喜欢用的是京东,送货很快,自营商品,都是放在自己的仓库里,送货很快,用的比较多的是,直男,买东西都是开门见山的,女孩儿不一样,女同志,喜欢逛网站,她喜欢在网站里上下浏览,看网站推荐的一些东西

用户行为,就是说在一个网站,或者是APP,用户会做很多的行为和操作,比如说搜索一个商品,选择接筛选项来过滤筛选商品,点击一个商品进入他的详情页,加入购物车,进入购物车界面,下订单,对订单进行支付,对商品进行评价

电商网站最核心的链路就是这样的,搜索、筛选、详情页、购物车、下单、支付、评价

用户行为,每个用户每次在电商网站里都会做很多的行为,这些用户行为实际上来说会被电商网站给收集起来你的每个行为,你每次做一个行为的时候,他就会把你的这个行为做一条日志发送到后台

后台每天就会收集大量的用户行为日志

通过对用户行为日志的分析,可以让产品经理(设计网站和app)知道自己设计的网站是否受到用户的喜欢,可以让运营专员知道自己设计推广的某个促销活动他的效果如何,还可以让中高层管理人员,每天看到网站经营的数据

电商网站有1000万注册用户,那么每天会有多少人来逛这个网站呢?每天日活用户300万,平均每个人会在网站上做多少个行为呢?假设平均每个人做的行为有100次,这个算的是比较高的了。

每天就有3亿个行为,每个行为会对应一条用户行为日志,每天的用户行为日志有3亿
用户行为日志,业务数据(数据库,商品、订单、库存、评价、售后,每天都会产生各种各样的变化)

1000万用户,日活300万,每天3亿用户行为日志

对于大数据实时计算来说,数据库的变更操作,增删改的操作,每次增删改操作就算一条数据,数据变更记录,需要交给大数据平台来处理

假设每天有50万个订单,商品(价格、库存、信息),订单,评价,售后,积分,促销,很多其他的数据,每天新增的都是以订单为核心的一些数据,每天都有的增量数据,其他的数据都是围绕订单来的

是在数据库新增的订单,每对应修改,对应多少个增删改数据库操作呢?5个增删改的操作,订单表,每天有250万次操作,变更记录。100张左右的表,平均每张表每天会发生的增删改的操作大概是有200万次,2亿左右的数据

每天数据库有2亿条的变更记录,就是第二种数据了,业务数据
第三种数据,用户行为日志,还有业务库的数据,爬虫抓的竞对网站的商品数据,竞对网站每个商品的销量、价格,就可以跟自己网站的同类商品的销量和价格做一个比对,淘宝上抓数据,几十亿个商品,几亿个商品

假设有三个同类的竞争对手网站,人家每个网站的商品数量在100万左右,每天爬虫就把人家的100万个商品抓取过来就可以了,300万条数据而已,每个商品每天的销量在不停变化,爬虫可能需要不停地抓取对方网站的数据,每个商品每隔10分钟就会抓取一次,6 * 24 = 144 = 150次

300万商品,150次,4.5亿,5亿数据

来算一下,用户行为日志(3亿),业务库变更记录(2亿),竞对数据(5亿) = 10亿

涌入到kafka里去,可以做用户行为分析,网站运营分析,竞争对手分析,协助网站的产品经理、运营人员、企业高层把控网站每天运行的方方面面,以此做出对应的一些决策
在这里插入图片描述
研究kafka这个东西,你必须得搞清楚这两个概念,吞吐量,延迟

写数据请求发送给kafka一直到他处理成功,你认为写请求成功,假设是1毫秒,这个就说明性能很高,延迟

kafka,每毫秒可以处理1条数据,每秒可以处理1000条数据,这个单位时间内可以处理多少条数据,就叫做吞吐量,1000条数据,每条数据10kb,10mb,吞吐量相当于是每秒处理10mb的数据

如果来一条数据就处理一条数据,可能会导致每条数据要处理假设1毫秒,那么此时每秒可以处理1000条数据,这就是每秒的吞吐量,但是如果采用微批处理技术呢?比如说把9毫秒内的数据收集起来一共有1000条数据,接着一次性交给引擎来处理 ,1毫秒就把1000条数据给处理完了。

Kafka现在采取batch思路,10毫秒处理了1000条数据,每个系统发送数据过来到处理完成花费10毫秒,延迟提高了10倍,Kafka的吞吐量提高了,每秒可以处理10万条数据,吞吐量是提升了100倍。

那么就相当于是10毫秒处理了1000条数据,每秒可以处理10万条数据,吞吐量是不是就提升了100倍?

这个就是所谓的流式计算采用的微批处理技术,你一条一条处理,每条数据都需要启动新的计算资源,有网络开销,甚至是磁盘开销。但是你一次性处理1000条,跟你一次性处理1条其实是差不多的

因为用的计算资源什么都差不多,但是在内存里一下子可以处理完1000条数据

这就是说,提升了吞吐量,但是计算的延时就增加了,一条数据过来,需要10毫秒之后才能处理完毕。但是你要是降低计算的延时,那么吞吐量就降低了,数据来了1毫秒就处理完毕,但是每秒能处理的数据量太少了

batch微批处理,高吞吐高延迟,kafka相反,高吞吐低延迟

直接写入os的page cache中

文件,kafka仅仅是追加数据到文件末尾,磁盘顺序写,性能极高,几乎跟写内存是一样高的。磁盘随机写,你要随机在文件的某个位置修改数据,这个叫做磁盘随机写,性能是很低的,磁盘顺序写,仅仅追加数据到文件末尾

而且写磁盘的方式是顺序写,不是随机写,性能跟内存写几乎一样。就是仅仅在磁盘文件的末尾追加写,不能在文件随机位置写入

假设基于上面说的os cache写 + 磁盘顺序写,0.01毫秒,低延迟,高吞吐,每毫秒可以处理100条数据,每秒可以处理10万条数据,不需要依托类似spark straeming那种batch微批处理的机制

正是依靠了这个超高的写入性能,单物理机可以做到每秒几十万条消息写入Kafka

这种方式让kafka的写性能极高,最大程度减少了每条数据处理的时间开销,反过来就大幅度提升了每秒处理数据的吞吐量,一般kafka部署在物理机上,单机每秒写入几万到几十万条消息是没问题的

这种方式是不是就兼顾了低延迟和高吞吐两个要求,尽量把每条消息的写入性能压榨到极致,就可以实现低延迟的写入,同时对应的每秒的吞吐量自然就提升了

所以这是kafka非常核心的一个底层机制

而且这里很关键的一点,比如rabbitmq这种消息中间件,他会先把数据写入内存里,然后到了一定时候再把数据一次性从内存写入磁盘里,但是kafka不是这种机制,他收到数据直接写磁盘

只不过是写的page cache,而且是磁盘顺序写,所以写入的性能非常高,而且这样不需要让kafka自身的jvm进程占用过多内存,可以更多的把内存空间留给os的page cache来缓存磁盘文件的数据

只要能让更多的磁盘数据缓存在os cache里,那么后续消费数据从磁盘读的时候,就可以直接走os cache读数据了,性能是非常高的
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/644261.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【字典树(前缀树) 异或 离线查询】1707. 与数组中元素的最大异或值

本文涉及知识点 字典树(前缀树) 位运算 异或 离线查询 LeetCode1707. 与数组中元素的最大异或值 给你一个由非负整数组成的数组 nums 。另有一个查询数组 queries ,其中 queries[i] [xi, mi] 。 第 i 个查询的答案是 xi 和任何 nums 数组…

阿里巴巴最新研究突破:自我演化大模型,打破性能天花板

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读AI论文解读 原创作者 | 柏企 引言:自我进化的新篇章 在人工智能领域,大型语言模型(LLMs)的发展正迎来一场革命性的变革。传统的训练模式依赖…

从0开始学统计-方差分析

1.什么是方差分析? 方差分析(ANOVA,Analysis of Variance)是一种统计方法,用于比较三个或三个以上组之间的平均值是否存在显著差异。它适用于以下情况: (1) 当我们有三个或三个以上…

LLMs之PEFT之Llama-2:《LoRA Learns Less and Forgets LessLoRA学得更少但遗忘得也更少》翻译与解读

LLMs之PEFT之Llama-2:《LoRA Learns Less and Forgets LessLoRA学得更少但遗忘得也更少》翻译与解读 导读:该论文比较了LoRA与完全微调在代码与数学两个领域的表现。 背景问题:微调大规模语言模型需要非常大的GPU内存。LoRA这一参数高效微调方…

.NET 一款内部最新的免杀WebShell

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

【Linux】Linux的基本指令_1

文章目录 二、基本指令1. whoami 和 who2. pwd3. ls4. clear5. mkdir 和 cd6. touch7. rmdir 和 rm 未完待续 二、基本指令 直接在命令行的末尾(# 后面)输入指令即可。在学习Linux指令的过程中,还会穿插一些关于Linux的知识点。 1. whoami …

ftp是什么,ftp能做什么,ftp有什么用 -----ftp介绍

大家好,我是风屿,今天开始我会给大家介绍一些关于网络方面的配置以及介绍等等,今天是ftp FTP中文名字叫做文件传输协议,英文名字叫做File Transfer Protocol(简称为ftp) FTP 是因特网网络上历史最悠久的网…

哔哩哔哩抢红包项目,b站抢红包脚本,号称单机单号一天5-50+(教程+软件)

一、哔哩哔哩抢红包项目介绍: 1. 玩法规则方面: 参与直播间抢红包活动,赢取礼物。每日领取礼物上限为20-30个,达到上限后,系统将自动跳转至养号哗哩礼物价值。目前电池兑换比例:10电池1元。 2. 礼物变现方…

2024年春招高薪职业报告:大模型算法研究员领跑

近日,脉脉高聘发布的研究报告《2024春招高薪职业和人才洞察》(以下简称《洞察》)显示,2024年一季度,大模型算法研究员新发岗位以平均月薪6.4万元领跑高薪岗位榜。受人才培养周期和技术门槛影响,人工智能行业…

飞机大战游戏实现揭秘

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 一、游戏概览与核心玩法 二、游戏模块详解 1. 游戏主循环模块 2. 创建初始化模块 三、关…

云端智享——记移动云手写docker-demo

目录 前言什么是移动云?为何我会使用移动云?移动云“好”在哪里?资源大屏显示继续项目部署其他细节 移动云产品的评价未来展望 前言 在如今这个万物都上云的时代,我们需要选择合适的云产品,而移动云有着独特的优势和广…

SpringBoot使用rsa-encrypt-body-spring-boot实现接口加解密

废话不多说&#xff0c;直接上代码 引入依赖 <dependency><groupId>cn.shuibo</groupId><artifactId>rsa-encrypt-body-spring-boot</artifactId><version>1.0.1.RELEASE</version> </dependency>配置文件 rsa:encrypt:# 是…

python机器学习及深度学习在空间模拟与时间预测

原文链接https://mp.weixin.qq.com/s?__bizMzUyNzczMTI4Mg&mid2247628504&idx2&sn6fe3aeb9f63203cfe941a6bb63b49b85&chksmfa77a9e5cd0020f3aa4f01887e75b15096a182c2b5b42c1044787aa285c650f1469a0ef28aec&token2124656491&langzh_CN&scene21#we…

【面试干货】完全平方数

【面试干货】完全平方数 1、实现思想2、代码实现 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 一个整数&#xff0c;它加上 100 后是一个完全平方数&#xff0c;再加上 168 又是一个完全平方数&#xff0c;请问该数是多少&#xff1f; 1、…

MyBatis复习笔记

3.Mybatis复习 3.1 xml配置 properties&#xff1a;加载配置文件 settings&#xff1a;设置驼峰映射 <settings><setting name"mapUnderscoreToCamelCase" value"true"/> </settings>typeAliases&#xff1a;类型别名设置 #这样在映射…

数据分析工程师——什么是数据分析?

数据分析工程师 对于目前就业市场上的技术岗位,除了开发、测试、运维等常见职位之外,数据类岗位也越来越成为热门的求职方向。本文将重点介绍 数据分析 这一新兴岗位。 看到「数据分析」这几个字,也许大家的第一印象一样,觉得要做的工作似乎并不难,有大量数据后根据业务…

酷黑简洁大气体育直播自适应模板赛事直播门户网站源码

源码名称&#xff1a;酷黑简洁大气体育直播自适应模板赛事直播门户网站源码 开发环境&#xff1a;帝国cms 7.5 安装环境&#xff1a;phpmysql 支持PC与手机端同步生成html&#xff08;多端同步生成插件&#xff09; 带软件采集&#xff0c;可以挂着自动采集发布&#xff0c;无…

动态规划专题

leecode 221 class Solution { public:int maximalSquare(vector<vector<char>>& matrix) {int n matrix.size();if (n 0) return 0; // 如果矩阵为空&#xff0c;则直接返回0 int m matrix[0].size();vector<vector<int>> ans(n, vector<i…

数据库(4)——DDL数据库操作

SQL标准没有提供修改数据库模式定义的语句&#xff0c;用户想修改次对象只能将它删除后重建。 查询 查询所有数据库&#xff1a; SHOW DATABASES; 在安装完MySQL数据库之后&#xff0c;自带了4个数据库&#xff0c;如下图&#xff1a; 创建数据库 数据库的创建语言为 CREATE…

JavaSE——集合框架二(1/6)-前置知识-可变参数、Collections工具类

目录 可变参数 Collections工具类 Collections的常用静态方法 实例演示 可变参数 可变参数 就是一种特殊形参&#xff0c;定义在方法、构造器的形参列表里&#xff0c;格式是&#xff1a;数据类型...参数名称 可变参数的特点和好处 特点&#xff1a;可以不传数据给它&am…