处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 处理大数据的基础架构,OLTP和OLAP的区别,数据库与Hadoop、Spark、Hive和Flink大数据技术
    • @[TOC](文章目录)
  • 处理大数据的基础架构
  • 之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题
  • Hadoop、Spark、Hive和Flink
    • OLTP是啥?
    • 为什么要大数据?
  • kafka传输技术,快速
    • 现有的消息模型?
    • kafka监听器
    • kafka的消息模型
    • 生产者api
    • kafka序列化
    • 实际订餐和菜品看不到
  • 总结

处理大数据的基础架构

处理大数据的基础架构主要有以下几种:

分布式计算框架。
如Hadoop、Spark、Hive和Flink等,这些框架可以处理大规模的数据,并支持分布式存储和计算。

分布式文件系统。
如HDFS(Hadoop Distributed File System)和Google File System等,这些系统可以存储大规模的文件,并支持分布式访问和读取。

数据库集群。
如MySQL集群、PostgreSQL集群等,这些集群可以提高数据处理效率和可用性,并支持分布式事务处理。

NoSQL数据库。
如MongoDB、Cassandra和Redis等,这些数据库可以处理半结构化和非结构化的数据,并支持高并发写入和读取。

云平台。
如Amazon AWS、Google Cloud和阿里云等,这些云平台可以提供虚拟化资源、弹性伸缩和自动化运维等功能,使得处理大数据更加灵活和高效。

这些基础架构可以相互组合和扩展,以适应不同的大数据处理场景和需求。

之后我们一个个来学习上述提到的东西,形成一个大数据处理的框架,备考大数据类的试题

Hadoop、Spark、Hive和Flink

在这里插入图片描述
小数据问题不大

OLTP是啥?

OLTP( On-Line Transaction Processing ) 联机事务处理过程,
通常也可以成为面向交易的处理系统。

个人理解为主要场景针对用户人机交互频繁,数据量小操作快速响应的实时处理系统中
Mysql以及Oracle等数据库软件可以理解为OLTP的工业应用软件体现。

OLAP( On-Line Analytical Processing),联机分析处理过程。
个人理解为主要场景针对大批量数据,实时性无要求,基于数仓多维模型,进行分析操作的系统中。
Hadoop体系中MapReduce、Hive、Spark、Flink等都可以进行为OLAP实现。

原来如此了,数据库做不了大数据的分析类的问题

T是事务
A是分析

为什么要大数据?

在这里插入图片描述
在这里插入图片描述
06年写Java的MapReduce程序,难理解

后来写sql得了,很简单
在这里插入图片描述
在这里插入图片描述
yarn出来就调度一把
美滋滋
在这里插入图片描述
docker现在听说得很多:隔离空间
yarn是container集装箱

在这里插入图片描述
在这里插入图片描述

只写sql然后转译为hive那边的Java

还有pyspark,写Python很容易
在这里插入图片描述
相当于是兼容超级多的程序

批处理,这些是【离线一大批】

下面是流式计算【实时快速处理】
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

两家很骚,后来俩都能处理了
各种技术你看看是不是穿起来了………………
在这里插入图片描述
在这里插入图片描述
你是做那一层呢?
在这里插入图片描述

kafka传输技术,快速

我们从传输开始学起

在这里插入图片描述
在这里插入图片描述
TB级别量的数据,后续可以对接很多大数据处理技术框架

在这里插入图片描述
有点厉害了

现有的消息模型?

在这里插入图片描述
在这里插入图片描述
半结构化的东西

kafka是分布式消息系统
在这里插入图片描述
使得kafka有扩展性
在这里插入图片描述
offset不可重复
在这里插入图片描述
map消息
在这里插入图片描述
不给key那就随机分配
否则分区
在这里插入图片描述
同样的key,同样的key放一起
在这里插入图片描述
在这里插入图片描述
follower就去复制数据,同步,保持数据的可恢复性
这样的话,就不会丢失了
在这里插入图片描述
broker就是一台服务器,负责读写
在这里插入图片描述
主分区由broker读写

kafka监听器

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
docker去部署kafka的内外网监听端口
在这里插入图片描述

kafka的消息模型

在这里插入图片描述
在这里插入图片描述
处于性能和开销的考虑
否则还要维护锁,加锁,减锁
否则就会引入竞争,麻烦
最大化我们要提升性能和吞吐量
在这里插入图片描述
在这里插入图片描述
这种是一对一
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
不同分区之间的消费顺序不知道
offset早的是先消费
在这里插入图片描述
你想要保证顺序会设置key同

在这里插入图片描述
tcp?
ack确认信息
在这里插入图片描述
先读信息,至少读一次
在这里插入图片描述
给位置,最多读一次,可以不读
在这里插入图片描述

生产者api

在这里插入图片描述
在这里插入图片描述
生产者只大量生产,不管消费,现在就是中国缓冲区满了,老百姓没钱消费,导致生产过剩

需要通过一带一路出去消费,这时候美国不乐意
在这里插入图片描述
物流系统?
在这里插入图片描述在这里插入图片描述
就是网购系统,一次精确消费

在这里插入图片描述

我扣款那边就要收款
我失败他不能收款
我付款了,他不能允许说没收到

这就是原子性

数据库就这样的特性
在这里插入图片描述

kafka序列化

在这里插入图片描述
在这里插入图片描述
前序、中序、后序序列化
跟买电脑一样
一堆零件,你送到了,找师傅安装

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
实际上
在这里插入图片描述
要卡主时间顺序的

在这里插入图片描述
注册制
在这里插入图片描述
header标识一下
在这里插入图片描述

实际订餐和菜品看不到

在这里插入图片描述
在这里插入图片描述
如果前面完不成,后面就gg
网络延时导致的

在这里插入图片描述
异步重试顺序如何保证

在这里插入图片描述
一会上菜,半天看不到,gg
消息积压很恶心

在这里插入图片描述
不看所有信息,只看id
在这里插入图片描述
又有问题,看日志
有几个商户的订单贼多,都放一个partition,怎么办?

那按照用户编号来放,这样,某个订单就走同一个partition

在这里插入图片描述
这样好多了
后面呢?
在这里插入图片描述
促销……
在这里插入图片描述
太骚了
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
哈哈哈技术太难了
消息积压有不同的原因

单表存了太多的菜品
在这里插入图片描述
在这里插入图片描述
并发太大,俩请求同事查到,id不存在
同时插入,第二个就gg
加锁?

Redis分布式锁怎么说?
不行,消费着网络超时gg

在这里插入图片描述
尝试插入,不行就改key
在这里插入图片描述
主从服务器
有订单,但是没有菜
主从数据库同步延时
就查不到数据
或者查不到最新数据
在这里插入图片描述

在这里插入图片描述
精确传才行

kafka默认就是容易重复

在这里插入图片描述
不存在插入,存在就更新

在这里插入图片描述
公用数据库和kafka系统

在不同环境中切换容易出错
所以配置要搞清楚

cpu容易挂的话,gg

kafka是牛逼的,很少出问题,大多都是逻辑出了问题。


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/112997.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据链路层中存在的报文ip,arp,rarp

IP数据报 ARP请求/应答报 RARP请求/应答报 IP数据报 这里的目的地址和源地址是MAC地址。 这个被称为 MAC 地址,是一个网卡的物理地址,用十六进制,6 个 byte 表示。 MAC 地址是一个很容易让人误解的地址。因为 MAC 地址号称全球唯一&…

如何选择合适的千兆或万兆光模块

随着数字化转型的加快和云计算、物联网等技术的迅猛发展,对高带宽和高速度通信的需求将持续增长。光模块作为实现高速光纤通信的关键组件,在数据中心、通信网络、云服务等领域得到更广泛的应用。对于用户来说,如何选择适合自己应用的光模块是…

Vue elemen ui 移除上次校验与部分清除上次校验

场景: 可以切换类型,下面的输入框参数也会随着改变。 如果不清除上次的校验就会出现,之前的大陆企业的校验还会出现在香港企业的校验中 方法: watch:{ruleForm.paymentSubjectType:{ 通过监听表单的类型来调用 clearValidate方…

LV.12 D13 UART实验 学习笔记

一、UART帧格式详解 UART Universal Asynchronous Receiver Transmitter 即 通用异步收发器,是一种通用的串行、异步通信总线 该总线有两条数据线,可以实现全双工的发送和接收,在嵌入式系统中常用于主机与辅助设备之间的通信。 通…

API文档自动生成

API文档自动生成 背景smart-doc配置效果图 背景 对于API接口文档自动生成,可能大家,最新想到的是用swagger,但是有以下问题: 对代码侵入太强版本升级,并不兼容不能生成各种类型的文档 所以,今天给大家推荐…

Python Django 之模板继承详解(extends)

文章目录 1 概述1.1 目的1.2 标签:block、extends1.3 目录结构 2 templates 目录2.1 base.html:父页面2.2 login.html:子页面 3 其它代码3.1 settings.py3.2 views.py3.3 urls.py 1 概述 1.1 目的 模板继承 和 类继承 的目的是一样的&#…

【已解决】PPT不能转换成PDF文档怎么办?

PPT可以转换成PDF文档,只需要点击PPT菜单页面中的【文件】选项,再点击【导出】即可转换,如果转换时发现【导出】选项不可选,无法完成转换怎么办?以下3种方法可以试试! 出现上面这种情况,我们可以…

HWebkit库的程序示例

HWebkit库的爬虫程序,并且能够使用指定的服务器。以下是代码的每一行的中文解释: import HWebkit import Network.HTTP.Client import Network.HTTP.Client.TLS import Data.Text.Encoding ​ -- 创建服务器的连接,使用的端口和主机是 proxy…

计算机服务器中了mallad勒索病毒怎么办,勒索病毒解密恢复

警惕,警惕,企业主多警惕,新型网络勒索病毒出来了,近期,云天数据恢复中心,接到了某企业的求助,企业的计算机服务器中了mallad后缀勒索病毒,导致企业计算机系统瘫痪,无法正…

Vue3.0 reactive与ref :VCA模式

简介 Vue3 最大的一个变动应该就是推出了 CompositionAPI,可以说它受ReactHook 启发而来;它我们编写逻辑更灵活,便于提取公共逻辑,代码的复用率得到了提高,也不用再使用 mixin 担心命名冲突的问题。 ref 与 reactive…

yolov7模型轻量化改进之MobileOne骨干替换

本文在之前文章yolov7分割训练的基础上进行改进: https://blog.csdn.net/qq_41920323/article/details/129464115?spm=1001.2014.3001.5502 具体GitHub工程下载,环境安装配置,数据准备等,请借鉴之前的文章,此处只介绍如何进行改进。 MobileOne地址:https://github.com…

通付盾Web3专题 | 智能账户:数字时代基础单元

2008年10月31日,中本聪(Satoshi Nakamoto)在P2P foundation 网站发布比特币白皮书《比特币:一种点对点的电子现金系统》。转眼距比特币白皮书发布已过去15年。2009年1月比特币网络正式推出,当时每个比特币的价格仅为0.…

设置防火墙

1.RHEL7中的防火墙类型 防火墙只能同时使用一张,firewall底层调用的还是lptables的服务: firewalld:默认 ,基于不同的区域做规则 iptables: RHEL6使用,基于链表 Ip6tables Ebtables 2.防火墙的配置方式 查看防火墙状态: rootlinuxidc -]#systemct…

idea集成测试插件替代postman

idea集成测试插件替代postman 兄弟萌,你再测试接口是否无bug是否流畅的时候是否还在使用“postman”来回切换进行测试呢? 页面切换进行测试,有没有感觉很麻烦呢? 打开postman,输入接口地址,有没有感觉很麻烦…

拓扑排序专题1 拓扑排序

题目: 样例: 输入 4 5 0 1 0 2 0 3 1 2 3 2 输出 0 1 3 2 思路: 拓扑序列含义 一个由图中所有点构成的序列 A 满足:对于图中的每条边 (x,y)(x,y), x 在 A 中都出现在 y 之前,则称 A 是该图的一个拓扑序列…

阿里云无影升级2.0 云电脑解决方案时代到来

10月31日,杭州云栖大会上,阿里云宣布无影全新升级2.0:从云电脑到云上解决方案,帮助中小企业更便捷地构建云上办公,并开放无影产品及解决方案能力,为生态合作伙伴提供企业云平台,帮助其打造定制化…

Python小试牛刀:GUI(图形界面)实现计算器UI界面(二)

上一篇:Python小试牛刀:GUI(图形界面)实现计算器UI界面(一)-CSDN博客 在上一篇文章中介绍了Python GUI常用的库,以及运用GUI标准库tkinter仅设计了计算器的UI界面。 而在本篇文章,…

「Java开发指南」如何用MyEclipse搭建Spring MVC应用程序?(一)

本教程将指导开发者如何生成一个可运行的Spring MVC客户应用程序,该应用程序实现域模型的CRUD应用程序模式。在本教程中,您将学习如何: 从数据库表的Scaffold到现有项目部署搭建的应用程序 使用Spring MVC搭建需要MyEclipse Spring或Bling授…

本章内容的重点是对各种电子式电动机保护器电路的原理分析和故障维修指导,对电子式电动机保护器以下简称为电动机保护器。

上世纪八十年代之前,电子技术的应用尚处于初级阶段,对电动机的保护任务多由热继电器承担,国内型号为为JR20-XX系列、JR36-XX系列等。其保护机理如下:热继电器由发热元件、双金属片、触点及一套传动和调整机构组成。发热元件是一段…

【Linux】第八站:gcc和g++的使用

文章目录 一、解决sudo命令的问题二、Linux编译器-gcc/g1.gcc的使用2.g的使用 三、gcc编译链接过程1.预处理2.编译(生成汇编)3.汇编(生成机器可识别代码)4.链接(生成可执行文件或库文件)5.一些选项的意义 四…