大数据架构相关知识总结

一、大数据处理系统架构特性

        1. 鲁棒性和容错性:

                系统必须对游bug的程序写入的错误数据游足够的适应能力

        2. 低延迟读取和更新能力

        3. 横向扩容:

                可以通过增加机器数量来维持性能

        4. 通用性:

                需要支持绝大多数应用程序

        5. 延展性:

                系统需要对新功能加入友好

        6. 即席查询能力:

                用户可以按照的要求进行即席查询

        7. 最少维护能力:

                系统需要在大多数时间下保持平稳运行

        8. 可调式性:

                系统在运行中产生的每一个值,需要有可用途径进行追踪,并且能够明确数据是如何产

        生的

二、Lambda架构

        Lambda架构可分为:批处理层、加速层、服务层

        批处理层:存储主数据集,主要是离线数据(历史数据),数据包括以下特性:1. 数据是原

                            始的;2. 数据是不可变的;3. 数据永远是真实的(Hadoop)

        加速层:只存储最近新增的数据流,并且实时更新(Spark)

        服务层:用于合并批处理层视图和是加速层视图,得到最终结果集。响应客户的查询请求

                       (HBase)

        优点:

                1. 容错性好:一旦出现错误,可以修改算法或重新计算视图,加速层中产生的错误可以

                                       在批处理层得到修正

                2. 查询灵活度高:运行对任何数据进行临时查询

                3. 易伸缩:批处理层、加速层、服务层都是分布式部署的,扩展方便

                4. 易扩展:添加视图只需要给主数据集添加几个函数

        缺点:

                1. 全场景覆盖带来的编码开销

                2. 正对具体场景重新李现训练一遍益处不大

                3. 重新部署和迁移成本高

        缺点: 

三、Kappa架构

        Kappa架构对Lambda架构进行了优化,删除了批处理层。只有实时层和服务层

        优点:

                 1. 将实时和离线代码统一起来,方便维护而且统一了数据口径问题

                2. 维护成本低

        缺点: 

                  1. 消息中间件缓存的数据量和回溯数据有性能瓶颈

                2. 在实时数据处理事,遇到大量不同的实时流进行关联时,非常依赖实时计算系统的能

        力,很有可能因为数据流先后顺序问题,导致数据丢失 。

                3. 在抛弃历史数据处理模块时,同时抛弃了李现计算更加稳定可靠的特点

四、Lambda架构与Kappa架构对比

对比内容Lambda架构Kappa架构
复杂度与开发、维护成本需要维护两套系统引擎,复杂度高,开发维护成本高只需要维护一套系统引擎,复杂度低,开发维护成本低
计算开销需要一直运行批处理和实时计算、计算开销大必要时进行全量计算,计算开销相对较小
实时性满足实时性满足实时性
历史数据查询能力批处理全量处理,吞吐量大,历史数据处理能力强流式全量处理,吞吐量相对较低,历史数据处理能力弱

Lambda和Kappa的选择:

        1. 业务需求和技术要求

        2. 复杂度

        3. 开发维护成本

        4. 历史数据处理能力 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/579477.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端工程化Vue使用Node.js设置国内高速npm镜像源(踩坑记录版)

前端工程化Vue使用Node.js设置国内高速npm镜像源(踩坑记录版) 此篇仅为踩坑记录,并未成功更换高速镜像源,实际解决方法见文末跳转链接。 1.自身源镜像 自身镜像源创建Vue项目下载速度感人 2.更改镜像源 2.1 通过命令行配置 前提…

【工作】程序员工作压力八个常见来源与建议缓解压力小窍门

目录 ​编辑 一. 程序员工作压力八个常见来源与建议 1)目标职位不对 2)工作任务描述不清晰 3)快节奏的工作环境 4)项目后期突然被添加新的要求 5)计划外的工作事务会打断并破坏注意力 6)个人问题 7…

MySQL第一次作业

解压完安装包 以管理员进入命令行 初始化并记住初始随机密码 创建服务名称 启动mysql 使用随机密码登录 修改密码 退出并重登服务器 MySQL创建数据库和表 创建数据库 创建表 1.进入数据库 创建表 向表中插入数据

鸿蒙OpenHarmony【小型系统 编译】(基于Hi3516开发板)

编译 OpenHarmony支持hb和build.sh两种编译方式。此处介绍hb方式,build.sh脚本编译方式请参考[使用build.sh脚本编译源码]。 使用build.sh脚本编译源码 进入源码根目录,执行如下命令进行版本编译。 ./build.sh --product-name name --ccache 说明&…

[Java EE] 多线程(四):线程安全问题(下)

1.5 volatile关键字 我们在了解这个关键字之前,我们首先要把产生线程安全的第4个原因补齐,我们来说说由于内存可见性引起的线程安全问题. 我们来看下面这样一段代码: import java.util.Scanner;public class Demo16 {public static int count 0;public static void main(Str…

PotatoPie 4.0 实验教程(25) —— FPGA实现摄像头图像直方图均衡变换

图像的直方图均衡是什么? 图像的直方图均衡是一种用于增强图像对比度的图像处理技术。在直方图均衡中,图像的像素值被重新分配,以使得图像的直方图变得更均匀,即各个像素值的分布更加平衡。这意味着直方图中每个像素值的频率大致…

在PR中使用 obs 和 vokoscreen 录制的视频遇到的问题

1. obs 录制的视频 在 Adobe Premiere Pro CS6 中只有音频没有视频 2. vokoscreen 录制的视频,没有声音 这是是和视频录制的编码有关系,也和显卡驱动关系 首先 obs 点击 文件 ---> 设置 录制的视频都是可以正常播放的,在PR不行。更…

python爬虫 - 爬取 json 格式数据(股票行情信息:雪球网,自选股)

文章目录 1. 第一步:安装requests库2. 第二步:获取爬虫所需的header和cookie3. 第三步:获取网页4. 第四步:解析网页5. 第五步:解析 json 结构数据体6. 代码实例以及结果展示 python爬虫五部曲: 第一步&…

字符串变量 字符串常量

仅个人笔记 #include<iostream> using namespace std;int main() {char str[] "2232344434";for (int i 0; i < strlen(str); i){printf("%c", *(stri));}const char* arr "12343545";for (int i 0; i < strlen(arr); i){printf…

HackMyVM-Vulny

目录 信息收集 arp nmap nikto WEB信息收集 主页信息收集 gobuster RCE漏洞 反弹shell 提权 系统信息收集 横向渗透 flock提权 信息收集 arp ┌──(root㉿0x00)-[~/HackMyVM] └─# arp-scan -l Interface: eth0, type: EN10MB, MAC…

mysql-sql-练习题-2-窗口函数

窗口函数 访问量max sum建表窗口函数连接 直播间人数 第1、3名建表排名sum 访问量max sum 每个用户截止到每月为止&#xff0c;最大单月访问次数&#xff0c;累计到该月的总访问次数 建表 create table visit(uid1 varchar(5) comment 用户id,month1 varchar(10) comment 月…

【热门话题】Chrome 插件研发详解:从入门到实践

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 Chrome 插件研发详解&#xff1a;从入门到实践一、引言二、Chrome 插件基础概念…

Win32 API 光标隐藏定位和键盘读取等常用函数

Win32 API 光标隐藏定位和键盘读取等常用函数 一、Win32 API二、控制台程序指令modetitlepausecls 三、控制台屏幕上坐标的结构体COORD四、句柄获取函数GetStdHandle五、控制台光标操作1.控制台光标信息结构体CONSOLE_CURSOR_INFO2.得到光标信息函数GetConsoleCursorInfo3. 设置…

Amazon云计算AWS之[5]关系数据库服务RDS

文章目录 RDS的基本原理主从备份和下读写分离 RDS的使用 RDS的基本原理 Amazon RDS(Amazon Relational Database Service) 将MySQL数据库移植到集群中&#xff0c;在一定的范围内解决了关系数据库的可扩展性问题。 MySQL集群方式采用Share-Nothing架构。每台数据库服务器都是…

《架构风清扬-Java面试系列第25讲》聊聊ArrayBlockingQueue的特点及使用场景

ArrayBlockingQueue是BlockingQueue接口的一个实现类之一 这个属于基础性问题&#xff0c;老规矩&#xff0c;我们将从使用场景和代码示例来进行讲解 来&#xff0c;思考片刻&#xff0c;给出你的答案 1&#xff0c;使用场景 实现&#xff1a;基于数组实现的有界阻塞队列&…

TCP/IP协议族中的TCP(二):解析其关键特性与机制

⭐小白苦学IT的博客主页⭐ ⭐初学者必看&#xff1a;Linux操作系统入门⭐ ⭐代码仓库&#xff1a;Linux代码仓库⭐ ❤关注我一起讨论和学习Linux系统 滑动窗口 在前面我们讨论了确认应答策略, 对每一个发送的数据段, 都要给一个ACK确认应答. 收到ACK后再发送下一个数据段.这样…

【Python】#5 基础文件IO详解

文章目录 一、文件概述二、文件操作1.文件的打开与关闭2. 文件的读写2.1 读取2.2 写入tips:CSV与JSON文件 一些文件操作小实验《清明》文本写入与读取《红楼梦》人物出现统计&#xff08;部分文本&#xff09; 一、文件概述 文件是数据的集合和抽象&#xff0c;类似&#xff0…

如何增强交友、婚恋平台、金融等平台的安全性

运营商二要素核验是一种数字身份验证方法&#xff0c;主要使用用户的手机号码和姓名作为核验要素。这两个要素被认为是最基本的用户身份信息&#xff0c;通过运营商的数据库来核实其真实性。 在实际操作中&#xff0c;用户需要提供手机号码和姓名进行验证。应用系统会调用接口…

全面了解俄罗斯的VK开户和Yandex投放及内容运营

俄罗斯的VKontakte&#xff08;简称VK&#xff09;和Yandex是两个重要的在线平台&#xff0c;对于希望在俄罗斯市场进行推广的企业来说&#xff0c;了解如何在这些平台上开户和投放广告以及内容运营是非常关键的。 俄罗斯vk广告如何开户&#xff1f; 通过上海上弦进行俄罗斯V…

手写一个RNN前向传播以及反向传播

前向传播 根据公式 st tanh (Uxt Wst-1 ba) ot softmax(Vst by ) m 3 词的个数 n 5 import numpy as np import tensorflow as tf # 单个cell 的前向传播过程 # 两个输入&#xff0c;x_t&#xff0c;s_prev,parameters def rnn_cell_forward(x_t,s_prev,parameter…