架构实战--以海量存储系统讲解热门话题:分布式概念

关注我,持续分享逻辑思维&管理思维; 可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导;
有意找工作的同学,请参考博主的原创:《面试官心得--面试前应该如何准备》,《面试官心得--面试时如何进行自我介绍》《做好面试准备,迎接2024金三银四》。

-------------------------------------正文----------------------------------------

分布式概念是指在分布式计算环境中,一个软件系统或应用程序的功能和数据可以在多个服务器之间分散,以实现更高的可用性、灵活性和 scalability。这种方式可以使得系统的整体性能和可用性提高,同时也可以减少单个服务器的负担。

分布式概念通常包括以下几个方面:

1. 分布式存储:将数据存储在多个服务器之间,以提高数据的可用性和访问速度。
2. 分布式处理:将计算任务分散到多个服务器上,以减少单个服务器的负担和提高系统的总性能。
3. 分布式应用程序:将应用程序分散到多个服务器上,以实现更高的可用性和灵活性。
4. 分布式网络:将网络结构分散到多个服务器和网络设备之间,以提高系统的可用性和灵活性。
5. 分布式数据库:将数据库分散到多个服务器上,以提高数据的可用性和访问速度。
6. 分布式计算:将计算任务分散到多个服务器上,以减少单个服务器的负担和提高系统的总性能。
7. 分布式文件系统:将文件分散到多个服务器上,以提高文件的可用性和访问速度。

以上图为例,是比较简单的一个存储分布式引擎。

Proxy介绍

  • Proxy可以分配域名,这样用户的请求可以均匀分配到任何一台Proxy上。Proxy无状态,可以无差别承担任何一个请求。
  • Proxy在承担服务前,先从Master获取所有数据路由(路由的概念:存储系统由Key+Value组成,一个Key对应一个Value。Key可以认为是文件名+路径,也可以是自定义的唯一Key。Value对应的是内容。路由是指每个Key在哪个Data节点的位置信息。显然,每个Key保存对应的Data IP不大可能。一般把Key直行Hash,Hash后得到一个int,然后进行数学取模。模的大小大家可以自己取。比如模100000,意味着每个Key可以散列成一个10万以内的数字。我们保存这个数字和Data IP的对应关系即可。比如数字1-10000在Data节点1, 10000-20000在节点2……)。对于写请求,Proxy收到Key+Value,以Key散列后看数字为多少,如果数字为30005,则把这个Key+Value写发到Data节点3去服务。读请求类似,Key散列后,转发到对应Data节点去获取数据。
  • Proxy同时和Master保持心跳。当路由信息有变化时,Master会通知Proxy。比如我们发现Data3节点快被写满了,决定扩容,申请了Data3.1,Data3.2两组节点,Data3.1承担30001-35000的路由数据,Data3.1承担35001-40000的路由数据。这样,Data节点可以一直扩容到10万组(如果上面的模改为1000万,则可以扩容到1000万组)。
  • 对于写请求,Proxy将数据写到Data节点组的主备机,都写成功了才返回成功。而读请求,可以到任何一台机器上进行。
  • 任何一个Proxy节点挂了,可以在DNS中将其剔除。用户请求将会转发到其他Proxy节点上,所以Proxy节点机器死机,对用户无影响。

Data介绍

  • Data有2台,互为主备。可以互相不知道对方。每个Data节点只负责读写自己的数据。
  • 当一个Key+Value写过来,Data节点按自己的组织方式写到磁盘里。下次读的时候,再从对应的磁盘里读出来。因为涉及数据案例,所以一逻辑上经比较简单,二有主备机器。任何一个Key,在主或备上都可以读出相同的数据来。
  • Data要定期向Master上报心跳。让Master知道这组Data是正常的。如果哪台有异常,才好让其下线,以另一台向用户服务。所以,任意死机一台Data都不影响服务。
  • Data节点有状态,但也可以任意扩容、缩容。当需要扩容时,告诉Master有新的Data节点。然后控制Master分裂路由。

Master介绍

  • Master逻辑简单,只保存全量路由。这个路由数据可以以文件方式保存,一旦这个Master挂了,可以拿到这个文件快速启动另一台Master并服务。
  • Master也以DNS进行服务。这样,随时可以切换到另一台Master进行服务。因此,Master也是可以死机的。

以上,就是简单的一个分布式存储系统。

亮点

  • 高性能:Proxy缓存全量路由,查找路由快速、精准。能一步定位到数据在哪台Data节点;
  • 扩展性:路由可以任意扩容,Data节点可以无限扩容;
  • 可用性:Data有主备两台机器,任何一台挂了,也不影响继续读取和写入。同时Proxy和Master死机也不会影响系统可用性。

这里只是拿这个架构来分析、讲解分布式概念。真正的存储系统还是比较复杂。
比如写2份数据,一份成功一分失败怎么办。
比如下线一台Data节点,只有另一台节点服务,此时数据只有一份,就比较危险。
比如下线节点后,这个节点再次起来,数据与互备的可能就不一样了怎么办?

分布式概念的主要优势包括:

1. 提高系统可用性:通过将数据和应用程序分散到多个服务器上,可以在多个服务器之间进行数据和应用程序的存储和处理,从而提高系统的可用性。
2. 提高系统性能:通过将计算任务分散到多个服务器上,可以在多个服务器之间进行数据并发、加速和优化,从而提高系统的性能。
3. 减少服务器负担:通过将应用程序和数据分散到多个服务器上,可以在每个服务器上只需要一定量的计算 ressources,从而减少单个服务器的负担。
4. 提高系统灵活性:通过将应用程序和数据分散到多个服务器上,可以在多个服务器之间进行数据和应用程序的更新、升级和扩展,从而提高系统的灵活性。
5. 降低系统沟通成本:通过将数据和应用程序分散到多个服务器上,可以减少在多个服务器之间进行数据和应用程序的传输和沟通,从而降低系统的沟通成本。

然而,分布式概念也存在一些挑战,包括:

1. 复杂性增加:由于多个服务器之间进行数据和应用程序的交互,因此会增加系统的复杂性。
2. 可用性和灵活性难以确保:由于分布式系统存在多个服务器和网络设备之间的交互,因此可能会出现系统不可用或灵活性异常的情况。
3. 安全性难以保证:由于分布式系统存在多个服务器和网络设备之间的交互,因此可能会出现安全性问题或攻击。
4. 数据重复和随机访问异常:由于分布式系统存在多个服务器之间进行数据的存储和访问,因此可能会出现数据重复或随机访问异常的情况。
5. 扩展性困难:由于分布式系统存在多个服务器和网络设备之间的交互,因此可能会出现扩展性问题或兼容性问题。

对架构、技术、管理、逻辑思维有兴趣的同学,欢迎点赞&关注和博主沟通交流。持续分享逻辑、算法、管理、技术、人工智能相关的文章。

博主其它经典原创:《管理心得--工作目标应该是解决业务问题,而非感动自己》,《管理心得--如何高效进行跨部门合作》,《管理心得--员工最容易犯的错误:以错误去掩盖错误》,《技术心得--如何成为优秀的架构师》、《管理心得--如何成为优秀的架构师》、《管理心理--程序员如何选择职业赛道》。欢迎大家阅读。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/457570.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Jmeter扩展开发--自定义java取样器

简介 jmeter内置了包括:http、https、tcp等各种协议的支持,通常情况只需要做简单的参数配置即可使用。但在某些特殊情况下,还是希望能做自定义压测处理,此时就涉及Jmeter的扩展开发自定义Java取样器,如下图所示&#…

QT 如何防止 QTextEdit 自动滚动到最下方

在往QTextEdit里面append字符串时,如果超出其高度,默认会自动滚动到QTextEdit最下方。但是有些场景可能想从文本最开始的地方展示,那么就需要禁止自动滚动。 我们可以在append之后,添加如下代码: //设置编辑框的光标位…

HTML 列表 || 表格 || 表单

目录 1. 列表1.1 无序列表1.2 有序列表1.3 定义列表 2. 表格2.1 表格基本标签2.2 表格结构标签2.3 合并单元格 3. 表单3.1 input 标签基本使用3.1.1 单选框 radio3.1.2 上传文件 file3.1.3 多选框 checkbox 3.2 表单下拉菜单3.3 表单文本域3.4 label 标签3.5 按钮 button 正文开…

想要自己制作一款游戏,需要掌握哪些基本技能?

你是否曾经沉浸在游戏的世界中,感受到游戏带来的无限乐趣?你是否曾经梦想能够亲手制作一款属于自己的游戏,为玩家带来独特的体验?然而,要实现自己的游戏创作梦想,并不是一件轻松的事情。需要掌握各种技能和…

mac【启动elasticsearch报错:can not run elasticsearch as root

mac【启动elasticsearch报错:can not run elasticsearch as root 问题原因 es默认不能用root用户启动,生产环境建议为elasticsearch创建用户。 解决方案 为elaticsearch创建用户并赋予相应权限。 尝试了以下命令创建用户,adduser esh 和u…

uniapp中人脸识别图片并圈起人脸

效果如上,我用的是阿里云的人脸识别。首先,我们先封装一个阿里云的请求js文件 faceRecognition.js import CryptoJS from crypto-js//SignatureNonce随机数字 function signNRandom() {const Rand Math.random()const mineId Math.round(Rand * 1000…

visual studio 中添加qt类报错问题

添加ImportSetting类,在构造函数声名处已经写Q_OBJECT宏,但仍然报错。 无法解析的外部符号"public::virtual struct QMetaObject const*_cdecl ImportSettingFromFile::metaObject(void)const "(?metaObjectImportSettingFromFileUEBAPEBUQM…

Spring boot创建第一个项目

作者简介: zoro-1,目前大二,正在学习Java,数据结构,spring等 作者主页: zoro-1的主页 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖💖 Spring boot创建第一个项目 sp…

Python 基于 OpenCV 视觉图像处理实战 之 图像相关的基本概念,以及图像的基础操作 二

Python 基于 OpenCV 视觉图像处理实战 之 图像相关的基本概念,以及图像的基础操作 二 目录 Python 基于 OpenCV 视觉图像处理实战 之 图像相关的基本概念,以及图像的基础操作 二 一、简单介绍 二、图像的几何变换 三、插值算法 1、最近邻插值算法 …

Spring中的BeanFactory

BeanFactory,以Factory结尾,表示是一种工厂。 作用: 是一个接口,定义了生产Bean对象的工厂应有的方法,如下图,定义了一个Bean工厂,最基本的方法。 职责: 它是负责生产和管理bean的一个工厂&…

AJAX 05 axios拦截器、数据管理平台

AJAX 学习 AJAX 05 黑马头条-数据管理平台项目准备业务1:验证码登录bootstrap提示框实际业务中的验证码登录token 【注】HTML遗落的知识【注】JS遗漏的知识业务2:个人信息设置 & axios拦截器axios请求拦截器axios响应拦截器 业务3:发布文…

LabVIEW电磁阀特性测控系统

LabVIEW电磁阀特性测控系统 电磁阀作为自动化工程中的重要组成部分,其性能直接影响系统的稳定性和可靠性。设计一种基于LabVIEW的电磁阀特性测控系统,通过高精度数据采集和智能化控制技术,实现电磁阀流阻、响应时间及脉冲特性的准确测量和分…

ts文件怎么无损转换mp4?这样设置转换模式~

TS格式(Transport Stream)的起源可追溯到数字电视广播领域。设计初衷是解决视频、音频等多媒体数据在传输和存储中的问题。采用一系列标准技术,TS格式让视频信号能够以流的形式传输,因此在数字电视、广播等领域得到广泛应用。 MP4…

ASP.NET Core Web API 流式返回,逐字显示

Websocket、SSE(Server-Sent Events)和长轮询(Long Polling)都是用于网页和服务端通信的技术。 Websocket是一种全双工通信协议,能够实现客户端和服务端之间的实时通信。它基于TCP协议,并且允许服务器主动向…

消除PyCharm的黄色波浪线和右侧黄色短线

旧版pycharm看这个链接:https://blog.csdn.net/weixin_39450145/article/details/113574921 新版pycharm往下看 消除代码中的黄色波浪线:在设置,编辑器,配色方案,常规里面。然后选择错误和警告。 消除右侧黄色短线&am…

【Flink SQL】Flink SQL 基础概念:SQL 的时间属性

Flink SQL 基础概念:SQL 的时间属性 1.Flink 三种时间属性简介2.Flink 三种时间属性的应用场景2.1 事件时间案例2.2 处理时间案例2.3 摄入时间案例 3.SQL 指定时间属性的两种方式4.SQL 事件时间案例5.SQL 处理时间案例 与离线处理中常见的时间分区字段一样&#xff…

重新认识BIO、NIO、IO多路复用、Select、Poll、Epollo它们之间的关系

目录 一、背景 二、名词理解 (1)BIO (2)NIO (3)IO多路复用 (4)Select、Poll、Epollo 三、他们之间的关系总结 一、背景 最近又在学习网络IO相关知识,对我们常说的…

【软件测试基础篇】第一节.软件测试基础1

文章目录 前言⼀、了解软件测试行业二、主流测试技能三、测试常用分类四、模型 4.1 质量模型 4.2 w模型五、测试流程六、测试用例总结 前言 一、了解软件测试行业 1.概念: 使用技术手段验证软件功能是否符合需求 2.特点: 岗位缺口&#xff1a…

【OceanBase诊断调优 】 —— 合并问题如何排查?

最近总结一些诊断OCeanBase的一些经验,出一个【OceanBase诊断调优】专题,也欢迎大家贡献自己的诊断OceanBase的方法。 1. 前言 OceanBase 数据库的存储引擎基于 LSM-Tree 架构,将数据分为静态基线数据(放在 SSTable 中&#xff…

如何利用POI导出报表

一、报表格式 二、依赖坐标 <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId><version>3.16</version> </dependency> <dependency><groupId>org.apache.poi</groupId><art…