【分布式理论13】分布式存储:数据存储难题与解决之道

文章目录

    • 一、数据存储面临的问题
    • 二、RAID磁盘阵列的解决方案
      • 1. RAID概述
      • 2. RAID使用的技术
      • 3. RAID的代表性等级
    • 三、分布式存储的新思路
      • 1. 分布式存储背景与特点
      • 2. 分布式存储的组成要素

一、数据存储面临的问题

在单机系统时代,当数据量不断增加、硬盘空间不够时,最简单的解决办法就是扩大磁盘容量。然而,随着数据量的增长,磁盘读写操作的速度成为了限制系统性能的瓶颈。因此,提升存储性能、提高数据的可靠性和可扩展性,成为了系统设计的重要目标。

在这个过程中,磁盘阵列(RAID)技术、分布式存储以及扩展技术逐渐成为了应对挑战的解决方案。

 

二、RAID磁盘阵列的解决方案

1. RAID概述

RAID(独立磁盘冗余阵列)是解决上述问题的早期探索。它由多个独立高性能磁盘驱动器构成磁盘子系统,为主机环境提供成本适中、数据可靠性高的高性能存储,能改善磁盘的存储容量、读写速度,增强磁盘的可用性。

 

2. RAID使用的技术

  1. 镜像:将数据复制到多个磁盘。这一方面提高了系统可靠性,另一方面让数据读操作可并发进行,从而提高读写性能。但写性能稍低,因为要确保数据正确写入多个磁盘较耗时。
  2. 数据条带:把一整块数据分片,存于多个不同磁盘空间。面对并发读写请求时,可同时操作不同磁盘上的数据,提升I/O性能。
  3. 数据校验:因镜像存储使同一份数据存于多个磁盘,这种冗余存储有助于数据的错误检测和修复。冗余数据通常用海明码、异或操作等算法生成,提高了RAID的可靠性和容错能力。

 

3. RAID的代表性等级

  1. RAID0:是一种无数据校验的数据条带化技术,不提供冗余策略。它将整块数据分成多份存到不同磁盘,访问时可并发执行IO操作,充分利用总线带宽。
  2. RAID1:完全实现镜像技术,把数据集复制一份,原数据集和副本分别存于两个磁盘,磁盘空间利用率为50%。读取数据可从任一磁盘获取,写入时响应时间受影响,但大大提高了数据可靠性。
  3. RAID01和RAID10:RAID01由RAID0和RAID1组合,先进行条带化再镜像,提高了读写效率和数据可靠性,但磁盘利用率低。RAID10则是先镜像再条带,从读写性能上和RAID01一样,但出现磁盘故障时,读性能优于RAID01,安全性更强。

虽然RAID通过增加磁盘数量提高了单机服务器的数据读写效率和可靠性,但单机磁盘扩容有上限,不足以应对数据爆发式增长带来的挑战。

 

三、分布式存储的新思路

1. 分布式存储背景与特点

分布式存储属于集群水平扩展,随着业务发展,系统数据量和访问量剧增,单机难以满足需求,分布式集群存储便应运而生。它将数据分布在多台服务器节点上,为大规模应用提供大容量、高性能、高可用、高扩展的存储服务。借鉴RAID的数据分片和副本技术,分布式存储将数据按规律存储在不同服务器节点,读写时也遵循相应规律。

2. 分布式存储的组成要素

  1. 数据的使用者:也就是使用数据的用户,可从分布式存储系统写入和读取数据。数据分为结构化数据(如关系型数据库)、半结构化数据(如HTML、JSON、XML等)和非结构化数据(如文档、图片、视频等)。
  2. 数据的索引者:在分布式系统中,它负责找到数据读写的正确路径。由于数据集分布在不同服务器上,需通过Hash算法、一致性Hash算法等找到数据。
  3. 数据的存储者:相当于容器,将使用者产生的数据保存起来,数据可存于磁盘或内存。结构化数据、半结构化数据、非结构化数据分别对应分布式数据库、分布式键值系统、分布式文件系统。索引者将使用者和存储者连接起来,并作为数据存储的媒介。

 
参考:《分布式架构原理与实践-崔皓》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/973607.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32 看门狗

目录 背景 独立看门狗(IWDG) 寄存器访问保护 窗口看门狗(WWDG) 程序 独立看门狗 设置独立看门狗程序 第一步、使能对独立看门狗寄存器的写操作 第二步、设置预分频和重装载值 第三步、喂狗 第四步、使能独立看门狗 喂狗…

【第二节】C++设计模式(创建型模式)-抽象工厂模式

目录 引言 一、抽象工厂模式概述 二、抽象工厂模式的应用 三、抽象工厂模式的适用场景 四、抽象工厂模式的优缺点 五、总结 引言 抽象工厂设计模式是一种创建型设计模式,旨在解决一系列相互依赖对象的创建问题。它与工厂方法模式密切相关,但在应用…

docker基操

docker基操 首先就是安装docker使用docker:创建容器-制作一个镜像-加载镜像首先就是安装docker 随便找一个教程安装就可以,安装过程中主要是不能访问谷歌,下面这篇文章写了镜像的一些问题: 安装docker的网络问题 使用docker:创建容器-制作一个镜像-加载镜像 主要是参考:这篇…

3D打印注塑件-省模具费90%的解决方案

"开模费用50万,首批订单才200件?" 这是许多制造企业的真实困境。传统注塑工艺动辄数周的开模周期和5-50万元的模具成本,让中小企业的产品迭代举步维艰。 在传统制造流程中,注塑件的生产往往需要高昂的模具开发费用和较…

Java+SpringBoot+Vue+数据可视化的综合健身管理平台(程序+论文+讲解+安装+调试+售后)

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复,希望帮助更多的人。 系统介绍 在当今社会,随着人们生活水平的不断提高和健康意识的日益增强,健…

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

作者:美的楼宇科技事业部 先行研究中心智能技术部 美的楼宇科技 IoT 数据平台建设背景 美的楼宇科技事业部(以下简称楼宇科技)是美的集团旗下五大板块之一,产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯…

matlab 车辆进出检测算法设计GUI界面-论文

1、内容简介 matlab151-车辆进出检测算法设计GUI界面-论文 可以交流、咨询、答疑 2、内容说明 略 随着科学技术的进步,社会的发展,各行各业都在发生着巨大的变化。近段时间以来,“无人化”智能产业正处于一个风口阶段,似乎我们…

python学习书籍推荐

### Python 学习路线图概述 为了有效地掌握Python这门编程语言并应用于不同领域,构建一个合理的学习路径至关重要。此学习路径不仅涵盖了基础语法,还深入到特定应用方向的关键技术。 #### 基础阶段 在这个初始阶段,重点在于理解Python的基…

基于Spring Boot的农事管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

在 Ansys Motion 中创建链式伸缩臂的分步指南

介绍 链传动在负载和/或运动要远距离传递的机器中非常多产,例如,在两个平行轴之间。链条驱动系统的设计需要了解载荷传递和运动学如何影响链条张力、轴轴承中的悬臂载荷、轴应力和运动质量等。使用 Ansys Motion,可以轻松回答上述所有问题以…

Web Scraper,强大的浏览器爬虫插件!

Web Scraper是一款功能丰富的浏览器扩展爬虫工具,有着直观的图形界面,无需编写代码即可自定义数据抓取规则,高效地从网页中提取结构化数据,而且它支持灵活的数据导出选项,广泛应用于电商监控、内容聚合、市场调研等多元…

数据结构:栈和队列详解(下)

目录 一.如何用队列实现栈 1.思路: 2.具体代码: 二.如何用栈实现队列 1.思路: 2.具体代码: 一.如何用队列实现栈 原题来源:https://leetcode.cn/problems/implement-stack-using-queues/description/ 前言&#xf…

DeepSeek智能测试知识库助手PRO版:多格式支持+性能优化

前言 测试工程师在管理测试资产时,需要面对多种文档格式、大量文件分类及知识库的构建任务。为了解决这些问题,我们升级了 DeepSeek智能测试知识库助手,不仅支持更多文档格式,还加入了 多线程并发处理 和 可扩展格式支持,大幅提升处理性能和灵活性。 主要功能亮点: 多格…

宝塔面板开始ssl后,使用域名访问不了后台管理

宝塔面板后台开启ssl访问后,用的证书是其他第三方颁发的证书 再使用 域名/xxx 的形式:https://域名:xxx/xxx 访问后台,结果出现如下,不管使用 http 还是 https 的路径访问都进不后台管理 这个时候可以使用 https://ip/xxx 的方式来…

机器学习_12 逻辑回归知识点总结

逻辑回归是机器学习中一种重要的分类算法,广泛应用于二分类和多分类问题。它不仅能够预测分类结果,还能提供每个类别的概率估计。今天,我们就来深入探讨逻辑回归的原理、实现和应用。 一、逻辑回归的基本概念 1.1 逻辑回归与线性回归的区别…

AI Agent实战:打造京东广告主的超级助手 | 京东零售技术实践

前言 自2022年末ChatGPT的问世,大语言模型(LLM)技术引发全球关注。在大模型技术落地的最佳实践中,智能体(Agent)架构显现出巨大潜力,成为业界的普遍共识,各大公司也纷纷启动Agent技…

【工具篇】【深度解析 DeepAI 工具:开启 AI 应用新体验】

一、DeepAI 基本信息 嘿,咱先来说说 DeepAI 这工具到底是啥。DeepAI 是一个综合性的人工智能平台,就像是一个装满各种 AI 魔法的百宝箱。它把好多先进的人工智能技术整合到一起,让咱们普通人也能轻松用上这些高大上的 AI 功能。 这个平台背后有一群超厉害的技术人员,他们…

C语言之typedef

目录 前言 一、基本数据类型定义 二、作用 自带阅读 封装复杂类型的描述过程 三、指针类型定义 ​ 四、函数类型定义 总结 前言 typedef是C语言中用来为已有数据类型取别名的关键字。通过使用typedef关键字,可以方便地为数据类型定义新的名称,提高代码的…

如何在 SpringBoot 项目使用 Redis 的 Pipeline 功能

本文是博主在批量存储聊天中用户状态和登陆信息到 Redis 缓存中时,使用到了 Pipeline 功能,并对此做出了整理。 一、Redis Pipeline 是什么 Redis 的 Pipeline 功能可以显著提升 Redis 操作的性能,性能提升的原因在于可以批量执行命令。当我…

【HBase】HBaseJMX 接口监控信息实现钉钉告警

目录 一、JMX 简介 二、JMX监控信息钉钉告警实现 一、JMX 简介 官网:Apache HBase ™ Reference Guide JMX (Java管理扩展)提供了内置的工具,使您能够监视和管理Java VM。要启用远程系统的监视和管理,需要在启动Java…