什么是分库分表?为什么要分库分表?什么时候需要分库分表?怎么样拆分?(数据库分库分表详解)

文章目录

    • 1、什么是分库分表?
      • 1.1、分库分表的概念
      • 1.2、分库分表的方式
        • 1.2.1、垂直分库
        • 1.2.2、垂直分表
        • 1.2.3、水平分库
        • 1.2.4、水平分表
    • 2、为什么要分库分表?
    • 3、什么时候需要分库分表?
    • 4、分库分表的数据路由
      • 4.1、数据路由的目的
      • 4.2、数据路由的方式
    • 5、分库分表的分布式事务
      • 5.1. 分布式事务的问题
      • 5.2. 分布式事务的解决方案
    • 6、实战案例
      • 6.1. 业务背景
      • 6.2. 分库分表方案设计
      • 6.3. 技术选型
      • 6.4. 实施步骤
      • 6.5. 效果评估
    • 7、总结

1、什么是分库分表?

1.1、分库分表的概念

分库分表的形式,主要是两种:垂直拆分和水平拆分。而拆分的粒度,一般又分为分库和分表,所以组
成的拆分策略最终如下:

  1. 分库:将一个数据库拆分成多个独立的数据库,每个数据库可以部署在不同的服务器上,从而分散数据存储和访问压力。

  2. 分表:将一个数据表拆分成多个小表,每个小表可以存储部分数据,从而减少单个表的数据量,提高查询和写入性能。

在这里插入图片描述

在这里插入图片描述

1.2、分库分表的方式

1.2.1、垂直分库

在这里插入图片描述
垂直分库:以表为依据,根据业务将不同表拆分到不同库中。

特点:

  • 每个库的表结构都不一样。
  • 每个库的数据也不一样。
  • 所有库的并集是全量数据。

原理:

  • 一个表中的字段可能具有不同的访问频率和性能需求,通过垂直分表可以将不常访问的字段分离出来,减少单个表的数据量和索引大小,提高查询性能。例如,将用户表中的基本信息字段和详细信息字段分别存储在两个不同的表中。

优点:可以提高查询性能,减少数据冗余。
缺点:表的关联查询变得复杂,需要使用多表连接或者多次查询。

1.2.2、垂直分表

在这里插入图片描述

将一个表按照字段的业务相关性拆分成多个小表,每个小表存储部分字段的数据。

特点:

  • 每个表的结构都不一样。
  • 每个表的数据也不一样,一般通过一列(主键/外键)关联。
  • 所有表的并集是全量数据。

原理:

  • 一个表中的字段可能具有不同的访问频率和性能需求,通过垂直分表可以将不常访问的字段分离出来,减少单个表的数据量和索引大小,提高查询性能。例如,将用户表中的基本信息字段和详细信息字段分别存储在两个不同的表中。

优点:可以提高查询性能,减少数据冗余。
缺点:表的关联查询变得复杂,需要使用多表连接或者多次查询。

1.2.3、水平分库

在这里插入图片描述
将一个数据库中的数据按照一定的规则分散存储到多个不同的数据库中。

特点:

  • 每个库的表结构都一样。
  • 每个库的数据都不一样。
  • 所有库的并集是全量数据。

原理:根据数据的某个特征(如用户 ID、订单 ID 等)进行哈希运算或者取模运算,将数据均匀地分布到多个数据库中。例如,根据用户 ID 进行取模运算,将用户数据分散存储到 10 个数据库中。

优点:可以提高数据库的可扩展性和性能,当数据量增加时,可以方便地添加新的数据库。
缺点:跨库查询和事务处理比较复杂,需要使用分布式查询和事务解决方案。

1.2.4、水平分表

在这里插入图片描述
以字段为依据,将一个表中的数据按照一定的规则分散存储到多个相同结构的表中。

特点:

  • 每个表的表结构都一样。
  • 每个表的数据都不一样。
  • 所有表的并集是全量数据。

原理:与水平分库类似,根据数据的某个特征进行哈希运算或者取模运算,将数据均匀地分布到多个表中。例如,根据订单创建时间进行分表,将每天的订单数据存储在一个单独的表中。

优点:可以提高表的查询和写入性能,当表的数据量增加时,可以方便地添加新的表。
缺点:表的管理变得复杂,需要使用中间件或者代码来实现数据的路由和合并。

2、为什么要分库分表?

在这里插入图片描述

随着互联网及移动互联网的发展,应用系统的数据量也是成指数式增长,若采用单数据库进行数据存
储,存在以下性能瓶颈:

  1. IO瓶颈:热点数据太多,数据库缓存不足,产生大量磁盘IO,效率较低。 请求数据太多,带宽
    不够,网络IO瓶颈。
  2. CPU瓶颈:排序、分组、连接查询、聚合统计等SQL会耗费大量的CPU资源,请求数太多,CPU出
    现瓶颈。

为了解决上述问题,我们需要对数据库进行分库分表处理。
在这里插入图片描述
分库分表的中心思想都是将数据分散存储,使得单一数据库/表的数据量变小来缓解单一数据库的性能
问题,从而达到提升数据库性能的目的。

在业务系统中,为了缓解磁盘IO及CPU的性能瓶颈,到底是垂直拆分,还是水平拆分;具体是分 库,还是分表,都需要根据具体的业务需求具体分析。

3、什么时候需要分库分表?

网上查了好多资料,一个项目到底什么时候需要分库分表?
这个问题应该是没有标准的答案,但是可以从用户的角度回答这个问题,凡是通过数据库操作影响用户体验,甚至体验感很差时,都需要考虑优化数据库,进行分库分表。

行内不成文的标准:

  1. 单表记录行数超过500w条
  2. 单表存储空间超过2GB
  3. .

如果你的项目中的数据库出现上述情况,就要考虑分库分表了。

4、分库分表的数据路由

4.1、数据路由的目的

确定数据在分库分表后的存储位置,使得应用程序能够正确地访问和操作数据。

4.2、数据路由的方式

数据路由方式具体内容
哈希路由根据数据的某个特征进行哈希运算,将数据映射到不同的数据库或表中。例如,根据用户 ID 进行哈希运算,将用户数据存储到不同的数据库中。
范围路由根据数据的某个特征的取值范围,将数据分配到不同的数据库或表中。例如,根据订单金额的范围,将订单数据存储到不同的表中。
列表路由根据数据的某个特征的值是否在一个预定义的列表中,将数据分配到不同的数据库或表中。例如,根据用户所在地区,将用户数据存储到不同的数据库中。

5、分库分表的分布式事务

5.1. 分布式事务的问题

在分库分表的环境下,一个事务可能涉及多个数据库或表,传统的单机事务无法满足需求,需要使用分布式事务解决方案。

5.2. 分布式事务的解决方案

阶段具体内容
两阶段提交(2PC)分为准备阶段和提交阶段,协调者向参与者发送准备请求,参与者执行事务操作并记录日志,如果所有参与者都返回准备成功,则协调者发送提交请求,参与者提交事务;否则协调者发送回滚请求,参与者回滚事务。
三阶段提交(3PC)在 2PC 的基础上增加了一个预提交阶段,减少了参与者在准备阶段的阻塞时间,提高了事务的可用性。
补偿事务(TCC)分为 Try、Confirm、Cancel 三个阶段,Try 阶段进行业务检查和资源预留,Confirm 阶段进行业务确认操作,Cancel 阶段进行业务回滚操作。TCC 需要业务系统自己实现事务的补偿逻辑,比较复杂但性能较好。

6、实战案例

以一个电商系统为例,介绍数据库分库分表的实战过程。

6.1. 业务背景

电商系统中有用户、商品、订单等模块,随着业务的发展,数据量不断增长,数据库性能出现瓶颈。

6.2. 分库分表方案设计

  1. 垂直分库
    将用户模块、商品模块、订单模块分别存储在不同的数据库中。
    在这里插入图片描述

用户数据库存储用户信息,包括用户 ID、用户名、密码、联系方式等。
商品数据库存储商品信息,包括商品 ID、商品名称、价格、库存等。
订单数据库存储订单信息,包括订单 ID、用户 ID、商品 ID、订单金额、订单状态等。

  1. 垂直分表
    在用户表中,将用户的基本信息和详细信息分别存储在两个表中。
    在这里插入图片描述

用户基本信息表存储用户 ID、用户名、密码、联系方式等。
用户详细信息表存储用户 ID、用户头像、用户简介、用户等级等。

  1. 水平分库
    根据用户 ID 进行取模运算,将用户数据分散存储到多个数据库中。
    在这里插入图片描述

假设共有 10 个数据库,用户 ID 为 100 的用户数据存储在数据库 0 中,用户 ID 为 101 的用户数据存储在数据库 1 中,以此类推。

  1. 水平分表
    根据订单创建时间进行分表,将每天的订单数据存储在一个单独的表中。
    在这里插入图片描述

例如,订单表名为 order_20240917,表示 2024 年 9 月 17 日的订单数据。

6.3. 技术选型

  1. 数据库中间件
    选择一个成熟的数据库中间件来实现分库分表的功能,如MyCat、ShardingSphere等。

  2. 数据库
    选择一个性能高、稳定性好的数据库,如 MySQL、PostgreSQL 等。

6.4. 实施步骤

  1. 安装和配置数据库中间件
    根据中间件的文档进行安装和配置,设置分库分表的规则和参数。

  2. 改造应用程序
    修改应用程序的数据库连接配置,使其连接到数据库中间件。同时,修改应用程序的 SQL 语句,使其适应分库分表的环境。例如,在查询用户信息时,需要根据用户 ID 确定查询的数据库和表。

  3. 数据迁移
    将现有数据库中的数据迁移到分库分表后的数据库中。可以使用数据库中间件提供的数据迁移工具,或者编写自己的数据迁移脚本。

  4. 测试和优化
    在实施分库分表后,进行充分的测试,包括功能测试、性能测试、压力测试等。根据测试结果进行优化,调整分库分表的规则和参数,提高系统的性能和稳定性。

6.5. 效果评估

  1. 性能提升
    通过分库分表,数据库的查询和写入性能得到了显著提升。查询响应时间缩短,写入延迟减少,系统能够更好地应对高并发访问。

  2. 可扩展性增强
    当数据量增加时,可以方便地添加新的数据库或表,提高了系统的可扩展性。

  3. 可用性提高
    分库分表后,即使某个数据库或表出现故障,也不会影响整个系统的运行,提高了系统的可用性。

7、总结

数据库分库分表是一种解决大规模数据和高并发访问的有效技术方案。通过垂直分库、垂直分表、水平分库、水平分表等方式,可以将数据分散存储到多个数据库或表中,提高数据库的性能、可扩展性和可用性。在实施分库分表时,需要根据业务需求和数据特点进行合理的方案设计,选择合适的技术选型,并进行充分的测试和优化。

在这里插入图片描述


人生从来没有真正的绝境。只要一个人的心中还怀着一粒信念的种子,那么总有一天,他就能走出困境,让生命重新开花结果。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/899052.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】磁盘文件系统(inode)、软硬链接

文章目录 1. 认识磁盘1.1 磁盘的物理结构1.2 磁盘的逻辑结构 2. 引入文件系统2.1 EXT系列文件系统的分区结构2.2 inode 3. 软硬链接3.1 软链接3.2 硬链接 在讲过了内存文件系统后,我们可以知道文件分为两种: 打开的文件(内存中)未…

VMamba:视觉SSM

论文标题:VMamba: Visual State Space Model 论文地址:https://arxiv.org/pdf/2401.10166 摘要 VMamba 是一个视觉骨干网络,基于状态空间模型(SSM),其复杂度是线性的。该架构的核心是视觉状态空间&#xff…

uniapp学习(007-2 壁纸项目:详细设计css代码较多)

零基础入门uniapp Vue3组合式API版本到咸虾米壁纸项目实战,开发打包微信小程序、抖音小程序、H5、安卓APP客户端等 总时长 23:40:00 共116P 此文章包含第70p-第p78的内容 文章目录 客服消息按钮的open-type属性添加客服设置按钮 ifdef和ifndef 实现多端匹配语法实…

【数据结构笔记】优先级队列PriorityQueue

堆序性质:除了根节点,其他节点都不大(小)于父节点 进而根节点是最大(小)堆的最大(小)元 完全二叉堆 物理上是Vector 逻辑上是完全二叉树 层次遍历序列与物理存储顺序相同Rank为…

阅读笔记 Marketing Management Chapter 12

来源: Marketing Management, Kotler and Keller (2016), 15th edition Chapter 12 Addressing Competition and Driving Growth 本章围绕以下问题展开: 为什么公司发展核心业务很重要? 市场领导者如何扩大整个市场并捍卫市场份额? 市场挑…

Go_Parser部署、使用与原理分析

文章目录 前言1、概述2、安装与使用2.1、源码安装2.1.1、部署系统依赖组件2.1.1.1、部署IDA Pro 7.5 SP32.1.1.2、部署Python 3.9.132.1.1.3、部署Go 1.13.1 2.1.2、使用源码安装系统 2.2、使用方法2.2.1、准备测试程序2.2.2、创建IDA Pro项目2.2.3、使用Go_Parser解析二进制程…

【毕业设计】基于SpringBoot的网上商城系统

前言 🔥本系统可以选作为毕业设计,运用了现在主流的SSM框架,采用Maven来帮助我们管理依赖,所选结构非常合适大学生所学的技术,非常合适作为大学的毕业设计,难以适中。 🔥采用技术:Sp…

『Mysql集群』Mysql高可用集群之读写分离(二)

前言 主从复制: 解决了Mysql的单点故障问题以及提高MySQL的整体服务性能. 读写分离: 解决的是数据库的读性能问题,分担主库的压力,提高系统的可用性和稳定性。 分库分表: 数据库分表可以解决单表海量数据的查询性能问题,分库可以解决单台数据库的并发…

libaom 编解码项目编码接口文件介绍

对外头文件: 编码端:aom/aom_encoder.h、aom/aomcx.h解码端:aom/aom_decoder.h、aom/aomdx.h aom/aom_encoder.h 该头文件包了aom/aom_codec.h、aom/aom_external_partition.h头文件介绍:当前文件描述了应用程序与视频编码器算法之…

基于tfjs实现线性回归等基本模型

目录 1.回归模型基础概念与应用综述 1.1 线性回归(Linear Regression) 1.2 多元线性回归(Multiple Linear Regression) 1.3 广义线性回归(Generalized Linear Model, GLM) 1.4 逻辑回归(Lo…

关于武汉芯景科技有限公司的限流开关芯片XJ6241开发指南(兼容LTC4411)

一、芯片引脚介绍 1.芯片引脚 二、系统结构图 三、功能描述 1.CTL引脚控制VIN和VOUT的通断 2.CTL引脚控制STAT引脚的状态 3.输出电压高于输入电压加上–VRTO的值,芯片处于关断状态

免费开源Odoo软件如何实现电商仓库高效发货

世界排名第一的免费开源ERP软件Odoo,拥有非常强大的仓库管理WMS功能。本文以电商仓库发货管理为例,介绍电商订单的仓库发货作业的各种方法。电商订单仓库发货流程,通常分为三个步骤,即拣货、打包、发货。根据仓库日处理订单数量的…

HTTP Proxy环境下部署Microsoft Entra Connect和Health Agents

在企业环境中,时常需要通过使用HTTP Proxy访问Internet,在使用HTTP Proxy访问Internet的环境中部署Microsoft Entra Connect和Microsoft Entra Connect Health Agents可能会遇到一些额外的配置步骤,以便这些服务能够正常连接到Internet。 一…

linux系统之jar启动脚本

编辑linux启动脚本 执行 vi run_blog 按i 进入编辑,复制以下代码,并根据当前环境修改三个参数。以下是详细完整脚本代码: #!/bin/bash# 配置部分 JAR_PATH"/path/to/your/app.jar" # 替换为你的 JAR 文件的实际路径 L…

CRMEB标准版Mysql修改sql_mode

数据库配置 1.宝塔控制面板-软件商店-MySql-设置 2.点击配置修改,查找sql-mode或sql_mode (可使用CtrlF快捷查找) 3.复制 NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION 然后替换粘贴,保存 注:MySQL8.0版本的 第三步用…

从新手到高手:map和set的使用技巧全攻略(C++)

✨✨小新课堂开课了,欢迎欢迎~✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C:由浅入深篇 小新的主页:编程版小新-CSDN博客 前言: 本章节讲解的map和set底层…

自定义多级联动选择器指南(uni-app)

多端支持:可以运行在H5、APP、微信小程序还是支付宝小程序,都可以轻松使用改组件。自定义配置:您可以根据需要配置选择器的级数,使其适应不同的数据结构和用例。无限级联:此组件支持无限级联选择,使您能够创…

MySQL--基本介绍

一.数据库前言 1.数据库的相关介绍 关系数据库管理系统(Relational Database Management System:RDBMS)是指包括相互联系的逻辑组织和存取这些数据的一套程序 (数据库管理系统软件)。关系数据库管理系统就是管理关系数据库,并将数…

张雪峰:如果你现在是计算机专业,一定要优先报网络安全,它是未来国家发展的大方向

🤟 基于入门网络安全/黑客打造的:👉黑客&网络安全入门&进阶学习资源包 前言 “计算机专业 一定要优先报 网络安全 它是未来国家发展的大方向” 为什么推荐学网络安全? “没有网络安全就没有国家安全。”当前&#xff…

Git Push(TODO)

最近经常碰到GIT push不上去的问题。到处求人解决也真是尴尬,想自己看看,所以刚刚在github上建了一个仓,试了下。结果如下: 暂时可能还不行,因为数据都是加密的,没法看到具体GIT的交互信息。。。 后面再想办…