GBASE南大通用-GBase 8s分片表操作 提升大数据处理性能

目录

 一、GBase 8s分片表的优势

二、六种分片方法

轮转

        1.轮转法

基于表达式分片

        2.基本表达式

        3.Mod运算表达式

        4.Remainder关键字方式

        5.List方式

        6.interval 固定间隔

三、分片表的索引

        1.创建索引的注意事项

        2.detach索引替代delete功能展现

        3.在现有分片表上增加一个新的分片

四、dbspace数据库空间

        1.增加dbspaces空间

        2.查看空间大小

        3.查看空间剩余大小

GBase 8s 的分片是用来处理数据量非常大的表和索引的技术。分片可以用将大表拆分为小表的方式进行管理,提高了GBase 8s的大数据处理性能。同时对外提供的是同一个表的管理方式,这样对于使用数据库的访问者而言非常透明。

1、分片是指把一个表的数据分散到多个dbspace中存储。

2、在逻辑上对外提供一个表的访问接口。

3、在数据库内部,物理上把大表拆分为多个小表进行管理。

一、GBase 8s分片表的优势

概括一下,GBase 8s分片表的优势体现在以下三点:

(1)  有效处理大数据表。

 有效利用并发运行,分片表可以启动PDQ,开启多线程并行处理,可以充分利用多 CPU、多磁盘的物理资源,大大提高大数据表的访问速度。利用分片忽略,可减少需要访问的表空间。利用分片表将大表拆分存放的特性,相当于以访问小表的效率进行访问,如某分片方式将每年存储在一个分片上,那么查询某一时间点的数据时,只需要扫描分片表的一个分片即可,可以有效地处理大数据量的表。实现仅仅对包含“目标数据”的数据分片进行扫描。从而大幅度地提高了整个系统效率。

(2)  分片容易管理--表组合/表分离(attach/detach)。

 可以利用GBase 8s对分片表提供的attach和detach功能对分片表进行快速、高效的管理。例如detach可以对表的某一个分片进行快速分离,我们可以利用该功能对历史数据进行快速删除,可以替代delete方式。

(3)  有效地提高可用性。

 当表的某个分片出现故障时,表的其他分片的数据仍然可用,同时只需要修复该分片即可。当我们需要对表进行重建时,我们可以对分片表利用attach/detach按分片一个个地完成重建,从而提高表的可用性,满足7x24运行模式的要求。

下面我们来看GBase分片的具体实现。

二、六种分片方法

GBase的六种分片方式可以大致划分为两类:一类是轮转法分片,第二类是基于表达式的方式。

轮转法:

1.轮转法

“轮转法分片”这个存放方法采用轮询调度,依次在dbspaces上存储数据库。特点为:

简单,不需要了解数据的分布 ;

把数据均匀地分配到所有分片中 ;

提高查询性能 ;

只能用于表,不能用于索引 ;

不能利用到忽略分片的特性,没有成功减少对磁盘的扫描;

可配合PDQ启用多线程并行扫描以提高查询性能。

 create table tab_round_robin

(
  id int,
  name varchar(40),
  nation varchar(40), 
  regtime datetime year to second default current year to second not null
) fragment by round robin
  in datadbs1,datadbs2,datadbs3,datadbs4;

显示的指定索引

create index ix_tab_round_robin_id on tab_round_robin(id) in datadbs1;

基于表达式分片:

“基于表达式分片”则根据表中的一个或多个字段对分片的规则进行定义,一般在预知查询条件时采用这种方式,从而避免查询中对某些分片的扫描。其特点为:

需要对数据分布有所了解 ;

为分片忽略和性能提升提供可能 ;

既可以用于表也可以用于索引 ;

可以基于一列或者多列构建表达式。

基于表达式包括多种具体的形式,下面将介绍5种形式:

2.基本表达式

#当不指定partition时,sql语句如下:

create table tab_expression_based
(
  id int,
  name varchar(40),
  nation varchar(40), 
  regtime datetime year to second default current year to second not null
) fragment by expression
id < 100 in datadbs1,
id < 200 in datadbs2,
id < 300 in datadbs3;

#加入指定partition,sql语句如下,这对于查询可以更好的提高效率。

#partition指定的情况下可以对于不同的p0、p1、p2都放在同一个datadbs1空间中

create table tab_expression_based
(
  id int,
  name varchar(40),
  nation varchar(40), 
  regtime datetime year to second default current year to second not null
) fragment by expression
PARTITION p0 id < 100 in datadbs1,
PARTITION p1 id < 200 in datadbs2,
PARTITION p2 id < 300 in datadbs3;

3.Mod运算表达式

加入取余运算的基本表达式。

create table employee
(
    id int,
    name char(50),
    salary int
)fragment by expression
MOD(id,3) = 0 IN datadbs1,
MOD(id,3) = 1 IN datadbs2,
MOD(id,3) = 2 IN datadbs3;

create index idx_employee on employee(id);

4.Remainder关键字方式

利用remainder关键字将难以表达的范围数据指定到一个分片中。

create table table_test
(
    col1 int,
    col2 date
)fragment by expression
col1 >= 0 and col1 < 100 in datadbs1,
col1 >= 100 and col1 < 200 in datadbs2,
remainder in datadbs3;

create index idx_table_test on table_test(col1);

5.List方式

List方式本质上是对or和in运算的改进,使表达式计算更有灵活性,效率更高。

create table customer
(
    id int,
    name varchar(128),
    street varchar(255),
    state char(2),
    zipcode char(5),
    phone char(15)
)fragment by list(state)
PARTITION p0 values('RS','IL') in datadbs1,
PARTITION p1 values('CA','OR') in datadbs2,
PARTITION p2 values('NY','MN') in datadbs3,
PARTITION p3 values(NULL) in datadbs4;

insert into customer values(1,'suyi','xiqing','RS','12345','12211231223');
insert into customer values(2,'suer','xiqing','IL','12345','13333333333');
insert into customer values(3,'susan','xiqing','OR','12345','14444444444');
insert into customer values(4,'susi','xiqing','CA','12345','15555555555');
insert into customer values(5,'suwu','xiqing','NY','12345','16666666666');
insert into customer values(6,'suliu','xiqing','MN','12345','17777777777');
insert into customer values(7,'suqi','xiqing','','12345','1888888888');
insert into customer values(8,'suba','xiqing','RS','12345','19999999999');

#查看分片的具体信息

select t.tabname,f.dbspace,f.partition,f.exprtext
from systables t,sysfragments f
where t.tabid = f.tabid and f.fragtype = 'T'
and t.tabname = 'customer';

#查询结果如下

tabname    customer
dbspace
partition
exprtext
state

tabname    customer
dbspace    datadbs1
partition  p0
exprtext
VALUES ('RS' ,'IL' )

tabname    customer
dbspace    datadbs2
partition  p1
exprtext
VALUES ('CA' ,'OR' )

tabname    customer
dbspace    datadbs3
partition  p2
exprtext
VALUES ('NY' ,'MN' )

tabname    customer
dbspace    datadbs4
partition  p3
exprtext
VALUES (NULL)

5 row(s) retrieved.

通过update语句确认我们的分片表结构,成功按照list方式进行分片。

update customer set state = '' where id = 1;

执行上述update语句后,当前记录会从当前分片中删除并且在新的分片里面插入,通过逻辑日志展示,可以证明我们的想法。

图片

update customer set state = 'OR' where id = 4;

再来尝试上面这条update语句,我们知道当前记录对应的条件没有发生变化,仍在原来分区,只是state的值进行更新,所以猜想应该只是更新记录。通过查看逻辑日志,证明我们的猜想正确。

图片

图片

6.interval 固定间隔

最初的分片是基于一个range语句来定义的。

优点:GBase 8s提供的基于interval的分片策略,将根据Insert记录的情况自动扩展分片,可提供更为灵活的方式,减少人工维护。

create table sales
(
    amount int,
    id int,
    data_time datetime year to second
)fragment by range(data_time)
interval (10 units day)
store in (datadbs1,datadbs2,datadbs3,datadbs4)
partition p_sales0 values < '2023-01-01 00:00:00' in dbspace;

create unique index idx_sales on sales(data_time,id);

三、分片表的索引

GBase 8s的索引分为attached和detached的两种索引。

两种索引的区别在于:attached索引指每个分片的数据都有相应的索引独立存在;detached索引指的是索引与分片数据存储在不同的dbspace上。

我们先简单的建立两种索引,了解一下。

create table frag_exp_tab
(
    sale_time datetime year to second,
    product_id int,
    product_time datetime year to second,
    price float,
    sale_amount int,
    primary key(sale_time,product_id)
)fragment by expression
sale_time < '2022-01-01 00:00:00' and sale_time >= '2021-01-01 00:00:00' in datadbs1,
sale_time < '2021-01-01 00:00:00' and sale_time >= '2020-01-01 00:00:00' in datadbs2,
sale_time < '2020-01-01 00:00:00' and sale_time >= '2019-01-01 00:00:00' in datadbs3;

create index idx_frad_exp_tab on frag_exp_tab(product_time,product_id);

#命令行中输入以下命令,可以查询当前表对应索引

oncheck -ci t:frag_exp_tab
#在GBase 8s中自动为主键、外键、唯一约束创建索引,默认情况下为detached索引。

#GBase 8s自动创建的索引名字为空格+tabid_+一个序号组成。

Validating indexes for t:root.frag_exp_tab...
                Index  101_1     #detached索引
                  Index  fragment partition rootdbs in DBspace rootdbs
                Index idx_frad_exp_tab   #attached索引
                  Index  fragment partition datadbs1 in DBspace datadbs1
                  Index  fragment partition datadbs2 in DBspace datadbs2
                  Index  fragment partition datadbs3 in DBspace datadbs3

1.创建索引的注意事项

注意:产生'-872'错误码的原因:

在分片表上,如果要创建一个unique的attached索引,需要在索引中包含分片的key字段,所以基于表达式的分片表上可以创建,不能在轮转法上创建。

2.detach索引替代delete功能展现

前文开始部分就提到,detached索引还可以起到将分片表中某一分片快速分离的作用,下面进行一个操作实践,直观感受一下detach起到的替代delete的功能。

①首先我们创建一个detached索引。

create index idx_frad_exp_tab2 on frag_exp_tab(product_time,sale_time) in datadbs4;

②其次向里面插入一部分数据,为了清晰的展示分片分离。

insert into frag_exp_tab values('2021-09-06 00:00:00',1,'2000-01-01 00:00:00',999.9,1);
insert into frag_exp_tab values('2020-09-06 00:00:00',2,'1999-01-01 00:00:00',666.6,2);
insert into frag_exp_tab values('2019-09-06 00:00:00',3,'1998-01-01 00:00:00',333.3,3);
insert into frag_exp_tab values('2020-05-01 00:00:00',4,'2000-01-01 00:00:00',111.1,1);

图片

③执行detch子句,将范围区间分片datadbs2从表frag_exp_tab拆离并放置到新的未分片表segregation_tab1中。

alter fragment on table frag_exp_tab detach partition datadbs2 segregation_tab1;

图片

图片

3.在现有分片表上增加一个新的分片

①首先在命令行下执行语句,查看我们当前表的结构状态。

dbschema -d t -t frag_exp_tab -ss

图片

我们向里面加入一个新的分片。

alter fragment on table frag_exp_tab add
sale_time < '2021-01-01 00:00:00' and sale_time >= '2020-01-01 00:00:00' in datadbs2
before datadbs3;

③查看当前表结构,可以看到,已经增加了一个分片,操作成功。

图片

四、dbspace数据库空间

在实现GBase 8s分片技术时,基本都会使用到增加数据库空间的操作,下面对dbspace进行一下简单操作介绍。

1.增加dbspaces空间

创建新数据库空间,使用onspaces命令。

onspaces -c -d-k-p-o-s

在linux环境中页大小默认2k,这里我们创建一个新的datadbs1,大小为1024000kb。

cd /home/su/gbase/storage
touch datadbs1
chmod 660 datadbs1
chown gbasedbt:gbasedbt datadbs1
onspaces -c -d datadbs1 -k 2 -p /home/su/gbase/storage/datadbs1 -o 0 -s 1024000

以下例子为创建一个临时 dbspace,名为 tempdbs1,大小为 500000,使用裸设备/dev/rdsk/device9,偏移量为 100000:

 onspaces -c -t -d tempdbs -p /dev/rdsk/device9 -o 100000 -s 500000 

图片

2.查看空间大小

使用命令onstat -d 查看数据库空间信息。

图片

number 为表空间唯一标示号;

pagesize  数据库空间的页大小;

flag        列信息:

Position 1:   M   镜像
       N   未镜像

Position 2:   X   新镜像
       D   Down,不可用chunk
       P   物理恢复完成,等待逻辑恢复
       L   正在逻辑恢复
       R   正在恢复
   Position 3:   B   BLOB空间
       P   物理日志空间
       S   智能大对象空间
       T   临时空间
       U   临时智能大对象空间
       W   SDS主节点的临时空间,只在SDS备节点显示
Position 4:   B   空间可包含大于2G的chunk
Position 5:   A   空间自动扩展

每个数据库空间有一个Chunk文件。Chunk输出信息中有size信息,这个信息是Chunk的页的数据,不是文件的字节大小。要得到Chunk的文件字节大小,需要用这个size乘以Chunk文件对应的数据库空间的pgsize。

3.查看空间剩余大小

剩余大小就是chunk输出信息中free数据乘以Chunk文件对应的数据库空间的pgsize。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/279922.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言之指针和数组

指针和数组虽然是不同的东西&#xff0c;但却有着千丝万缕的关系&#xff0c;下面就让我们逐一了解吧&#xff01; 指针和数组 数组名原则上会被解释为指向该数组起始元素的指针。 也就是说。如果a是数组&#xff0c;那么表达式a的值就是a[0]的值&#xff0c;即与&a[0]一…

TikTok真题第9天 | 163.缺失的区间、1861.旋转箱子、2217.找到指定长度的回文数

163.缺失的区间 题目链接&#xff1a;163.missing-ranges 解法&#xff1a; 基本逻辑是&#xff0c;依次遍历nums中的所有的元素&#xff0c;判断这个元素&#xff08;right&#xff09;和上一个元素&#xff08;left&#xff09;的差值是否>2&#xff0c;如果是&#xf…

Cisco模拟器-跨交换机实现VLAN

计要求将两台相互连接的交换机上的VLAN号全局使用&#xff0c;技术上可以使用TRUNK技术的数据包标记功能来实现。 通过设计&#xff0c;可以对多台交换机进行整合&#xff0c;提高网络设备的利用率、降低网络工程的成本&#xff0c;同时也可以简化网络配置。 交换机0配置&…

【privateGPT】使用privateGPT训练您自己的LLM

了解如何在不向提供商公开您的私人数据的情况下训练您自己的语言模型 使用OpenAI的ChatGPT等公共人工智能服务的主要担忧之一是将您的私人数据暴露给提供商的风险。对于商业用途&#xff0c;这仍然是考虑采用人工智能技术的公司最大的担忧。 很多时候&#xff0c;你想创建自己…

.FileZilla的使用和主动模式被动模式介绍

FileZilla的使用和主动模式被动模式介绍 1.FileZilla的使用和主动模式被动模式介绍1.安装下载2.新建组和用户2.1打开后出现如下界面2.2点击编辑打开组这个选项2.3点击添加组以后&#xff0c;点击确认2.4输入组的名称&#xff0c;列如我输入的niyin2.5点击用户选项2.6像上面一样…

Winform RDLC报表(数据库连接、报表函数使用、动态表头)

文章目录 NuGet安装库数据库连接报表设计报表引用添加报表 数据集设计方法一手动添加方法二——连接数据库添加 关联报表与数据集表格数据与数据集数据设计表格格式、字体设计报表数据字段绑定 Winform 使用报表控件数据库填充数据集从数据库获取与数据源相同字段的数据 动态表…

关于求定积分的反函数的导数【认清原函数x变量和反函数x变量】

如图碰到该题该怎么解&#xff1f; 在纸上按①②③的顺序写出这个&#xff0c;其中①是最主要的 第②步和第③步就是在用反函数时要用到的逻辑思维&#xff0c;不是一起用的&#xff0c;你需要用②才去用②&#xff0c;你需要用③才去用③ 在纸上先写出第①步&#xff0c;即 其…

【Linux操作系统】探秘Linux奥秘:操作系统的入门与实战

&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《操作系统实验室》&#x1f516;诗赋清音&#xff1a;柳垂轻絮拂人衣&#xff0c;心随风舞梦飞。 山川湖海皆可涉&#xff0c;勇者征途逐星辉。 目录 &#x1fa90;1 初识Linux OS …

css实现一个斑马条纹动画,实现一个理发店门口的小转转,进度条动画同理!

css实现一个斑马条纹动画&#xff0c;实现一个理发店门口的小转转 前置基础知识 css背景background的重复渐变属性repeating-linear-gradient() 该属性类似于linear-gradient(),但他会在整个方向上重复渐变以覆盖整个容器 一、先写一个普通渐变例子linear-gradient() &…

leetcode贪心算法题总结(三)

本章目录 1.合并区间2.无重叠区间3.用最少数量的箭引爆气球4.整数替换5.俄罗斯套娃信封问题6.可被三整除的最大和7.距离相等的条形码8.重构字符串 1.合并区间 合并区间 class Solution { public:vector<vector<int>> merge(vector<vector<int>>&…

ZigBee案例笔记 - 无线点灯

文章目录 无线点灯实验概述工程关键字工程文件夹介绍Basic RF软件设计框图简单说明工程操作Basic RF启动流程Basic RF发送流程Basic RF接收流程 无线点灯案例无线点灯现象 无线点灯实验概述 ZigBee无线点灯实验&#xff08;即Basic RF工程&#xff09;&#xff0c;由TI公司提供…

第一讲:BeanFactory和ApplicationContext

BeanFactory和ApplicationContext 什么是BeanFactory 它是ApplicationContext的父接口它才是Spring的核心容器&#xff0c;主要的ApplicationContext实现都组合了它的功能 BeanFactory能做什么? 表面上看BeanFactory的主要方法只有getBean()&#xff0c;实际上控制反转、基…

Spring-5-切入点的高级使用

Spring提供了两个额外的Pointcut实现&#xff0c;分别是ComposablePointcut和ControlFlowPointcut,它们提供了所需的灵活性。 使用控制流切入点 由ControlFlowPointcut类实现的Spring控制流切入点类似于许多其他AOP实现中可用的cflow构造&#xff0c;尽管功能上没有那么强大。…

(self-supervised learning)Event Camera Data Pre-training

Publisher: ICCV 2023 MOTIVATION OF READING: 自监督学习、稀疏事件 NILM link: https://arxiv.org/pdf/2301.01928.pdf Code: GitHub - Yan98/Event-Camera-Data-Pre-training 1. Overview Contributions are summarized as follows: 1. A self-supervised framework f…

“产品经理必懂的关键术语“

产品经理是现代企业中非常重要的一个角色&#xff0c;他们负责制定产品策略、规划产品开发流程、管理产品质量和用户反馈等等。然而&#xff0c;对于产品经理来说&#xff0c;了解并掌握相关的专业术语是非常重要的。本篇文章会介绍一些产品经理需要掌握的专业术语&#xff0c;…

一篇文章掌握系统架构的演变和常见微服务框架

目录 前言 一、系统架构的演变 1、单体应用架构 优点&#xff1a; 缺点&#xff1a; 2、垂直应用架构 优点&#xff1a; 缺点&#xff1a; 3、分布式SOA架构 3.1 什么是SOA 3.2 SOA架构 优点&#xff1a; 缺点&#xff1a; 4、微服务架构 优点&#xff1a; 缺点…

eve环境虚拟机和电脑如何传送文件

一.桥接 &#xff08;实现电脑和虚拟机在同一网段&#xff09; 虚拟机上网盘设置 二.属性---文件共享设置 1打开属性&#xff0c;点击共享 2.添加共享人为全部人&#xff0c;并修改权限为读写模式 3.点击高级共享&#xff0c;选定此文件夹 4.点击网络和共享中心&#xff0c;划…

C++——智能指针和RAII

该文章代码均在gitee中开源 C智能指针hpphttps://gitee.com/Ehundred/cpp-knowledge-points/tree/master/%E6%99%BA%E8%83%BD%E6%8C%87%E9%92%88​​​​​​​ 智能指针 传统指针的问题 在C自定义类型中&#xff0c;我们为了避免内存泄漏&#xff0c;会采用析构函数的方法释…

2023年末,软件测试面试题总结与分享

大家好&#xff0c;最近有不少小伙伴在后台留言&#xff0c;得准备年后面试了&#xff0c;又不知道从何下手&#xff01;为了帮大家节约时间&#xff0c;特意准备了一份面试相关的资料&#xff0c;内容非常的全面&#xff0c;真的可以好好补一补&#xff0c;希望大家在都能拿到…

分享Python采集40个NET整站程序源码,总有一款适合您

分享Python采集40个NET整站程序源码&#xff0c;总有一款适合您 Python采集的40个NET整站程序源码下载链接&#xff1a;https://pan.baidu.com/s/1z54JHJkFYa4Kx2oBtPrn_w?pwd2ta4 提取码&#xff1a;2ta4 商品评论网站系统 小孔子内容管理系统XkCms V2.0 友间别墅整站程…