Apache Doris 基础 -- 数据表设计(数据模型)

Versions: 2.1

1、模型概览

本主题从逻辑角度介绍了Doris中的数据模型,以便您可以在不同的业务场景中更好地使用Doris。

基本概念

本文主要从逻辑的角度描述Doris的数据模型,旨在帮助用户在不同的场景更好地利用Doris。

在Doris中,数据在逻辑上以表的形式表示。表由行和列组成。行(Row)表示来自用户的单个数据条目。这一行包含一组相关的值,这些值表示表的列(Column)定义的不同属性或字段。

列可以大致分为两种类型:键(Key)和值(Value)。从业务角度来看,Key和Value可以分别对应于维度列和度量列。在Doris中,Key列是在表创建语句中指定的列在表创建语句中,唯一键(unique key)、聚合键(aggregate key)或重复键(duplicate key)后面的列被认为是键列,而其余列是值列

Doris中的数据模型主要分为三种类型:

  • 重复(Duplicate):此数据模型允许基于指定的键列存储重复行。它适用于必须保留所有原始数据记录的场景。
  • 唯一性(Unique):在此数据模型中,每一行都由键列中的值组合唯一标识。这确保给定的键值集不存在重复行。
  • 聚合(Aggregate):该模型支持基于键列的数据聚合。它通常用于需要汇总或聚合信息(如总数或平均值)的场景。

2、Duplicate Key Model

在某些多维分析场景中,数据缺少主键和聚合需求。对于这些情况,可以使用重复数据模型。

在Duplicate Data Model中,数据按照导入文件中出现的样子精确地存储,没有任何聚合。即使两行数据相同,也将保留这两行数据。在表创建语句中指定的Duplicate Key仅用于指示数据在存储期间应按哪些列排序。建议选择前2-4列作为“Duplicate Key”

例如,考虑一个包含以下数据列的表,它不需要主键更新或基于聚合键的聚合:

在这里插入图片描述
如果在创建表时没有指定数据模型(Unique、Aggregate或Duplicate),则默认创建Duplicate模型表,并根据一定的规则自动选择排序列。例如,在下面的表创建语句中,如果没有指定数据模型,则会建立一个Duplicate模型表,系统将自动选择前三列作为排序列。

CREATE TABLE IF NOT EXISTS example_tbl_by_default
(
    `timestamp` DATETIME NOT NULL COMMENT "Log time",
    `type` INT NOT NULL COMMENT "Log type",
    `error_code` INT COMMENT "Error code",
    `error_msg` VARCHAR(1024) COMMENT "Error detail message",
    `op_id` BIGINT COMMENT "Operator ID",
    `op_time` DATETIME COMMENT "Operation time"
)
DISTRIBUTED BY HASH(`type`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);

MySQL > desc example_tbl_by_default; 
+------------+---------------+------+-------+---------+-------+
| Field      | Type          | Null | Key   | Default | Extra |
+------------+---------------+------+-------+---------+-------+
| timestamp  | DATETIME      | No   | true  | NULL    | NONE  |
| type       | INT           | No   | true  | NULL    | NONE  |
| error_code | INT           | Yes  | true  | NULL    | NONE  |
| error_msg  | VARCHAR(1024) | Yes  | false | NULL    | NONE  |
| op_id      | BIGINT        | Yes  | false | NULL    | NONE  |
| op_time    | DATETIME      | Yes  | false | NULL    | NONE  |
+------------+---------------+------+-------+---------+-------+
6 rows in set (0.01 sec)

没有排序列的默认复制模型(V2.0起)

当用户没有排序需求时,他们可以向表属性添加以下配置。这样,在创建默认Duplicate模型时,系统将不会自动选择任何排序列。

"enable_duplicate_without_keys_by_default" = "true"

CREATE TABLE语句对应如下:

CREATE TABLE IF NOT EXISTS example_tbl_duplicate_without_keys_by_default
(
    `timestamp` DATETIME NOT NULL COMMENT "Log time",
    `type` INT NOT NULL COMMENT "Log type",
    `error_code` INT COMMENT "Error code",
    `error_msg` VARCHAR(1024) COMMENT "Error detail message",
    `op_id` BIGINT COMMENT "Operator ID",
    `op_time` DATETIME COMMENT "Operation time"
)
DISTRIBUTED BY HASH(`type`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1",
"enable_duplicate_without_keys_by_default" = "true"
);

MySQL > desc example_tbl_duplicate_without_keys_by_default;
+------------+---------------+------+-------+---------+-------+
| Field      | Type          | Null | Key   | Default | Extra |
+------------+---------------+------+-------+---------+-------+
| timestamp  | DATETIME      | No   | false | NULL    | NONE  |
| type       | INT           | No   | false | NULL    | NONE  |
| error_code | INT           | Yes  | false | NULL    | NONE  |
| error_msg  | VARCHAR(1024) | Yes  | false | NULL    | NONE  |
| op_id      | BIGINT        | Yes  | false | NULL    | NONE  |
| op_time    | DATETIME      | Yes  | false | NULL    | NONE  |
+------------+---------------+------+-------+---------+-------+
6 rows in set (0.01 sec)

有排序列复制模型

在表创建语句中,可以指定Duplicate Key来指示数据存储应该根据这些键列进行排序。选择“Duplicate Key”时,建议选择前2 ~ 4列。

表创建语句的示例如下,它根据timestamptypeerror_code列指定排序。

CREATE TABLE IF NOT EXISTS example_tbl_duplicate
(
    `timestamp` DATETIME NOT NULL COMMENT "Log time",
    `type` INT NOT NULL COMMENT "Log type",
    `error_code` INT COMMENT "Error code",
    `error_msg` VARCHAR(1024) COMMENT "Error detail message",
    `op_id` BIGINT COMMENT "Operator ID",
    `op_time` DATETIME COMMENT "Operation time"
)
DUPLICATE KEY(`timestamp`, `type`, `error_code`)
DISTRIBUTED BY HASH(`type`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);

MySQL > desc example_tbl_duplicate; 
+------------+---------------+------+-------+---------+-------+
| Field      | Type          | Null | Key   | Default | Extra |
+------------+---------------+------+-------+---------+-------+
| timestamp  | DATETIME      | No   | true  | NULL    | NONE  |
| type       | INT           | No   | true  | NULL    | NONE  |
| error_code | INT           | Yes  | true  | NULL    | NONE  |
| error_msg  | VARCHAR(1024) | Yes  | false | NULL    | NONE  |
| op_id      | BIGINT        | Yes  | false | NULL    | NONE  |
| op_time    | DATETIME      | Yes  | false | NULL    | NONE  |
+------------+---------------+------+-------+---------+-------+
6 rows in set (0.01 sec)

数据将按照导入文件中的原始数据进行存储,不进行任何聚合。即使两行数据完全相同,系统也会保留它们。在表创建语句中指定的Duplicate Key仅用于指示在数据存储期间应使用哪些列进行排序。选择“Duplicate Key”时,建议选择前2 ~ 4列。

3、Unique Key Model

当用户有数据更新需求时,他们可以选择使用Unique数据模型。唯一性模型可以保证主键的唯一性。当用户更新数据时,新写入的数据将用相同的主键覆盖旧数据。

Unique数据模型提供了两种实现方法:

  • Merge-on-read当用户写入数据时,不会触发重复数据删除相关操作。所有的重复数据删除操作都在查询或压缩过程中执行。因此,merge-on-read 的写性能较好,查询性能较差,内存消耗也较高。
  • Merge-on-write。在1.2版本中,我们引入了写时合并(merge-on-write)实现,它在数据写入阶段完成所有的重复数据删除任务,从而提供了出色的查询性能。从2.0版本开始,写时合并已经变得非常成熟和稳定。由于其出色的查询性能,我们建议大多数用户选择此实现。从2.1版本开始,写时合并已经成为Unique模型的默认实现。

Unique模型的默认更新语义是全行UPSERT(full-row UPSERT),代表UPDATE或INSERT。如果行数据的键存在,则执行更新;如果不存在,则插入新数据。在全行UPSERT语义下,即使用户使用INSERT INTO指定要写入的部分列,Doris也会用NULL值或Planner中的默认值填充未提供的列。

如果用户希望更新部分字段,他们需要使用写时合并实现,并通过特定参数启用对部分列更新的支持。请参阅Data Operate/Data Update部分了解更多细节。

让我们以一个典型的用户基本信息表为例,看看如何创建一个具有读时合并和写时合并的Unique模型表。该表没有聚合要求,只需要保证主键的唯一性(主键为user_id + username)。
在这里插入图片描述

Merge-on-Read

Merge-on-read的表创建语句如下:

CREATE TABLE IF NOT EXISTS example_tbl_unique
(
    `user_id` LARGEINT NOT NULL COMMENT "User ID",
    `username` VARCHAR(50) NOT NULL COMMENT "Username",
    `city` VARCHAR(20) COMMENT "User location city",
    `age` SMALLINT COMMENT "User age",
    `sex` TINYINT COMMENT "User gender",
    `phone` LARGEINT COMMENT "User phone number",
    `address` VARCHAR(500) COMMENT "User address",
    `register_time` DATETIME COMMENT "User registration time"
)
UNIQUE KEY(`user_id`, `username`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);

Merge-on-Write

写时合并的表创建语句如下:

CREATE TABLE IF NOT EXISTS example_tbl_unique_merge_on_write
(
    `user_id` LARGEINT NOT NULL COMMENT "User ID",
    `username` VARCHAR(50) NOT NULL COMMENT "Username",
    `city` VARCHAR(20) COMMENT "User location city",
    `age` SMALLINT COMMENT "User age",
    `sex` TINYINT COMMENT "User gender",
    `phone` LARGEINT COMMENT "User phone number",
    `address` VARCHAR(500) COMMENT "User address",
    `register_time` DATETIME COMMENT "User registration time"
)
UNIQUE KEY(`user_id`, `username`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1",
"enable_unique_key_merge_on_write" = "true"
);

用户需要在创建表时添加enable_unique_key_merge_on_write" = "true"属性来启用写合并。

"enable_unique_key_merge_on_write" = "true"

在版本2.1中,写时合并将是主键模型的默认方法。
对于新用户,强烈建议使用2.0或更高版本。在2.0版本中,merge-on-write的性能和稳定性得到了显著的改进和优化。
对于1.2版本的用户:

  • 建议使用1.2.4或更高版本,该版本修复了一些错误和稳定性问题。
  • be.conf中增加配置项disable_storage_page_cache=false。不加该配置项,可能会对数据导入性能造成较大影响。

使用注意事项:

  • Unique模型的实现只能在表创建期间确定,不能通过模式更改进行修改。
  • 读时合并表不能无缝地升级到写时合并表(由于完全不同的数据组织方法)。如果您需要切换到Merge-on-write,您必须手动执行INSERT INTO unique-mow-table SELECT * FROM source_table来重新导入数据。
  • Whole-row Updates:Unique模型的默认更新语义是整行UPSERT,它代表UPDATE OR INSERT。如果一行数据的键存在,它将被更新;如果不存在,则插入新数据。在整行UPSERT语义下,即使用户使用INSERT INTO只指定要插入的某些列,Doris也会用NULL值或计划阶段的默认值填充未提供的列。
  • Partial Column Updates: 如果用户希望只更新某些字段,他们必须使用Merge-on-write,并通过特定参数启用对部分列更新的支持。请参考部分列更新的文档以获得相关的使用建议。

4、Aggregate Key Model

以下是演示聚合模型是什么以及如何正确使用它的实际示例。

Importing Data Aggregation

假设业务具有以下数据表模式:
在这里插入图片描述
与CREATE TABLE语句对应的语句如下(省略Partition和Distribution信息):

CREATE DATABASE IF NOT EXISTS example_db;

CREATE TABLE IF NOT EXISTS example_db.example_tbl_agg1
(
    `user_id` LARGEINT NOT NULL COMMENT "user id",
    `date` DATE NOT NULL COMMENT "data import time",
    `city` VARCHAR(20) COMMENT "city",
    `age` SMALLINT COMMENT "age",
    `sex` TINYINT COMMENT "gender",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "last visit date time",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "user total cost",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "user max dwell time",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "user min dwell time"
)
AGGREGATE KEY(`user_id`, `date`, `city`, `age`, `sex`)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);

如您所见,这是一个典型的用户信息和访问行为事实表。在星型模型中,用户信息和访问行为通常分别存储在维度表和事实表中。这里,为了便于解释,我们将这两种类型的信息存储在一个表中。

表中的列根据是否使用AggregationType设置,分为Key(维度列)和Value(指标列)列。键列没有AggregationType,例如user_iddateage,而值列有AggregationType

在导入数据时,在Key列中具有相同内容的行将聚合为一行,并且它们在Value列中的值将按照其AggregationType指定的方式聚合。目前,有几种聚合方法和“agg_state”选项可用:

  • SUM: Accumulate the values in multiple rows.

  • REPLACE: The newly imported value will replace the previous value.

  • MAX: Keep the maximum value.

  • MIN: Keep the minimum value.

  • REPLACE_IF_NOT_NULL: Non-null value replacement. Unlike - REPLACE, it does not replace null values.

  • HLL_UNION: Aggregation method for columns of HLL type, using the HyperLogLog algorithm for aggregation.

  • BITMAP_UNION: Aggregation method for columns of BITMAP type, performing a union aggregation of bitmaps.

如果这些聚合方法不能满足需求,您可以选择使用“agg_state”类型。

假设您有以下导入数据(原始数据):
在这里插入图片描述
你可以用下面的sql来导入数据:

insert into example_db.example_tbl_agg1 values
(10000,"2017-10-01","Beijing",20,0,"2017-10-01 06:00:00",20,10,10),
(10000,"2017-10-01","Beijing",20,0,"2017-10-01 07:00:00",15,2,2),
(10001,"2017-10-01","Beijing",30,1,"2017-10-01 17:05:45",2,22,22),
(10002,"2017-10-02","Shanghai",20,1,"2017-10-02 12:59:12",200,5,5),
(10003,"2017-10-02","Guangzhou",32,0,"2017-10-02 11:20:00",30,11,11),
(10004,"2017-10-01","Shenzhen",35,0,"2017-10-01 10:00:15",100,3,3),
(10004,"2017-10-03","Shenzhen",35,0,"2017-10-03 10:20:22",11,6,6);

这是一个记录用户在访问某个商品页面时的行为的表格。以第一行数据为例,解释如下:
在这里插入图片描述
此批数据正确导入Doris后,将在Doris中保存如下:
在这里插入图片描述
用户10000的数据被聚合到一行,而其他用户的数据保持不变。对于用户10000的聚合数据的解释如下(前5列保持不变,所以从第6列last_visit_date开始):

  • 第6列的值为2017-10-01 07:00:last_visit_date列通过REPLACE进行聚合,因此2017-10-01 07:00取代了2017-10-01 06:00
  • 第7列中的值为35:cost列通过SUM进行聚合,因此更新值35是20 + 15的结果。
  • 第8列中的值为10:max_dwell_time列是由MAX聚合的,因此10被保存为10到2之间的最大值。
  • 第9列中的值为2:min_dwell_time列由MIN聚合,因此2被保存为10到2之间的最小值。

聚合后,Doris只存储聚合后的数据。换句话说,详细的原始数据将不再可用。

导入数据并与现有数据聚合

假设表中已经包含了之前导入的数据:
在这里插入图片描述

现在导入新一批数据:

insert into example_db.example_tbl_agg1 values
(10004,"2017-10-03","Shenzhen",35,0,"2017-10-03 11:22:00",44,19,19),
(10005,"2017-10-03","Changsha",29,1,"2017-10-03 18:11:02",3,1,1);

导入后,存储在Doris中的数据会更新如下:
在这里插入图片描述
可以看到,User 10004的现有数据和新导入的数据已经聚合。同时,新增了用户10005的数据。

在Doris中,数据聚合发生在以下3个阶段:
1、每批导入数据的ETL阶段。在此阶段,将在内部聚合一批导入数据。
2、底层BE的数据压缩阶段。在此阶段,BE将聚合来自已导入的不同批次的数据。
3、数据查询阶段。查询中涉及的数据将相应地聚合。

在不同阶段,数据的汇总程度不同。例如,当刚导入一批数据时,它可能不会与现有数据聚合。但对于用户来说,他们只能查询聚合数据。也就是说,用户看到的是聚合的数据,他们不应该假设他们看到的是不聚合的或部分聚合的

agg_state

AGG_STATE不能用作键列,在创建表时,需要声明聚合函数的签名。用户不需要指定长度或默认值。数据的实际存储大小取决于函数的实现。

CREATE TABLE

set enable_agg_state=true;
create table aggstate(
    k1 int null,
    k2 agg_state<sum(int)> generic,
    k3 agg_state<group_concat(string)> generic
)
aggregate key (k1)
distributed BY hash(k1) buckets 3
properties("replication_num" = "1");

agg_state用于声明数据类型为agg_state, sum/group_concat是聚合函数的签名。

请注意,agg_state是一种数据类型,类似于int、数组(array)或字符串(string)。
agg_state只能与state/merge/union函数组合子一起使用。

agg_state表示聚合函数的中间结果。例如,对于聚合函数sum, agg_state可以表示sum(1,2,3,4,5)等求和值的中间状态,而不是最终结果。

agg_state类型需要使用state函数生成。对于当前表,对于“sum”和group_concat聚合函数,分别是sum_stategroup_concat_state

insert into aggstate values(1,sum_state(1),group_concat_state('a'));
insert into aggstate values(1,sum_state(2),group_concat_state('b'));
insert into aggstate values(1,sum_state(3),group_concat_state('c'));

此时,该表只包含一行。请注意,下表只作说明用途,不能直接选择/显示:

在这里插入图片描述
插入另一条记录。

insert into aggstate values(2,sum_state(4),group_concat_state('d'));

这张表目前的结构是……
在这里插入图片描述
我们可以使用merge操作来组合多个状态,并返回聚合函数计算出的最终结果。

mysql> select sum_merge(k2) from aggstate;
+---------------+
| sum_merge(k2) |
+---------------+
|            10 |
+---------------+

sum_merge首先将sum(1,2,3)sum(4)合并为sum(1,2,3,4),并返回计算结果。因为group_concat有特定的顺序要求,所以结果不稳定。

mysql> select group_concat_merge(k3) from aggstate;
+------------------------+
| group_concat_merge(k3) |
+------------------------+
| c,b,a,d                |
+------------------------+

如果不想要最终的聚合结果,可以使用union将多个中间聚合结果组合起来,生成一个新的中间结果。

insert into aggstate select 3,sum_union(k2),group_concat_union(k3) from aggstate ;

这张表目前的结构是……
在这里插入图片描述
您可以通过查询实现这一点。

mysql> select sum_merge(k2) , group_concat_merge(k3)from aggstate;
+---------------+------------------------+
| sum_merge(k2) | group_concat_merge(k3) |
+---------------+------------------------+
|            20 | c,b,a,d,c,b,a,d        |
+---------------+------------------------+

mysql> select sum_merge(k2) , group_concat_merge(k3)from aggstate where k1 != 2;
+---------------+------------------------+
| sum_merge(k2) | group_concat_merge(k3) |
+---------------+------------------------+
|            16 | c,b,a,d,c,b,a          |
+---------------+------------------------+

用户可以使用agg_state执行更详细的聚合函数操作。

agg_state带来了一定的性能开销。

5、用法说明

列类型建议

创建表时对列类型的建议:
1、键列应该在所有值列之前
2、只要可能,请选择整数类型。这是因为整数类型的计算和搜索效率远远高于字符串类型。
3、选择不同长度的整数类型时,遵循充分性原则。
4、对于VARCHARSTRING类型的长度,也要遵循充分性原则。

聚合模型的局限性

本节是关于聚合模型的局限性。

聚合模型只表示聚合的数据。这意味着我们必须确保尚未聚合的数据(例如,两个不同的导入批)的表示一致性。下面通过示例提供进一步的解释。

假设您有以下表模式:
在这里插入图片描述
假设已有两批数据导入到存储引擎中,如下所示:
在这里插入图片描述
如您所见,这两个导入批中关于User 10001的数据尚未聚合。但是,为了保证用户只能查询聚合后的数据,如下所示:
在这里插入图片描述
我们向查询引擎添加了一个聚合操作符,以确保数据的表示一致性。

另外,在聚合列(Value)上,当执行与聚合类型不一致的聚合类查询时,请注意语义。例如,在上面的示例中,如果执行以下查询:

SELECT MIN(cost) FROM table;

结果是5,不是1。

同时,这种一致性保证可能会大大降低某些查询的效率。

以基本count(*)查询为例:

SELECT COUNT(*) FROM table;

在其他数据库中,这样的查询可以快速返回结果。因为在实际实现中,模型可以通过对行进行计数并在导入时保存统计信息来获得查询结果,或者通过仅扫描某一列数据以在查询时获得计数值,开销很小。但是在Doris的聚合模型中,此类查询的开销很大。

对于前面的例子:
在这里插入图片描述
由于最终的聚合结果为:
在这里插入图片描述
select count (*) from table的正确结果;应该是4。但是,如果模型只扫描user_id列并在查询时操作聚合,则最终结果将是3(10001,10002,10003)。如果它不操作聚合,最终结果将是5(两批共5行)。显然,这两个结果都是错误的。

为了得到正确的结果,我们必须同时读取user_iddate列,并在查询时执行聚合。也就是说,在count(*)查询中,Doris必须扫描所有的AGGREGATE KEY列(在本例中是user_id和date)并聚合它们以获得语义正确的结果。这意味着如果有许多聚合列,count(*)查询可能涉及扫描大量数据。

因此,如果需要执行频繁的count (*)查询,我们建议通过添加值为1的列和聚合类型SUM来模拟count (*)。这样,上例中的表模式将被修改如下:
在这里插入图片描述
上面的代码添加了一个count列,它的值总是1,所以select count (*) from table;相当于select sum (count) from table;后者比前者效率高得多。然而,这种方法也有它的缺点。也就是说,它要求用户不能在AGGREGATE KEY列中导入具有相同值的行。否则,选择sum (count) from table;只能表示原始导入数据的行数,而不是select count (*) from table的语义;

另一种方法是添加值为1但聚合类型为REPLACEcount列。然后选择sum (count) from table;select count (*) from table;可以产生同样的结果。此外,此方法不要求导入数据中不存在相同的AGGREGATE KEY列。

Merge on write of unique model

unique 模型中的写时合并实现不像聚合模型那样施加相同的限制。在“写时合并”中,模型为每个导入的行集添加删除位图(delete bitmap),以标记正在覆盖或删除的数据。如上例所示,导入第一批后,数据状态如下:
在这里插入图片描述
导入第二批数据后,第一批数据中的重复行将被标记为已删除,两批数据的状态如下
在这里插入图片描述
在查询中,删除位图中所有标记为true的数据都不会被读取,因此不需要进行数据聚合。由于上述数据中有4行有效数据,因此查询结果也应该是4。这也使开销最小,因为它只扫描一列数据。

在测试环境中,Unique Model的Merge on Write中的count(*)查询的性能是Aggregate Model的10倍。

Duplicate model

复制模型不像聚合模型那样施加相同的限制,因为它不涉及聚合语义。对于任何列,它都可以在count(*)查询中返回语义正确的结果。

Key columns

对于Duplicate、Aggregate和Unique模型,Key列将在创建表时指定,但存在一些区别:在Duplicate模型中,表的Key列可以视为“排序列”,而不是唯一标识符。在聚合和唯一模型中,Key列既是“排序列”又是“唯一标识符列”。

选择数据模型的建议

由于数据模型是在构建表时建立的,并且此后不可撤销,因此选择合适的数据模型非常重要。

1、聚合模型通过预聚合可以大大减少扫描数据量和查询计算量。因此,它非常适合具有固定模式的报表查询场景。但是这个模型对count(*)查询不友好。同时,由于Value列上的聚合方法是固定的,因此在其他类型的聚合查询中应该考虑语义正确性。
2、对于需要唯一主键的场景,唯一模型保证主键的唯一性。缺点是它不能利用预聚合带来的优势,例如查询中的ROLLUP。对于聚合查询有高性能要求的用户,建议使用1.2版以来新添加的Merge on Write实现。
3、Duplicate Model适用于任何维度的临时查询。虽然它可能无法利用预聚合特性,但它不受聚合模型约束的限制,可以充分发挥列存储的优势(仅读取相关列,而不是所有键列)。
4、如果用户需要使用部分更新,请参考部分更新文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/666038.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

GEE 10m近实时 LULC 数据集Dynamic World

Google Earth Engine 和 Dynamic World Google 利用其地球引擎&#xff08;Earth Engine&#xff09;和人工智能&#xff08;AI&#xff09;平台技术&#xff0c;推出了 Dynamic World 数据库&#xff0c;能够提供接近实时的全球土地环境数据。Dynamic World 是基于 Google Ear…

【Gradle】Gradle的本地安装和使用

目录 1、Gradle 的安装 2、集成 IntelliJ IDEA 3、使用 Gradle Gradle 完全兼容 Maven 和 Ivy 仓库&#xff0c;你可以从中检索依赖也可以发布你的文件到仓库中&#xff0c;Gradle 提供转换器能把 Maven 的构建逻辑转换成 Gradle 的构建脚本。 1、Gradle 的安装 Gradle 的…

卷积网络迁移学习:实现思想与TensorFlow实践

摘要&#xff1a;迁移学习是一种利用已有知识来改善新任务学习性能的方法。 在深度学习中&#xff0c;迁移学习通过迁移卷积网络&#xff08;CNN&#xff09;的预训练权重&#xff0c;实现了在新领域或任务上的高效学习。 下面我将详细介绍迁移学习的概念、实现思想&#xff0c…

【Qt】Qt界面美化指南:深入理解QSS样式表的应用与实践

文章目录 前言&#xff1a;1. 背景介绍2. 基本语法3. QSS 设置方式3.1. 设置全局样式3.2. 从文件加载样式表3.3. 使用 Qt Designer 编辑样式 总结&#xff1a; 前言&#xff1a; 在当今这个视觉至上的时代&#xff0c;用户界面&#xff08;UI&#xff09;的设计对于任何软件产…

嵌入式Linux复制剪切删除指令详解

指令操作 1. cp 复制指令 a. 用法&#xff1a;cp [ 选项 ] [ 源文件或目录 ] [ 目标文件或目录 ]&#xff1b; b. 用途&#xff1a;用于复制文件或目录&#xff1b; c. 通常情况下&#xff0c;复制的都不是空文件夹&#xff0c;所以直接使用 cp 复制空文件会失败&#xff0…

[ROS 系列学习教程] 建模与仿真 - Xacro 语法

ROS 系列学习教程(总目录) 本文目录 一、属性与属性块二、数学表达式三、宏3.1 宏的基本使用3.2 属性块做为宏的入参3.3 任意数量元素做为宏的入参3.4 指定多个块元素的处理顺序3.5 宏嵌套3.6 默认参数3.7 局部属性 四、Rospack 命令五、包含其他 xacro 文件六、条件语句七、YA…

C#中接口的显式实现与隐式实现及其相关应用案例

C#中接口的显式实现与隐式实现 最近在学习演化一款游戏项目框架时候&#xff0c;框架作者巧妙使用接口中方法的显式实现来变相对接口中方法进行“密封”&#xff0c;增加实现接口的类访问方法的“成本”。 接口的显式实现和隐式实现&#xff1a; 先定义一个接口&#xff0c;接口…

KotlinConf 2024:深入了解Kotlin Multiplatform (KMP)

KotlinConf 2024&#xff1a;深入了解Kotlin Multiplatform (KMP) 在近期的Google I/O大会上&#xff0c;我们推荐了Kotlin Multiplatform (KMP)用于跨移动、网页、服务器和桌面平台共享业务逻辑&#xff0c;并在Google Workspace中采用了KMP。紧接着&#xff0c;KotlinConf 2…

豆包浏览器插件会造成code标签内容无法正常显示

启用状态&#xff1a;页面的代码会显示不正常 禁用后&#xff0c;正常显示 害得我重置浏览器设置&#xff0c;一个个测试

CentOS7.9部署安装OpenGauss 5.0.2企业版

1、更新系统: yum update -y 2、更改主机名&#xff1a; hostnamectl set-hostname opendb01 3、关闭透明页&#xff1a; echo never > /sys/kernel/mm/transparent_hugepage/enabled echo never > /sys/kernel/mm/transparent_hugepage/defrag# 加入开机自启动 echo …

微信小程序使用echarts

思路 五个tab公用一个柱状图组件切换tab以及切换时间改变数据&#xff0c;传入子组件&#xff0c;子组件监听数据重新更新点击柱状图显示具体数值每个时间点有两个柱子&#xff08;高压和低压&#xff09;&#xff0c;柱状图显示高压的最大值到最小值的范围除了血压其余只有一…

【Epoch,Batch,Iteration】深度学习模型训练相关基础概念光速理解!

&#x1f525;模型训练相关基础概念&#xff01; Epoch: 一次 epoch 代表整个训练数据集已经被完整地送入神经网络进行了一轮训练。通常&#xff0c;模型需要多次 epoch 才能充分学习数据集中的模式。Batch: 由于数据集可能过大&#xff0c;无法一次性全部加载到内存中进行训练…

【前端】Mac安装node14教程

在macOS上安装Node.js版本14.x的步骤如下&#xff1a; 打开终端。 使用Node Version Manager (nvm)安装Node.js。如果你还没有安装nvm&#xff0c;可以使用以下命令安装&#xff1a; curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash 然后关…

LAMP分布式安全方案搭建网页 (LinuxCentOS7+Apache+Mariadb+PHP)包括服务端口及防火墙规则配置

目录 一、实验目的 二、设计方案及规划 三、实验内容及步骤 &#xff08;1&#xff09;实验前基础配置 &#xff08;2&#xff09;Test配置&#xff0c;安装Firefox浏览器和图形界面 &#xff08;3&#xff09;Web安装Apache &#xff08;4&#xff09;Database安装Mari…

2.4 Docker部署JDK

2.4 Docker部署JDK jdk17部署&#xff08;自定义镜像&#xff09; 1.在官网上下载jdk-17_linux-x64_bin.tar.gz&#xff0c;并安装到/usr/local目录下 cd /usr/local2.创建Dockerfile vim Dockerfile# 基于官方的Ubuntu 20.04镜像作为基础镜像 FROM ubuntu:20.04# 设置环境…

瑞吉外卖项目学习笔记(二)后台系统的员工管理业务开发

一、完善登录功能 1.1 问题分析 1.2 代码实现 package com.itheima.reggie.filter;//这是一个过滤器类 //登录检查过滤器import com.alibaba.fastjson.JSON; import com.itheima.reggie.common.R; import lombok.extern.slf4j.Slf4j; import org.slf4j.Logger; import org.slf…

探索k8s集群的存储卷 emptyDir hostPath nfs

目录 一 含义 查看支持的存储卷类型 emptyDir存储卷 1.1 特点 1.2 用途 1.3部署 二、hostPath存储卷 一 含义 容器磁盘上的文件的生命周期是短暂的&#xff0c;这就使得在容器中运行重要应用时会出现一些问题。首先&#xff0c;当容器崩溃时&#xff0c;kubelet 会重…

磁盘配额的具体操作

磁盘配额&#xff1a; linux的磁盘空间有两个方面&#xff1a;第一个是物理空间&#xff0c;也就是磁盘的容量 第二个inode号耗尽&#xff0c;也无法写入 linux根分区&#xff1a;根分区的空间完全耗尽&#xff0c;服务程序崩溃&#xff0c;系统也无法启动了。 为了防止有人…

师彼长技以助己(2)产品思维

师彼长技以助己&#xff08;2&#xff09;产品思维 前言 我把产品思维称之为&#xff1a;人生底层的能力以及蹉跎别人还蹉跎自己的能力&#xff0c;前者说明你应该具备良好产品思维原因&#xff0c;后者是你没有好的产品思维去做产品带来的灾难。 人欲即天理 请大家谈谈看到这…

错误 0x80070570:文件或目录损坏且无法读取/无法访问[拒绝访问]-解决方法

1.起因&#xff1a;在挪动&#xff35;盘文件时&#xff0c;出现无法移动的报错提示&#xff1a; and无法访问[拒绝访问]: 2.原因&#xff3b;大多是胡乱拔出&#xff35;盘&#xff3d; &#xff3b;来自0x80070570 文件或目录损坏且无法读取 CHKDSK 修复方法-CSDN博客&#…