介绍
Databend 是一个内置在 Rust 中的开源、弹性和工作负载感知的云数据仓库,为 Snowflake 提供了具有成本效益的替代方案,专门对最大的数据集进行复杂分析而设计。
性能:
- 在存储对象上,能快速进行数据分析。
- 没有索引和分区,但也能快速查询。
- 利用数据级并行和指令级并行技术实现最佳性能。
数据操作:
- 支持原子操作,如
SELECT
、INSERT
、DELETE
、UPDATE
、REPLACE
、COPY
和MERGE
。 - 提供高级功能,如时间旅行和多目录(Apache Hive / Apache Iceberg)。
- 支持以 CSV、JSON 和 Parquet 等各种格式。
- 支持半结构化数据类型,如 ARRAY、MAP 和 JSON 。
- 支持类似 Git 的 MVCC 存储,以便于查询、克隆和恢复历史数据。
对象存储:
- Amazon S3
- Azure Blob Storage
- Google Cloud Storage
- MinIO
- Ceph
- Wasabi
- SeaweedFS
- Cloudflare R2
- Tencent COS
- Alibaba OSS
- QingCloud QingStor
Databend 的高级架构由meta-service layer
、query layer
和storage layer
组成。
meta-service layer
(元服务层)有效地支持多个租户,该层在系统中发挥着至关重要的作用:
- 元数据管理:处理数据库、表、集群、事务等的元数据。
- 安全性:管理安全环境的用户身份验证和授权。
query layer
(查询层)处理查询计算,由多个集群组成,每个集群包含多个节点。每个节点是查询层中的核心单元,由以下部分组成:
- 规划师:使用来自的元素为SQL语句制定执行计划关系代数,结合了投影、滤波器和限位等运算符。
- 优化器:基于规则的优化器应用预定义规则,如“谓词下推”和“未使用列的修剪”,以优化查询执行。
- 处理器:遵循 Pull & Push 方法,根据规划师指令构建查询执行管道。处理器相互连接,形成一个可以分布在节点之间的管道,以提高性能。
storage layer
采用开源柱状格式 Parquet ,并引入了自己的表格格式,以提高查询性能。主要功能包括:
- 二级索引:加快各种分析维度的数据位置和访问速度。
- 复杂数据类型索引:旨在加快半结构化数据等复杂类型的数据处理和分析。
- 段:Databend 有效地将数据组织成段,提高数据管理和检索效率。
- 集群:在段内使用用户定义的集群密钥来简化数据扫描。
安装和配置
Databend 官网:https://databend.rs/doc/integrations/access-tool/mysql
Databend 下载:https://databend.rs/download
本地部署,使用 JDBC 驱动程序连接 Databend 步骤如下:
-
根据官网下载地址,选择与自己电脑版本对应的,下载解压后可以看到以下系列文件。
-
将文件 databend-query.toml 中的以下部分注释取消。
-
在文件夹脚本中运行脚本**start.sh,打开进入该文件目录中终端执行
./scripts/start.sh
。 -
在DBeaver中,选择数据库>驱动程序管理器以打开驱动程序管理器,然后单击新建以创建新驱动程序。
根据上图片,添加设置相关信息如下图:
- 在“库”选项卡上,单击“添加工件”,然后将以下内容复制并粘贴到“**依赖项声明”**文本框中,点击确定即可。
<dependency>
<groupId>com.databend</groupId>
<artifactId>databend-jdbc</artifactId>
<version>0.0.8</version>
</dependency>
- 使用前面添加的驱动,连接本地的 Databend 。
相关扩展
Databend支持的工具、平台和编程语言如下:
可以查看对应的工具和编程语言,了解更多用法。
参考资料
- Databend 官网
- Databend 下载
- Docker和本地部署
- 通过JDBC连接到Databend
- Databend生态系统