目录
1. 背景介绍
2. 环境准备
2.1、技术栈说明
2.2、环境依赖
2.3、硬件与软件环境
2.4、主要工具清单
2.5、Maven 项目结构
2.6、maven pom.xml 依赖
3. Spark 与 Paimon Filesystem Catalog 集成
3.1、HDFS FileSystem catalog
3.1.1、代码内容
3.1.2、运行输出结果
3.1.2.1、Spark 运行日志
3.1.2.2、HDFS 文件目录
3.1.3、创建 hive 的 paimon 格式外部表并查询
3.2、S3 FileSystem catalog
3.2.1、代码内容
3.2.2、运行输出结果
3.2.2.1、Spark 运行日志
3.2.2.2、S3 存储目录
3.3、OSS FileSystem catalog
3.3.1、代码内容
3.3.2、运行输出结果
3.3.2.1、Spark 运行日志
3.3.2.2、OSS 存储目录
4. Spark 与 Paimon Hive Catalog 集成
4.1、代码内容
4.2、运行输出结果
4.2.1、Spark 运行日志
4.2.2、查询 Hive 表
5. 参考
1. 背景介绍
- 为什么选择将 Spark 与 Paimon 集成,解决什么问题?
- 文件系统 Catalog 和 Hive Catalog 的适用场景?
2. 环境准备
2.1、技术栈说明
- Spark、Paimon 的版本选择及其兼容性说明
- Paimon 0.8、0.9 支持版本:Spark 3.1