Apache Hudi是一个数据湖处理框架,通过提供简单的方式来进行数据的插入、更新和删除操作,Hudi能够帮助数据工程师和科学家更高效地处理大数据,并支持实时查询。
支持的处理引擎
Spark
Flink
SeaTunnel Zeta
主要特性
- 批处理
- 流处理
- 精确一次性
- 列投影
- 并行处理
- 支持用户自定义切分
描述
Hudi Source 连接器专为从Apache Hudi管理的数据湖中读取数据而设计。目前,它支持Hudi COW(Copy on Write)表和批处理模式下的快照查询。
为了使用此连接器,您必须确保您的Spark/Flink集群已集成Hive。已测试的Hive版本为2.3.9。
Apache Hudi解决了数据湖在数据频繁变更时面临的数据管理问题,如数据同步延迟、复杂的数据管道维护和高成本的数据存储。通过使用Hudi,组织能够简化数据的插入、更新和删除操作,同时支持近实时的数据查询和分析,极大提高了数据处理的灵活性和效率。
支持的数据源信息
Tip
- 目前仅支持Hudi COW表和批处理模式下的快照查询
数据类型映射
Hudi数据类型 | SeaTunnel数据类型 |
---|---|
所有类型 | STRING |
源选项
名称 | 类型 | 是否必须 | 默认值 | 描述 |
---|---|---|---|---|
table.path | String | 是 | - | Hudi表的HDFS根路径,例如 'hdfs://nameservice/data/hudi/hudi_table/'。 |
table.type | String | 是 | - | Hudi表的类型。目前我们仅支持 'cow','mor' 尚未支持。 |
conf.files | String | 是 | - | 环境配置文件路径列表(本地路径),用于初始化HDFS客户端以读取Hudi表文件。示例为 '/home/test/hdfs-site.xml;/home/test/core-site.xml;/home/test/yarn-site.xml'。 |
use.kerberos | bool | 否 | false | 是否启用Kerberos,默认为false。 |
kerberos.principal | String | 当use.kerberos为true时必须 | - | 使用Kerberos时,我们应设置Kerberos主体,例如 'test_user@xxx'。 |
kerberos.principal.file | string | 当use.kerberos为true时必须 | - | 使用Kerberos时,我们应设置Kerberos主体文件,例如 '/home/test/test_user.keytab'。 |
common-options | config | 否 | - | 源插件通用参数,详细信息请参阅源通用选项。 |
任务示例
简单示例:
此示例从一个Hudi COW表读取数据,并为环境配置Kerberos,输出到控制台。
# 定义运行环境
env {
# 在此处设置flink配置
execution.parallelism = 2
job.mode = "BATCH"
}
source{
Hudi {
table.path = "hdfs://nameservice/data/hudi/hudi_table/"
table.type = "cow"
conf.files = "/home/test/hdfs-site.xml;/home/test/core-site.xml;/home/test/yarn-site.xml"
use.kerberos = true
kerberos.principal = "test_user@xxx"
kerberos.principal.file = "/home/test/test_user.keytab"
}
}
transform {
# 如果您希望了解更多关于配置SeaTunnel及其插件的信息,
# 请访问 https://seatunnel.apache.org/docs/transform-v2/sql/
}
sink {
Console {}
}
通过使用Apache Hudi和其源连接器,企业可以实现更高效、更灵活的大数据管理和分析,帮助开发者解决在数据湖环境下常见的数据同步与查询挑战。
本文由 白鲸开源科技 提供发布支持!