1、系统架构
括如下几个组件:
- SparkApplication控制器, 该控制器用于创建、更新、删除SparkApplication对象,同时控制器还会监控相应的事件,执行相应的动作;
- Submission Runner, 负责调用spark-submit提交Spark作业, 作业提交的流程完全复用Spark on K8s的模式;
- Spark Pod Monitor, 监控Spark作业相关Pod的状态,并同步到控制器中;
- Mutating Admission Webhook: 可选模块,基于注解来实现Driver/Executor Pod的一些定制化需求;
- SparkCtl: 用于和Spark Operator交互的命令行工具
Spark Operator除了实现基本的作业提交外,还支持如下特性:
- 声明式的作业管理;
- 支持更新SparkApplication对象后自动重新提交作业;
- 支持可配置的重启策略;
- 支持失败重试;
- 集成prometheus, 可以收集和转发Spark应用级别的度量和Driver/Executor的度量到prometheus中.
2、Spark Operator 是如何管理Spark作业的
控制器的代码主要位于 pkg/controller/sparkappli cation/controller.go
中。
2.1 、提交流程
提交作业的主流程在 submitSparkApplication
方法中。
提交作业的核心逻辑在submission.go这个模块中。
参考
- Spark Operator浅析
- Spark Operator 初体验