目录
适用场景
设计目标
PowerJob 功能全景
任务调度
工作流
分布式计算
动态容器
什么是动态容器?
使用场景
可维护性和灵活性的完美结合
实时日志&在线运维
PowerJob 系统组件
PowerJob 应用场景
PowerJob 的优势
PowerJob(原OhMyScheduler)是全新一代分布式任务调度与计算框架,其主要功能特性如下:
- 使用简单:提供前端Web界面,允许开发者可视化地完成调度任务的管理(增、删、改、查)、任务运行状态监控和运行日志查看等功能。
- 定时策略完善:支持 CRON 表达式、固定频率、固定延迟和API四种定时调度策略。
- 执行模式丰富:支持单机、广播、Map、MapReduce 四种执行模式,其中 Map/MapReduce 处理器能使开发者寥寥数行代码便获得集群分布式计算的能力。
- 工作流支持:支持在线配置任务依赖关系(DAG),以可视化的方式对任务进行编排,同时还支持上下游任务间的数据传递,以及多种节点类型(判断节点 & 嵌套工作流节点)。
- 执行器支持广泛:支持 Spring Bean、内置/外置 Java 类,另外可以通过引入官方提供的依赖包,一键集成 Shell、Python、HTTP、SQL 等处理器,应用范围广。
- 运维便捷:支持在线日志功能,执行器产生的日志可以在前端控制台页面实时显示,降低 debug 成本,极大地提高开发效率。
- 依赖精简:最小仅依赖关系型数据库(MySQL/PostgreSQL/Oracle/MS SQLServer...)
- 高可用 & 高性能:调度服务器经过精心设计,一改其他调度框架基于数据库锁的策略,实现了无锁化调度。部署多个调度服务器可以同时实现高可用和性能的提升(支持无限的水平扩展)。
- 故障转移与恢复:任务执行失败后,可根据配置的重试策略完成重试,只要执行器集群有足够的计算节点,任务就能顺利完成。
在线试用:在线试用 · 语雀
适用场景
- 有定时执行需求的业务场景:如每天凌晨全量同步数据、生成业务报表、未支付订单超时取消等。
- 有需要全部机器一同执行的业务场景:如使用广播执行模式清理集群日志。
- 有需要分布式处理的业务场景:比如需要更新一大批数据,单机执行耗时非常长,可以使用Map/MapReduce 处理器完成任务的分发,调动整个集群加速计算。
- 有需要延迟执行某些任务的业务场景:比如订单过期处理等。
设计目标
PowerJob 的设计目标为企业级的分布式任务调度平台,即成为公司内部的任务调度中间件。整个公司统一部署调度中心 powerjob-server,旗下所有业务线应用只需要依赖 powerjob-worker 即可接入调度中心获取任务调度与分布式计算能力。
PowerJob 功能全景
任务调度
丰富的调度策略和强大的调度能力。
- 原生提供 CRON、固定频率、固定延迟三种最常见的调度策略。
- 额外提供 OpenApi 作为扩展调度策略,允许接入方完成调度层的自定义需求。
- 整个调度层采用无锁化设计,基于时间轮进行调度,低延迟,高性能。
工作流
为什么要支持工作流?它解决了什么业务问题?
工作流描述了任务与任务之间的依赖关系,比如我现在有 A、B、C、D 四个任务,我希望 A 任务运行完毕后才开始运行 B、C 任务,最后再运行 D 任务。这就形成了一个依赖关系,可以通过有向无环图(DAG)来描述这个关系,如下图所示。
DAG 定义:在图论中,如果一个有向图无法从某个顶点出发,经过若干条边回到该顶点,则这个图是一个有向无环图。
利用 DAG 轻松解决任务间复杂依赖问题。
- 支持上游任务结果传递。
- 提供前端界面可视化绘图&结果展示。
- 每个节点本身都是 PowerJob 的任务,因此可以享受任务的所有基础能力(故障转移、MR、在线运维、实时日志等)。
分布式计算
- 调度框架为什么需要分布式计算?
实际业务场景中,我们会有比较复杂的离线任务,说白了还是数据处理任务,那么涉及到数据,就会有大数据量级的数据处理,所以我们需要用到分布式计算。
- 即便需要,市面上已有众多现成的分布式计算框架,PowerJob 是在重复造轮子吗?
答案是不是,因为市面上基本都是基于数据的处理,缺乏基于业务的处理。所以 PowerJob 是处理业务方面的数据问题。
PowerJob 是基于 MapReduce 模型的创新实现。
分而治之,Map :拆分;Reduce 装。
比如:一个根任务拆分成多个子任务,派发给不同的机器,最后再把结果汇总。
- 海量业务数据处理的好帮手。
- 寥寥数行代码实现分布式计算。
- 支持任意层级子任务拆分(无限Map)。
动态容器
什么是动态容器?
PowerJob 的容器技术允许开发者开发独立于 worker 项目之外的 Java 处理器,简单来说,就是以Maven 工程项目的维度去组织一堆 Java 文件(众多任务处理器),进而兼具开发效率和可维护性。
使用场景
比如有某个数据库数据订正任务,与主业务无关,写进原本的项目工程中不太优雅。这时候就可以单独创建一个用于数据操作的容器,在里面完成处理器的开发,通过 PowerJob 动态容器技术在 worker 集群上被加载执行。
可维护性和灵活性的完美结合
- 使用简单,提供一键模版生成功能(类似于 spring initializr ),真正的开箱即用。
- 部署便捷,除了普通的上传 FatJar 部署方式外,额外支持 Git 源码部署,一站式完成编译、打包、部署和加载。
- 开发高效,动态容器支持完整 Spring 特性,开发容器和开发普通 Spring 项目没有任何区别。
实时日志&在线运维
PowerJob 系统组件
所有组件均支持水平扩展。
- powerjob-server:调度中心,整个公司内部统一部署,负责任务管理和调度。
- powerjob-worker:执行器,提供单机执行、广播执行和分布式计算等功能。
- powerjob-client:可选组件,OpenAPI客户端 。
PowerJob 应用场景
普通定时任务:比如生成业务报表等。
有需要全部机器执行同一任务的业务场景:比如清理日志。
有需要分布式处理的业务场景:比如需要更新一大批数据,单机执行耗时非常长,可以使用Map/MapReduce处理器完成任务的分发,调动整个集群加速计算。
有需要延迟执行某些任务的业务场景:比如订单过期处理。
PowerJob 的优势
功能强大,使用简单,文档齐全。
丰富的调度策略(CRON、固定频率、固定延迟、OpenAPI)。
支持工作流(workflow),可视化编排复杂任务依赖关系。
支持分布式计算,寥寥数行代码完成分布式计算。
依赖精简:最小依赖仅为关系型数据库,扩展依赖 MongoDB。
执行器支持广泛:Java、Shell、Python……
高可用& 高性能:所有组件均支持集群部署,水平扩展。