OceanBase + DolphinScheduler,搭建分布式大数据调度平台的实践

本文整理自白鲸开源联合创始人,Apache DolphinScheduler PMC Chair,Apache Foundation Member 代立冬的演讲。主要介绍了DolphinScheduler及其架构、DolphinScheduler与OceanBase 的联合大数据方案。

DolphinScheduler是什么?

Apache DolphinScheduler,作为一款云原生且配备强大的可视化界面的大数据工作流调度平台,可帮助用户简化数据工作流的编排过程,通过高效解决复杂大数据任务间的依赖与触发难题,确保各类大数据任务能够即插即用,融入各类数据分析与数据挖掘场景中,提供全流程可视化操作能力。目前,已有超过3000家公司在其生产环境中成功部署并应用了Apache DolphinScheduler。

1691481150

Apache DolphinScheduler UI 界面

DolphinScheduler 调度平台具备简单易用、架构设计上保证系统高可靠性、高扩展性和云原生能力,拥有丰富的使用场景。

  • 高可靠性
    • 架构设计上,去中心化的多 Master 和多 Worker , 具备高可用能力。
    • 采用任务队列避免过载,不会造成机器卡死。
  • 简单易用
    • 拥有一键部署能力,简化部署,易维护。
    • 可视化界面,所有流程定义都是可视化,通过拖拽任务形成工作流模板。
    • 支持 Open API 、Python 方式与第三方系统对接。
  • ·高扩展性、云原生能力
    • 支持自定义任务类型。
    • 调度能力随集群线性增长。
    • 弹性伸缩, Master 和 Worker 支持动态上下线。
  • 丰富的使用场景
    • 支持暂停恢复及停止等丰富操作。
    • 支持多租户,权限管理等大数据应用场景。
    • 支持 30+ 种任务类型,如 Spark, Flink,Hive, MR, Python, Shell 等。

从 DolphinScheduler 调度平台界面能够看出来,DolphinScheduler 会实时关注任务运行状态,同时,可以直观地看到每个工作流的每个环节,可以轻松在线回溯任务状态。

DolphinSchedule 调度平台采用插件式设计,支持多数据源格式,如OceanBase、MySQL、PostgerSQL、Hive、Impala、Spark、ClickHouse、Oracle、SQLServer、Db2、MongoDB 等可视化的数据源,并支持自由扩展数据源、支持可视化配置。方便数据源统一集中管理,一次配置,到处使用,大大减少配置修改带来的工作量,也方便后续数据血缘关系的处理。

同时,DolphinSchedule 支持多数据源数据的加工、数据导入脚本统一管理,包括 Python、Shell、Jar 包、R 等多种格式。多层级结构确保文件管理层次清晰,不用考虑后续文件应该存储在哪一台机器上,避免资源文件散乱难以维护。

1691481353

Apache DolphinScheduler 调度平台

此外,DolphinSchedule 调度系统也十分灵活,满足多种业务场景需要,工作流流程支持多策略启动、优先级、告警配置,任务流程多策略支持确保 ETL 过程可管理:

  • ·支持任务失败策略选择,失败继续或结束。
  • ·支持多种通知策略,包括失败发送通知、成功发送通知、全部通知、全部不发通知。
  • ·支持优先级设定,确保高优先级流程优先执行。

·   支持选定节点执行 ETL 任务流。

·    支持串行与并行两种执行方式。

Dolphinscheduler 架构解析

下图是 Dolphinscheduler 的架构图,最上面的 UI 是用户可以感受到的界面, Open API 可以给 UI 提供调用接口,也方便第三方对接。对于 Open API 这一层,调度最关键的是 MasterSever 和 WorkerSever ,MasterSever 的职责是分配任务,WorkerSever 的职责是接受 MasterSever 分的任务,然后执行,最后把执行结果汇报给 MasterSever。由于担心所有的压力都集中在 Active MasterSever 上,因此做了无中心化的设计架构。

1691481459

ApacheDolphin Scheduler 架构

在最初的架构设计中,MasterSever 和 WorkerSever 完全隔离,WorkerSever 拿到任务之后,把任务更新到数据库里面,导致 WorkerSever 对于数据库造成的压力非常大。比如联通把省公司的数据都汇总到数据中心,有一百多台的 WorkerSever 节点,WorkerSever 又做了数据库的连接池,数据库的压力会非常大。WorkerSever 负责执行各种工作流,这也是调度系统经常会用到的,我们希望工作流和工作流之间是有设计方法的,比如数仓按照数仓的分层原则,一层一层之间十分地清晰。

我们有一个依赖类型,这个依赖可以跨项目、跨工作流去依赖其他不同频度的任务,比如说一个天任务,依赖一个小时的任务,这里有一个依赖节点就可以了。整体上有一个注册中心,WorkerSever 都可以接受注册,WorkerSever 挂了,MasterSever 恢复,MasterSever 挂了,有其他的 MasterSever 监听到,其他的 MasterSever 接受它的工作流,进行故障 MasterSever 恢复。

MasterSever 1.0 时代的设计是无中心化的,遇到的问题是如何让 MasterSever 同时工作。我们先设计了一个简单的方式,先抢锁,然后去工作,跟踪的时候发现 Zookeeper 去充当锁,或是 MasterSever 去充当锁,抢锁的时间需要 50 -60 ms,非常慢。于是,我们又做了设计上的优化,首先是抢锁,抢到锁之后,把整个工作流界面做成一个图,然后去构建工作流,最终再把每个运行的任务形成任务实例。这是 1.0 时代的设计,后来发现性能比较低。 

1691481491

—1.X原先设计

在 Dolphinscheduler 2.0 时开始找分布式锁,我们根据 MasterSever 的算法,支持多种拓展,来找到它们的槽位。先去做分片,注册 MasterSever 会生成一个分片编号,Command 是执行的工作流,在去分布式锁的时候进行了这样的一个设计,根据槽位查询数据库,然后会生产工作流的实例,交给 Worker 执行,根据分片的槽位去计算。这就是去分布式锁设计。

1691481503

去分布式锁设计—新版本设计

1.0 版本对线程的使用非常重,纵使是 8C16G 的机器也需要配置几百个线程。在 2.0 时代,我们进行了线性模式的拆分、改造。MasterSchedulerService ThreadPool 负责从 Command 表中分片获取要执行的 Command, 构造工作流实例,拆分待执行任务,生成任务实例,提交任务队列,启动 WorkFlowExecuteThread 处理。WorkFlowExecuteThread工具,负责构建 DAG, DAG 拆分,生成任务实例,提交到任务队列;同时负责处理任务状态和工作流状态变化,还负责任务/工作流超时监控。

新版本的 Master 端有那些变化呢?

  • 大幅减少 Master 的线程使用。
  • 使用分片机制获取命令队列。
  • 增加状态事件的处理机制。
  • 增加 Master 与 Master 之间的通信,一个 MasterSever 挂了之后,其他的 MasterSever 会互相的通信。
  • 增加 Master 的缓冲机制,不仅仅是在 MasterSever,在 IPASever上也增加了缓存。

1691481553

Master 线程模型重构—2.X 版本设计

做了系统的架构改造之后,吞吐量提升了 20 倍。当然到了 3.0 版本,提升的倍数会更多。随着架构的演进,吞吐量会有更大的提升。这也正式开源有意思的地方:大家都可以提出自己的想法,把开源最新的思想在项目中实现,并被成千上万的用户使用,在使用中完善项目,这就是开源最大的魅力。

1691481564

改造后的架构效果—吞吐 20 倍提升

Dolphinscheduler & OceanBase 解决方案

下图是 Dolphinscheduler 和 OceanBase 的解决方案,架构分为三层,底层是各种文件系统,中间层是分析引擎如 Spark、Flink、Hive;上层是应用层。从存储到采集、计算,到转化,一直到 BI,最后到看到结果的数据,充当了一个箭头的作用。

1691481575

DolphinScheduler + OceanBase 解决方案

Dolphinscheduler基于 OceanBase 高可用、低成本、高扩展、高性能特性有了一些学习和思考。由于OceanBase 基于 Paxos 协议保证强一致性,因此我们在做分布事务的时候,数据强一致性以及不重、不丢都是必须要保证的。另外我们非常看好OceanBase 的一些特性,比如在扩容时,自动实现负载均衡;再比如低成本,无需太多组件,并且可以随时玩起来。

那么,OceanBase 在 DolphinScheduler 里发挥了什么作用呢?

首先,作为 DolphinScheduler 的数据源,方便用户更简单快捷创建 SQL 任务。数据存储在 OceanBase 里,简化数据工作流处理,方便把整个工作流串联起来,用 SQL 进行处理,所以我们对于 SQL 也做了很多的优化,包括执行多少个 SQL,做了很多的设计。得益于 OceanBase 数据源的高扩展能力,结合 OceanBase 高压缩比的低成本优势,让用户在大规模使用时受益。

其次,作为 DolphinScheduler 元数据基础依赖,存放 DolphinScheduler 本身的各项关键信。Dolphinscheduler 底层的表数据量增量非常快,但是调度的任务一般不能删,需要保存一两年数据的时候,整体数据量相当复杂,原来尝试使用普通表存储,但是汇总数据的时候很麻烦。现在我们用一个分布式数据库存储,让 OceanBase 充当元数据库,保证调度系统的稳定性。当然,在稳定性上我们会慎之又慎,需要做很多的稳定性测试,也希望有更多的社区小伙伴可以加入共同测试。

DolphinScheduler Roadma

DolphinScheduler Roadma 依照社区需求和关注度来安排功能优先级, 做哪些功能由邮件讨论决定。我们计划动态任务插件支持、支持远程任务调度、Remote Task、更好支持 Streaming Task、K8S Operator、更好支持 Streaming Task、Easy to use(更多请参考:https://github.com/apache/dolphinscheduler/issues/13459)。在今年,我们支持 SeaTunnel Zeta 引擎选择,SeaTunnel Zeta 是我们花了10个月、投入了上百人研发的另外一个数据平台的产品,是 SeaTunnel 专有的同步引擎。

1691481592

Apache DolphinScheduler Use Case

Dolphinscheduler 在海内外拥有丰富的用户基础,如中国联通、Shein、荔枝 PM、360 等,希望Dolphinscheduler 调度系统能为更多的用户带来便利。Dolphinscheduler 有一个很出名的口号:工具选的好、下班回家早、调度用的对,半夜安心睡。希望调度系统和 AI 的结合,可以为大家的业务赋能,为大家的身体松绑。

让中国的开源真正地走向全球,让更多人知道中国的开源项目也很厉害,是我们的愿景。欢迎大家参与到社区讨论和共建里来,参与到中国开源项目的建设中来。

附:

OceanBase GitHub项目地址:https://github.com/oceanbase/oceanbase

Dolphinscheduler 项目地址:https://github.com/apache/dolphinscheduler

Dolphinscheduler 官网:  https://dolphinscheduler.apache.org

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/890157.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AOT漫谈专题(第二篇): 如何对C# AOT轻量级APM监控

一:背景 1. 讲故事 上一篇我们聊到了如何调试.NET Native AOT 程序,这是研究一个未知领域知识的入口,这篇我们再来看下如何对 Native AOT 程序进行轻量级的APM监控,当然这里的轻量级更多的是对 AOT 中的coreclr内容的挖掘。 二…

工业物联网关-ModbusTCP

Modbus-TCP模式把网关视作Modbus从端设备,主端设备可以通过Modbus-TCP协议访问网关上所有终端设备。用户可以自定义多条通道,每条通道可以配置为TCP Server或者TCP Slave。注意,该模式需要指定采集通道,采集通道可以是串口和网口通…

linux 下 verilog 简明开发环境附简单实例

author: hjjdebug date: 2024年 10月 12日 星期六 10:34:13 CST descripton: linux 下 verilog 简明开发环境附简单实例 甲: 安装软件 1. sudo apt install iverilog 该包verilog 源代码的编译器iverilog,其输出是可执行的仿真文件格式vvp格式 它可以检查源代码中…

跟踪一切学习笔记2024

目录 Track-Anything 多目标跟踪分割 masa 多目标检测跟踪: omnimotion iKUN Track-Anything 交互式,选择多个要跟踪的物体,最后是分割 多目标跟踪分割 https://github.com/gaomingqi/Track-Anything masa 多目标检测跟踪:

单臂路由实现vlan间互访

划分vlan 可以隔离广播域,但vlan 之间无法通信。既能隔离广播域,防止广播风暴的发生,又能实现vlan 之间的通信,就需要用到网络层的路由器,可以通过路由器,以单臂路由的方式来实现vlan 之间的通信。 以下是在神州交换机和路由器上实现单臂路由实现 VLAN 间互访的配置代码示…

Sentinel最全笔记,详细使用步骤教程清单

一、Sentinel的基本功能 1、流量控制 流量控制在网络传输中是一个常用的概念,它用于调整网络包的发送数据。然而,从系统稳定性角度考虑,在处理请求的速度上,也有非常多的讲究。任意时间到来的请求往往是随机不可控的,…

光伏项目难管理的问题如何解决?

1.数字化管理平台的应用 数字化是当前解决光伏项目管理难题的关键手段之一。通过建立统一的数字化管理平台,可以实现对光伏电站的远程监控、数据分析、故障预警及运维调度等功能。这类平台通常集成有智能算法,能够实时分析电站运行数据,及时…

Flink 批作业如何在 Master 节点出错重启后恢复执行进度?

摘要:本文撰写自阿里云研发工程师李俊睿(昕程),主要介绍 Flink 1.20 版本中引入了批作业在 JM failover 后的进度恢复功能。主要分为以下四个内容: 背景解决思路使用效果如何启用 一、背景 在 Flink 1.20 版本之前&am…

LeetCode讲解篇之2320. 统计放置房子的方式数

文章目录 题目描述题解思路题解代码题目链接 题目描述 题解思路 我们首先发现一个规律街道两侧是否放置房子是独立的,即放置房子的方式数 一侧放置房子的方式数 * 另一侧放置房子的方案数 一侧放置房子的方式数的二次方 对于一侧[0, i]范围内地块放置房子的方式…

用无人机视角,打开哀牢山!

哀牢山危险且神秘,使用无人机进行探索可以极大地提高安全性和效率。通过无人机的关键性能,将哀牢山的情况记录并传输出来 一、高清摄像与图像传输 高清摄像头:无人机通常搭载高分辨率的摄像头,能够捕捉到哀牢山细腻的自然景观和…

opencv外接矩形cv2.boundingRect和cv2.minAreaRect区别

在OpenCV中,cv2.boundingRect和cv2.minAreaRect是两个用于获取图像中形状边界的函数,但它们在功能和返回结果上有所不同。以下是两者的详细区别: 1. cv2.boundingRect 和 cv2.minAreaRect 功能描述 cv2.boundingRect 主要是用来计算图像轮廓…

第二十三篇:网络拥塞了,TCP/IP如何解决的?

一.显示拥塞通知 当发生网络拥塞时,发送主机应该减少数据包的发送量。作为IP上层协议,TCP虽然也能控制网络拥塞,不过它是通过数据包的实际损坏情况来判断是否发生拥塞。然而这种方法不能在数据包损坏之前减少数据包的发送量。 为了解决这个…

JAVA自动化测试TestNG框架

1.TestNG简介 JAVA自动化测试最重要的基石。官网&#xff1a;https://testng.org 使用注解来管理我们的测试用例。 发现测试用例 执行测试用例 判断测试用例 生成测试报告 2.创建Maven工程 2.1创建一个maven工程 2.2设置maven信息 2.3设置JDK信息 2.4引入testng依赖 <dep…

springboot001基于SpringBoot的在线拍卖系统(论文+源码)_kaic

医护人员排班系统 摘要 随着信息技术在管理上越来越深入而广泛的应用&#xff0c;管理信息系统的实施在技术上已逐步成熟。本文介绍了医护人员排班系统的开发全过程。通过分析医护人员排班系统管理的不足&#xff0c;创建了一个计算机管理医护人员排班系统的方案。文章介绍了医…

腾讯云视立方Electron 相关问题

安装相关 trtc-electron-sdk 是否兼容官方 Electron v12.0.1 版本? 兼容的&#xff0c;trtc-electron-sdk 没有特别依赖 elecron 自身的 SDK&#xff0c;所以没有相关的版本依赖。 Electron 下载慢甚至卡住不动&#xff1f; 当开始下载tmp-3320-1-SHASUMS256.txt-6.1.9文件…

JDK17常用新特性

目前国内大部分开发人员都是在使用jdk8&#xff0c;甚至是jdk6&#xff0c;但是随着jdk的更新迭代&#xff0c;jdk8我觉得可能就会慢慢的淡出舞台&#xff0c;随着目前主流框架最新版推出明确说明了不再支持jdk8&#xff0c;也促使我不得不抓紧学习了解一波jdk17的新特性&#…

PDSCH DMRS(解调参考信号)简述

文章目录 PDSCH DMRS&#xff08;解调参考信号&#xff09;简述基本问题例子1. 层数和无数据的DMRS CDM组数量资源元素映射 用户设备假设 PDSCH DMRS&#xff08;解调参考信号&#xff09;简述 这是用来做什么的&#xff1f; 这是一个专门用于解码PDSCH的下行无线信道估计的物理…

【Java学习笔记】多线程

当我们在饭店聚餐时&#xff0c;多人同时吃一道菜的时候很容易发生争抢。例如&#xff0c;上了一道好菜&#xff0c;两个人同时夹这道菜&#xff0c;一人刚伸出筷子&#xff0c;结果伸到的时候菜已经被夹走了。为了避免这种现象&#xff0c;必须等一人 夹完一口后&#xff0c;另…

elementui中el-radio-group内容过长溢出问题

鼠标悬停显示文字 <template> <el-radio-group class"fixed-width-radio-group" v-model"continueruleForm.category" size"mini" fill"#2f54eb" color"#2f54eb" > <el-radio-button label"pr…

Django学习笔记之Django基础学习

Django笔记 提示&#xff1a;这里可以添加系列文章的所有文章的目录&#xff0c;目录需要自己手动添加 例如&#xff1a;第一章 Python 机器学习入门之pandas的使用 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录…