2.6倍!WhaleTunnel 客户POC实景对弈DataX

file

作为阿里早期的开源产品,DataX是一款非常优秀的数据集成工具,普遍被用于多个数据源之间的批量同步,包括类似Apache DolphinScheduler的Task类型也对DataX进行了适配和增强,可以直接在DolphinScheduler里面利用通用的数据源调用DataX进行数据批量同步。

作为DolphinScheduler的社区支持者和商业版本的提供者,白鲸开源在升级到商业版WhaleScheduler的时候也遇到使用DataX的用户,因为白鲸开源也在主力维护者另外一个Apache顶级社区 Apache SeaTunnel,它对应的商业版是WhaleTunnel。所以,经常有客户会询问,WhaleTunnel比DataX优势在哪里啊? 性能到底如何?今天这里用一个客户实际的POC案例来实景对弈下,以及最终用户为什么选择WhaleTunnel替换了开源的DataX。

功能差异

首先,从功能上,我们来对比下商业版WhaleTunnel和DataX的差异点。可以看到WhaleTunnel作为一个商业数据集成工具,不仅具备了Apache SeaTunnel开源的多线功能,还在数据源数量、可视化、DDL变更和运维监控方面都做了增强,对比DataX来讲,更是在集群稳定性、批流一体、数据源以及可视化上有明显优势:

对比项WhaleTunnel(商业)DataX
部署难度容易容易
运行模式分布式,也支持单机单机
健壮的容错机制无中心化的高可用架构设计,有完善的容错机制易受网络闪断、数据源不稳定等因素影响
支持的数据源丰富度支持批量和CDC 165种数据源: MySQL、PostgreSQL、Oracle、SQLServer、SAP Hana、Hive、S3、OSS】文件、RedShift、PolarDB
HBase、Doris、Clickhouse等实时和批量数据源还在快速增长
支持批量数据源:MySQL、ODPS、PostgreSQL、
Oracle、Hive 等 20+ 种批量数据源
商业版连接器针对多种常见数据源,Doris、StarRocks、GaussDB、Redshift、偶数等单独与原厂共同定制开发底层商业版连接器,性能大幅超过开源版连接器开源版连接器
内存资源占用
数据库连接占用少(可以共享 JDBC 连接)
自动建表支持不支持
整库同步支持不支持
断点续传支持不支持
JDBC 连接池复用支持
DDL变更支持强,支持多种数据源DDL变更不支持
可视化设计支持完全可视化数据源管理、数据Mapping定义任务定义、运维监控、告警不支持
多引擎支持基于商业扩展的SeaTunnel Zeta引擎只能运行在DataX自己的引擎上
数据转换算子(Transform)支持Copy、Filter、Replace、Split、SQL 、自定义 UDF等算子。
商业专有Transform:添加列,改类型,删除列,改列名,Transform支持DDL变更适配,在DDL变更场景也支持Transform自适应。
支持补全,过滤等算子,可以 groovy自定义算子
单机性能比DataX高30%-80%较好
批量同步支持支持
增量同步支持支持
实时同步支持不支持
CDC同步支持不支持
批流一体支持不支持
精确一致性所有JDBC访问的数据库(比如MySQL, SQLServer, PG, Oracle等)、Kafka、Hive、HDFS、File , SFTP, FTP等连接器支持不支持
可扩展性插件机制非常易扩展易扩展
进度监控及统计信息丰富的可视化监控,同步进度、速率,表同步情况,任务错误情况,同步条数等监控信息,DDL变更提醒、数据模型变更提醒等。无监控界面,可以在DolphinScheduler级别实现任务级别的监控
告警支持DDL变更告警,数据延迟告警,数据异常报警等不支持
Web UI全部可视化建立数据映射以及同步任务,并与商业版本调度WhaleScheduler集成,支持完全可视化数据源管理、任务定义、运维监控、告警等
与调度系统集成度与商业版本调度WhaleScheduler深度集成,支持各种调度传参数用于同步,比如日历,牌等信息已经与DolphinScheduler集成

性能差异

具体到性能方面,到底孰弱孰强,我们直接上用户具体测试的实际场景来看(这是在征求某零售客户许可后公布的测试POC数据内容,已混淆其中的各项业务相关内容):

测试内容:

  • 单表(80个字段,数千万条记录)
  • 源数据库:Oracle
  • 目标数据库:Apache Doris
  • WhaleTunnel与DataX并行度:10 WhaleTunnel采用可视化界面配置,DataX采用WhaleScheduler中的DataX任务进行配置。

这是WhaleTunnel测试配置截图:

file

那么测试结果如何呢?

这是WhaleTunnel同步的性能速率:

file

这是同样配置服务下,单台DataX同步Insert的速率:

file

这是同样配置服务下,单台DataX同步upsert的速率:

file

可以看到,同样的数据,在同样的并行度情况下有如下测试结论:

file

可以看到,在这个场景下,因为WhaleTunnel在源连接器读取速度、商业引擎以及商业写入连接器方面都有大幅优化,在同样并行度的Insert场景下,速度是DataX的2.2倍;而Upsert场景下,WhaleTunnel速度是DataX的2.6倍。而这只是WhaleTunnel单台服务器的场景,WhaleTunnel还支持集群部署来提高并行度性能,同时WhaleTunnel集群还支持CDC实时数据同步,可以说功能上完全就是新一代的数据集成工具。

结论

综上,可以看到WhaleTunnel在开源版的Apache SeaTunnel之上增加了大量商业版功能,并对可视化开发、引擎、接口、Transform、DDL、运维监控做了大量优化和开发。而两者基于新一代数据集成引擎SeaTunnel Zeta,在批量同步、实时同步方面都是在行业当中的佼佼者。与DataX相比,WhaleTunnel更适用于多种场景、多数据源的数据同步,同时也可以帮助用户全面从DolphinScheduler+DataX的组合中平滑升级到WhaleScheduler+WhaleTunnel的新一代DataOps平台里,满足用户多云、混合云、多数据源的批量、CDC实时的数据集成工作需求。

如果对数据集成和同步工具商业版WhaleTunnel感兴趣,可扫描下方二维码沟通咨询。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/680519.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

UE4 使用自带的插件制作音频可视化

1.插件默认为开启 2.新建共感NRT,选择要使用的音频 3.添加音频组件,添加共感NRT变量,选择新建的共感NRT对象 4.编写蓝图

【机器学习】YOLOv10与YOLOv8分析

YOLOv10与YOLOv8:实时目标检测技术的演进与对比 一、YOLOv8与YOLOv10的概述二、YOLOv8的特点与优势三、YOLOv10的改进与创新四、YOLOv10与YOLOv8的性能对比五、总结与展望 随着深度学习技术的飞速发展,实时目标检测技术已成为计算机视觉领域的研究热点。…

爬山算法:启发式搜索的简单而有效的方法

1. 概述 爬山算法是一种在人工智能和优化领域广泛使用的启发式搜索方法。它从一个初始解开始,逐步选择邻域内的最优解,直到找到目标点或无法进一步改进为止。该算法的核心在于通过逐渐逼近的方式寻找问题的最优解或近似最优解。 2. 背景 在许多实际问…

Spring Boot 实现动态数据源配置

前言 之前在CSDN博客以及某站看了教程,不免觉得有点不知如何下手,好在最后融合了以下,得出了一个比较简单的配置动态数据源的过程。 首先项目是Spring Boot的单体项目,我们的需求是要连接多个数据库,那么就需要配置多个…

Source Insight 4.0安装和使用

文章目录 一、前言二、新建工程2.1 新建工程2.2 同步工程 3 Source Insight怎么生成函数调用关系图?3.1 打开关系窗口3.2 打开关系函数3.3 修改关系属性3.4设置 Relation Window Options3.5 设置Levels3.6 修改显示模式 4 下载地址 一、前言 Source Insight 4.0 是每…

Flutter开发效率提升1000%,Flutter Quick教程之定义Api(三)

将tab键切换到Response,会出现这么一个界面 这是添加api返回的json数据。比如我们添加一个json数据。 添加完json数据后,右上角有一个删除按钮。要换json数据的话,可以点击清除再重新输入。 这时候,左边的面板上还会显示出 这个的…

【TB作品】msp430g2553单片机,家用可燃气体监测报警器,MQ-2,MQ5,PWM风扇

功能 //家用可燃气体监测报警器 //硬件:MQ-2 MQ5 OLED 蜂鸣器 按键 风扇 //1 OLED显示天然气、液化气浓度 //2 OLED显示可燃气体报警临界值 //3 2个按键用于修改可燃气体报警临界值 //4 MQ2检测到的浓度或者MQ7检测到的浓度 高于临界值时,蜂鸣器报警风扇…

AI Agent(人工智能代理)是一种能够感知环境、进行决策和执行动作的智能实体

在大模型平台中,“Agent”通常指的是基于大型预训练模型构建的一种智能实体或软件系统,它能够执行一系列复杂的任务。这些任务可能包括但不限于理解和生成自然语言、决策制定、交互式对话、执行具体操作(如在GUI环境中操作)、数据…

Java 垃圾回收

文章目录 1 Java 垃圾回收1.1 JVM1.2 Java 对象生命周期 2 如何判断一个对象可被回收2.1 引用计数算法2.2 可达性分析算法 3 垃圾回收过程3.1 总体过程3.2 为什么要进行世代垃圾回收?3.3 分代垃圾回收过程 在 C 和 C 中,许多对象要求程序员声明他们后为其…

微电子加速迈向后摩尔时代!复旦大学梅永丰课题组集成 DNN 与纳米薄膜技术,精准分析入射光角度

「二维纳米膜自组装成三维微结构」被认为是制造下一代微电子器件的重要途径,对于即将到来的先进电子和光电子应用至关重要。然而,二维纳米膜最终几何形状的形成受到蚀刻轨迹、化学反应、高宽比以及其他复杂因素影响,导致自组装器件在制造过程…

【调试笔记-20240604-Linux-为 OpenWrt LuCI 界面添加多语言支持】

调试笔记-系列文章目录 调试笔记-20240604-Linux-为 OpenWrt LuCI 界面添加多语言支持 文章目录 调试笔记-系列文章目录调试笔记-20240604-Linux-为 OpenWrt LuCI 界面添加多语言支持 前言一、调试环境操作系统:Ubuntu 22.04.4 LTS编译环境调试目标 二、调试步骤预…

【机器学习】GBDT (Gradient Boosting Decision Tree) 深入解析

🌈个人主页: 鑫宝Code 🔥热门专栏: 闲话杂谈| 炫酷HTML | JavaScript基础 ​💫个人格言: "如无必要,勿增实体" 文章目录 GBDT (Gradient Boosting Decision Tree) 深入解析引言一、GBDT基础理论1.1 梯度…

SpringBoot整合Skywalking

下载Java Agent 官网:https://skywalking.apache.org/downloads/ 提示:Agent最好到网上找一找之前的版本,新版本可能有bug,如果出现了并且网上也几乎没有这个版本的解决方法那么就切换之前的版本 本地启动时 -javaagent:d:\opt\…

全志D1s软件入门之Tina Linux编译教程

编译 Tina Linux 在搭建好编译环境并下载好源码后,即可对源码进行编译,编译打包好后,即可将打包好的固件烧写到设备中去。本文主要介绍编译和烧写的方法。 Tina Linux 编译 Tina Linux 的编译大致分为以下流程: (1) source bu…

php7.3安装phalcon扩展

php7安装3.4版本的phalcon扩展 适用于Centos6.x和Centos7.x系统,php使用7.1版本,wlnmp一键包已支持该扩展 phalcon扩展包地址:https://github.com/phalcon/cphalcon (git clone 有可能连接不上) 1、安装所需依赖&a…

《深入浅出存储引擎》不同数据库背后的数据存储方案

在大数据和AI时代,数据库成为各类应用不可或缺的重要组成部分。而数据库中的数据依赖存储引擎进行管理,包括数据的存储、查询、更新和删除等。因此,在设计系统时,选择正确的数据库存储引擎方案变得尤为重要。这篇文章将以关系型、…

Intersection Observer API---交叉观察器 API

Intersection Observer API 交叉观察器 API(Intersection Observer API)提供了一种异步检测目标元素与祖先元素或顶级文档的视口相交情况变化的方法,例如,可以观察判断一个div(有大小的)盒子在是否出现在窗口&#xff…

贰[2],VisionMaster/.NetCore的WPF应用程序调用控件

1,环境 VisionMaster4.2 VisualStudio2022 WPF/.Net6.0 2,记录原因 .NetFrameWork的WPF应用程序调用添加例程.NetFrameWork的Winform应用程序相应的库,不会出现报错,界面也能正常显示操作,但是.NetCore的程序却总是报错。 2.1,.NetFrameWork的WPF应用程序 注:但是.…

uniadmin引入iconfont报错

当在uniadmin中引入iconfont后,出现错误: [plugin:vite:css] [postcss] Cannot find module ‘E:/UniAdmin/uniAdmin/static/fonts/iconfont.woff2?t1673083050786’ from ‘E:\UniAdmin\uniAdmin\static\fonts\iconfont.css’ 这是需要更改为绝对路径…

线性代数|机器学习-P2 A的列向量空间

文章目录 1. Ax矩阵的形式2. ACR 矩阵分解2.1 rank1 矩阵分解2.2 rank2 矩阵分解2.3 ACMR,求M 3. Ax 向量 1. Ax矩阵的形式 假设我们有如下矩阵A: A x [ 2 1 3 3 1 4 5 7 12 ] [ x 1 x 2 x 3 ] \begin{equation} Ax\begin{bmatrix} 2&1&3\\\\ 3&1&am…