谷云科技陆才慧:不是零ETL,而是零代码ETL丨数据猿专访

7751d9fef56319fcfd34c4feb0fbe2e2.png

08dc3c19f35a0b565ab412e46621c7cb.jpeg

9d42c090b65c64bf4b50a0e35821c5e9.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


数据集成,是将来自多个来源的数据整合到一个统一的平台,以实现集中管理和分析。它通过消除数据孤岛、提高数据质量,支持实时决策、增强数据分析能力。因此,数据集成在数据生命周期的管理以及企业数智化转型中,具有重要价值。

然而,国内的数据集成市场,还存在诸多挑战。一方面,数据集成技术体系快速演进,比如,微服务架构以及云端SaaS系统的广泛应用导致企业内部出现大量且分散的API,增加了数据集成的复杂性;另一方面,国内数据集成领域长期被Kettle、Informatica、Talend等国外产品主导。随着信息化产业的国产化,国外产品的市场份额迅速下降,留出了巨大的市场空白。

在这样的背景下,中国亟需技术领先的国产数据集成厂商,引领国内市场发展。谷云科技正是在这样的市场环境下应运而生,这家成立于2017年的企业,用7年时间深耕数据集成领域,并实现100%自研。目前,其产品应用于数百家商业企业及10000+社区用户企业,其平台上每天运行超过20W+个自动化流程,传送数百亿条数据。

那么,谷云科技是如何看待数据集成的发展趋势,他们又是如何推进国产数据集成平台的创新的呢?为了搞清楚这些问题,数据猿专访了谷云科技联合创始人陆才慧。

数据集成的三个拦路虎:多源异构、数据一致性、实时数据

陆才慧指出,在企业数字化转型的过程中,数据集成面临着诸多挑战,主要表现在数据源多样性、数据质量与一致性、实时数据处理这三个方面。某种程度上,这就像是摆在企业数据集成面前的三个拦路虎。

数据源多样性的挑战,数据的整合和管理变得异常复杂。

随着企业业务的扩展,数据源变得越来越多样化,涉及结构化数据、非结构化数据和半结构化数据。这些数据存储在不同的数据库、文件系统、云服务和API中,导致整合和管理变得复杂。而且,企业不仅要面对传统的关系数据库,还需要处理大数据平台、云服务以及SaaS应用等数据源的集成。

更进一步,企业可能同时使用多个云服务平台,如阿里云、腾讯云、AWS和Azure,不同云服务提供商的技术标准和接口各异,这就要求数据集成工具具备强大的跨平台兼容性,确保数据在不同云平台之间的顺畅传输和处理。

数据质量与一致性问题,会影响数据分析的准确性和可靠性。

数据质量与一致性是数据集成过程中的核心问题,数据源的不一致、重复、缺失或格式错误等问题,往往会导致数据分析结果的偏差,进而影响企业的决策质量。

例如,来自不同系统的数据可能采用不同的编码标准、日期格式和单位,这些不一致会导致数据在集成过程中发生冲突。此外,重复数据和缺失值会影响数据的完整性,使分析结果产生误导。

实时数据集成的需求增加,要求数据集成工具具备强大的流处理能力。

随着大数据、物联网、工业互联网等的发展,企业对实时数据处理的需求不断增加。实时数据处理能够帮助企业实时监控业务运营情况,快速响应市场变化,提高决策效率。然而,这也增加了数据集成的复杂性。实现高效的实时数据处理,要求数据集成工具具备强大的流处理能力,能够实时捕获、处理和分析大量的数据流。

因此,要推进数据集成领域的发展,首先就要解决掉这三个拦路虎。

谷云科技在创始之初,便深刻洞察到数据集成领域的市场演变态势,连续7年时间专注于数据集成领域的技术研发和产品迭代。

数据猿注意到,谷云科技构建的ETLCloud是新一代的数据集成平台,能够将离线数据集成ETL、ELT、CDC实时数据集成、编排调度、数据服务API为一体,充分解决集成道路的三大挑战,在采访过程中,陆才慧也给出了自己的新思路。

88367b55ac7667cfc98ff0534e9b41ec.png

谷云科技数据集成平台架构

面对数据源多样性的挑战,谷云科技的ETLCloud平台具备强大的数据连接能力,兼容传统关系数据库、大数据平台、云服务和SaaS应用。平台提供标准化数据集成工具和应用链接器,实现跨平台兼容性,帮助企业整合各类数据源,形成统一的数据视图。在数据质量与一致性方面,ETLCloud通过自动化清洗工具和实时数据校验,确保数据的准确性和一致性。此外,平台采用流处理技术,实现实时数据与离线数据的无缝集成,提高企业的决策效率和客户满意度。

零代码ETL,而不是零ETL

ETL(Extract,Transform,Load)是数据集成的重要组成部分,其技术发展对数据集成有着深远的影响。因此,选择合适的ETL技术路线是一个关键问题。

传统ETL的困境

数据集成的发展历程,始于手动编写脚本处理数据的初期阶段,这一阶段效率低且易出错。随着数据量和复杂性的增加,商业ETL工具如Informatica、Talend和Kettle应运而生,它们提供了自动化和可视化功能,大大提升了数据集成的效率和准确性。

然而,随着大数据产业的发展,在数据量、数据多样性、数据实时性等方面,都提出了更高的要求。在这样的背景下,传统的ETL逐渐暴露出诸多问题。

例如,在处理非结构化数据时,传统ETL架构复杂,常需要使用用户自定义函数或额外编程,增加了实施难度,导致其处理非结构化数据能力有限;传统ETL基于批处理模式,导致数据处理和分析存在延迟,无法满足实时数据处理需求;随着数据量的爆炸式增长,数据集成工具需要具备高性能和良好的扩展性,以处理大规模的数据集成任务,而ETL在可扩展性方面存在不足。

此外,传统ETL还存在硬件成本高、维护成本高的问题。ETL过程需要大量硬件资源,尤其在处理大数据量时,硬件投资成本几乎与数据量线性增长,导致运营成本高昂。随着数据源和业务逻辑的增加,ETL作业的维护和扩展变得复杂且昂贵,增加了长期运营成本。

还有一个很重要的问题,传统的ETL往往技术通用性差、灵活性不高,对非技术人员不友好。因为专业性很强,传统ETL工具往往需要专业的技术人员操作,对于非技术业务人员来说,使用门槛较高。

那么,怎么解决传统ETL存在的这些问题呢?陆才慧认为,目前主要有两个解决方案:零ETL和零代码ETL,而谷云科技选择第二种。

零ETL的误解

陆才慧指出,在寻求数据集成解决方案的过程中,“出现了“零ETL”的概念,试图通过消除ETL过程来简化数据集成。然而,这一概念容易被误解为完全不需要ETL过程。实际上,现代数据集成需求的复杂性决定了ETL过程仍然不可或缺。新一代的ETL的范围已经显著扩大,涵盖了API、CDC(变更数据捕获)、设备数据和调度等多种功能于一体。

API集成使得不同应用之间的数据交换更加灵活,CDC技术则确保了数据变更的实时捕获和同步,设备数据集成应对物联网设备的大量非结构化数据,而调度功能则提高了ETL作业的自动化和效率。尽管“零ETL”概念试图简化数据集成,但实际上,它仍需依赖优化和升级后的ETL技术来实现高效的数据处理和集成。

通过现代化的ETL工具,企业可以更好地应对多样化的数据源和实时数据处理需求。例如,采用智能调度算法和流处理技术,可以有效提升数据集成的性能和扩展性。谷云科技的ETLCloud平台正是通过这些技术,提供了灵活高效的数据集成解决方案,确保数据集成过程既满足当前需求,又具备应对未来挑战的能力。因此,优化和升级后的ETL仍然是数据集成过程中不可或缺的核心工具。

零代码ETL才是正解

陆才慧指出,与“零ETL”不同,谷云科技力推的是零代码ETL。

零代码ETL是一种全新的数据集成方法,通过可视化工具和自动化流程,帮助用户完成数据的提取、转换和加载。用户可以通过拖拽操作,配置数据流、应用转换规则和设置数据目标,而无需编写代码。

跟传统ETL相比,零代码ETL具备多项显著的优势:

1.降低技术门槛,提高工作效率:传统ETL工具通常需要技术人员编写复杂的脚本,而零代码ETL则通过图形化界面、AI辅助生成、预定义模板以及应用链接器,使业务人员也能参与数据集成,减少了对大数据部门的依赖。零代码ETL工具提供了大量预定义的转换规则和数据处理组件,用户可以通过简单的拖拽操作,快速构建和修改ETL流程。这种直观的操作方式,不仅大幅减少了开发时间,还提高了数据处理的准确性。

2. 增强系统灵活性和可扩展性:通过可视化界面和拖拽操作,用户可以轻松调整数据流和转换规则,无需重新编写代码,从而快速适应业务需求的变化。此外,这些工具采用分布式架构和自动化调度,能够高效处理大规模数据,轻松扩展处理能力,满足企业不断增长的数据集成需求。

3. 更好支持非结构化数据和实时数据处理:零代码ETL通过其灵活的可视化界面和自动化流程设计,为非结构化数据和实时数据处理提供了强有力的支持。它能够轻松处理各种非结构化数据源,如文本文件、日志、社交媒体数据等,无需编写复杂的解析代码。同时,通过集成流处理技术,零代码ETL实现了实时数据的捕获和处理,满足了物联网、金融和电子商务等领域的即时数据需求。

4. 降低维护成本:由于零代码ETL的可视化和自动化特性,数据集成过程中的维护和扩展变得更加简单。用户可以轻松地监控和调整ETL作业,发现并解决潜在问题。这种高效的维护机制,显著降低了数据集成的长期运营成本。

5.一站式解决方案:新一代的数据集成平台往往混合集成了多种数据集成技术,而不再纠结于ETL、ELT、EtLT、CDC等技术术语,而是把这些企业经常用到的场景作为平台的一部分,数据工程师可以根据具体的业务场景来选择合适的功能来完成数据集成需求。

谷云科技在零代码ETL方面持续深耕,不仅帮助企业大幅降低了数据集成的技术门槛和时间成本,还显著提升了数据分析的效率和准确性,使其能够更快地响应市场变化。

夯实数据集成基础,更好支撑数据服务

陆才慧认为,企业进行数据集成的目的不是为了集成而集成,而是为了更好地支撑上层数据服务。随着数字化转型的深入,企业对数据的依赖不断增加。数据集成成为企业数据战略的基石,并决定了数据即服务(DaaS)的效率和效果。高质量、实时和一致的数据是DaaS成功的基础,统一的数据视图和接口使各业务部门可以自主获取和使用数据,提高数据利用效率。

当然,DaaS也对数据集成提出了更高的要求。在陆才慧看来,要有效支撑DaaS,数据集成厂商必须具备两方面的核心能力:

第一,在性能和易用性方面,基础能力必须足够强。谷云科技的ETLCloud平台以其卓越的性能和易用性著称,操作界面直观简洁,用户可以通过简单的拖拽操作完成数据集成任务。据测算,通过谷云科技500+组件及可视化拖拉拽开发流程,数据集成的效率超越传统ETL 10倍以上,且90%数据集成工作轻松完成,在CDC实时数据集成方面通过简单的配置平均几分钟即可上线一个实时数据集成流程。

第二,在融合AI应用方面,走在行业前列。通过引入人工智能技术,谷云科技的ETLCloud平台实现了数据集成的自动化构建和智能化脚本编写。AI技术不仅提高了流程的开发效率,还增强了异常数据的自动识别率并可以对业务数据进行自动识别整理。例如,ETL平台可以自动接收企业邮箱中的PDF发票并自动识别发票数据再通过AI修正数据错误和格式后传输到关系数据库或业务系统中,AI通优化数据处理流程,减少人工干预,提高了整体数据质量和一致性。

构建数据集成生态,激发新质生产力

在文章开篇提到过,谷云科技创立的初衷,就是要打破在数据集成领域被Kettle、informatica、teland等国外产品主导的局面,推动实现数据集成的国产化,如今谷云科技已快速发展走过了七周年,基于多年来在集成领域的专注和专业,已经成为了数据集成领域的佼佼者,并引领着新一代数据集成向往更加开阔的蓝海。在实现这个目标的过程中,谷云科技一方面持续推进技术产品创新,另一方面也在大力推动数据集成生态的建设。

陆才慧说道,ETLCloud不仅是一个数据集成平台,更是一个大数据集成底座,支持社区用户分享经验和最佳实践。目前,ETLCloud已吸引了超过10000+家企业用户,成为国内最大的数据集成社区之一。

此外,谷云科技倡导“利益共享、能力共建”,与解决方案共创伙伴、产品集成伙伴等合作,建立了覆盖广泛的生态系统,实现伙伴之间的能力互补。目前,谷云科技已与100多家国内头部软件服务商及数据库提供商合作,打造了300多个行业链接器和应用模板、100多个数据库、1000多个组件和1500多个数据处理模板,初步构建起来一个完整的集成生态。

而且,谷云科技积极适应国产化趋势,已完全兼容市面上的主流信创厂商,涵盖操作系统、服务器、数据库、中间件等。谷云科技累已与国内主流信创厂商及数据库厂商完成了产品和技术适配,始终走在iPaaS国产化的前沿。

febc4add182d2d0cbd0553bbea6d3d00.png

展望未来,数据集成技术的发展只有进行时,没有完成时。除了上面提到的一些内容,API驱动的数据集成、数据集成与AI(尤其是AI大模型)的融合应用、云原生数据集成、数据集成工具内置数据治理功能等最新动向,也值得关注。

API驱动的数据集成,正在成为现代数据集成的重要趋势。

API简化了不同系统之间的数据交换,使得数据集成更加灵活和高效。通过API,企业能够实时访问和集成分布在不同系统中的数据,支持微服务架构和敏捷开发模式。API驱动的数据集成不仅提高了数据访问的速度和准确性,还增强了系统的可扩展性和互操作性。例如,企业可以通过API连接云服务、内部数据库和第三方应用,实现数据的无缝流动和处理,从而提高业务响应速度和运营效率。

人工智能特别是AI大模型的应用,正在重塑数据集成领域。

AI技术可以自动化和智能化创建数据管道、数据清洗、映射和转换,提高数据处理的效率和准确性。例如,AI大模型可以创建数据管道并自动进行数据清洗,识别和纠正数据中的错误、重复和缺失值;AI大模型能够自动化数据映射和转换,通过理解复杂的数据关系,将不同源的数据统一到一个标准格式中,简化数据集成流程;在处理非结构化数据时,AI大模型可以识别文本中的关键信息,将其结构化后用于分析。

随着云计算的普及,云原生数据集成工具越来越受到企业的青睐。

云原生工具具备高扩展性和弹性,可以在多云和混合云环境中无缝运行,支持企业的动态业务需求。云原生数据集成工具不仅降低了基础设施成本,还提高了数据处理的灵活性和效率。企业可以通过云原生工具,快速集成和管理分布在不同云平台上的数据,实现数据的统一管理和分析。这种高效的数据集成方式,帮助企业更好地利用云资源,优化运营和决策。

随着数据隐私和安全法规的日益严格,数据治理成为企业数据集成的重要内容。

现代数据集成工具内置强大的数据治理功能,确保数据在整个生命周期中的合规性和安全性。这些功能包括数据访问控制、审计追踪、数据质量监控和隐私保护,帮助企业满足各种法规要求。例如,企业可以通过数据集成工具,自动化监控数据质量,发现并修复数据问题,确保数据的一致性和完整性。内置的数据治理功能不仅提高了数据管理的效率,还增强了数据的可靠性和安全性。

在这场数据集成的技术长征中,谷云科技这样的国产厂商,发挥着中流砥柱的作用。他们的创新,不仅仅推动了数据集成的发展,更重要的是为企业数智化转型,乃至新质生产力的发展,奠定了一个坚实的数据基础。

数据资产入表、数据要素化和数据交易流通等需求日益迫切,企业对高效、安全的数据整合需求不断增加,这为数据集成技术的发展提供了广阔空间。未来,数据共享、数据交易流通、云上数据集成等领域,将成为数据集成市场的重要增长点。

根据IDC的数据,预计到2027年,中国数据管理解决方案市场规模将达到160亿美元,未来今年将以16%的复合年增长率持续增长。其中,数据集成占据重要的市场份额,未来市场空间巨大。

在新质生产力的大潮下,数据的价值日益凸显,正是越来越多像谷云科技这样优秀的国产数据集成企业,以其卓越的产品和服务,引领着数据集成技术的发展,为企业的数字化转型和业务创新提供了强有力的支持。

文:月满西楼 / 数据猿
责编:凝视深空 / 数据猿

0156bc65318cda1b1dc2fd59cae57268.jpeg

274f106ae859c8493d9a11ccdf6b2757.png

b341141b39a3ac48bdbfc95f5124fe07.png

27da3061c08c2b564f5266f9c71801bc.jpeg

46ba81f0bb2c79ce1ce6d729e796ddbd.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/683685.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt CAN总线发送和接收案例

文章目录 设置比特率类设置比特率类实现 发送数据帧类发送数据帧类的实现m_ui 发送帧界面 连接类连接类实现连接类UI设计 主窗口类主窗口类实现主界面UI 整体UIQT案例 设置比特率类 // 文件: BitRateBox.h // 作用: 定义了一个用于选择比特率的组合框类 BitRateBox&#xff0c…

HR在线人才测评,如何判断候选人的学习能力?

在选拔人才的过程中,学习能力突出的候选人,能以非常快的速度适应工作环境,并且会在工作当中制定清晰的学习规划,不断的提升自己,不断的彰显个人在企业当中的价值,助力企业的长远发展。 只有选拔进来的人才…

【原创】springboot+mysql村务档案管理系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

【C#】多线程中,跨线程实现对UI控件更新

问题描述: “Cross-thread operation not valid :Control ‘listBox1’ accessed from a thread other than the thread it was created on” ,即“线程间操作无效,从不是创建控件“listbox1”的线程访问它。” 原因分析: UI控件…

零售行业运营有哪些业务场景?详解各业务场景的分析指标和维度

在当今这个数字化迅速发展的时代,零售行业正经历着前所未有的变革。传统的零售模式正在被新兴的技术和创新的业务场景所颠覆,消费者的需求和购物习惯也在不断地演变。零售行业的运营,作为连接消费者、产品和市场的关键环节,对于零…

06Docker-Compose和微服务部署

Docker-Compose 概述 Docker Compose通过一个单独的docker-compose.yml模板文件来定义一组相关联的应用容器,帮助我们实现多个相互关联的Docker容器的快速部署 一般一个docker-compose.yml对应完整的项目,项目中的服务和中间件对应不同的容器 Compose文件实质就…

【CMake系列】05-静态库与动态库编译

在各种项目类型中,可能我们的项目就是一个 库 项目,向其他人提供 我们开发好的 库 (windows下的 dll /lib ; linux下的 .a / .so);有时候在一个项目中,我们对部分功能 打包成 库,方便在不同地方进行调用 静…

idea 常用插件推荐

文章目录 1、Lombok2、Convert YAML and Properties File3、Grep Console4、MyBatisX5、Free MyBatis Tool6、MyBatis Log EasyPlus (SQL拼接)7、MyBatisPlus8、Eclipse theme9、Eclipse Plus Theme10、Rainbow Brackets Lite - Free and OpenSource&…

MongoDB CRUD操作:地理位置应用——通过地理空间查询查找餐厅

MongoDB CRUD操作:地理位置应用——通过地理空间查询查找餐厅 文章目录 MongoDB CRUD操作:地理位置应用——通过地理空间查询查找餐厅地图的扭曲搜索餐厅浏览数据查找当前邻居查找附近所有餐厅查找一定距离内的餐厅使用$geoWithin,不排序使用…

上位机图像处理和嵌入式模块部署(f407 mcu中tf卡模拟u盘)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 在f407开发板上面,本身是有一个usb接口的。这个usb接口也不仅仅是作为电源使用的,它还可以用来做很多的事情。一方面&#…

学Python,看一篇就够

学Python,看一篇就够 python基础注释变量标识符命名规则使用变量认识bugDebug工具打断点 数据类型输出转义字符输入输入语法输入的特点 转换数据类型pycharm交互运算符的分类赋值运算符复合赋值运算符比较运算符逻辑运算符拓展 条件语句单分支语法多分支语法拓展 if…

React中实现大模型的打字机效果

React 想实现一个打字机的效果,类似千问、Kimi 返回的效果。调用大模型时,模型的回答通常是流式输出的,如果等到模型所有的回答全部完成之后再展示给最终用户,交互效果不好,因为模型计算推理时间比较长。本文将采用原生…

Java1.8全套家政上门服务+springboot+ mysql +Thymeleaf 技术架构开发,家政APP系统在线派单,师傅入驻全套商业源码

Java1.8全套家政上门服务springboot mysql Thymeleaf 技术架构开发,家政APP系统在线派单,师傅入驻全套商业源码 家政预约上门小程序的实用性? 家政预约上门小程序的实用性主要体现在以下几个方面: 一、方便快捷的预约体验&#…

运行编译openjdk12-33

编译环境 ubuntu20 Ubuntu里用户可以自行选择安装GCC或CLang来进行编译,但必须确保最低的版本为GCC 4.8或者CLang 3.2以上,官方推荐使用GCC 7.8或者CLang 9.1来完成编译。 源码 https://github.com/openjdk/jdk/tree/jdk-12%2B33 安装gcc sudo apt…

气膜羽毛球馆如何提升运动体验—轻空间

随着人们对健康和运动的关注度日益增加,羽毛球作为一项受欢迎的运动,得到了越来越多人的喜爱。而气膜羽毛球馆,以其独特的优势,正在改变传统羽毛球馆的运动体验。那么,气膜羽毛球馆是如何提升运动体验的呢?…

白酒:全球化背景下产地白酒的国际竞争与合作

在全球化背景下,云仓酒庄豪迈白酒作为中国白酒的品牌之一,面临着国际竞争与合作的机遇与挑战。国际市场竞争的激烈以及消费者需求的多样化,要求云仓酒庄豪迈白酒不断提升品质、拓展市场以及加强国际合作,以提升品牌竞争力和市场份…

深度学习Day-19:DenseNet算法实战与解析

🍨 本文为:[🔗365天深度学习训练营] 中的学习记录博客 🍖 原作者:[K同学啊 | 接辅导、项目定制] 要求: 根据 Pytorch 代码,编写出 TensorFlow 代码研究 DenseNet 与 ResNetV 的区别改进思路是…

SBOM是如何帮助医疗器械制造商提高产品透明度的?

SBOM(软件物料清单)通过以下方式帮助医疗器械制造商提高产品透明度: 1. 详细记录软件组成 SBOM详细列出了医疗器械所使用的所有软件组件、版本、作者、许可证信息等。这使得制造商能够清晰地了解产品的软件组成,包括每个组件的来…

Plotly的魔力:如何用Python创建令人惊叹的图表?

大家好,在数据分析和可视化领域,图表是不可或缺的工具。它们可以帮助我们更直观地理解数据趋势和模式。今天,我们要介绍的是一个强大的Python库——Plotly,它可以让你轻松创建交互式、漂亮的图表。无论你是数据科学家、分析师&…

C++学习/复习12--vector的实现(三个基本成员函数/迭代器/扩容/插入删除/重载/测试/杨辉三角)

一、构造函数 1.匿名对象与构造函数 在C中,匿名对象是一个临时对象,它没有名称,通常在对象创建后,只使用一次后就被销毁。创建匿名对象的方式是在创建对象时不使用变量名。 下面是创建匿名对象的几种方式: 直接使用…