大数据产业创新服务媒体
——聚焦数据 · 改变商业
数据集成,是将来自多个来源的数据整合到一个统一的平台,以实现集中管理和分析。它通过消除数据孤岛、提高数据质量,支持实时决策、增强数据分析能力。因此,数据集成在数据生命周期的管理以及企业数智化转型中,具有重要价值。
然而,国内的数据集成市场,还存在诸多挑战。一方面,数据集成技术体系快速演进,比如,微服务架构以及云端SaaS系统的广泛应用导致企业内部出现大量且分散的API,增加了数据集成的复杂性;另一方面,国内数据集成领域长期被Kettle、Informatica、Talend等国外产品主导。随着信息化产业的国产化,国外产品的市场份额迅速下降,留出了巨大的市场空白。
在这样的背景下,中国亟需技术领先的国产数据集成厂商,引领国内市场发展。谷云科技正是在这样的市场环境下应运而生,这家成立于2017年的企业,用7年时间深耕数据集成领域,并实现100%自研。目前,其产品应用于数百家商业企业及10000+社区用户企业,其平台上每天运行超过20W+个自动化流程,传送数百亿条数据。
那么,谷云科技是如何看待数据集成的发展趋势,他们又是如何推进国产数据集成平台的创新的呢?为了搞清楚这些问题,数据猿专访了谷云科技联合创始人陆才慧。
数据集成的三个拦路虎:多源异构、数据一致性、实时数据
陆才慧指出,在企业数字化转型的过程中,数据集成面临着诸多挑战,主要表现在数据源多样性、数据质量与一致性、实时数据处理这三个方面。某种程度上,这就像是摆在企业数据集成面前的三个拦路虎。
数据源多样性的挑战,数据的整合和管理变得异常复杂。
随着企业业务的扩展,数据源变得越来越多样化,涉及结构化数据、非结构化数据和半结构化数据。这些数据存储在不同的数据库、文件系统、云服务和API中,导致整合和管理变得复杂。而且,企业不仅要面对传统的关系数据库,还需要处理大数据平台、云服务以及SaaS应用等数据源的集成。
更进一步,企业可能同时使用多个云服务平台,如阿里云、腾讯云、AWS和Azure,不同云服务提供商的技术标准和接口各异,这就要求数据集成工具具备强大的跨平台兼容性,确保数据在不同云平台之间的顺畅传输和处理。
数据质量与一致性问题,会影响数据分析的准确性和可靠性。
数据质量与一致性是数据集成过程中的核心问题,数据源的不一致、重复、缺失或格式错误等问题,往往会导致数据分析结果的偏差,进而影响企业的决策质量。
例如,来自不同系统的数据可能采用不同的编码标准、日期格式和单位,这些不一致会导致数据在集成过程中发生冲突。此外,重复数据和缺失值会影响数据的完整性,使分析结果产生误导。
实时数据集成的需求增加,要求数据集成工具具备强大的流处理能力。
随着大数据、物联网、工业互联网等的发展,企业对实时数据处理的需求不断增加。实时数据处理能够帮助企业实时监控业务运营情况,快速响应市场变化,提高决策效率。然而,这也增加了数据集成的复杂性。实现高效的实时数据处理,要求数据集成工具具备强大的流处理能力,能够实时捕获、处理和分析大量的数据流。
因此,要推进数据集成领域的发展,首先就要解决掉这三个拦路虎。
谷云科技在创始之初,便深刻洞察到数据集成领域的市场演变态势,连续7年时间专注于数据集成领域的技术研发和产品迭代。
数据猿注意到,谷云科技构建的ETLCloud是新一代的数据集成平台,能够将离线数据集成ETL、ELT、CDC实时数据集成、编排调度、数据服务API为一体,充分解决集成道路的三大挑战,在采访过程中,陆才慧也给出了自己的新思路。
谷云科技数据集成平台架构
面对数据源多样性的挑战,谷云科技的ETLCloud平台具备强大的数据连接能力,兼容传统关系数据库、大数据平台、云服务和SaaS应用。平台提供标准化数据集成工具和应用链接器,实现跨平台兼容性,帮助企业整合各类数据源,形成统一的数据视图。在数据质量与一致性方面,ETLCloud通过自动化清洗工具和实时数据校验,确保数据的准确性和一致性。此外,平台采用流处理技术,实现实时数据与离线数据的无缝集成,提高企业的决策效率和客户满意度。
零代码ETL,而不是零ETL
ETL(Extract,Transform,Load)是数据集成的重要组成部分,其技术发展对数据集成有着深远的影响。因此,选择合适的ETL技术路线是一个关键问题。
传统ETL的困境
数据集成的发展历程,始于手动编写脚本处理数据的初期阶段,这一阶段效率低且易出错。随着数据量和复杂性的增加,商业ETL工具如Informatica、Talend和Kettle应运而生,它们提供了自动化和可视化功能,大大提升了数据集成的效率和准确性。
然而,随着大数据产业的发展,在数据量、数据多样性、数据实时性等方面,都提出了更高的要求。在这样的背景下,传统的ETL逐渐暴露出诸多问题。
例如,在处理非结构化数据时,传统ETL架构复杂,常需要使用用户自定义函数或额外编程,增加了实施难度,导致其处理非结构化数据能力有限;传统ETL基于批处理模式,导致数据处理和分析存在延迟,无法满足实时数据处理需求;随着数据量的爆炸式增长,数据集成工具需要具备高性能和良好的扩展性,以处理大规模的数据集成任务,而ETL在可扩展性方面存在不足。
此外,传统ETL还存在硬件成本高、维护成本高的问题。ETL过程需要大量硬件资源,尤其在处理大数据量时,硬件投资成本几乎与数据量线性增长,导致运营成本高昂。随着数据源和业务逻辑的增加,ETL作业的维护和扩展变得复杂且昂贵,增加了长期运营成本。
还有一个很重要的问题,传统的ETL往往技术通用性差、灵活性不高,对非技术人员不友好。因为专业性很强,传统ETL工具往往需要专业的技术人员操作,对于非技术业务人员来说,使用门槛较高。
那么,怎么解决传统ETL存在的这些问题呢?陆才慧认为,目前主要有两个解决方案:零ETL和零代码ETL,而谷云科技选择第二种。
零ETL的误解
陆才慧指出,在寻求数据集成解决方案的过程中,“出现了“零ETL”的概念,试图通过消除ETL过程来简化数据集成。然而,这一概念容易被误解为完全不需要ETL过程。实际上,现代数据集成需求的复杂性决定了ETL过程仍然不可或缺。新一代的ETL的范围已经显著扩大,涵盖了API、CDC(变更数据捕获)、设备数据和调度等多种功能于一体。
API集成使得不同应用之间的数据交换更加灵活,CDC技术则确保了数据变更的实时捕获和同步,设备数据集成应对物联网设备的大量非结构化数据,而调度功能则提高了ETL作业的自动化和效率。尽管“零ETL”概念试图简化数据集成,但实际上,它仍需依赖优化和升级后的ETL技术来实现高效的数据处理和集成。
通过现代化的ETL工具,企业可以更好地应对多样化的数据源和实时数据处理需求。例如,采用智能调度算法和流处理技术,可以有效提升数据集成的性能和扩展性。谷云科技的ETLCloud平台正是通过这些技术,提供了灵活高效的数据集成解决方案,确保数据集成过程既满足当前需求,又具备应对未来挑战的能力。因此,优化和升级后的ETL仍然是数据集成过程中不可或缺的核心工具。
零代码ETL才是正解
陆才慧指出,与“零ETL”不同,谷云科技力推的是零代码ETL。
零代码ETL是一种全新的数据集成方法,通过可视化工具和自动化流程,帮助用户完成数据的提取、转换和加载。用户可以通过拖拽操作,配置数据流、应用转换规则和设置数据目标,而无需编写代码。
跟传统ETL相比,零代码ETL具备多项显著的优势:
1.降低技术门槛,提高工作效率:传统ETL工具通常需要技术人员编写复杂的脚本,而零代码ETL则通过图形化界面、AI辅助生成、预定义模板以及应用链接器,使业务人员也能参与数据集成,减少了对大数据部门的依赖。零代码ETL工具提供了大量预定义的转换规则和数据处理组件,用户可以通过简单的拖拽操作,快速构建和修改ETL流程。这种直观的操作方式,不仅大幅减少了开发时间,还提高了数据处理的准确性。
2. 增强系统灵活性和可扩展性:通过可视化界面和拖拽操作,用户可以轻松调整数据流和转换规则,无需重新编写代码,从而快速适应业务需求的变化。此外,这些工具采用分布式架构和自动化调度,能够高效处理大规模数据,轻松扩展处理能力,满足企业不断增长的数据集成需求。
3. 更好支持非结构化数据和实时数据处理:零代码ETL通过其灵活的可视化界面和自动化流程设计,为非结构化数据和实时数据处理提供了强有力的支持。它能够轻松处理各种非结构化数据源,如文本文件、日志、社交媒体数据等,无需编写复杂的解析代码。同时,通过集成流处理技术,零代码ETL实现了实时数据的捕获和处理,满足了物联网、金融和电子商务等领域的即时数据需求。
4. 降低维护成本:由于零代码ETL的可视化和自动化特性,数据集成过程中的维护和扩展变得更加简单。用户可以轻松地监控和调整ETL作业,发现并解决潜在问题。这种高效的维护机制,显著降低了数据集成的长期运营成本。
5.一站式解决方案:新一代的数据集成平台往往混合集成了多种数据集成技术,而不再纠结于ETL、ELT、EtLT、CDC等技术术语,而是把这些企业经常用到的场景作为平台的一部分,数据工程师可以根据具体的业务场景来选择合适的功能来完成数据集成需求。
谷云科技在零代码ETL方面持续深耕,不仅帮助企业大幅降低了数据集成的技术门槛和时间成本,还显著提升了数据分析的效率和准确性,使其能够更快地响应市场变化。
夯实数据集成基础,更好支撑数据服务
陆才慧认为,企业进行数据集成的目的不是为了集成而集成,而是为了更好地支撑上层数据服务。随着数字化转型的深入,企业对数据的依赖不断增加。数据集成成为企业数据战略的基石,并决定了数据即服务(DaaS)的效率和效果。高质量、实时和一致的数据是DaaS成功的基础,统一的数据视图和接口使各业务部门可以自主获取和使用数据,提高数据利用效率。
当然,DaaS也对数据集成提出了更高的要求。在陆才慧看来,要有效支撑DaaS,数据集成厂商必须具备两方面的核心能力:
第一,在性能和易用性方面,基础能力必须足够强。谷云科技的ETLCloud平台以其卓越的性能和易用性著称,操作界面直观简洁,用户可以通过简单的拖拽操作完成数据集成任务。据测算,通过谷云科技500+组件及可视化拖拉拽开发流程,数据集成的效率超越传统ETL 10倍以上,且90%数据集成工作轻松完成,在CDC实时数据集成方面通过简单的配置平均几分钟即可上线一个实时数据集成流程。
第二,在融合AI应用方面,走在行业前列。通过引入人工智能技术,谷云科技的ETLCloud平台实现了数据集成的自动化构建和智能化脚本编写。AI技术不仅提高了流程的开发效率,还增强了异常数据的自动识别率并可以对业务数据进行自动识别整理。例如,ETL平台可以自动接收企业邮箱中的PDF发票并自动识别发票数据再通过AI修正数据错误和格式后传输到关系数据库或业务系统中,AI通优化数据处理流程,减少人工干预,提高了整体数据质量和一致性。
构建数据集成生态,激发新质生产力
在文章开篇提到过,谷云科技创立的初衷,就是要打破在数据集成领域被Kettle、informatica、teland等国外产品主导的局面,推动实现数据集成的国产化,如今谷云科技已快速发展走过了七周年,基于多年来在集成领域的专注和专业,已经成为了数据集成领域的佼佼者,并引领着新一代数据集成向往更加开阔的蓝海。在实现这个目标的过程中,谷云科技一方面持续推进技术产品创新,另一方面也在大力推动数据集成生态的建设。
陆才慧说道,ETLCloud不仅是一个数据集成平台,更是一个大数据集成底座,支持社区用户分享经验和最佳实践。目前,ETLCloud已吸引了超过10000+家企业用户,成为国内最大的数据集成社区之一。
此外,谷云科技倡导“利益共享、能力共建”,与解决方案共创伙伴、产品集成伙伴等合作,建立了覆盖广泛的生态系统,实现伙伴之间的能力互补。目前,谷云科技已与100多家国内头部软件服务商及数据库提供商合作,打造了300多个行业链接器和应用模板、100多个数据库、1000多个组件和1500多个数据处理模板,初步构建起来一个完整的集成生态。
而且,谷云科技积极适应国产化趋势,已完全兼容市面上的主流信创厂商,涵盖操作系统、服务器、数据库、中间件等。谷云科技累已与国内主流信创厂商及数据库厂商完成了产品和技术适配,始终走在iPaaS国产化的前沿。
展望未来,数据集成技术的发展只有进行时,没有完成时。除了上面提到的一些内容,API驱动的数据集成、数据集成与AI(尤其是AI大模型)的融合应用、云原生数据集成、数据集成工具内置数据治理功能等最新动向,也值得关注。
API驱动的数据集成,正在成为现代数据集成的重要趋势。
API简化了不同系统之间的数据交换,使得数据集成更加灵活和高效。通过API,企业能够实时访问和集成分布在不同系统中的数据,支持微服务架构和敏捷开发模式。API驱动的数据集成不仅提高了数据访问的速度和准确性,还增强了系统的可扩展性和互操作性。例如,企业可以通过API连接云服务、内部数据库和第三方应用,实现数据的无缝流动和处理,从而提高业务响应速度和运营效率。
人工智能特别是AI大模型的应用,正在重塑数据集成领域。
AI技术可以自动化和智能化创建数据管道、数据清洗、映射和转换,提高数据处理的效率和准确性。例如,AI大模型可以创建数据管道并自动进行数据清洗,识别和纠正数据中的错误、重复和缺失值;AI大模型能够自动化数据映射和转换,通过理解复杂的数据关系,将不同源的数据统一到一个标准格式中,简化数据集成流程;在处理非结构化数据时,AI大模型可以识别文本中的关键信息,将其结构化后用于分析。
随着云计算的普及,云原生数据集成工具越来越受到企业的青睐。
云原生工具具备高扩展性和弹性,可以在多云和混合云环境中无缝运行,支持企业的动态业务需求。云原生数据集成工具不仅降低了基础设施成本,还提高了数据处理的灵活性和效率。企业可以通过云原生工具,快速集成和管理分布在不同云平台上的数据,实现数据的统一管理和分析。这种高效的数据集成方式,帮助企业更好地利用云资源,优化运营和决策。
随着数据隐私和安全法规的日益严格,数据治理成为企业数据集成的重要内容。
现代数据集成工具内置强大的数据治理功能,确保数据在整个生命周期中的合规性和安全性。这些功能包括数据访问控制、审计追踪、数据质量监控和隐私保护,帮助企业满足各种法规要求。例如,企业可以通过数据集成工具,自动化监控数据质量,发现并修复数据问题,确保数据的一致性和完整性。内置的数据治理功能不仅提高了数据管理的效率,还增强了数据的可靠性和安全性。
在这场数据集成的技术长征中,谷云科技这样的国产厂商,发挥着中流砥柱的作用。他们的创新,不仅仅推动了数据集成的发展,更重要的是为企业数智化转型,乃至新质生产力的发展,奠定了一个坚实的数据基础。
数据资产入表、数据要素化和数据交易流通等需求日益迫切,企业对高效、安全的数据整合需求不断增加,这为数据集成技术的发展提供了广阔空间。未来,数据共享、数据交易流通、云上数据集成等领域,将成为数据集成市场的重要增长点。
根据IDC的数据,预计到2027年,中国数据管理解决方案市场规模将达到160亿美元,未来今年将以16%的复合年增长率持续增长。其中,数据集成占据重要的市场份额,未来市场空间巨大。
在新质生产力的大潮下,数据的价值日益凸显,正是越来越多像谷云科技这样优秀的国产数据集成企业,以其卓越的产品和服务,引领着数据集成技术的发展,为企业的数字化转型和业务创新提供了强有力的支持。
文:月满西楼 / 数据猿
责编:凝视深空 / 数据猿