Doris实践——同程数科实时数仓建设

目录

前言

一、早期架构演进

二、Doris和Clickhouse选型对比

三、新一代统一实时数据仓库

四、基于Doris的一站式数据平台

4.1 一键生成任务脚本提升任务开发效率

4.2 自动调度监控保障任务正常运行

4.3 安全便捷的可视化查询分析

4.4 完备智能的集群监控

五、收益与成果

六、未来规划


   原文大佬介绍的这篇Doris实时数仓建设有借鉴意义,现摘抄下来用作沉淀学习。如有侵权,请告知~

前言

     同程数科是同程集团旗下的旅游产业金融科技服务平台,近年来,随着同程数科业务的不断拓展和用户量的不断增加,越来越需要一个可靠、高效的数据中心,以帮助企业更好地了解业务运营情况和制定策略,这包括不限于建立实时业务报表看板,实时业务指标预警,营销用户画像与标签,以及金融风控实时监测等分析工具。因此,更加关注于实时数仓的构建,希望利用数仓帮助业务人员提升数据开发效率与质量,从而为业务分析提供强大的后盾。

   如今,数仓架构已经经历了三代演进,在经过第一代离线架构与第二代Lambda 架构的使用后,通过需求分析与调研,最终引入了Doris搭建统一的实时数据仓库。下文将详细介绍三代架构的演进过程,分享如何基于Doris 搭建一站式数据平台 Ark,以及如何在业务使用,系统维护,数仓开发等方面达到降本增效的收益与成果。

一、早期架构演进

     在大数据技术发展和运用的初期,同程数据以 Apache Hive 为核心建立了离线数仓,并使用Hive进行数仓分分层,当数据从源头进入离线数仓后,通过ODS,DWD,DWS层级处理,数据输出至MySQL、Redis、HBase 等应用数据库,以供报表平台使用。该架构虽然具有耦合性低、稳定性高等优势,但其缺点也比较明显,主要体现在:当进行局部更新时需要对数据进行全量合并,流程冗长,使数据更新时间变长,时效性无法得到保证。随着数据规模不断增加,局部更新需求越来越多,该架构在数据计算效率低下和资源利用不充分的弊端也变得愈加明显。

   基于第一代架构存在的问题,我们对架构进行了升级改造。第二代架构为典型的Lambda 架构,在保留原有离线数仓的同时,新增了以 Apache  Flink 与 Apache Kafka为核心的实时数仓。在该架构中,离线链路主要对数据进行批量处理,负责解决周期性数据跑错的问题,新增的实时链路利用 Flink 对于数据源进行流式处理、利用 Kafka对数仓分层,最终输出至应用数据库

   尽管该架构解决了第一代架构中数据时效性较低的问题,但是发现仍存在一些使用痛点:

  • 架构复杂,运维难度高:由于两套链路同时运行,实时链路需要通过 Apache Flink 与 Apache Kafka 对数据进行流处理,离线链路需要利用 Apache Hive 与 Apache Spark对数据进行批处理,并且两条链路的维表层中均利用 MySQL 或 Redis 进行存储,这导致整体架构涉及的组件过多,数据处理流程过于复杂。除此之外,该架构会重复计算相同的数据,导致整体资源占用增加、运维管理成本增加,后期维护难度增加。
  • 数据开发成本高:实时数仓部分完全依赖 Apache Kafka进行数仓分层,而Kafka对于数据存储周期具有限制,新的数据导入任务需要进行额外的开发工作,还将极大增加开发成本。
  • 数据一致性低:相同的数据在实时数仓中流处理,离线数仓中批处理,存在数据处理逻辑不统一的问题,数据不一致与准确性得不到保障,由于无法复用第一代架构中的数据血缘,数据质量等管理体系,在运行过程中,当实时链路出现乱序问题时,需要回放全量日志进行数据回溯,增加数据修复的复杂性。

二、Doris和Clickhouse选型对比

  为了彻底解决早期架构的问题,在引入新架构之前,我们决定进行深度的产品调研来选择更适合的数仓搭建方案。后发现 MPP 架构数据库能够支持统一实时的数据分析,可以有效解决 Lambda 架构复杂,数据一致性无法保障的问题,而这一产品细分下,Doris与Clickhouse比较匹配业务诉求。基于此,对这两款MPP架构数据库进行了选型对比,并发现Doris的表现更加优异,非常符合我们的选型要求,具体表现如下:

  • 产品易用性:ClickHouse 不支持标准 SQL,而 Doris支持标准 SQL 并兼容 MySQL 协议,使开发人员上手简单,不需要付出额外的学习成本。

  • Join性能优异:Doris支持分布式Join,查询灵活度较高,且性能表现优异。而ClickHouse由于Join查询限制,函数局限性以及可维护性较差等原因,不满足我们当前的业务需求。

  • 数据导入:Doris的数据导入功能完备,支持 Routine Load、Stream Load 和 JDBC Insert Into等多种导入方式,即使在海量数据也能保持数据稳定写入,性能与速度远远高于ClickHouse。

  • 运维难度:Doris架构精简,只有FE和BE两种角色,整体部署简单快速,在扩容方面非常快捷,支持滚动升级,只需要替换相关安装包即可。而Clickhouse对组件的依赖较高,在使用和扩容上需要做很多准备工作,这就要求提供专业的团队来支撑日常的开发与运维工作。

  此外,Doris可以支持实时数据服务,交互数据分析和离线数据处理等多场景。Multi-Catalog 提供了联邦查询的能力,支持对多个数据源进行读取,提高数据的准确性和质量,简化任务开发流程。此外,这一功能可以使开发人员更快速地找到所需数据,减少查询时间和成本,提高查询效率。因此 Doris 的高效运行性能和低开发成本的优势,更符合对一站式数据平台搭建的需求。

三、新一代统一实时数据仓库

    引入 Doris 后对架构进行了重构,如上图所示,使用Doris统一进行数据存储与计算,完全替代了原先的离线架构和Lambda 架构,并构建了一站式数仓,不仅保证了数据的一致性,还实现了架构的精简,极大降低了架构运维成本。其次,在数据源进入实时数仓时,新增了 Input 统一数据集成引擎,支持多种异构数据源的数据同步,实现数据入口的统一。总而言之,Doris 的引入真正帮助实现了数据集成,存储,计算,输出方面的统一,真正意义上实现了实时统一数仓。

四、基于Doris的一站式数据平台

   基于新一代的数仓,搭建了一站式数据平台 Ark,希望通过该数据平台实现任务开发,任务提交与测试,任务调度与监控,数据查询,集群监控等一体化服务,为内部人员在实时业务中提升任务开发效率,提高任务监控质量。在平台构建之前,对于目标进行了拆解梳理:

  • 数据开发:希望外部数据接入Doris时可以高效地进行ETL开发,提升报表产出速度。
  • 调度管理:在业务人员开发完成并上线任务后,需要保证任务调度的稳定性以及调度恢复能力,避免问题发生。
  • 数据查询:由于生产与办公网络中间有隔断,办公网络不能直接使用生产网络的连接,只能通过 Web 形式解决网络隔断,希望借助平台能够提供安全便捷地查询和分析方式。

4.1 一键生成任务脚本提升开发效率

    Doris支持丰富的数据源接入,利用这一功能,在 Ark 平台中可以根据不同的数据源,获取相对应的元数据信息来形成脚本,实现任务快速生成。在数据接入方面,平台进行了半自动化代码的相关工作,并创建了快速生成组件。如上图所示,在平台中输入数据源或表的信息可以自动生成Routine Load 脚本。基于该脚本,只需要对 Apache Kafka 接入源进行 Topic 修改,即可马上生成 Routine Load 任务。同样,对于 Broker Load的任务开发原理相同,在选择对应的数仓源之后,可以及时生成Broker Load 所需脚本。利用 Doris多源异构数据的写入能力,平台能够快速构建代码,实现对 Routine Load 与 Broker Load 的高效任务开发。

4.2 自动调度监控保障任务正常运行

  在任务开发与提交后,平台可以针对Routine Load或Broker Load任务进行查询,检查是否存在异常等常规调度操作,对于需要特别关注的任务,可以加入监控列表,这样系统会定期自动地对任务进行扫描,发生问题时会进行提示并尝试将任务重新拉起。此外,由于Routine Load是常驻进程,对于该任务的监控,平台支持定期且持续的自动化监控功能,而对于 Broker Load 与其他常规任务,平台在定期扫描后会对失败的任务进行预警提示。

4.3 安全便捷的可视化查询分析

   由于生产与办公网段隔离,只能通过 Web 进行查询,使用起来繁琐且不方便。为了解决这个问题,曾经尝试使用集成 Hue 的方式,使 Doris 通过 MySQL 协议连接到Hue进行数据查询,虽然查询过程有所简化,但是这种方法存在数据安全隐患。因此,同程数科自行开发了内部查询分析页面,设置了权限管理,解决了查询安全性的问题。同时在 Ark 平台中集成了 Doris Help功能,使业务人员能够通过关键字搜索进行 SQL 语法和示例的查询,解决常规查询操作问题,以此降低学习成本,提高内部人员查询的便捷性。

4.4 完备智能的集群监控

   通过 Doris 集群监控页面可以实时监管 FE 、BE 以及 Broker节点状况。当集群发生异常状况时,监控系统会发送自动提醒并尝试将集群拉起,及时对异常情况进行自动化处理,避免引发更大的问题。同时集群监控看板也可以帮助观察节点的健康度情况,通过FE节点状态判断健康度高低。

五、收益与成果

   当前同程数科已经基于Doris 搭建了高度统一实时的数据仓库,并使用数十台Doris节点机器。此外,还将 Doris 功能平台化至 Ark 一站式数据平台中,对于 Doris 的引入带来了以下收益与成果:

  • 缩减开发周期:利用平台一键开发功能,业务人员能够自主开发,无需将需求提给大数据团队,开发时间由原来的半小时缩短到仅需三分钟,显著压缩了任务开发周期,开发效率提升了十倍;
  • 灵活数据开发:配合Ark一站式数据平台,数据开发能够灵活分析,需要可以快速上线;
  • 统一数据处理:Doris在数据导入、存储、计算实现统一,保证数据一致性,实现真正意义的实时统一;
  • 提升查询效率:从过去分钟级响应时间到当前的秒级甚至毫秒级,查询效率得到数十倍提升。
  • 降低学习成本:因为 Apache Doris 兼容 MySQL 协议,并且使用标准 SQL,在使用上简单易用。业务人员能够如同使用数据库一样使用大数据,从而进一步降低学习成本;

  • 降低运维成本: Doris 的部署简单,精简架构使整体链路体系简洁,便于维护。

六、未来规划

    未来将会持续建设并优化基于Doris 一站式实时数仓架构,完善统一计算和存储、流批一体能力。对于 Ark 一站式数据平台持续迭代增强,整个实时数仓体系向着时效性、稳定性、灵活性发展。完善 Ark 数据集成平台的图形化功能,持续增加更多异构数据源之间的数据同步功能,增强引擎对数据的处理能力。

    其次,将持续关注 Apache Doris 在数据湖分析方面的能力,希望在湖中能够对多源异构数据进行采集,实现数据统一存储、统一多范式计算,最后由Doris 的 API 接口统一对外提供服务。另外在后续的架构优化中会考虑利用倒排索引替换现有的日志系统,利用更新的 Json 数据类型进一步完善查询能力。

参考文章:

同程数科基于 Apache Doris 构建统一实时数仓,查询提速数十倍!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/512206.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SSM框架学习——Spring的控制反转IoC与依赖注入DI

控制反转IoC与依赖注入DI 概念 提到Spring首先想到的肯定是Spring的IoC容器了。在了解Spring的用法之前我们必须了解什么是控制反转IoC和依赖注入DI。 **控制反转(Inversion of Control)**是面向对象编程中的一种设计原则,它建议将不需要的…

突破数据障碍—如何使用IP代理服务获取量子科学研究领域最新数据

写在前面 在这个数字化的时代,人们越来越关注隐私保护和网络访问自由。我最近也深入研究了一下IP代理服务,在规避地理限制、绕过封锁以及保护个人隐私方面,它确实发挥了关键作用。 一、基础介绍 起因是有个项目需要对量子领域进行深入的研究之…

使用C++调用讯飞星火API的详细指南

正文: 科大讯飞是中国领先的人工智能公司,其讯飞星火API为开发者提供了丰富的接口和服务,支持各种语音和语言技术的应用。下面是使用C接入讯飞星火API的步骤和代码示例。 步骤一:注册账号并创建应用 首先,您需要访问科…

Open3D(C++) 彩色点云RGB转灰度并显示

目录 一、算法原理1、原理概述2、参考文献二、代码实现三、结果展示本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 1、原理概述 不同要素之间的灰度差异较为明显。点云灰度值与RGB属性的关系为:

CSRF漏洞详解与挖掘

CSRF漏洞详解与挖掘 CSRF的定义: CSRF,全称Cross-site request forgery,翻译过来就是跨站请求伪造,是指利用受害者尚未失效的身份认证信息(cookie、会话等),诱骗其点击恶意链接或者访问包含攻…

SAD法(附python实现)和Siamese神经网络计算图像的视差图

1 视差图 视差图:以左视图视差图为例,在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标 视差图和深度图: z f b d z \frac{fb}{d} zdfb​ 其中 d d d 是视差, f f f 是焦距, b b…

mysql语句学习

SQL Select语句完整的执行顺序: 1、from子句组装来自不同数据源的数据; (先join在on) 2、where子句基于指定的条件对记录行进行筛选; 3、group by子句将数据划分为多个分组; 4、使用聚集函数进行计算&a…

【Entity Framework】EF日志-简单日志记录

【Entity Framework】EF日志-简单日志记录 文章目录 【Entity Framework】EF日志-简单日志记录一、概述二、EF日志分类三、简单的日志记录3.1 配置3.2 日志记录到控制台3.3 记录到凋试窗口3.4 记录到文件3.5 敏感数据处理3.6 详细查询异常3.6 日志级别3.7 消息内容和格式设置 一…

蓝牙耳机推荐哪个品牌好?2024火爆机型推荐,拒绝云测

​音乐和有声读物是许多人放松身心、缓解等待无聊时刻的好伴侣。尽管市面上蓝牙耳机琳琅满目,挑选合适的款式却颇具挑战。作为一个经验丰富的耳机用户,我深知哪些蓝牙耳机值得你的信赖。接下来,我将分享几款我个人认为很不错的蓝牙耳机来给大…

便宜的猫粮给猫吃有什么副作用?

便宜的猫粮,虽然价格诱人,但便宜的猫粮可能会给猫咪的健康带来一些隐患哦。让我们一起来了解一下,便宜的猫粮给猫吃会有什么副作用吧。 1️⃣ 原材料作假:便宜=低质,这是恒古不变的道理,没有那…

HTMLCSS

前端入门 1、HTML&CSS 1、选择器 通配选择器 元素选择器 类选择器 id选择器 复合(组合) 选择器 交集选择器(且) <style> p.class {... } /* 元素选择器需在前面 */.class1.class2 {... } </style>并集选择器(或者) <style> .class1, .class2, …

性能监控工具--sysstat使用

一、sysstat安装 sysstat提供了Linux性能监控工具集&#xff0c;包括sar、sadf、mpstat、iostat、pidstat等&#xff0c;用于监控Linux系统性能和使用情况。 其中sar功能非常强大&#xff0c;能够收集、报告、保存系统活动信息&#xff1a;CPU、内存、磁盘、中断、网络接口…

蓝桥杯刷题第八天(dp专题)

这道题有点像小学奥数题&#xff0c;解题的关键主要是&#xff1a; 有2种走法固走到第i级阶梯&#xff0c;可以通过计算走到第i-1级和第i-2级的走法和&#xff0c;可以初始化走到第1级楼梯和走到第2级楼梯。分别为f[1]1;f[2]1(11)1(2)2.然后就可以循环遍历到后面的状态。 f[i…

ubuntu16如何使用高版本cmake

1.引言 最近在尝试ubuntu16.04下编译开源项目vsome&#xff0c;发现使用apt命令默认安装cmake的的版本太低。如下 最终得知&#xff0c;ubuntu16默认安装确实只能到3.5.1。解决办法只能是源码安装更高版本。 2.源码下载3.20 //定位到opt目录 cd /opt 下载 wget https://cmak…

Aurora8b10b(2)上板验证

文章目录 前言一、AXI_Stream数据产生模块二、上板效果总结 前言 上一篇内容我们已经详细介绍了基于aurora8b10b IP核的设计&#xff0c;本文将基于此进一步完善并且进行上板验证。 设计思路及代码思路参考FPGA奇哥系列网课 一、AXI_Stream数据产生模块 AXIS协议是非常简单的…

【御控物联】JSON结构数据转换在物流调度系统中的应用(场景案例三)

文章目录 一、前言二、场景概述三、解决方案四、在线转换工具五、技术资料 一、前言 物流调度是每个生产厂区必不可少的一个环节&#xff0c;主要包括线边物流和智能仓储。线边物流是指将物料定时、定点、定量配送到生产作业一线的环节&#xff0c;其包括从集中仓库到线边仓、…

14种建模语言(UML)图形

前言 UML 中有四种关系&#xff1a;依赖、关联、泛化和实现。这四种关系是 UML 模型中可以包含的基本关系事物。这里介绍14种UML图形:类图&#xff0c;对象图&#xff0c;包图&#xff0c;构件图&#xff0c;组合结构图&#xff0c;部署图&#xff0c;制品图&#xff0c;用例图…

【Web理论篇】Web应用程序安全与风险

目录 &#x1f332;1.Web应用程序的发展历程 &#x1f342;1.1 Web应用程序的常见功能&#x1f342;1.2 Web应用程序的优点 &#x1f332;2.Web安全 &#x1f342;2.1Web应用程序常见漏洞&#x1f342;2.2未对用户输入做过滤&#x1f342;2.3 造成这些漏洞的原因是什么呢&…

数据安全之认识数据库防火墙

文章目录 一、什么是数据库防火墙二、数据库防火墙的主要功能三、数据库防火墙的工作原理四、数据库防火墙如何防护数据库免受SQL注入攻击五、数据库防火墙的部署方式六、数据库防火墙与网络防火墙的关系与区别七、数据库防火墙的应用场景 随着信息技术的快速发展&#xff0c;数…

数据结构进阶篇 之【选择排序】详细讲解(选择排序,堆排序)

民以食为天&#xff0c;我以乐为先 嘴上来的嘘寒问暖&#xff0c;不如直接打笔巨款 一、选择排序 1.直接选择排序 SelectSort 1.1 基本思想 1.2 实现原理 1.3 代码实现 1.4 直接选择排序的特性总结 2.堆排序 HeapSort 跳转链接&#xff1a;数据结构 之 堆的应用 二、完…