典型案例:中通快运重构数据中心,满足业务多种复杂分析需求
中通快运成立于2016年,是中通品牌旗下快运企业,聚焦数智物流新趋势, 提供面向企业及个人客户的全链路一站式物流服务。目前中通快运全国揽派件网点有21000 余家,分拨中心超80个,自有运输车辆 9600 余台,区县覆盖率达99%。
传统架构难以适应业务快速发展
中通快运率先在业内提出“数字快运”概念,在产品可追溯、物流智能管理、智慧供应链、辅助决策系统等方面持续投入。中通快运在数字化之初,搭建了基于Oracle的数据分析环境。 近年来,中通快运业务规模保持快速增长,日快递单量能达到50万票,考虑到下单、揽件、运输、分拣、中转、签收等各个节点的操作,单表的最大写入量能达到20亿条,业务对海量数据、高并发、实时分析的复杂需求日益高涨,这为中通快运的IT系统带来严峻挑战,具体如下: 1. 传统架构设计混乱,横向扩容受阻,系统性能面临瓶颈中通快运传统架构在建立之初,为解决运营操作问题,软件开发中的数据分析和业务操作都在大运主库Oracle中实现,分析数据和业务操作数据杂糅,业务逻辑和数据逻辑均通过Java应用程序实现,所有表之间存在复杂的级联关系。
并且,IT部门普遍以大运主库OGG同步的方式开发数据服务,使得底层数据架构的复杂程度进一步升级,成为主库横向扩容的阻碍。虽然中通快运通过对主库进行了纵向升级,但OGG同步路线的快速增长已经逐步消耗掉主库纵向升级带来的性能提升。
此外,中通快运传统架构中以宽表的方式进行数据建模,一旦业务运营模式发生变化,需要对宽表进行调整或重构形成复杂的数据模型,如多个表之间存在多对多、嵌套关系等,导致数据同步困难,难以满足业务对数据分析的时效要求。
2. 难以满足业务日益广泛的复杂分析需求为保证业务正常运行,主库Oracle中只能存储3-6个月的数据,更早的数据则以文件格式进行备份。然而业务部门对数据分析的应用场景愈发普遍,并涌现出更多复杂分析场景,如车辆调度、路线规划、仓储管理、用户需求预测等越来越多的场景需要基于大跨度的历史数据进行预测分析,但备份中的数据难以调用。
3.开发和部署方式呈现烟囱式,无法快速响应业务变化中通快运的系统之间相互独立,多年来对业务需求的支持以烟囱式开发为主,缺乏统一的数据规范,使得数据开发过程需花费大量时间处理数据格式、数据一致性等质量问题,造成数据开发效率缓慢,同时也带来重复开发、资源浪费的问题。
在对业务和数据反复思考过程中,中通快运大数据团队意识到,只有推动系统架构设计和业务运作流程同时演进,才能实现数据赋能。这意味着大数据团队不能仅仅作为一个支撑部门,更要具有主动赋能的意识。
为推动业务流程变革,中通快运大数据团队开始推动集团高层重新定位部门价值,将数据部门确定为业务赋能核心,纳入业务战略规划中。同时,数据团队与业务部门紧密合作,理解业务需求,提供相应的数据服务和解决方案,实现数据驱动的业务决策和优化。
在技术支持上,IT部门对数据中心的系统架构进行重构,并着重解决大数据量、高并发、实时场景下的OLAP分析问题。在陆续使用过HBase、Clickhouse等数据库后,中通快运将目光转向开源数据库,并有两点核心诉求:
1)功能上,数据库需具备强大的联表查询能力,且支持大数据量、高并发、实时分析等场景;
2)运维支持上,中通快运IT资源有限,并且需要将更多资源投入业务支持中,因此要求数据库具有简易运维的特点,且有商业厂商做支撑。
综合考虑数据库功能和中投入产出比,中通快运最终选择与基于 StarRocks 的商业化公司镜舟科技一起解决核心OLAP分析问题。
北京镜舟科技有限公司致力于帮助中国企业建立卓越的数据分析系统,旗下产品镜舟分析型数据库和镜舟湖仓分析引擎是基于 StarRocks 发展起来的企业级商用数据库,支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据,同时具备水平扩展、高可用、高可靠、易运维等特性。重构数据中心架构,建设实时、准实时和大跨度大数据量三层数据服务能力
中通快运数据中心系统架构设计上,主要实现了两个关键点: 1.对操作和分析进行解耦,将数据查询任务与DML任务隔离。 2.对数据服务能力进行分层,按照实时、准实时和大跨度大数据量三层的服务能力。具体来看:
中通快运数据中心建设方案 1.对操作和分析解耦 针对操作和分析杂糅的情况,中通快运对操作和分析进行解耦。 1)针对DML操作,由TiDB做业务实时数据的落地库,提供实时插入、更新、删除等数据操作服务,TiDB实时宽表可实现10秒及以内的实时响应。 2)针对数据分析,通过镜舟分析型数据库、湖仓分析引擎和Paimon数据湖搭建批流一体架构,由镜舟的分析型数据库和湖仓分析引擎承担核心OLAP 能力。 镜舟分析型数据库能支持大规模的多表关联查询,其提供的 CBO(基于代价的优化器)、向量化引擎、前缀索引等技术,能实现高效的多维度聚合操作与明细数据的拉取,此外,镜舟分析型数据库提供的物化视图可以在明细查询的基础上做不同维度的融合操作,最终实现应用层上的多维灵活分析。批流一体架构提供准实时和大跨度大数据量的数据分析服务:
面向(一年期内)大数据、高并发、实时要求高的分析场景,镜舟湖仓分析引擎从Paimon中读取并存储一年期数据,提供准实时响应,响应速度在10s左右。
- 面向跨年的长期历史数据的大规模复杂查询,由镜舟分析型数据库直接对Paimon历史数据进行分析,整体从业务端数据传输到服务端的响应时间控制在 2-3 分钟内。
2.建立数仓分层架构,实现数据管理
镜舟湖仓分析引擎中的物化视图能简化湖仓分层建模,如中通快运通过物化视图可将Paimon数据湖中数据作为ODS层,进一步加工处理形成DWD、DWS层。湖上数据可以由镜舟湖仓分析引擎直接进行分析,也能通过物化视图将湖上数据写入到镜舟湖仓分析引擎中加速查询。数仓分层架构下,不同层级的数据能为不同的应用程序提供查询服务。3.使系统具备弹性扩展能力
通过镜舟分析型数据库的MPP 执行框架以及存算分离的特点,中通快运数据中心具备了弹性扩展能力,计算、存储能分别独立扩展。4.简化数据开发操作,加速数据开发效率
借助镜舟科技的数据库产品,中通快运大幅提升数据开发效率,如在数据集成上,镜舟分析型数据库提供多种数据导入方式,包括实时数据导入、批量数据导入、流式数据导入等,以满足不同业务场景下的数据导入需求。 在数据建模方式上,镜舟分析型数据库提供了星型、雪花、大宽表、 预聚合等方多种数据建模方式。此外,在升级后的批流一体架构中,镜舟湖仓分析引擎支持通过Paimon Catlog组件直接查询Paimon数据,以及结合insertinto操作实现数据的转换和导入,能极大简化数据集成和处理流程。高效分析支撑业务场景,为业务发展赋能
1. 高效满足业务多种分析需求
1)针对实时分析场景 ,实时数据导入、更新和计算,可以广泛应用于物流订单状态更新、TP 数据库同步、多流 join 写入宽表等场景。 2)支持复杂分析的准实时场景,以往中通快运使用Oracle存储数据时,业务流程经常崩溃,数据服务难以维系。数据中心重构后,中通快运利用镜舟分析型数据库强大的多表关联查询能力,能在量本利、运营统计等各种复杂分析场景下对一年期内数据实现秒查,有效支撑业务需求。以中通快运对在线分拨中心的货物滞留计算为例,传统Oracle存储下,对60天的滞留数据计算需每两小时计算一次,每次计算需要将数据拆分为60次进行循环计算,经常由于资源不足或性能限制导致计算任务无法完成。在使用镜舟分析型数据库后,中通快运对60天滞留数据一次性查询,计算时间平均为8分钟。 3)支持跨年长期历史数据的大规模复杂分析。如进行回溯对账分析,或是基于强化学习对车辆调度、路线规划、仓储管理等场景进行预测分析,提升经营效率。 未来,中通快运计划利用镜舟分析型数据库的异步物化视图能力进一步优化加速,减少外部调度任务,进一步降低运维成本,实现业务响应和成本控制的双重提升。2. 数据架构优化,系统实现弹性扩展
数据操作和数据分析的解耦,使中通快运能优化业务流程、集中管理数据以及灵活进行资源分配,减少系统故障和停机时间,提高业务的连续性和可靠性。3.有效提高数据开发效率
镜舟分析型数据库中数据集成的便捷性、数据建模的灵活性,多表关联对数据处理流程的简化以及物化视图对数据ETL的简化等,都极大提升了中通快运的数据开发效率,使数据应用能快速响应业务需求。