流式湖仓增强,Hologres + Flink 构建企业级实时数仓
一、Hologres+Flink,阿里云上众多客户实时数仓的首选
随着大数据从规模化走向实时化,实时数据的需求覆盖互联网、交通、传媒、金融、政府等各个领域。实时计算在企业大数据平台的比重也在不断提高,部分行业已经达到了 50%。Hologres+Flink 通过众多的丰富企业级能力,替换开源复杂的各类技术组件,减少多种技术栈学习、多种集群运维、多处数据一致性维护等成本,让企业专注于业务,实现降本增效。
- 小红书 OLAP 场景通过 Hologres 替换 Clickhouse,查询性能大幅提升,在推荐场景下基于 Hologres+Flink 实时分析用户 A/B 分组测试结果,实时调整推荐策略,更新推荐模型。
- 小迈科技通过 Hologres+Flink 构建百亿级广告实时数仓,满足高性能写入、极速复杂查询、高可用隔离等需求,在让用户行为分析实现秒级响应,快速响应业务需求。
- 金蝶管易云升级实时数仓到 Hologres+Flink,数据延迟从 30S + 降低到秒级,借助 Hologres 强大的实时分析聚合能力,解决数据统计延迟问题,并且整体资源成本降低 50%。
- 好未来原先将 Kudu 作为 OLAP 引擎,使用 Impala 进行数据加载、运算,通过 Hologres 同时替换 Kudu/Impala 实现百万级写入和毫秒级查询能力,降低成本近百万 / 年。
- 乐元素通过测试发现对比 Presto 性能提升了 5~10 倍,64 核 Holgores 可直接替换 96 核 Presto 集群,于是升级数仓架构,让业务运营效率提升 10 倍 +。
一站式实时数仓 Hologres
Hologres 是阿里云自研一站式实时数仓,以分析服务一体化架构,统一数据平台架构,实现一份数据,同时支持支持多维分析、在线服务、湖仓一体、向量计算多个场景,其中包含了:
- 多维分析(实现同 CK、Doris 等查询场景)
数据高性能实时写入、更新与查询,实现写入即可查,支持列存、内置索引加速
- 在线服务(实现同 Hbase、Redis 等点查场景)
超高 QPS 下 KV 与 SQL 点查、非主键点查,支持行存、具备高可用能力
- 湖仓分析(实现同 Presto 等交互式分析场景)
无需数据搬迁,对 MaxCompute、数据湖中的表进行秒级交互式查询,元数据自动发现
- 向量计算(实现同 Faiss 等向量查询场景)
内置达摩院 Proxima 向量引擎,QPS 与召回率性能超过开源向量数据库数倍
企业级实时数仓能力
与开源组件不同的是,企业级的实时数仓需要帮助企业快速实现各类资源隔离、数据安全、敏捷运维等能力,让企业能够持续稳定、高效使用数据,保持大数据平台实时在线运行。Hologres 具有资源隔离、数据加密、数据脱敏、灾备,数据备份恢复、IP 白名单、数据治理,数据血缘等丰富的企业级能力。
- 负载隔离
多个计算实例组成一主多从模式,实例间共享一份存储,计算资源隔离,实现写入和读取隔离,查询和服务隔离。支持故障管理,故障节点快速自动恢复,盘古三副本提供高可靠冗余存储。
- 企业级运维
具备一定自运维能力,内置查询历史、元仓表等运维诊断信息,用户可以基于查询历史和表的元数据,提供丰富的监控和告警指标,快速定位系统瓶颈和风险点,提升自运维能力。
- 数据安全
支持细粒度访问控制策略,支持 BYOK 数据存储加密和数据脱敏,支持数据备份与恢复,支持 RAM、STS 及独立账号等多种认证体系,通过 PCI-DSS 安全认证(PCI-DSS 是目前全球最严格且级别最高的金融数据安全标准)。
- 数据治理
实时数据处理导致成本增加,Hologres 提供 table info,包含各类数据使用的日志信息。方便了解数据有没有人在用,用了多少次,让企业可以做更好地做成本控制。
二、Hologres 与 Flink 深度集成
Hologres+Flink 这套组合是在阿里集团内部经过多年实时化场景打磨探索出来的最佳架构,例如淘天用户增长团队成功让 3-5min 的画像分析提升到 10s 左右,CCO 客户服务团队数据分析效率提升 10 倍,淘菜菜一年