StarRocks实战——贝壳找房数仓实践

目录

前言

一、StarRocks在贝壳的应用现状

1.1 历史的数据分析架构

1.2 OLAP选型

1.2.1  离线场景

1.2.2 实时场景

1.2.3 StarRocks 的引入

二、StarRocks 在贝壳的分析实践

2.1 指标分析

2.2 实时业务

2.3 可视化分析

三、未来规划

3.1 StarRocks集群的稳定性

3.2 StarRocks 新特性采用


    原文大佬的这篇贝壳找房数仓实践的文章整体写的很深入,这里摘抄下来用作学习和知识沉淀。

前言

   贝壳找房是国内最大的在线房产交易平台之一,利用大数据技术进行房源的挖掘和匹配,通过数据分析和挖掘,更准确地了解用户需求,并为用户提供个性化的房源推荐和交易服务
    随着数据和业务规模的增长,传统数仓的分析能力面临很大的挑战,贝壳需要引入新兴的数据湖技术来支撑业务的发展。在指标分析场景、实时业务场景采用StarRocks替换原有的Kylin、Clickhouse 等组件,业务性能上有 5-6 倍性能提升;同时,贝壳也开始推动 StarRocks 替换 Presto 的场景,进一步简化架构,实现分析层的统一,与 StarRocks 社区共建极速统一的湖仓新范式。

一、StarRocks在贝壳的应用现状

1.1 历史的数据分析架构

  早期为了支持多样化的分析能力,引入了多种OLAP引擎以支持不同的场景,其中包括:

  • Kylin、Druid:用于高QPS的指标查询、报表系统等(高并发)

  • Presto、Impala:基于Hive数据分析

  • ClickHouse :用于支撑用户分析、风控等实时业务

     随着使用规模的扩大,维护成本越来越高,在扩展引擎数量的同时,必须要考虑上下游配套产品的兼容性改造,由于每个引擎的特殊性,适配的开发成本也很高,随着引擎数量的增加和特性迭代,这方面的工作量越来越大。尽管数据开发平台已经在很大程度上屏蔽了引擎的使用细节,但随着业务的深入使用,某些场景可能需要使用引擎的高级特性支持。一些业务逻辑需要沉淀到引擎底层,增加了业务模型的开发维护成本

1.2 OLAP选型

1.2.1  离线场景

   最初使用kylin进行指标分析,Kylin是一种空间换时间的方案,并且依赖于HDFS 和HBase。此外,Kylin在维度计算方面需要较长的构建时间,查询性能受到HBase的限制,调优成本较高。

Druid的引入虽然解决了以上问题,Druid 的引入虽然解决了以上问题,但Druid本身也存在一些局限性,比如 SQL 能力较弱,不支持JOIN操作。对于数据分析产品来说,如果只能使用宽表,但宽表模型的问题较为显著,即一旦维度有所变化,其回溯的成本是很高的

1.2.2 实时场景

    ClickHouse 主要是支撑实时分析场景,但在运维成本、更新操作,高并发和Join等场景有诸多限制。

  从总体来看面临以下比较严重问题:

  • 复杂、灵活的业务模型要求
  • 高性能的查询和高稳定性
  • 多引擎的高运维成本

1.2.3 StarRocks 的引入

    带着这些问题开始调研市场上新兴的 OLAP 技术,发现 StarRocks 能够完全解决以上痛点。2021 年 StarRocks 在贝壳落地,截止 2022 年底,StarRocks 在占据了近 70% 的流量份额。生产环境共有 10 集群在使用,大规模集群 BE节点 40个,小规模集群 BE 节点数 5~10个。

   规模:

  • 存储总量80TB
  • 日均写入的数据量12TB,其中离线7TB,实时5TB
  • 日均的查询量是1400万次

二、StarRocks 在贝壳的分析实践

  引入StarRocks最要的目标是解决多引擎的问题,接下来通过 3 个场景来介绍各引擎如何统一到 StarRocks 上。

2.1 指标分析

   离线分析场景:Druid To StarRocks

   指标开发分为3个阶段:

  • 数据准备:数据开发人员准备 Hive 表和 StarRocks 表
  • 指标开发:基于元数据进行模型和指标开发
  • 模型构建:将模型转换到具体引擎的实现

   在模型构建阶段,使用 Spark任务将Hive数据同步到StarRocks 中,使用Flink同步Kafka中的数据。

   在指标分析场景中引入StarRocks,需要关注的主要问题有两个:
(1)建表:

  •  离线场景:数据来源于Hive,可以进行数据内容探测,根据数据量自动计算分桶数(StarRocks自动分桶策略),根据实践经验,慢查询sql中有很大一部分是模型问题导致(模型表选择、分区分桶选择等),智能化建表模式能更好的适配业务。
  • 实时场景:虽然可以预估数据规模来生成表模型,但是业务的增长和发展是难以预估的,因此,对事实表通过添加定期巡检任务进行周期性的检测,根据历史数据规模评估表的分区和分桶是否合理,定时向用户反馈,协助用户进行模型优化。

(2)数据导入:

  • 临时分区:采用临时分区来解决导入期间无法查询的问题
  • 预聚合:Spark任务将Hive数据同步到StarRocks的过程中,先在spark阶段对数据进行部分计算,以降低导入过程中BE节点的资源消耗,由于大量的导入通常发生在晚上0点至凌晨6点之间,并伴随着离线导入的高峰期,提前进行聚合可以减轻compaction的压力。

  • 高基数的字符列精确去重:需要兼容之前的字符精确去重场景( Kylin、 Druid)使用 Hive 的全局字典来实现去重列编码。去重计数列使用bitmap类型,查询性能提高约3到4倍,在高QPS场景下,集群吞吐能力提升明显。

2.2 实时业务

  实时分析场景:ClickHouse To StarRocks

 ClickHouse不支持直接的update操作,因此需要通过使用视图和 argMax() 函数计算最新数据以达到实时更新的目的。对一个复杂的模型而言,需要为每一张表都创建对应的视图,最终要多张表和视图才能实现,如图 7 所示:

   ClickHouse 涉及到本地表、分布式表和视图等不同层级的结构,最顶层的视图view相当于用户指标建模时所用的表,从开发角度来看相当复杂:

  • 开发门槛较高:数据开发人员需要对 ClickHouse 有较高的掌握程度

  • 维护迭代成本高:对于频繁迭代的业务来说,模型的修改和数据验证过程会变得比较复杂

  • 底表数据量大:底层表存储了所有变更记录,在频繁变更的场景,低表的数据量会变得很大

  • 并发场景下Scan高:底层每次执行都需要扫描大量数据,导致集群的I/O压力较高,读写互相影响

  • Join性能有限:在复杂场景下,多张表的关联查询性能不及预期

  StarRocks 原生支持update、高性能的Join,高QPS这些特性可以解决以上所有痛点;针对目前ClickHouse中存量的模型,可以通过以下方式平滑迁移到StarRocks:

  • 模型:使用 Duplicate 模型对应 ClickHouse 中的MergeTree模型,StarRocks 中与 argMax() 函数对应的有 row_number()
  • 查询:查询层通过查询服务直接转换到StarRocks语法结构

  下图是迁移后查询性能对比结果,平均响应时间大幅下降。通过相同集群规模的并发压测,QPS提升了5倍以上

2.3 可视化分析

   Ad-hoc(数据探索)场景:Presto To StarRocks

   贝壳内部的BI 产品ODIN分析平台提供了基于Hive的分析能力,底层通过Presto引擎查询,用户通过PrestoSql进行建模分析,模型和引擎耦合性非常紧密,无法轻易转换成到其他引擎的查询。    StarRocks支持了 Hive 外表的功能,相比Presto有 3 倍以上的性能提升,使得 StarRocks 在贝壳有能力统一 OLAP 场景。目前已开始将分流到 StarRocks 做测试验证,后续随着 StarRocks Trino/Presto 兼容能力的进一步提升,会继续提升 StarRocks 的流量占比,实现 StarRocks 在分析层的完全统一。

三、未来规划

   贝壳找房引入 StarRocks已经有两年时间了,从实践结果来看,StarRocks能满足90% 以上的需求场景。引入StarRocks对贝壳整个分析链路的建设起到了关键性作用,达到了极速统一的目标,并且带来了显著的性能收益,极大提升了OLAP分析场景的能力和效率。以下是未来的发展规划:

3.1 StarRocks集群的稳定性

   对大规模集群的运维,需要从以下几个方面加强稳定性建设:

  • 细化监控维度,增加重要指标的监控告警
  • 集群上下游链路的阻断控制能力:阻断能力在稳定性保障中非常重要,监控的目的是更好地发现问题,一旦发现问题,就需要有效的手段来控制降级,比如查询降级,危险SQL拦截,写入限制等。
  • 多集群数据源的故障恢复自动化:对于一个核心业务,已经建立了双链路保障策略,出现问题时能够自动切换,不需要人工干预。

3.2 StarRocks 新特性采用

   当前我们比较关注 StarRocks 新特性主要是物化视图、Trino 语法兼容和 LakeHouse 架构。

  • 物化视图在OLAP场景下对查询的性能提升非常大,目前社区在物化视图的多表,异步,自动更新等方面已经有了很丰富的功能支持,如何将这些功能结合业务场景,自动探测查询模式生成对应的物化视图将是未来的重点工作。
  • 从 StarRocks 3.0 版本开始,StarRocks 支持Trino方言,这一点对存量的 Presto模型迁移来说,降低了迁移和使用成本,同时有不错的查询性能提升。

  • LakeHouse架构是StarRocks3.0 的新架构模式,相比2.0版本的资源隔离能力,全新的存算分离架构支持硬资源隔离,这个特性使得现在的多个小规模集群模式可以统一成大规模集群,进一步降低资源和维护成本;弹性计算能力可以满足不同业务的使用场景。此外,StarRocks也支持了Apache Hudi、Apache Iceberg 和 Delta Lake 主流数据湖,统一湖仓查询场景不再是问题。

参考文章:

性能全面飙升!StarRocks 在贝壳找房的极速统一实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/430684.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

STM32:CAN功能板设计和调试

0前言 本文主要目的是,总结去年设计stm32-CAN板子过程中遇到的问题,分为keil嵌入式软件和嘉立创EDA设计两个部分。 1 STM32F1 CAN功能 keil expected a “}“ 问题在于,PCB使用芯片为stm32f103c8t6,下载程序时选择device默认此…

在cadence中导入工艺库和仿真状态的方法

在cadence中导入库和仿真状态的方法 一、在cadence中导入库 1、打开cadence的启动界面,如图 2、右键空白处,添加library 3、找到自己的库文件路径即可 二、在cadence中导入仿真状态 1.打开ADE L界面 2.选择好自己需要的状态,注意要取…

Leet code 1089 复写0

1、先找到最后一个数 比如示例1中答案的最后一个数是4 定义两个指针 dest 和 cur dest初始位置是-1 cur初始位置为 0 如果arr[cur]为非零元素 dest位置1 如果arr[cur]为零元素 dest位置2 直到cur<arr.size() 或者 dest>arr.size()-1 cur就是最后一个元素位置 2、…

Swing程序设计(11)动作事件监听器,焦点事件监听器

文章目录 前言一、事件监听器是什么&#xff1f;二、详细展开 1.动作事件监听器2.焦点事件监听器总结 前言 如果你是坚持从Swing程序第一篇看到了这里&#xff0c;恭喜你&#xff0c;Swing程序设计简单地落下了帷幕&#xff0c;关于Swing程序更深的了解&#xff0c;可以自行学习…

在Vue中根据Url下载地址生成二维码展示在界面上

最近来了一个新需求&#xff0c;就是在网页页面上点击按钮不在是直接下载app安装包&#xff0c;需要支持手机扫码下载app&#xff0c;避免他们需要先从电脑上下载&#xff0c;然后传到微信&#xff0c;然后手机从微信上下载下来&#xff0c;得了&#xff0c;需求就是根据后端传…

【Python】-----基础知识

注释 定义&#xff1a;让计算机跳过这个代码执行用三个单引号/双引号都表示注释信息&#xff0c;在Python中单引号与双引号没有区别&#xff0c;但必须是成对出现 输出与输入 程序是有开始&#xff0c;有结束的&#xff0c;程序运行规则&#xff1a;从上而下&#xff0c;由内…

稀碎从零算法笔记Day6-LeetCode:长度最小的子数组

前言&#xff1a;做JD的网安笔试题&#xff0c;结果查找子串&#xff08;单词&#xff09;这个操作不会。痛定思痛&#xff0c;决定学习滑动数组 题型&#xff1a;数组、双指针、滑动窗口 链接&#xff1a;209. 长度最小的子数组 - 力扣&#xff08;LeetCode&#xff09; 来…

ATFX汇市:油价回落之际加元币值走弱,USDCAD有望刷新年内新高

ATFX汇市&#xff1a;加元是商品货币&#xff0c;币值受到国际油价和精炼石油出口的显著影响。2022年3月份&#xff0c;国际油价达到130美元的峰值水平&#xff0c;随后开启回落走势&#xff0c;时至今日&#xff0c;最新报价在80美元下方&#xff0c;累计跌幅近40%。疲弱的油价…

【框架学习 | 第一篇】一篇文章快速入门MyBatis

文章目录 1.Mybatis介绍1.1Mybatis历史1.2Mybatis特点1.3与其他持久化框架对比1.4对象关系映射——ORM 2.搭建Mybatis2.1引入依赖2.2创建核心配置文件2.3创建表、实体类、mapper接口2.4创建映射文件2.4.1映射文件命名位置规则2.4.2编写映射文件2.4.3修改核心配置文件中映射文件…

基于springboot+vue的医疗报销系统

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

培训机构如何通过小魔推做高效短视频矩阵?

随着智能手机的普及和移动互联网的高速发展&#xff0c;短视频作为一种全新的媒介形式&#xff0c;迅速崛起并占领了大量用户的碎片化时间。从野蛮生长到全面流行&#xff0c;逐渐成为各行业引流获客的主战场之一。 各行各业都意识到了短视频平台的潜力&#xff0c;今天给大家…

【JAVA】Tomcat集成到IDEA

目录 1.在IDEA中安装插件&#xff1a;Smart Tomcat。 2.配置smart tomcat 浏览器显示中文出现乱码 我们可以借助IDEA的插件&#xff0c;把tomcat集成IDEA中&#xff0c;然后我们就可以通过IDEA一键式的重新打包部署了。 1.在IDEA中安装插件&#xff1a;Smart Tomcat。 1&a…

建立网络防御时需要重点考虑的10个因素

互联网安全中心&#xff08;CIS&#xff09;建议企业可以从以下10个因素入手&#xff1a;资产管理、数据管理、安全配置、账户和访问控制管理、漏洞管理、日志管理、恶意软件防御、数据恢复、安全培训和事件响应。 1、资产管理 建立网络防御的第一步是制定企业资产和软件资产的…

day12_oop_抽象和接口

今日内容 零、 复习昨日 一、作业 二、抽象 三、接口 零、 复习昨日 final的作用 修饰类,类不能被继承修饰方法,方法不能重写[重点]修饰变量/属性,变成常量,不能更改 static修饰方法的特点 static修饰的方法,可以通过类名调用 static修饰的属性特点 在内存只有一份,被该类的所有…

msvcp140.dll丢失的解决方法的全面分析,msvcp140.dll文件的应用范围

在我们使用计算机的时候&#xff0c;偶尔会遭遇一些技术问题&#xff0c;其中一个比较常见的问题就是出现了"丢失msvcp140.dll文件"的提示。当我们的电脑告诉我们缺少了msvcp140.dll文件时&#xff0c;常常是因为某些程序无法找到这个文件而导致了程序的运行异常。那…

lightGBM的学习整理

执行步骤 1、初始化&#xff0c;选择一个初始模型&#xff0c;通常是一个常数&#xff0c;比如分类问题中内的类别概率的先验值&#xff0c;回归问题中的目标变量的平均值。 2、训练决策树&#xff0c;对于每一轮迭代&#xff0c;计算当前模型的梯度&#xff08;损失函数的负…

程序员如何选择职业赛道?看这宝典就够了

文章目录 程序员如何选择职业赛道&#xff1f;方向一&#xff1a;自我评估与兴趣探索方向二&#xff1a;提升技能水平方向三&#xff1a;考虑个人职业规划方向四&#xff1a;寻求职业咨询方向五&#xff1a;市场需求与趋势分析 总结 程序员如何选择职业赛道&#xff1f; 程序员…

LLM(十一)| Claude 3:Anthropic发布最新超越GPT-4大模型

2024年3月4日&#xff0c;Anthropic发布最新多模态大模型&#xff1a;Claude 3系列&#xff0c;共有Haiku、Sonnet和Opus三个版本。 Opus在研究生水平专家推理、基础数学、本科水平专家知识、代码等10个维度&#xff0c;超过OpenAI的GPT-4。 Haiku模型更注重效率&#xff0c;能…

智能排班系统 【聚合服务开发】

文章目录 聚合服务创建聚合服务添加依赖启动类问题整合所有微服务的配置文件到聚合服务中文件结构 其他微服务修改网关服务修改启动 聚合服务 为什么需要开发聚合服务&#xff1f; 答&#xff1a;微服务项目中&#xff0c;往往会将系统的功能进行分析&#xff0c;然后进行服务…

【Python】进阶学习:pandas--describe()函数的使用介绍

&#x1f40d;【Python】进阶学习&#xff1a;pandas——describe()函数的使用介绍 &#x1f308; 个人主页&#xff1a;高斯小哥 &#x1f525; 高质量专栏&#xff1a;Matplotlib之旅&#xff1a;零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程&am…