StarRocks上新,“One Data、All Analytics”还有多远?

K.K在《未来十二大趋势》中认为,我们正处于一个数据流动的时代。商业乃数据之商业。归根结底,你在处理的都是数据。

的确,当数据成为新的核心生产要素之际,数据分析就犹如最重要的生产工具之一,决定着企业在数字化时代生产力水平。近年来,无论国外的Snowflake、Databricks,还是国内StarRocks、PingCAP,大批数据分析型公司涌现,都旨在满足越来越多的数据分析需求,帮助各种企业充分释放数据生产力。

这其中,StarRocks就是数据分析领域一颗冉冉升起的新星。在短短几年时间里,StarRocks在Github获得star 6300+,成为同类开源数据库项目里增长最快的,并且在2022年底正式捐赠给 Linux Foundation,吸引到全球开发者和用户参与未来社区的建设。

正如StarRocks TSC Member、镜舟科技 CTO 张友东所言,StarRocks希望通过技术创新来简化数据技术栈,通过一个引擎实现全场景的“One Data、All Analytics”愿景。

为何需要“One Data,All Analytics”

当前,人工智能、大数据、物联网等数字化技术在不断提升企业生产力的同时,随之而来就是复杂性的持续提升。这种复杂性在数据领域体现的尤为明显,尤其是数据技术与业务场景的不断融合,复杂性困扰着诸多身处数字化转型的企业。

复杂性首先体现在数据本身,数据正加速走向海量化和多样化。过去,一家企业往往以结构化数据为主,数据规模通常是TB级别;现在,文本数据、轨迹数据、日志数据等非结构化数据大幅增加,PB级数据量正成为越来越多企业的常态。

其次,企业如今的业务场景日趋复杂,随之而来的就是数据栈相关技术、工具、产品大量增加。从过去单一的数据仓库,到现在指标平台、交互式分析、实时分析、流计算等等,企业面临的数据栈环境复杂程度远胜以往,并且随着AI相关技术融入,这种复杂性还在持续增加。

第三,数据消费需求的复杂性大幅提升。过去,数据消费仅仅是管理层少数人的“权力”;现在,“人人用数”已经成为众多企业追求的目标。例如,有些走在前沿的互联网、金融等企业,甚至一名普通业务员工都是数据消费者,并且在日常业务中随时会进行数据分析。

因此,在海量数据环境成为既定事实的情况下,企业在数据领域所面临的复杂性挑战将是数字化转型中一道必须面临的难题。在张友东看来,“One Data,All Analytics”是化解数据分析复杂性的关键,而StarRocks3.0版本的推出,为实现“One Data,All Analytics”目标前进了一大步。

StarRocks 3.0,产品大进阶

众所周知,数据分析类产品拥有多年历史。在大数据兴起之前,Teradata、Greenplum等传统数据仓库一直占据着主流市场位置;随着大数据兴起,以Hadoop 为代表的大数据平台迅速成为数据分析的基础平台;如今,云原生、湖仓一体等技术的兴起,加速推动着数据分析产品的创新。

当前,数据分析类相关的公司众多。不过,StarRocks用出色表现吸引了业界的大量关注。自从2021年9月份正式开源以来,StarRocks已成长为开源领域的明星项目,获得了全球开发者的认可。在笔者看来,StarRocks之所以在短时间即获得阶段性的成功,关键在于产品的迭代速度和创新能力。

从开源至今,StarRocks已经历了三个大版本的迭代,从1.0版本主打性能,到2.0版本围绕融合统一,再到现在3.0版本围绕湖仓一体的创新,StarRocks成为当下数据分析领域现象级的产品。

以数据仓库架构为例,存算分离是大势所趋。随着云原生等技术的高速发展,通过存算分离架构,计算、存储等资源可以更好地弹性化,以应对业务对于资源的使用,从而实现成本、效率的最优化。StarRocks 3.0同样采用了存算分离架构,架构设计高度抽象且极简,无需依赖复杂组件,具有极强的扩展性和弹性;并且支持Multi-Warehouse,多个Warehouse共享一份数据,不同 Warehouse 应用在不同工作负载,计算资源可以进行物理隔离,内部按需独立弹性伸缩。

“存算分离架构真正带来两大价值:降本增效和弹性伸缩。像在存储层面,采用存算分离架构后的StarRocks 3.0整体存储成本可以下降80%,而计算节点则因为无状态,可以通过快速弹性、跨可用区部署等方式来提高计算的可用性,并且计算资源能够进行物理隔离,按需独立弹性伸缩。”张友东介绍道。

另外,湖仓走向一体化也是数据分析产品的一大重要趋势。通常,企业在经历了多年的数字化转型之后,都会存在着数据仓库和数据湖两种数据分析技术栈,它们各具特点与优势,数据仓库往往具备数据质量高、性能出色、实时分析强等优势,而数据湖则可以存储各种不同类型的数据,扩展性和开放性强。因此,融合数据仓库与数据湖的各自优势就成为业界努力的方向。

当前,业界并不缺少湖仓相关的解决方案。比如在湖上性能不满足,采用湖上建仓的方案加速查询;再如数据仓库扩展查询外部数据湖能力等。

张友东直言,这些方案更像是一种组合式方案,并没有真正做到湖仓一体,“湖仓一体意味着一套架构满足所有数据分析的需求,也即One Data,All Analytics。”

以StarRocks 3.0的湖仓一体化架构为例,实现了数据统一存储管理,一份数据作为 Single source of truth;另外,强大的分析引擎可以基于一份数据,满足包括BI 报表、交互式分析、实时分析、ETL 数据加工等场景的查询诉求;更加关键的是,具备按需数据加工/查询加速的能力。

“未来数据分析演进的趋势肯定是湖仓一体,用户无需关注建湖还是建仓,核心目标是低成本、高效的解决数据分析问题。”张友东补充道。

此外,随着数据量和业务复杂性的大幅提升,使得ETL成为一件极为辛苦的工作,通常需要耗费大量人力、精力在ETL相关工作上。对此,StarRocks 3.0也在瞄准No ETL的方向,在整个数据管理中减少ETL的工作量,并且通过物化视图让用户尽量不感知ETL,从全链路层面致力于简化ETL的pipeline。

毫无疑问,StarRocks 3.0版本的推出是StarRocks项目发展的一个关键节点。这意味着StarRocks 产品力已经实现重要的突破,可以助力用户实现全场景的数据分析架构统一,也为自身带来了更加广阔的市场空间。

多个头部客户青睐,StarRocks未来值得期待

随着数据驱动型应用大量涌现,数据分析、数据消费需求也随之产生。Gartner认为,数据分析已成为企业数字化转型中致力于建设的核心能力。因此,数据分析赛道未来具有极为光明的前景。

毫无疑问,从StarRocks的社区发展、用户群、商业生态建设等情况拉看,StarRocks正处于一个高速发展的极端,未来值得更多的期待。

其一,得益于对于开源理念的坚持,StarRocks 开源社区一直处于非常活跃的状态,为后续的发展带来了十足的生命力。目前,社区开发工作由镜舟科技主导推进,并且贡献了70%以上的核心代码;此外,阿里云、腾讯、火山引擎、滴滴出行等头部企业已经积极参与到社区之中,并且持续给社区贡献了物化视图、CN 弹性节点等诸多重要特性。

其二,得益于行业头部客户的积极参与和产品创新力的提升,StarRocks产品在金融、零售、物流、制造和互联网等多个行业头部用户的复杂业务场景中得到锤炼。据悉,目前有超过 300家市值10亿美金以上的大型用户在生产环境使用 StarRocks,场景覆盖 BI 报表、交互式探寻分析、实时分析、湖仓分析等一系列场景,未来有望在场景应用中持续推动产品创新与快速迭代。

其三,StarRocks 重视商业生态的建设。除了头部行业用户使用之外,StarRocks目前与国内各大云服务商均有合作,致力于借助云计算这个大生态来推动开源项目的商业化,让产品走向更加广泛的市场群体,在市场竞争中获得成长。

“相比于北美等发达市场,中国市场的数据分析还有巨大的潜力空间,StarRocks希望通过技术创新帮助更多用户实现One Data,All Analytics。”张友东最后表示道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/216023.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ADAudit Plus:强大的网络安全卫士

随着数字化时代的不断发展,企业面临着越来越复杂和多样化的网络安全威胁。在这个信息爆炸的时代,保护组织的敏感信息和确保网络安全已经成为企业发展不可或缺的一环。为了更好地管理和监控网络安全,ADAudit Plus应运而生,成为网络…

CO11N报工时,在填入返工数量后自动产生返工工单

本文档主要说明一种返工流程,当工人报工时,填写返工数量、变式原因即可启动触发点自动创建返工订单,被创建的反工订单为无料号生产订单,且关联报工订单。涉及系统功能点包括状态参数 一、 后台配置 1).用户状态参数:BS02(SPRO-生产-商店低价控制-主数据-订单-定义状态…

ROS2 galactic生成的bag包里的MarkerArray在humble下播放不正常

近期发现ROS2 galactic下生成的bag包在humble下回放时使用rviz可视化,bag里的点云可以正常看到,但是使用Marker和MarkerArray画的box却死活看不到,感觉很纳闷,看网上有人报告说foxy下生成的bag包在galactic下播放会报SQL错误&…

干货|水表基础知识大全

第一部分 水表基础知识 第一节 水表的作用 水表:是用来记录流经自来水管道中水量的一种计量器具,也称为计量器具。 1、水表的发展简史 1825年英国的克路斯发明了真正具有仪表特征的平衡罐式水表以来,水表的发展已有近二百年的历史。期间,水表的结构…

SystemVerilog基础:并行块fork-join、join_any、join_none(一)

相关阅读 SystemVerilog基础https://blog.csdn.net/weixin_45791458/category_12517449.html?spm1001.2014.3001.5482 有关Verilog中顺序块和并行块的相关内容已经在之前的Verilog基础的文章讲过,如下所示。 Verilog基础:块语句https://blog.csdn.net…

11、pytest断言预期异常

官方用例 # content of test_exception_zero.py import pytestdef test_zero_division():with pytest.raises(ZeroDivisionError):1/0# content of test_exception_runtimeerror.py import pytestdef test_recursion_depth():with pytest.raises(RuntimeError) as excinfo:def…

MySQL基础『数据类型』

✨个人主页: 北 海 🎉所属专栏: MySQL 学习 🎃操作环境: CentOS 7.6 阿里云远程服务器 🎁软件版本: MySQL 5.7.44 文章目录 1.数据类型一览2.整型2.1.INT2.2.BIT 3.浮点数3.1.FLOAT3.2.DECIMAL3…

紫龙游戏解锁Jira与Perforce的游戏开发行业实践

近日,在龙智携手Atlassian与JFrog共同举办的“大规模开发创新:如何提升企业级开发效率与质量”的线下研讨会中,紫龙游戏上海研发中心高级项目管理主管叶凯威为大家带来了精彩演讲, 分享紫龙游戏的项目管理工具与流程,以…

将数据库配置迁移nacos报错:Request nacos server failed:

网上查了很久大部分都是版本不一致导致造成,但是没迁移的时候就可以,为啥迁移了就不行了呢? 最后排查发现:application.yml文件我注释掉的数据库配置 多注释了一个Spring开头

学SQL JOINS看这一篇文章就够了

目录 下面以实例进行分析 内连接 inner join 或者join(等同于inner join) 外连接 left join 或者left outer join(等同于left join) [ left join 或者left outer join(等同于left join) ] [ where B.column is null ] right join 或者right outer…

【有ISSN、ISBN号!往届均已完成EI检索】第三届电子信息工程、大数据与计算机技术国际学术会议(EIBDCT 2024)

第三届电子信息工程、大数据与计算机技术国际学术会议(EIBDCT 2024) 2024 3rd International Conference on Electronic Information Engineering, Big Data and Computer Technology 第三届电子信息工程、大数据与计算机技术国际学术会议(…

广告公司选择企业邮箱的策略与技巧

对于广告公司而言,选择一款适合的企业邮箱不仅能提升工作效率,更能维护并强化公司的品牌形象。以下是在选择企业邮箱时需关注的关键因素和注意事项。 1、邮件服务商的安全性。 邮件服务商应具备严密的安全防护措施,包括反垃圾邮件、防病毒、防…

macOS安装JDK8

在这篇博客的基础上进行补充。 https://blog.csdn.net/Sarah_luxy/article/details/128797756 百度搜索jdk8,选择官网进入 下载需要注册账户,提前注册登录 进入到Java SE中 选择下载 选择java归档,在历史版本里找jdk8 下拉找到jdk8 选…

老化房设备材料选型要素

一:选择高温老化试验设备时,需要考虑以下几个因素: 温度范围:根据待测材料或产品的使用环境和需求,选择合适的温度范围。确保试验设备的最高和最低温度能够满足需求。控温精度:控温精度越高,试…

Flink运行时架构核心概念

Flink运行时架构 JobManager:协调,决定何时调度下一个task,对失败任务做恢复。 ResourceManager: 负责Flink集群中的资源提供、回收、分配,它负责管理task slot。standalone模式下,不能自行启动新的taskmanagerDispatc…

Linux DataEase数据可视化分析工具本地部署与远程访问

文章目录 前言1. 安装DataEase2. 本地访问测试3. 安装 cpolar内网穿透软件4. 配置DataEase公网访问地址5. 公网远程访问Data Ease6. 固定Data Ease公网地址 前言 DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务…

新书推荐——《Copilot和ChatGPT编程体验:挑战24个正则表达式难题》

《Copilot和ChatGPT编程体验:挑战24个正则表达式难题》呈现了两方竞争的格局。一方是专业程序员David Q. Mertz,是网络上最受欢迎的正则表达式教程的作者。另一方则是强大的AI编程工具OpenAI ChatGPT和GitHub Copilot。 比赛规则如下:David编…

Spring Security6 快速实战

Spring Security 介绍 官网:https://spring.io/projects/spring-security Spring Security 定义 Spring Security 是一个能够为基于 Spring 的企业应用系统提供声明式的安全访问控制解决方案的安全框架。Spring Security 主要实现了认证和授权,SpringSe…

多波束EM2040D甲板单元更换CPU主板记录

前段时间多波束EM2040D甲板单元的CPU主板到货了。趁着船刚好靠港避风,我们带着这块主板去替换之前借来EM2040C的CPU主板。 1、CF卡替换问题 老主板有个CF卡,见下图。最好的解决方法就是将老CF卡替换新CPU主板上的新CF卡,因为这样改动最小。…

单目相机测距(3米范围内)二维码实现方案(python代码 仅仅依赖opencv)

总体思路:先通过opencv 识别二维码的的四个像素角位置,然后把二维码的物理位置设置为 cv::Point3f(-HALF_LENGTH, -HALF_LENGTH, 0), //tl cv::Point3f(HALF_LENGTH, -HALF_LENGTH, 0), //tr cv::Point3f(HALF_LENGTH, HALF_LENGTH, 0), //br cv::P…