超级独角兽 Databricks 的崛起之路

在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 

随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。

然而,他们面临着复杂的遗留基础设施、数据孤岛的解决以及高延迟的管理等挑战。因此,数据湖的需求逐渐增长。数据湖是一种存储库,能够以本机格式摄取大量原始数据,使企业能够在需要时轻松地访问它们。

Databricks 是目前一级市场中的超级独角兽公司。其帮助企业准备用于分析的数据,支持采用机器学习和数据驱动的决策。它还使数据科学能够与数据工程和其他业务部门协作来构建数据产品。今天,它已经扩展成为一个更广泛的湖仓一体的 Databricks Marketplace。

01 旅程始于 Apache Spark

Databricks 团队由七位计算机科学博士组成,他们一直致力于开发用于数据处理的 Spark 引擎。该项目在 2014 年创造了数据排序速度的世界纪录。

为了让更多用户使用 Spark,他们选择将其开源,并在 2013 年创立了 Databricks 公司。同年,该公司完成了 A 轮融资,由 A16z 领投。2016 年 1 月,Databricks 更换了新的 CEO。一年后,该公司完成了第一笔百万美元的交易。

总体而言,Databricks 团队是 Apache Spark 的核心开发者,具有绝对的影响力和理解力,因此作为 Spark 的商业化公司,Databricks 名正言顺。

02 拓展产品线助力收入多元化

Databricks 最初专注于 Spark,用于查询存储在数据湖中的大型非结构化数据集。此后,为迎合市场,Databricks 升级为湖仓一体平台,其基于 Spark 构建,提供为数据湖提供 ACID 事务和数据版本控制的 Delta Lake;用于管理机器学习工作流程的开源平台 MLflow;以及基于 SQL 的数据分析协作工具 Redash。

总体来看,Databricks 湖仓一体平台结合了数据湖和数据仓库的元素。它具有数据湖的灵活性、成本效益和规模,同时还提供数据仓库的数据管理和 ACID 事务。用户可以在所有数据上启用商业智能和机器学习。

Databricks 产品在 AWS、Azure、GCP 等主要云服务上提供,其平台为数据、分析和机器学习工作提供了一个统一的环境。可视化可以成为这些不同活动的组成部分。

来源:Databricks

03 数据湖市场增长,用户横跨大中小

Databricks 相信企业正在摆脱孤立的系统来存储数据,而是选择集中式的数据存储。这种方法帮助企业通过商业智能和预测分析深入了解过去和未来的趋势。

数据湖技术正是基于此,其允许将所有数据类型和来源存储在一起。数据表明,数据湖市场将由 2019 年的 79 亿$增长到 2024 年的 201 亿$。

来源:marketsandmarkets

此外,Databricks 的客户横跨大中小企业,以及各个行业。截至 2023 年 03 月,其全球已有超过 9000 家企业用户。包括 AT&T、壳牌、巴宝莉、丰田、Adobe、康泰纳仕和再生元制药等。

如果我们用 Databricks 2022 年 Q2 末的 ARR 10亿$除以它 2022 年 Q2 末 7000+的客户数量,我们可以粗略估算 Databricks 的 ACV(平均合同价值)约为 14.3 万美元,相比 Snowflake 的 30.1 万$ (2023.Q3 估算),仍有提升空间。

04 三类对手的夹击

2012 年,前 Oracle 架构师创立的 Snowflake 是 Databricks 不可忽视的对手。最初,Snowflake 将自己定位为提供数仓和分析计算工作负载的云数据平台,主要面向业务分析师和数据工程师等用户。同期,Databricks 则一直受数据科学家和机器学习工程师的青睐。

但现在二者的界限在模糊,比如 Snowflak 发布了 Snowpark for Data Science、事务数据库以及 Python 支持功能,希望以此吸引数据科学家。而 Databricks 则推出了 Databricks SQL、Delta Lake 功能和 Unity 目录等产品,以满足数据存储和注重安全的客户。

从模式来看,Snowflake 是闭源生态,而 Databricks 是开源的。Databricks 的主要产品线都可以免费使用,当客户需要获得更高级的功能和支持时,可以选择 Databricks 的企业产品。Snowflake 提供现成的解决方案,使公司能够快速开展基本分析,而 Databricks 提供更好的定制和配置,让客户能够完全控制他们的设置。

2022 年底,Snowflake 的年收入 21 亿$,而 Databricks 预计年收入 14亿$。预计两家的竞争会愈发激烈。

第二类竞争对手是云厂商。Databricks 与云厂商的专有产品存在竞争。比如在大数据处理方面,AWS 有 Amazon EMR,Azure 有 Azure HDInsight,GCP 有 Dataproc。在业务分析解决方案层面, Amazon QuickSight、Azure的 Power BI Embedded 以及 GCP 的Looker 等,都与 Databricks 存在竞争。

最后,Databricks 与特定的数据管理和科学领域解决方案公司也存在竞争。比如 Databricks 的调度程序类似 Apache Airflow,MLflow 产品与 DataRobot 和 Alteryx 竞争。

05 收入持续增长,资本认可的超级独角兽

Databricks 本身是开源软件,其会通过提供附加功能收费。Databricks 会为企业提供其开源软件的完全托管版本,以及其他辅助工具,如用于编写查询的 SaaS 工具和用于连接数据源的连接器等。

付费模式方面,Databricks 根据客户每秒消耗的计算资源量收费。为此,其使用了一种自己独创的 DBU 作为其标准化单位,工作负载消耗的 DBU 数量取决于多个指标,包括使用的计算资源、处理的数据量、区域、所处的分级定价层以及正在使用的服务类型等。

此外,为了吸引用户,与其他开源公司类似,Databricks 也为用户提供了 14 天免费试用期。

来源:Databricks

财务方面,Databricks 也实现了跨越式的增长。2019.Q3 结束时其 ARR 为 2 亿$,2020 全年收入 4.25 亿$,2021 年 ARR 超 8 亿$。截至 2022 年 08 月,Databricks 的 ARR 已经超 10 亿$,并且年增长超过 70%。

截至 2021 年 08 月 Databricks 的估值 380 亿$,总共在资本市场筹集了 35 亿$,其投资者也星光璀璨,包括 A16z、Tiger Global、Amazon Web Services、Microsoft、Coatue 等。

当然也有消息透露,2022 年 10 月 Databricks 降低了内部股价,使其估值下调至 310 亿$,比 2021 年同期下降约 7%。但无论如何,Databricks 仍然是一级市场中的超级独角兽。

06 趋势、机遇与风险

随着云存储成本下降和网速提升,企业越来越多地选择将所有数据存储在中央存储库,而不是将不同的数据类型单独存储。这种集中化趋势帮助公司通过实时商业智能和预测分析更好地了解业务运营。同时,数据爆炸式增长也使公司维护多个大型数据存储变得不切实际,从而导致数据湖和数据仓库融合到一个平台中。

ChatGPT 一直是各行业的热点。Databricks 也迎接了这一浪潮,其湖仓一体平台允许数据团队存储和保护数据、生成分析和见解,并推动机器学习工具的开发。此外,Databricks 还提供与 TensorFlow、PyTorch 等流行人工智能框架的集成,使构建和部署机器学习模型变得容易。

Databricks 依靠 AWS、Azure 和 GCP 这类云基础设施供应商来提供服务。回望过去,与微软的合作是 Databricks 的里程碑,这帮助其收入从 2017 年初的不到 100 万$增长到 2018 年的超过 1 亿$。如果与主要云厂商关系发生变化,将影响 Databricks 的服务能力。

综上所述,我们有理由相信虽然面临挑战,但在这个数据扩张以及 AI 兴起的时代,Databricks 为企业提供的单一的数据存储和分析平台是有价值的,其很有机会和能力抓住这一浪潮。

作者简介

郑博,Aka Harbour 哈博。崔牛会非著名牛油,人到中年的 2B 基础架构创业老炮,CnosDB 云原生时序数据库开源社区发起人。

CnosDB简介

CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。

欢迎关注我们的社区网站:https://www.cnosdb.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/21318.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

通过关键字搜索接口获取alibaba国际站商品列表

作为一名技术爱好者,我们总会遇到各种各样的技术问题,需要寻找合适的技术解决方案。而在互联网时代,我们可以快速通过搜索引擎获取丰富的技术资源和解决方案。然而,在不同的技术分享中,我们常常会遇到质量参差不齐的文…

计算机网络第一章(谢希仁第8版学习)

作者:爱塔居 专栏:计算机网络 作者简介:大三学生,希望和大家一起加油 文章目录 目录 文章目录 一、网络、互连网、互联网(因特网)的概念 二、因特网的组成 三、交换方式 3.1 电路交换 3.2 分组交换 3.3 电路…

微信小程序nodejs+vue校园二手商城交易(积分兑换)38gw6

随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,校园二手交易被用户普遍使用,为方便用户能够可以随时…

实操带你使用Mybatis_plus(2)

文章目录 一、通用ServiceService CRUD 接口a> IServiceb>创建Service接口和实现类测试 二、常用注解1、TableName2、TableId雪花算法3、TableField4、TableLogic 一、通用Service Service CRUD 接口 通用 Service CRUD 封装IService 接口,进一步封装 CRUD …

大模型高效调参—PEFT库( Parameter-Efficient Fine-Tuning)

介绍 在面对特定的下游任务时,如果进行Full FineTuning(即对预训练模型中的所有参数都进行微调),太过低效;而如果采用固定预训练模型的某些层,只微调接近下游任务的那几层参数,又难以达到较好的…

桥梁安全监测,智能化桥梁结构健康监测方案

桥梁是现代城市交通网络中不可或缺的组成部分,但由于长期受到自然环境和人为因素的影响,桥梁的安全问题一直备受关注。传统的桥梁检测方式主要是靠人力进行巡查,这种方式效率低下、成本高,而且难以全面掌握桥梁结构的真实情况。随…

软件测试外包干了4年,感觉废了..

先说一下自己的情况,大专生,18年通过校招进入湖南某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

国考省考行测:资料分析,两年复合增长率

国考省考行测:资料分析,两年复合增长率 2022找工作是学历、能力和运气的超强结合体! 公务员特招重点就是专业技能,附带行测和申论,而常规国考省考最重要的还是申论和行测,所以大家认真准备吧,我讲一起屡屡…

聊一聊适配器模式

接口不能用?行,我帮你适配 一、概述 适配器模式(Adapter),是23种设计模式中的结构型模式之一;它就像我们电脑上接口不够时,需要用到的拓展坞,起到转接的作用。它可以将新的功能和原…

SNAP软件处理Sentinel-2 L2A数据为hdr或者tif文件

1.打开Sen2Cor插件处理好的或者下载好的L2A文件 若不知道如何将下载的L1C数据处理为L2A级数据可查看该篇博文 Sentinel-2数据下载及处理_dropoutgirl的博客-CSDN博客 在Bands文件夹下少了B10波段栅格文件: 这主要是因为波段10是卷云波段,需要的大气顶部&#xff0…

【观察】从业界首款“空间穿越屏”,看华为全屋智能的进化与重构

这个时代,“家”的构成不再是简单的一家三口,客厅、厨房、卧室也不再只是承担某个单一功能或场景的空间。 无数身在异乡打拼的青年,开始向往一个专属的独立空间;那些奔波劳碌的中年夫妻,在为家人创造更好生活环境的同时…

Win11系统不兼容怎么回退到Win10系统使用?

Win11系统不兼容怎么回退到Win10系统使用?有用户将自己的电脑系统升级到了Win11之后,发现使用起来非常的卡顿,自己的电脑配置不足。那么这个情况怎么去进行问题的解决呢?来看看以下详细的解决方法分享吧。 准备工作: 1…

君正X2000 Linux SDK

一、测试所用的硬件 深圳君正开发板:PD_X2000_EVB_CORE_V1P1 二、SDK源码下载 参考君正官方教程:君正全平台linux源码同步教程(除X1830人脸识别板)_君正a1n linux_北京君正的博客-CSDN博客 教程中要求的系统为Ubuntu20.4&#…

Clion开发STM32之OTA升级模块(一)

什么是OTA 百度百科解释个人理解:就是不通过烧录的方式,通过串口、网口、无线对主板运行的程序进行升级。减少后期的一个维护迭代程序的一个成本。 STM32的OTA升级模块的一个设计 程序启动的一个框架流程图(大致流程) FLASH的一个划分框图 BootLoader…

未来源码|Dart 3正式发布:100%健全的空值安全、迄今为止最大版本

推荐语: 自从 Flutter Forword 发布了 Dart 3α 预览 之后,大家对 Dart 3 的正式发布就一直翘首以待,这不仅仅是 Dart 版本号追上了 Flutter 版本号,更是 Dart 在 2.0 之后迎来的最大一次更新。Dart 3将只支持健全的Null安全&am…

c/c++ 宏定义里的#和##

工作中如果是c开发的话&#xff0c;经常会用到宏定义&#xff0c;而宏定义中的#和##也会时不时遇到&#xff0c;今天分享这两个符号的作用。 1&#xff0c;# -- 转换成字符串 直接看例子&#xff1a; #include <stdio.h> #include <stdlib.h>#define VAL2STR(VA…

肝一肝设计模式【八】-- 外观模式

系列文章目录 肝一肝设计模式【一】-- 单例模式 传送门 肝一肝设计模式【二】-- 工厂模式 传送门 肝一肝设计模式【三】-- 原型模式 传送门 肝一肝设计模式【四】-- 建造者模式 传送门 肝一肝设计模式【五】-- 适配器模式 传送门 肝一肝设计模式【六】-- 装饰器模式 传送门 肝…

mysqlbinlog delete恢复成insert

不小心把数据删掉了 首先要拿到binlog文件 执行以下命令行 /usr/local/mysql/bin/mysqlbinlog --base64-outputdecode-rows --start-datetime“2023-05-19 09:01:32” --stop-datetime“2023-05-19 09:01:35” -v /Users/zylong/Downloads/mysql-bin.003178 --result-file/Use…

蓝桥:前端开发笔面必刷题——Day1 数组(一)

文章目录 &#x1f4cb;前言&#x1f3af;数组中重复的数字&#x1f4da;题目内容✅解答 &#x1f3af;两数之和&#x1f4da;题目内容✅解答 &#x1f3af;替换空格&#x1f4da;题目内容✅解答 &#x1f3af;二维数组中的查找&#x1f4da;题目内容✅解答 &#x1f4dd;最后 …

C#串口通信从入门到精通(14)——多个串口接收数据

文章目录 前言1、多串口数据的接收2、源码前言 我们在开发串口通信程序时,有时候会需要连接不止一个串口,这时候该怎么写程序呢?本文就来介绍多个串口数据的接收 1、多串口数据的接收 我们在之前的专栏中介绍了串口数据的发送,当时有提到过,我们是通过创建一个SerialPo…