分解数据堆栈:存储和计算 2.0 的分解

在LinkedIn上,有一篇优秀的帖子在数据和数据库人群中流行。它由 Theory VC 合伙人 Tomasz Tunguz 撰写,讲述了我们自 2019 年以来讨论的趋势。

数据库正在成为高速查询引擎,并正在抛弃存储。这并不意味着存储不重要,相反,它比以往任何时候都更重要,这意味着高速查询处理是一项核心能力,它与存储竞争。数据库希望专注于数据库内容,他们希望存储专注于存储内容。

它是分解 2.0。我们看到了第一波浪潮,当时 HDFS 在它自己的要求下崩溃了,它要求每个存储节点都有一个计算节点(高速查询处理)。

想想Cloudera、Oracle和其他公司所采用的单一式数据库管理方法。在用户刚刚开始考虑大规模数据的时候,这种方法起到了作用。事实证明,它没有扩展。在数据优先的世界中,存储/计算紧密耦合的托管服务数据平台很快被识别为站不住脚,因为存储需求大大超过了计算需求。

让我们深入研究分解 2.0。

拆分数据库

想象一下,在图书馆中,书籍(数据)和阅读台(计算资源)是分开的。读者(查询)可以访问他们需要的任何书籍,而无需绑定到特定的办公桌。这种设置允许图书馆根据需求调整办公桌数量,从而优化空间和资源。同样,在数据库中分解存储和计算可以灵活高效地处理数据;而传统的存储和计算紧密耦合的设计限制了灵活性,并将用户锁定在特定的供应商生态系统中。

开放数据格式的兴起和对现代数据湖基础设施的需求

用户需要更多的控制和灵活性。如果您需要第一手证据,请收听 Snowflake 最近的财报电话会议或阅读文字记录。这是一个以客户为中心的组织,他们正在竞相采用 Open Table 格式(尤其是 Iceberg),并在此过程中放弃存储收入,因为这是他们的用户想要的。这让他们在短期内损失了数十亿美元的市值。不是数百万,数十亿。你随处可见的不仅仅是雪花。SQL Server、Teradata、ClickHouse、Greenplum 等。拥有大量数据企业的客户越来越多地推动和接受以下要求:

  • **开放表格式:**Iceberg、Hudi 和 Delta Lake 等格式可实现不同系统之间的无缝数据交换。这种互操作性使企业能够为特定任务选择最佳工具。

  • **集中式数据存储:**不是将用于各种目的(分析、AI 等)的数据复制到孤立的数据集市中,而是将中央存储解决方案或数据湖作为架构蓝图。这些数据湖需要在许多不同的用例中存储组织的所有数据。不同的系统不是数据集市,而是根据需要从一个中心位置访问和处理这些数据。

分解 2.0 的好处

在分解 1.0 中,驱动因素主要是成本、简单性和避免锁定:

  • **节省成本:**将存储与计算分开后,两者可以独立扩展。与计算相比,存储通常费用较小,并且自然地将两者分开的体系结构允许两个用户适当调整性能和成本效益。

  • **简化架构:**分解架构更加模块化,更易于管理。企业可以为存储、计算和各种数据处理任务选择最佳解决方案。使用这种管理数据堆栈的现代方法,确实没有必要受到病态和不适当的技术的阻碍。

  • **避免供应商锁定:**通过将计算与存储分开,不同的供应商可以在价格、性能和特定于每个工作负载的功能等因素上展开竞争。这促进了更具活力和创新性的数据处理环境。

在分解 2.0 中,优势在于性能、可扩展性和可选性:

  • **性能:**对于数据库来说,存储和计算的分离为构建同类最佳架构提供了机会。对于 Snowflake,他们致力于成为市场上速度最快、性能最高的查询引擎。在软件领域,可能没有比数据库更具竞争力的市场了。这是一项战略要务。它还允许他们的客户在存储方面做出类似的、以性能为导向的最佳决策。这些显然是对象存储决策,但哪些(AWS S3、Azure Blob、GCP Object、MinIO)将取决于客户试图实现的目标。我们不想在这一点上大惊小怪,但我们不理解那些现在声称自己是数据库公司并希望以数据平台为幌子与 Snowflake 和 Databricks 竞争的存储公司。那里有一个伊卡洛斯的故事。

  • **可扩展性:**我们正在进入人工智能领域的未知领域,这甚至会影响到像Snowflake这样的巨头。他们想要,坦率地说,他们需要能够以更多方式处理更多数据。数据库,而不仅仅是 Snowflake,需要就它们提供的价值变得更加可扩展。这也是他们的客户想要的。Snowflake是一种利用模式,利用率越高,他们得到的报酬就越多。当您将存储与计算分开时,它为 Snowflake 及其计算端的客户释放了一系列选项,因为他们不必承担共同设计存储解决方案的负担(考虑到他们一直在转售别人的对象存储,他们对存储解决方案的影响力有限)。现在,Snowflake 可以突破极限,推动客户采用能够跟上步伐的存储。这对每个人都有好处(正如你所想象的那样,对世界上最快的对象存储来说真的很好)。

  • **可选性:**最后,分解 2.0 为客户带来了更多的可选性。他们能否继续使用现有的模型(Snowflake + 云对象存储)——是的。他们能否采用存储与计算分离的新技术(通过外部表)——是的。这种额外的选择始终是积极的,客户在分解 2.0 中获得了更多。

数据管理的新时代

虽然数据仓库供应商熟悉存储和计算分离的概念,但过去的实施主要集中在他们自己的生态系统内进行扩展。在这方面,用户才刚刚开始意识到像超大规模企业一样思考的优势。当前的运动要求对所有用户进行更深层次的分离,其中存储成为一种独立于计算层的实用程序。

这种范式转变使企业能够释放其数据的真正潜力。对于需要大量干净、可用数据才能成功的 AI 和 ML 工作负载来说尤其如此。开放的数据格式和分解的架构使企业能够利用更广泛的工具和技术从其数据资产中获取最大价值。

未来属于开放、灵活且经济高效的数据架构。存储和计算的分解为数据管理的新时代铺平了道路,使企业能够利用其信息的真正潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/732840.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

蔚来汽车AI算法工程师,如何理解注意力?

大家好啊,我是董董灿。 今天分享一个上海蔚来汽车的AI算法岗位面试经验总结帖,面试岗位为算法工程师。 这次面试提到的问题,除了与实习相关内容和反问之外,面试官总共问了8个问题,主要集中在深度学习基础概念的理解上…

Python发送HTML邮件有哪些步骤?怎么设置?

Python发送HTML邮件如何实现?Python发送邮件的策略? HTML邮件不仅可以包含丰富的文本格式,还可以插入图片、链接和其他多媒体内容,从而提升邮件的美观性和功能性。AokSend将详细介绍Python发送HTML邮件的主要步骤,帮助…

C++ | Leetcode C++题解之第172题阶乘后的零

题目: 题解: class Solution { public:int trailingZeroes(int n) {int ans 0;while (n) {n / 5;ans n;}return ans;} };

Vue75-路由传参3

一、在index.js中使用props参数 1-1、写法一:值为对象 此时,参数是固定写死的,不推荐! 1-2、值为布尔值 此时只能收到params中的参数! 1-3、值为函数 (最强大) 二、小结

微信小游戏提审失败,小游戏内容涉嫌代码包内容侵权的解决方案

仅讨论正常开发提审遇到的问题,不适用于马甲包 前阵子提审了一款RPG游戏,因为游戏之前已经通过审核,这次发布的仅是一个小更新(十几行代码的样子),结果也莫名其妙未通过审核,理由如下&#xff…

github连接报本地

一、创建GIthub账号 这里默认大家已经创建好了并且有加速器,能正常上网,然后才能进行下面的操作。 二、创建ssh公钥 网址:Sign in to GitHub GitHub Sign in to GitHub GitHub 进入下面的界面: 然后创建新的密钥 三、官方文…

HarmonyOS Next 系列之沉浸式状态实现的多种方式(七)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现(一) HarmonyOS Next 系列之验证码输入组件实现(二) HarmonyOS Next 系列之底部标签栏TabBar实现(三) HarmonyOS Next 系列之HTTP请求封装和Token…

Hive笔记-5

240619-Hive笔记-5 6.2.2 全表和特定列查询 1) 全表查询 hive (default)> select * from emp; select 查看你要查看的信息 from 你要从哪张表里面查 2) 选择特定列查询 hive (default)> select empno, ename from emp; 注意: (1&#xff0…

qt开发-08_layout 布局

Qt 提供了非常丰富的布局类,基本布局管理类包括:QBoxLayout、QGridLayout、QFormL ayout 和 QStackedLayout。这些类都从 QLayout 继承而来,它们都来源于 QObject(而不是 QWi dget)。创建更加复杂的布局,可…

python18 正则表达式

python18 正则表达式 正则表达式 re.match(),re.search(),re.findall(),re.sub(),re.split() 元字符 具有特殊意义的专用字符 导入模块 improt re代码 正则表达式 re.match(),re.search(),re.findall(),re.sub(),re.split() 元字符 具有特殊意义的专用字符 导入模块 improt rei…

两种单例模式(保证线程安全)

开始前,球球各位读者给个三连吧,有错误感谢指出,谢谢 单例模式也叫单个实例,也就是这个类只有且只能有一个实例对象,这样一个类就叫做“单例”;单例模式有很多种,这里只介绍“饿汉模式”和“懒…

抖音商城618好物节消费数据报告发布,带货成交额同比增长300%

6月21日,“抖音商城618好物节”消费数据报告发布,呈现618期间平台全域经营情况及大众消费趋势。 今年618大促活动中,抖音电商投入流量资源和消费券,鼓励商家、达人双向经营货架场景和内容场景,不断激活消费市场。 报…

202406最新manjaro安装sogou输入法解决方案(采用aur本地package+sogou deb包解决方案)

本地执行安装方法 1.拉取源码 git clone https://gitee.com/liushuai05/fcitx-sogoupinyin.git cd fcitx-sogoupinyin 2.获取sogou下载地址并替换到源码中 - 下载地址:https://pinyin.sogou.com/linux/ - 点击立即下载->x86_64->下载,然后右键复…

超级管道,品质非凡——钢塑复合管

钢塑复合管,是一种新型的复合管材,又叫涂塑钢管,涂塑钢管有内涂塑钢管,外涂塑钢管,内外涂塑钢管,外镀锌内涂塑钢管,外3pe防腐内涂塑钢管等。 它结合了钢管和塑料管的优点,具有高强度…

Python学习路线

Python学习路线 领取资料 一、Python基础知识 Python入门:了解Python的安装方法、如何运行Python程序以及交互模式的使用,同时学习注释的添加方法。 数据类型:掌握Python中的各种数据类型,包括数字、布尔值、字符串、列表、元…

Golang笔记:使用serial包进行串口通讯

文章目录 目的使用入门总结 目的 串口是非常常用的一种电脑与设备交互的接口。这篇文章将介绍golang中相关功能的使用。 本文使用的包为 :go.bug.st/serial https://pkg.go.dev/go.bug.st/serial https://github.com/bugst/go-serial 另外还有一些常见的包如&…

Junit单元测试

就是针对最小的功能单元,编写测试代码对其进行正确性测试 Junit单元测试框架 public class StringUtil {public static void printNumber(String name) {if(name null){System.out.println(0);return; //停掉方法}System.out.println("名字长度是:" name.length(…

基于支持向量机的垃圾邮件分类,使用SVM+flask+vue

sms-classify 基于支持向量机的垃圾邮件分类,使用SVMflaskvue 数据集和源码地址 数据集 SMS Spam Collection Data Set 来源于 UCI。样例被分为非垃圾邮件(86.6%)和垃圾邮件(13.4%),数据格式如下&#xff…

Why RAG is slower than LLM?

I used RAG with LLAMA3 for AI bot. I find RAG with chromadb is much slower than call LLM itself. Following the test result, with just one simple web page about 1000 words, it takes more than 2 seconds for retrieving: 我使用RAG(可能是指某种特定的…

高考志愿填报,二个准备三个重点四个原则

对于高考生而言,高考完毕并不是可以轻松地开始,接下来需要研究怎么报考的问题。如何在理想和现实中取得平衡?如何根据就业和专业的前景做合适的安排,对于还处于青少年阶段的高考生们来说不是容易的事情,要掌握哪些技巧…