Databend 怎么看 OpenAI 收购实时数仓 Rockset?

6月21日(上周五),OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,一时引起数据库圈和 AI 圈热议,很多朋友也来询问 Databend 如何看待这个事件。这次收购表明了市场对实时数据分析和数据处理解决方案的高度重视,数据是 AI 发展的核心要素,拥有强大的数据处理能力将帮助 OpenAI 能够更好地将数据与 AI 技术进行深度融合。作为新一代云原生数据仓库服务商,我们也很高兴看到分析型数据(OLAP)能够推动 AI 技术的进一步发展。我们相信,这将促进整个行业的快速发展,并激励我们不断创新,以应对未来更复杂的数据处理需求。

Rockset 实际上是国外比较早做实时数据仓库的一个厂商,提供实时数据索引和查询功能。该公司目前客户包括 JetBlue、Allianz Direct、 Seesaw,以及 Facebook 的母公司 Meta 等。双方虽然没有公布具体的收购金额,但 Rockset 融资总额约有 1 亿美元,所以收购价格肯定也在 1 亿美元之上。 OpenAI 官方发布的消息称收购 Rockset 主要是为了增强其数据处理和分析能力,以更好地支持其生成型人工智能(GenAI)和大模型的需求。

能够引起 OpenAI 兴趣的肯定有其独到之处,那为什么 OpenAI 要收购一家数据仓库公司?Rockset 有哪些技术可以弥补 OpenAI 的短板?我们首先来看看 Rockset 的产品具有哪些主要特性:

实时数据汇聚:Rockset 以其高效的实时数据索引和查询能力著称,能够快速处理和分析大量数据。Rockset 支持从 Kafka、MongoDB、DynamoDB、S3 和 OpenAI 等各种来源的持续数据摄取。数据库实现了低延迟的索引和查询,使其适用于实时分析和搜索应用。Rockset 提供混合搜索能力,可以在单个查询中集成向量搜索、关键词搜索、元数据过滤和地理空间数据,无需使用多个系统即可高效且全面地检索数据。

多维索引:Rockset 的多维索引(Converged Index)是其数据库技术的核心概念之一。它将行索引+列索引+搜索索引(倒排索引)多种索引方法结合在一起,以实现高效的查询和实时分析。Rockset 可以自动为所有输入数据创建多维索引无需人工干预,这极大减少了数据库管理的复杂性;多维索引支持快速的数据检索,能实现毫秒级的查询响应时间,这对实时分析和需要即时响应的应用至关重要。

云原生架构:作为云原生解决方案,Rockset 无需复杂的设置和维护,提供自动扩展等功能,根据工作负载需求动态调整资源。这确保了计算和存储资源的高效利用。

灵活且快速的 SQL 支持:Rockset 支持全功能的 SQL 用于查询、过滤、聚合、连接和向量搜索。这使得快速构建和迭代数据应用程序变得容易,节省了大量开发时间。

作为一款实时数仓产品,Rockset 的这些特性刚好解决了目前大模型向企业级市场发展的几个关键问题:

实时数据分析:大模型存在一个天然劣势就是实时数据感知弱,OpenAI 是基于历史数据做训练,在数据新鲜度上存在短板。想解决这个问题,大模型和 GenAI 就需要处理大量实时数据,以生成实时决策和分析。Rockset 能够快速查询和分析大量数据,从而支持实时分析需求。

高效的数据处理:Rockset 数据库能够高效地处理复杂的查询,包括聚合和多维分析,这对于训练和优化 AI 模型至关重要。它们可以通过预先计算和存储复杂查询的结果,显著减少查询时间。

数据整合:大模型和 GenAI 通常需要从多个数据源获取数据,并将其整合到统一的数据视图中。Rockset 能够整合不同来源的数据,并提供一致的数据视图,支持更全面的分析。

可扩展性:随着数据量的增长,Rockset 能够通过分布式计算架构进行扩展,处理更大规模的数据集和更复杂的查询。这对于处理大规模训练数据和实时推理非常重要。

高性能查询:Rockset 通过优化的存储结构和索引技术,能够提供高性能的查询响应时间。这对于需要快速响应的 AI 应用(如实时推荐系统和动态定价)尤为重要。

通过整合 Rockset 技术,OpenAI 可以进一步优化其生成型 AI 模型,尤其是在数据嵌入和向量搜索方面。这将提升 OpenAI 模型在各种任务(如推荐系统和个性化服务)中的表现。

不过遗憾的是,OpenAI 收购 Rockset 不是为了投资,而是要将 Rockset 的技术整合到现有技术体系中,强化自身各项产品的检索基础设施。为此,Rockset 原先的客户不得不寻找新平台来替换 Rockset。

 

在 Rockset 的所有替代产品中,Databend Cloud 是少数几个能够涵盖 Rockset 所有关键特点的产品之一。Databend 的实时数据分析、存算分离架构、友好的 SQL 接口以及智能索引等功能,完美契合了大模型对数据库的需求: 实时数据汇聚:Databend 支持实时数据摄取和即时查询响应,用户可以在数据变化的同时进行查询和分析,这对于需要实时洞察的应用场景非常有用,适合于 BI 分析、日志分析、实时报表等应用场景。 智能索引:Databend 内置智能索引能力,会为用户自动创建和管理索引,如 Min/Max 索引、Bloom 索引等。在 Databend 中,大部分列都已经建立了索引,再结合优化器的良好设计,生成的 SQL 可以在无需人工干预的情况下快速执行。

云原生架构:Databend 从研发的 DayOne 起就定义它一定是一个云原生的存储、计算分离架构,它的底层基于成本低廉的对象存储,在上面构建了列式存储引擎,提供了一个更高性能的查询。在此架构下,Databend 能够根据需求自动扩展和缩减资源。甚至当业务处于空闲状态时,计算节点会自动进入休眠,从而有效节省资源。这使得它在处理不同规模的数据分析任务时非常灵活。

SQL 统一接口:Databend 提供了用户友好的 SQL 接口,具备完善的 SQL 查询功能,兼容 MySQL 协议,用户可以使用熟悉的 SQL 语句进行数据查询和分析。

AI Functions :Databend 引入了强大的 AI 功能,实现了 Data 与 AI 的无缝融合,我们可以通过 SQL 来实现:自然语言生成、 SQL Embedding 、向量化并存储、相似度计算、文本生成。目前,我们使用 Data + AI 能力提供了一个开源的知识库构建方案,GitHub - datafuselabs/askbend: AskBend: SQL-based Knowledge Base Search and Completion using Databend ,完全建立在 Databend 的能力之上,支持对文档进行 Embedding 和智能问答。

此外,Databend 还支持多种用户定义函数支持,允许使用 Python 、JavaScript 等多种语言开发脚本嵌入或搭建 UDF Server ,允许用户进一步拓展数据处理的能力和场景,提供更具定制化和可维护性的解决方案。

我们正在实现一个探索功能,在 Databend 内置 CPU 的 AI embedding。如果你的计算过程中没有 GPU 资源的话,通过这个能力可以直接用 CPU 做 AI embedding,会帮你节省大量宝贵的计算成本。

目前,Databend 已在游戏、社交、金融、广告、电商等多个行业领域中成功替代 Snowflake、Redshift、BigQuery、GreenPlum、ClickHouse、CDH 等产品,为客户提供了降本增效的大数据解决方案。

如果你正在找一款 Rockset 的替代产品,欢迎来体验、试用 Databend Cloud,点击文末「阅读原文」,立即试用!

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。 👨‍💻‍ Databend Cloud:https://databend.cn

📖 Databend 文档:Databend

💻 Wechat:Databend

✨ GitHub:GitHub - datafuselabs/databend: 𝗗𝗮𝘁𝗮, 𝗔𝗻𝗮𝗹𝘆𝘁𝗶𝗰𝘀 & 𝗔𝗜. Modern alternative to Snowflake. Cost-effective and simple for massive-scale analytics. https://databend.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/748919.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Win10扩充C盘(把其他盘存储空间分给C盘)

C盘虽然没有安装任何软件,但无奈安装某些软件(例如VS,QuarC等)总会占用C盘容量,且C盘内存很小(只有60G左右),看着D盘的三四十空闲内存,决定把D盘内存分给C盘30G&#xff…

C++入门 list的模拟实现

目录 list的节点类 list的迭代器类 list的模拟实现 要模拟实现list,必须要熟悉list的底层结构以及其接口的含义,通过之前学习,这些内容已基本掌握,现在我们来模拟实现list。 参照带头双向循环链表的结构,我们可以建…

ConvMixer 论文与代码解析

paper:Patches Are All You Need? official implementation:https://github.com/locuslab/convmixer 精度上去了,推理速度只有卷积和ViTs的四分之一! 出发点 文章讨论了卷积神经网络(CNN)在视觉任务中…

#### 广告投放 ####

以巨量引擎为例: 计费模式 eCPM(expected Cost Per Mile,估计千次展示收入) 概括: ecpm为千次展示的预估收益,是广告平台用来给广告排序的指标。 注意是展示而不是千次点击收益,展示了可能不…

从0到1:亮数据浏览器,为数据采集工作注入全新动力

亮数据浏览器提升数据采集效率 一、 导言1.1 引入亮数据浏览器的重要性1.2 简要介绍本文将涉及的主题和内容 二、 亮数据浏览器简介2.1. 什么是亮数据浏览器2.2. 亮数据浏览器的特点和优势 三、优化数据采集的核心功能3.1 自动化数据采集3.1.1 通过亮数据浏览器实现自动化数据采…

LangChain入门之 GPT 和小范大人不太熟?

前言 嗨,大家好!我是海鸽。 《庆余年2》刚刚完结,热度不减,我忍不住好奇:我们的AI伙伴GPT,是否也对剧中那位机智过人的小范大人有所耳闻? 不仅如此,最近我们还尝试了LangChain的调…

Xcode安装Simulator失败问题解决方法

Xcode安装Simulator_Runtime失败,安装包离线安装保姆级教程 Xcode更新之后有时候会提示要安装模拟器运行时环境,但是用Xcode更新会因为网络原因,我觉得基本上就是因为苹果服务器的连接不稳定导致的,更可气的是不支持断点续…

介绍几种 MySQL 官方高可用方案

前言: MySQL 官方提供了多种高可用部署方案,从最基础的主从复制到组复制再到 InnoDB Cluster 等等。本篇文章以 MySQL 8.0 版本为准,介绍下不同高可用方案架构原理及使用场景。 1.MySQL Replication MySQL Replication 是官方提供的主从同…

记录dinky0.6.7+flink1.14.5集成问题

先说一句mmp,这个jar包冲突搞吐我。如果有遇到math3问题需要注意少个包 看相关issue 以下为flink的lib目录 一、yarn-application和perjob模式 yarn session模式不依赖dlink-app-1.14-0.6.7-jar-with-dependencies.jar这个包,。但是yarn-application…

新能源行业知识体系-------蒙西电网需求侧响应

新能源行业知识体系-------主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/139946830 目录 一、背景介绍二、需求响应电能量收益介绍三、超额回收需求响应减免收益介绍四、参与需求侧响应五、蒙西电力现货特点六、交易中…

1012:Joseph

网址如下&#xff1a; OpenJudge - 1012:Joseph 其中一个解法 只想到了一个快速找到下一位处决的人的方法&#xff0c;本质上还是遍历&#xff0c;暂时没想到更优的方法了 代码如下&#xff1a; #include<cstdio> int k;bool judge(int tt, int m, int r){if(tt k) …

GPU技术全景:推动未来计算的新动力-4

7.中国厂家 在中国市场&#xff0c;也有几家本土企业在GPU领域崭露头角&#xff0c;虽然市场份额相对较小&#xff0c;但在国产替代和自主可控的浪潮下发展迅速&#xff0c;包括但不限于&#xff1a; •沐曦集成电路、壁仞科技、燧原科技、登临科技、摩尔线程等&#xff0c…

信号处理——时频分析

经典傅里叶变换的限制&#xff1a; 1、只能反映信号的整体特性&#xff1b;&#xff08;完全是时域或频域&#xff09; 2、要求信号满足平稳条件&#xff1b; 3、必须获得时域中的全部信息。 所以引入时频分析&#xff0c;同时使用时间和频率的联合函数来表示信号。 1 时频…

单段时间最优S型速度规划算法

一&#xff0c;背景 在做机械臂轨迹规划的单段路径的速度规划时&#xff0c;除了参考《Trajectory Planning for Automatic Machines and Robots》等文献之外&#xff0c;还在知乎找到了这位大佬 韩冰 写的在线规划方法&#xff1a; https://zhuanlan.zhihu.com/p/585253101/e…

Java基础知识-线程

Java基础知识-线程 1、在 Java 中要想实现多线程代码有几种手段&#xff1f; 1. 一种是继承 Thread 类 2. 另一种就是实现 Runnable 接口 3. 最后一种就是实现 Callable 接口 4. 第四种也是实现 callable 接口&#xff0c;只不过有返回值而已 2、Thread 类中的 start() 和 …

AI大模型会有意识的出千吗?

1. 引言 1.1 研究背景&#xff0c;AI系统中的规范游戏问题 在人工智能(AI)系统的发展过程中&#xff0c;规范游戏(specification gaming)一直是一个令研究者们头疼的问题。规范游戏指的是AI系统学习到一些意想不到的行为&#xff0c;这些行为虽然能够获得高奖励&#xff0c;但…

万字长文,解读大模型技术原理(非常详细)零基础入门到精通,收藏这一篇就够了

大模型是指具有大规模参数和复杂计算结构的机器学习模型。 本文从大模型的发展历程出发&#xff0c;对大模型领域的各个技术细节进行详细解读&#xff0c;供大家在了解大模型基本知识的过程中起到一定参考作用。 一、大模型的定义 大语言模型作为一个被验证可行的方向&#x…

客户案例|某 SaaS 企业租户敏感数据保护实践

近年来&#xff0c;随着云计算技术的快速发展&#xff0c;软件即服务&#xff08;SaaS&#xff09;在各行业的应用逐渐增多&#xff0c;SaaS 应用给企业数字化发展带来了便捷性、成本效益与可访问性&#xff0c;同时也带来了一系列数据安全风险。作为 SaaS 产品运营服务商&…

注意!!2024下《系统架构设计师》易混淆知识点来了,赶紧收藏

宝子们&#xff0c;在复习软考系统架构设计师中&#xff0c;是不是觉得有很多知识点含义比较相近&#xff0c;很多友友刚看的时候&#xff0c;估计会像我一样把它们弄混&#xff0c;作为一个软考老鸟&#xff0c;在这里给大家整理了系构学习过程中易混淆的知识点&#xff0c;大…

Part 8.3.2 树的直径

树的直径被定义为树上最远的两点间的距离。 关于求树的直径的两种方式 HXY造公园 题目描述 现在有一个现成的公园&#xff0c;有 n n n 个休息点和 m m m 条双向边连接两个休息点。众所周知&#xff0c;HXY 是一个 SXBK 的强迫症患者&#xff0c;所以她打算施展魔法来改造…