【活动回顾】Databend 云数仓与 Databend Playground 扩展组件介绍

2023 年 12 月 7 日,作为 KubeSphere 的合作伙伴,Databend 荣幸地受邀参与了 KubeSphere 社区主办的云原生技术直播活动。本次活动的核心议题为「Databend 云数仓与 Databend Playground 扩展组件介绍」,此次分享由 Databend Labs 的研发工程师尚卓燃担任主讲嘉宾,向与会者呈现了一场内容丰富的在线分享会。

大纲回顾

什么是 Databend

Databend 是一款使用 Rust 研发的新一代云原生数据仓库,完全面向云架构并基于对象存储构建。它具备即时扩缩容能力,能够在数分钟内增加数百倍的算力,为企业提供了一个基于对象存储、湖仓一体化、计算和存储分离的大数据管理和分析集中式平台。实现了一份数据,统一计算入口,供多用种业务使用,从而助力企业更准确地洞察业务、制定战略,很好的满足了客户私有化部署的不同需求。

作为一个开源项目,Databend 的源代码托管于 GitHub,并已获得超过 6700 个 star ,成为 Rust 社区云数仓领域的明星项目。Databend 的查询引擎完全自主研发,这一点使其有别于其他基于 Apache Arrow Datafusion 的 Rust 数据库项目。

Databend 采用存储与计算分离的架构,支持弹性扩缩容,让用户可以根据需要灵活规划资源使用。特别是在云环境中,这意味着用户可以按实际使用量付费,从而降低使用成本。在混合云应用方面,Databend 支持本地资源与云端资源的协同工作,满足超大规模数据分析的需求。安全性方面,Databend 引入了多租户基于角色的权限管理,确保数据的安全和合规。除了存储与计算分离,Databend 还引入了计算资源的分离概念,包括读写集群的分离,以提升数据分析体验。

Databend 还整合了丰富的数据生态系统,协助用户进行高效的数据集成。此外,Databend 支持多语言的用户定义函数(UDF)和 PB 级的数据处理能力,进一步扩展了其功能和应用范围。

Databend 架构

Databend Labs 团队精心设计并实现了 Databend 的架构,旨在为超大规模数据集提供经济高效的复杂分析能力。以下是 Databend 架构的关键特性:

云友好性:Databend 与各种云存储平台(如 AWS S3、Azure Blob、CloudFlare R2 等)实现无缝集成。

高性能:采用 Rust 语言开发,结合 SIMD 和向量化处理技术,实现了极速的数据分析处理。

经济弹性:通过创新的设计,实现了存储和计算的独立伸缩,优化了成本效益和系统性能。

简易数据管理:内置数据预处理功能,减少对外部 ETL 工具的依赖,简化了数据处理流程。

数据版本控制:提供类似 Git 的多版本存储,支持任意时间点的数据查询、克隆和回退。

丰富的数据支持:支持 JSON、CSV、Parquet 等多种数据格式和类型。

AI 增强分析:集成 AI 函数,提供由大模型驱动的数据分析能力。

社区驱动:拥有一个友好且持续增长的社区,致力于提供一个易用且高效的云上分析平台。

Databend 生态全景图

Databend 自身支持一定 ETL 能力,能够使用 Stage 和 Multiple Catalog 挂载外部数据源,提供全量、增量、条件等多种导入方式,支持使用 PRESIGN 上传和下载数据。

Databend 积极融入大数据生态,拓展「Databend 朋友圈」,提供全链路解决方案,帮助用户将数据转化为商业洞见。

性能

当探讨数据仓库服务,特别是那些专为分析型工作负载设计的服务时,性能成为一个关键指标。为了全面评估 Databend 的性能,我们选择了 ClickBench —— 一个由 ClickHouse 发起、广受认可的公信力基准测试榜单。

在 ClickBench 的测试中,Databend 展示了其卓越的导入性能,成功在三种不同的机型测试中均获得第一名。这一成绩不仅突显了 Databend 在数据处理速度方面的优势,也反映了其在不同硬件环境下的高效适应能力。在查询性能方面,Databend 在这三种机型测试中分别位列第一、第二和第三名,再次证明了其在数据查询处理方面的高效率和稳定性。

这些测试结果充分证明了 Databend 在处理大规模数据集时的强大性能,凸显了其作为云原生数据仓库解决方案的领先地位。

主要特性和行业案例

主要特性

Databend 作为一款现代化的数据仓库,不仅提供了高效的常规查询支持,而且采用了以 ETL (Extract, Transform, Load)为核心的构建方式。在整个数据处理链路中,Databend 能够更有效地进行数据清洗、归档和存储,从而提升数据的整体质量和分析的准确性。

Databend 支持多种用户自定义函数能力,包括 SQL UDF 和 External Function 两类方式。用户可以使用受支持的语言构建 UDF Server ,以与现有数据科学工作流无缝集成,甚至在 SQL 中支持发送邮件通知、调用即时通讯机器人等功能。

最近我们引入的一个高级特性——流,目前支持追加模式,可以实时捕获数据的插入。使用流的典型应用场景是模拟触发器功能,此外你也可以用它来收集一些临时表里的一些更改,并根据这些更改以一定频率更新其他表。

我们目前正处在 AI 的黄金时期,云数据与 AI 的结合正在开启新的可能性。Databend 内置 AI 集成功能,以进一步增强其数据处理和分析能力。

内置 AI 函数:Databend 集成了一系列 AI 函数,支持用户调用兼容 OpenAI 的 API。能够将自然语言转化成对应的 SQL 查询语句,极大地简化了数据查询过程,使非技术用户也能轻松访问和分析数据。

向量相似度计算:Databend 支持基本的向量相似度计算功能,为用户提供了构建复杂数据模型和执行高级数据分析的能力。

✍️ 创新应用案例:AskBend.rs

AskBend.rs - 一个基于 Databend 构建的智能问答系统。这个系统以 Databend 文档为基础,提供一个用户友好的交互界面,用户可以通过自然语言查询来获取信息和帮助。这一集成同样内置于 Databend 官方文档的检索之中,不仅为用户带来便利,也展示了 Databend 在数据智能领域的先进应用。

更多关于 AskBend.rs 的信息,请访问:https://ask.databend.rs。

行业案例

案例 1:AIGC 初创公司的成本优化
Databend 为一家 AIGC 初创公司提供了显著的成本效益。通过使用 Databend 和 Databend Cloud,结合对象存储和弹性调度的特点,并利用 Databend 丰富的生态支持,该公司能够将用户行为分析的成本降至原方案的 1% 。相较于传统数据仓库,Databend 可以节约高达 80% 的成本。这不仅体现了 Databend 在数据处理和存储效率方面的优势,也显示了其在降低企业运营成本方面的巨大潜力。

案例 2:混合云解决方案的弹性优势
Databend 仅需维护少量本地实例即可满足常规查询需求,展示了其高效的资源管理能力。对于偶发的超大规模查询,可以利用 Databend Cloud 弹性调度能力协同调配大量节点,从而加速处理速度,提升查询效率。

数字化转型的推动者
作为一个基于对象存储构建的现代云数仓,Databend 也助力多家企业实现数字化转型。助力企业从传统的 Hive 技术栈向 Databend 生态过渡,显著降低存储成本和数据迁移成本,并且优化了网络带宽利用率。

Databend Playground 扩展组件介绍

Databend Playground(社区尝鲜版)是我们为 KubeSphere 设计的一款扩展组件,作为 Databend 的一站式部署、运维和查询可视化解决方案。
借助 KubeSphere 的扩展系统,Databend Playground 可以帮助用户快速部署和启动数据分析环境,并且集成前端 SQL IDE,使用户能够轻松进行数据分析而无需担心规模化部署的复杂性。

该扩展组件的主要目标用户是 Databend 新手或初学者,适用于学习 Databend 的 SQL 语法和体验数据分析方案。

部署模式和未来发展

目前,Databend Playground 仅支持单 Query 、单 Meta 、单 Playground 一键部署的模式。我们计划在此基础上继续迭代产品,未来将允许用户自定义存储后端、引入高可用 Meta 架构和计算资源的弹性扩展机制。此外,还将提供监控大盘和其他附加服务,以增强用户体验和系统的可管理性。

如何体验

欢迎前往 KubeSphere Marketplace 订阅 Databend Playground,开始您的数据分析之旅!

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

👨‍💻‍ Databend Cloud:https://databend.cn

📖 Databend 文档:Databend - The Future of Cloud Data Analytics. | Databend

💻 Wechat:Databend

✨ GitHub:GitHub - datafuselabs/databend: Modern alternative to Snowflake. Cost-effective and simple for massive-scale analytics. Cloud: https://databend.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/245028.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Vue3-08-条件渲染-v-if 的基本使用

v-if 是什么 v-if 一个指令, 它是用来根据条件表达式,进行选择性地【展示】/【不展示】html元素的。比如 : 有一个按钮A,当条件为真时,展示该按钮;条件为假时,不展示该按钮。与 js 中的 条件判…

如何部署Portainer容器管理工具+cpolar内网穿透实现公网访问管理界面

文章目录 前言1. 部署Portainer2. 本地访问Portainer3. Linux 安装cpolar4. 配置Portainer 公网访问地址5. 公网远程访问Portainer6. 固定Portainer公网地址 前言 本文主要介绍如何本地安装Portainer并结合内网穿透工具实现任意浏览器远程访问管理界面。Portainer 是一个轻量级…

一文5000字从0到1构建高效的接口自动化测试框架思路

在选择接口测试自动化框架时,需要根据团队的技术栈和项目需求来综合考虑。对于测试团队来说,使用Python相关的测试框架更为便捷。无论选择哪种框架,重要的是确保 框架功能完备,易于维护和扩展,提高测试效率和准确性。…

挺进云存储,天翼云全新一代XSSD勇立潮头

引言:自研高性能分布式存储引擎LAVA,实现云硬盘持续创新获得新突。 【全球云观察 | 科技热点关注】 作为算力基础设施的基石,云存储的发展一直备受公有云厂商所重视,对拉动云厂商营收规模带来重要价值,就…

山海鲸开发者:展现数据可视化在各领域的无限可能

作为一名山海鲸可视化软件的内部开发者,我对这款软件投入了大量的经历以及含有深深的情感。下面,我从这款软件应用场景下手,带大家探秘这款软件的多种可能性以及我们的用心。 首先,从行业角度来看,山海鲸可视化软件可以…

06.迪米特法则(Demeter Principle)

明 嘉靖四十年 江南织造总局 小黄门唯唯诺诺的听完了镇守太监杨金水的训斥,赶忙回答:“知道了,干爹!” “知道什么?!!” 杨金水打断了他的话,眼神突然变得凌厉起来: “有…

椋鸟C语言笔记#26:数据在内存中的存储(大小端字节序)、浮点数的存储(IEEE754)

萌新的学习笔记,写错了恳请斧正。 目录 大小端字节序 什么是大小端 写一个判断大小端的程序 浮点数在内存中的存储(IEEE 754规则) 引入 存储规则解释 读取规则解释 1.阶码不全为0或全为1(规格化数) 2.阶码全为…

鸿蒙系统走向独立,高校设立“鸿蒙班”,鸿蒙人才紧缺!

近日,华为以及鸿蒙系软件厂商都在积极培养鸿蒙开发人才,产学联动、产教融合是重要的一条路径。目前已有23家985高校、46家211高校已开设或即将开设HarmonyOS相关课程。 一位鸿蒙生态内部人士表示,目前鸿蒙开发人才比较紧缺,而安卓…

图生视频AI技术,1张图零提示词,让静态照片动起来

AI时代的发展速度比我们想象中的快多了,当大部分人刚学会AI生成图片时,现在又开始流行AI生成视频了,正式从图片、文字升级到短视频时代。 最近一段时间,AI生成视频的技术正在突飞猛进。Pika、Runway等大家熟知的海外工具都在不断…

【STM32CubeMX】F103 BxCAN

F103&BxCAN bxCAN总体描述 有一个增强的过滤机制来处理各种类型的报文此外,应用层任务需要更多CPU时间,因此报文接收所需的实时响应程度需要减轻。 接收FIFO的方案允许,CPU花很长时间处理应用层任务而不会丢失报文。 构筑在底层CAN驱动程…

软件设计中如何画各类图之七了解组件图:系统架构的关键视角

目录 1 前言2 组件图基本介绍3 画组件图的步骤4 组件图的用途5 场景及实际场景举例6 结语 1 前言 组件图是一种UML的图形化表示工具,为系统架构提供了重要视角。它描述了系统中各个组件以及它们之间的依赖关系和连接。用于展示系统中的组件、软件模块、以及它们之间…

简单实现Spring容器(五) 实现bean后置处理器BeanPostProcessor机制

阶段5: // 1.编写自己的Spring容器,实现扫描包,得到bean的class对象. // 2.扫描将 bean 信息封装到 BeanDefinition对象,并放入到Map. // 3.初始化单例池并完成getBean() createBean()方法 // 4.完成依赖注入(如果创建某个Bean对象,存在依赖注入,需要进行bean组装操作) 5.bean…

比较好的python书籍,python有什么书推荐

大家好,小编来为大家解答以下问题,比较好的python书籍,python有什么书推荐,现在让我们一起来看看吧! 我是在半年前接触到Python的,我之前没有一点编程基础,但在我自学的这半年里,我发…

绿盟 SAS堡垒机 local_user.php 权限绕过漏洞复现

绿盟 SAS堡垒机 local_user.php 权限绕过漏洞复现 一、 产品简介二、漏洞概述三、 复现环境四、漏洞复现五、小龙检测 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失&…

jdom利用纯java技术对xml文档进行解析、生成、序列化等各种操作

Jdom对xml文档进行解析、生成、序列化等各种操作。 使用jdom之前,首先要导入jar包:jdom.jar 获得根元素: 首先确定xml文件位置 String xmlPath "./src/ceshi/Test.xml"; //使用的解析器,这里表示默认的解析…

资本热捧下的预制菜,如何挤出泡沫、回归务实?

在这个被快餐和即食文化主宰的时代,预制菜概念持续被资本热炒。 据悉,近30个交易日里,预制菜概念板块已累计上涨超15%,其中,惠发食品、得利斯、春雪食品等个股更是快速拉涨。但究竟谁才能笑到最后,还充满未…

数据结构和算法 - 数组

1、数组 1.1 简介 什么是数组? 他优缺点是什么?具体应用有哪些? 「数组 array」是一种基于顺序存储的线性数据结构,其将相同类型的元素存储在连续的内存空间中。我们将元素在数组中的位置称为该元素的「索引 index」。 如图&…

IDEA卡顿,进行性能优化设置(亲测有效)——情况一

需求场景 IDEA重新激活后,运行IDEA卡的非常卡顿,没有运行项目,CPU占比也非常高: 原因分析 可能的原因是,在IDEA的配置中,给他分配的空间比较小 解决方式 步骤一 选择顶部导航栏中的Help,然后点击Edi…

Java数据类型相关

数据类型 Java有哪些数据类型 定义:Java语言是强类型语言,对于每一种数据都定义了明确的具体的数据类 型,在内存中分配了不同大小的内存空间。 分类: 基本数据类型 数值型 整数类型(byte,short,int,long) 浮点类型(float,dou…

文本处理工具doctran(集成LLM和NLP库)

今天给大家推荐一款文本处理工具,可以Extract、Redact、Summarize、Refine、Translate、Interrogate,这个工具就是文档转换框架doctran。 欢迎关注公众号 doctran基于OpenAI的GPT模型和开源的NLP库来剖析文本数据。该工具也可以在LangChain框架document…