Toco x Databend:Databend Cloud 如何满足 Web3 大数据服务的严苛考验?

Toco 是一家位于瑞士的 Web3 服务提供商,致力于通过彻底改变全球金融体系的陈旧观念来应对气候变化。他们提供了一种开创性的碳货币 Tocos,每个流通中的 Tocos 代表一吨二氧化碳当量,存储在安全可靠的数字钱包中。用户可以使用 Tocos 应用轻松地将当地货币兑换为 Tocos,然后使用 Tocos 消费、储蓄或交易。每次用户使用 Tocos 进行日常交易时,都在通过推动对更多碳去除的需求来采取积极的气候行动。

业务挑战

目前,Toco 正在慢慢向欧洲扩张,已经开始进入多个国家。在整个行业进入快速增长的背景下,Toco 预计在未来的几个月中会面临较大的增长挑战。而对其技术团队而言,当其市场营销推广不断拓展时,对数据基础设施的考验才真正开始。营销团队想把所有东西都变成数据,以各种方式展现在人们的眼前。

因此,Toco 对大数据和分析平台的要求非常高,他们以数据为核心资产,并要求数据技术栈要具备模块化、自由扩展和变化的能力。Toco 想要的数据库,是一个可以访问 S3 Bucket,也可以使用不同工具从 S3 Bucket 中读取文件的数据库。同时,Toco 还希望这个数据库是一个计算、存储分离的架构,具备真正的灵活性和模块化。这样一来,Toco 对数据库选型的范围就缩小到了极少数。

为什么选择 Databend Cloud?

Databend Cloud 凭借着优秀的存储、计算分离架构和以下功能特点顺利进入了 Toco 的选型:

  1. Databend Cloud 借鉴了 Snowflake 的集群优点,以增强分布式计算能力。Databend Cloud 与 Snowflake 在体验上基本没有任何改变,这对 Toco 而言是极具吸引力的一点。但 Databend Cloud 在资源精细化调度、资源利用率方面都优于 Snowflake,成本也更低;
  2. Databend Cloud 具有业界领先的向量化计算引擎,所有算子都已经实现了向量化,大幅提升单机计算性能和分布式集群能力;
  3. Databend Cloud 完全基于对象存储设计,支持 HDFS、Amazon S3, Azure Blob, OSS, COS 等 20 多种对象存储协议。在对象存储上,真正实现了存储、计算分离,资源控制粒度更细。计算节点可以根据需求弹性扩展,而不受存储容量限制。Databend Cloud 还内置了 Stream(CDC)+ Task 流式运算及任务调度,可以实现流批一体化方案;
  4. Databend Cloud 提供对 STAGE 的原生支持。STAGE 是 Databend Cloud 数据流转的核心,用户可以从 STAGE 中加载数据和向 STAGE 中导出数据,还可以直接在 STAGE 中进行数据查询。用户只需要为 Databend Cloud 创建一个包含数据文件的 STAGE,就可以轻松进行数据查询,无需编写复杂的建表语句或繁琐的数据导入流程。在实际操作中, STAGE 向 Table 流转也非常简单。

Toco 技术负责人表示:“Toco 是一家正在成长中的公司,对大数据和数据分析平台要求非常高,Databend Cloud 基于对象存储设计,在低成本、高性能的同时还提供了完整灵活的数据处理流程,没有多少工具能够提供这样的便利性。”

解决方案

目前,Toco 将 Databend Cloud 作为主要的分析数据库来满足当前需求。应用主要分为几个阶段:

第一阶段:数据获取及处理

这一阶段,Toco 主要从应用程序的 API 和市场营销活动网页中获取数据,然后利用 Mage orchestration 来管理这些数据处理流程。Orchestration 会对端点的多个请求进行协调,以收集数据。然后将其向前推送到 S3 Bucket,Databend 从 S3 Bucket 中读取数据。Toco 还会在数据库中运行 DBT 流程,以转换和准备数据,这构成了一个非常强大的数据仓库。 

第二阶段:数据访问及展示

一旦数据准备好供客户使用,Toco 会通过 Superset 将处理过的表数据推送给客户。对于内部用户,Toco 会提供访问公共的 Superset Dashboard 权限,用户可以直接连接 Databend Cloud 并读取数据。公众也可以通过 Superset 面板访问某些数据。

这种结构化的方式确保了内部和外部客户都能以无缝、高效的方式访问必要的数据,但这个过程还缺乏自动化的流程,Toco 技术团队计划完善和扩展这些流程,以满足未来的需要。

由于平时的广告营销活动并没有存储所有数据,比如 PostgreSQL 和 MongoDB 数据库中的表数据。API 的方式很难满足需求,下一阶段,Toco 决定采用 Airbyte(Airbyte 是一种开源数据集成软件,会将应用程序、API和数据库中的数据同步到数据仓库、数据湖和其他目的地) 替代 API 获取数据,以自动化的方式自动创建源表和 S3 Bucket。开发人员对数据库的任何更改都会自动出现在源表上。

未来探索

目前,Toco 在使用 Databend Cloud 作为其分析数据库后,一切运行平稳顺畅,基本没遇到过什么问题。当后期营销越来越多时,可能会面临用户量激增的局面,届时 Toco 需要做“battle test”,在生产环境中检测系统的稳定性。

同时,Toco 计划把一些数据从 Databend Cloud 推送到用户的 API 端,然后使用 Airbyte 和 CDC ,做实时数据流分析的探索。这部分数据将主要提供给营销人员使用,例如实时确定客户的细分画像,这要求数据库具备准实时的数据分析能力,Databend Cloud 可以提供近实时数据分析,为业务提供时效性更强的业务决策支撑,帮助 Toco 应对日益增长的业务需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/751279.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Jmeter+InfluxDB+Grafana性能测试数据展示

JmeterInfluxDBGrafana提供了一种更好的对Jmeter压测结果的实时监控展示。可以理解为数据源产生的数据加上时间记录并存储,然后使用各种开源图表组件进行展示。实现jmeter报告的更好的可视化展示 1)方便测试结果数据落地以及更好的分析 2)将…

计算机视觉-期末复习-简答/名词解释/综合设计

目录 第一讲--计算机/机器视觉概述 名词解释 简答 第二讲--图像处理概述 名词解释 简答 第三讲没划重点习题 第四讲--特征提取与选择 名词解释 简答 综合题 第五讲--不变特征 名词解释 简答 第六讲--物体分类与检测 简答 综合题 第七讲--视觉注意机制 简答 …

鸿蒙期末项目(完结)

两天仅睡3个小时的努力奋斗之下,终于写完了这个无比拉跨的项目,最后一篇博客总体展示一下本项目运行效果兼测试,随后就是答辩被同学乱沙(悲 刚打开软件,会看到如下欢迎界面,介绍本app的功能和优点 随后我们…

基于模型蒸馏的模型加速方案总结

1.简介 1.1目的 在过去的一段时间里,对基于模型蒸馏技术的模型加速方案的方法在多个数据集上进行了一系列的实验。所谓的模型蒸馏技术,简单的来说就是利用一个设计简单的小网络去学习一个设计比较复杂的大网络。特别的有,本次实验针对每一个…

串口通信例子SeriaPort

本篇例子使用的虚拟串口转自这位博主:http://t.csdnimg.cn/LSGIs 串口COM: 是一种用于联接计算机和外设设备的接口,也叫串行接口,简称com,常见的串口有一般电脑应用的RS-232(使用25帧或者9帧的连接器) 通俗来讲串口就是usb接口、鼠标窗口。键…

第二十四节:带你梳理Vue2 : Vue具名插槽/作用域插槽/v-slot指令

1. 具名插槽 1.1 没有使用具名插槽的问题 有的时候我们在使用子组件时,在子组件模板上不同的位置插入不同的内容, 只有一个插槽显然没法满足我们的需求,看示例: 需求如下: 子组件是一篇文章的结构父组件在调用子组件是给文章插入标题,正文,时间信息 示例代码如下: <di…

6.26.4.1 基于交叉视角变换的未配准医学图像多视角分析

1. 介绍 许多医学成像任务使用来自多个视图或模式的数据&#xff0c;但很难有效地将这些数据结合起来。虽然多模态图像通常可以在神经网络中作为多个输入通道进行配准和处理&#xff0c;但来自不同视图的图像可能难以正确配准(例如&#xff0c;[2])。因此&#xff0c;大多数多视…

创新实训博客(十三)——admin前端工作效果

管理/教师端前端工作汇总education-admin&#xff1a; 首先是登录注册页面的展示 管理员 首页 管理员登录后的首页如下图所示 管理员拥有所有的权限 课程管理 1、可以查看、修改、增添、删除课程列表内容 2、可以对课程资源进行操作 3、可以对课程的类别信息进行管理&…

一个最简单的MySQL事务模拟测试

这里只是简单写了一个转账的小事务&#xff0c;模拟一下事务的过程 代码&#xff1a; 初始数据&#xff1a; 当你关闭自动提交 并且开启一个事务执行了下面的更新语句 但是没有提交时&#xff1a; 此时虽然你运行查询语句会发现他的值发生了变化 &#xff0c;但是当你运行回滚…

51单片机看门狗定时器配置

测试环境 单片机型号&#xff1a;STC8G1K08-38I-TSSOP20&#xff0c;其他型号请自行测试&#xff1b; IDE&#xff1a;KEIL C51&#xff1b; 寄存器配置及主要代码 手册中关于看门狗的寄存器描述如下&#xff1a; 启动看门狗&#xff0c;需将B5位EN_WDT置1即可&#xff0c;…

大数据------额外软件、插件及技术------Linux(完整知识点汇总)

Linxu 不同领域的主流操作系统 桌面操作系统 WindowsMAac OSLinux 服务器端操作系统 UNIX&#xff08;付费&#xff09;LinuxWindows Server&#xff08;付费&#xff09; 移动设备操作系统 Android&#xff08;基于Linux开源&#xff09;IOS&#xff08;不开源&#xff09; 嵌…

时间序列分析入门:概念、模型与应用【ARMA、ARIMA模型】

在这篇博客中&#xff0c;我们将全面探讨时间序列分析的基本概念和分类&#xff0c;深入理解平稳性及其检验方法&#xff0c;并介绍自回归模型&#xff08;AR&#xff09;、滑动平均模型&#xff08;MA&#xff09;、自回归滑动平均模型&#xff08;ARMA&#xff09;以及自回归…

动态流体工厂大屏

目录 一 设计原型 二 后台源码 一 设计原型 二 后台源码 namespace 动态流体工厂大屏 {public partial class Form1 : Form{public Form1(){InitializeComponent();}private void Form1_Load(object sender, EventArgs e){Task.Run(() >{while (true){this.Invoke(() >…

openEuler搭建hadoop Standalone 模式

Standalone 升级软件安装常用软件关闭防火墙修改主机名和IP地址修改hosts配置文件下载jdk和hadoop并配置环境变量配置ssh免密钥登录修改配置文件初始化集群windows修改hosts文件测试 1、升级软件 yum -y update2、安装常用软件 yum -y install gcc gcc-c autoconf automake…

模块化沙箱的优势与应用

在数字化时代&#xff0c;数据安全已成为企业乃至国家层面不可忽视的重要议题。随着云计算、大数据等技术的广泛应用&#xff0c;数据泄露、恶意攻击等安全威胁日益严峻。在这样的背景下&#xff0c;模块化沙箱技术应运而生&#xff0c;为企业提供了高效、灵活的数据安全解决方…

NAND闪存巨头铠侠(Kioxia)计划最迟于10月下旬通过首次公开募股IPO

据路透社于6月26日引用消息来源的报道&#xff0c;在半导体市场条件反弹及财务业绩迅速改善的背景下&#xff0c;NAND闪存巨头铠侠&#xff08;Kioxia&#xff09;正准备尽快提交初步申请&#xff0c;并计划最迟于10月下旬通过首次公开募股&#xff08;IPO&#xff09;在东京证…

【Hive中常见的优化手段----数据采集!Join 优化!Hive索引!数据倾斜!mapreduce本地模式!map和reduce数量调整!】

前言&#xff1a; &#x1f49e;&#x1f49e;大家好&#xff0c;我是书生♡&#xff0c;今天主要和大家分享一下Hive中常见的优化手段----数据采集&#xff01;常见的Join 优化有哪几种&#xff01;什么是Hive索引&#xff01;数据怎么发生倾斜&#xff01;什么是mapreduce的本…

Pycharm 文件标头设置

一、设置模板步骤&#xff1a; “文件File--设置Settings--编辑器Editor--File and Code Templates- Python Script” 里面设置模板 官方预设变量表 变量名 含义 ${DATE} 当前系统日期 ${DAY} 当前月的第几日 ${DAY_NAME_SHORT} 当前星期几的单词缩写&#xff08…

Vue2配置前端代理

在8080向5000请求数据 clivue2 一、cli内配置前端代理 1、使用 发送请求时写8080 在配置文件中配置 vue.config.js 2、缺点 无法配置多个代理无法控制某个请求知否要代理 二、方式二 module.exports {devServer: {proxy: {/api1:{ //匹配所有以/api1开头的请求路径…

向量化算法 doc2vec

第1关&#xff1a;认识 Doc2vec Doc2vec 算法简介 Doc2vec 又叫做 Paragraph2vec&#xff0c; Sentence embeddings&#xff0c;是一种非监督式算法&#xff0c;可以获得句子、段落、文档的向量表达&#xff0c;是 Word2vec 的拓展。学出来的向量可以通过计算距离来找句子、段…