为什么数据平台需要敏捷版|直播回顾

在这里插入图片描述

11月28日,我们邀请到StartDT合伙人、CTO地雷和StartDT资深战略咨询专家何夕,围绕“为什么数据平台需要敏捷版”这个话题,向大家汇报了DataSimba敏捷版这半年来的最新进展,并带来了详细的产品解读。

敏捷版支持StarRocks、ClickHouse和Apache Doris等新型MPP数据库,还支持Flink和Kafka等技术栈增购包,不仅能够处理离线数据分析、即席查询任务,还能满足客户实时写入等需要。

如果您数据量在3TB以下、节点数量在3-9个、产品总预算不超过50万,存在集成、研发、运维、服务、治理等任何数据需求,就请一起阅读下去吧!

1 DataSimba敏捷版产品解读

现在的数据技术栈是比较复杂的,其集群规模大,运维和数据治理成本高。此前我们服务的客户,大多数都是数据量达到PB级别,拥有百万预算,且数据团队相对完整的头部客户。

随着数字化转型效果明显增强,越来越多的企业重视数据分析并进行立项,这其中就包括数据量较小、预算有限、团队规模欠完备的企业。对他们来说,大型全家桶型的传统数据平台就显得有些超配了。为此,DataSimba推出敏捷版,积极响应中小企业,以及大型企业中一些独立的部门和团队的需求,也就是腰部客户的需求。

我们优化掉了许多传统大数据技术栈中的复杂组件,使得敏捷版可以在最小3个节点的集群环境中运行,并且经过了RAS压力测试(点击了解RAS),确保能够满足生产环境的要求。

DataSimba敏捷版支持StarRocks、ClickHouse和Apache Doris等新型MPP数据库,能够处理离线数据分析和即席查询任务。我们还支持Flink和Kafka等技术栈增购包,满足客户实时写入需求。敏捷版能够满足多样化的数据场景需求,大大简化了部署和运维的复杂度,同时保持了高效的数据处理能力。

此外,为了响应客户的强烈需求,在标准接口方面,除了已有的北向对象接口外,今年会逐渐开放南向接口,包括引擎对接、任务调度、用户对接、安全审计,元数据、外表存储接口等,以降低集成难度,提供更灵活的对接方式。

值得注意的是,随着企业数据量增多和业务发展,可能需要增加引擎以适应不同计算需求。因此,我们建议客户提前统一数据存储格式,打开数据湖开关,如Hudi或Iceberg等,以便降低未来数据迁移的难度。

最后,DataSimba敏捷版与标准版的主要区别在于底层引擎和技术栈的选择,而在功能层面上二者一致,即都能够满足客户集成、研发、运维、服务、治理的全链路需求。因此,对于数据量达到PB级及以上的大型客户我们推荐标准版。而数据量适中的客户,敏捷版就是您的性价比之选。
在这里插入图片描述

2 为什么数据平台需要敏捷版?

2.1 DataSimba敏捷版基于市场需求明确客户画像

此前,我们进行了深入的市场调研和用户访谈,发现随着市场环境的变化,DataSimba的客户群体更加丰富了,需求也更加多样化。

首先,越来越多腰部客户开始重视管理数据,他们倾向于业务分析而非复杂的大数据技术栈运维,需要易于使用、维护简便的产品,其中不少客户也有建立数据仓库或数据平台的需求。其次,由于Teradata等国际厂商退出中国市场,许多传统数仓用户正在寻找国产替代。这类客户通常有稳定的数据量增长,并寻求数据迁移和维护。另外,调研发现,明确表示不需要实时计算功能和强烈要求实时计算的客群比例近乎一致。客户期望产品提供“搭积木”的功能,灵活满足当前及未来的发展需求。

DataSimba敏捷版基于调研结果不断调整,目前不仅能够支持StarRocks等新MPP引擎,确保高性能的数据处理能力,还降低了部署、使用和集成的难度,帮助腰部客户轻松操作和管理。我们支持客户通过“增购包”的形式逐步投入资源,按需扩展功能,确保可以平滑升级至更高级别的服务。

敏捷版的客户画像也很明确,即数据量通常在3TB以下;节点数量在3-9个(超过9个就要使用基于Hadoop的大数据平台,比如DataSimba标准版);产品总预算不超过50万;缺乏资深数据团队运维大型数据集群;需要易于部署、使用简单且具有良好扩展性的解决方案的腰部客户。可以说,只要是数据量较小、预算较少,且想要快速产出业务成果的客户都可以尝试DataSimba敏捷版。

2.2 DataSimba敏捷版和标准版均是主力产品

DataSimba敏捷版和标准版的差异主要体现在它们各自针对的不同客户场景和技术实现上,而不是简单的高低配置或价格体系上的区别。两者都是专门为解决特定类型的客户需求而设计的产品版本,不存在主次关系。

标准版主要面向头部客户或大型企业的平台需求,能够提供复杂和全面的功能集群以满足其多样化的数据处理需要,并给予数据团队更多的专业调整空间,以实现高度定制化的配置和优化。

敏捷版使用单一的新型MPP引擎,简化了技术栈,降低了运维难度和成本,主要面向腰部客户的平台需求。由于敏捷版优化了调度机制和资源利用效率,尽管其规模较小,但性能表现优异,某些情况下甚至可能超过标准版。另外,敏捷版更加注重自动化配置,使得非专业人员也能轻松操作。
在这里插入图片描述

2.3 DataSimba敏捷版具备灵活扩展的升级路径

客户选择了DataSimba敏捷版后,未来的发展路径可以根据其业务增长和技术需求逐步扩展和升级。如果客户的节点数超过9个或者单一MPP引擎无法满足复杂需求时,可以选择通过增加引擎、功能和服务来增强系统能力,而不必将敏捷版铲平。

在处理大规模原始数据的场景中,客户可在引入Hive、Spark等大数据引擎进行ETL处理,并保留StarRocks、ClickHouses或Apache Doris等MPP引擎用于数据分析和即席查询等需求。当客户需要增加实时处理能力时,也可以增购实时计算包。此外,DataSimba还提供了细化的服务增购选项,包括单次服务、VIP运维服务等。

这种渐进式的升级过程类似于登山图所描绘的成长路径,客户从数仓优化逐渐发展为全面的数据平台,并基于此开展各项应用。最终,敏捷版可能会被DIY成一个功能完备的标准版系统,且整个过程是灵活的、可定制的,帮助客户实现从简单到复杂的全面数智化转型。
在这里插入图片描述

2.4 DataSimba敏捷版为AI开发搭建平台

作为中立安全、稳定易用的数据云平台,DataSimba支持多云、多引擎、多数据源,以及不同的服务器、计算框架和GPU集群。我们还具备统一的底层基础设施,以及综合调度、安全隔离等功能,能够在集群内部进行数据分析,确保了数据安全和资源的有效利用,能够为企业开发AI技术保驾护航。

如果数据团队或者DataSimba敏捷版客户想要利用数据平台进行AI应用或创新,我们建议可以在两方面发力:一是数据分析,二是数据预处理。特别是对于那些历史上积累的大量半结构化或非结构化的数据,利用大模型来读取并整理成结构化表格是一个非常可行的方向。

值得注意的是,无论是AI应用还是大模型训练,干净的、高质量的数据输入是必不可少的前提。同时,数据安全和隐私保护也不容忽视,在不损害信息安全的基础上使用提效工具才能有效地促进业务发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/934602.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS-中级(四)

文章目录 Native适配开发三方库的基本使用 🏡作者主页:点击! 🤖HarmonyOS专栏:点击! ⏰️创作时间:2024年12月09日11点12分 Native适配开发 Node-API HarmonyOS Node-API 是 HarmonyOS 提供的…

从零开始的使用SpringBoot和WebSocket打造实时共享文档应用

在现代应用中,实时协作已经成为了非常重要的功能,尤其是在文档编辑、聊天系统和在线编程等场景中。通过实时共享文档,多个用户可以同时对同一份文档进行编辑,并能看到其他人的编辑内容。这种功能广泛应用于 Google Docs、Notion 等…

统信桌面专业版部署postgresql-14.2+postgis-3.2方法介绍

文章来源:统信桌面专业版部署postgresql-14.2postgis-3.2方法介绍 | 统信软件-知识分享平台 应用场景 CPU架构:X86(海光C86-3G 3350) OS版本信息:1070桌面专业版 软件信息:postgresql-14.2postgis-3.2 …

jmeter 提取数据写入文件

BeanShell PostProcessor FileWriter file new FileWriter("E:\\IOT\\cui家庭中心\\v3.8.0\\123.txt",true); BufferedWriter out new BufferedWriter(file); out.write(vars.get("localKey")"\n"); log.info("到这里了吗"); out.c…

在ensp中ACL路由控制实验

一、实验目的 掌握ACL路由控制管理 二、实验要求 要求: 配置路由策略,左右两边不公开区域对方不可达,其他区域可以互相ping通 设备: 1、三台路由器 2、四台交换机 3、四台电脑 4、四台服务器 使用ensp搭建实验环境,如图所…

MySQL 实现分库分表详解

MySQL 实现分库分表详解 为什么要分库分表什么是分库分表分库分表的几种方式垂直拆分数据库垂直拆分表垂直拆分垂直拆分特点垂直拆分优缺点优点缺点 水平拆分数据库水平拆分表水平拆分水平拆分的其他方式水平拆分特点水平拆分优缺点优点缺点 分库分表带来的问题分库分表技术如何…

如何让Google快速收录你的页面?

要让Google更快地收录你的网站内容,首先需要理解“爬虫”这个概念。Google的爬虫是帮助它发现和评估网站内容质量的工具,如果你的页面质量高且更新频率稳定,那么Google爬虫更可能频繁光顾。通常情况下,通过Google Search Console&…

游戏引擎学习第36天

仓库 :https://gitee.com/mrxiao_com/2d_game 回顾之前的内容 在这个程序中,目标是通过手动编写代码来从头开始制作一个完整的游戏。整个过程不使用任何库或现成的游戏引擎,这样做的目的是为了能够全面了解游戏执行的每一个细节。开发过程中&#xff0…

【Linux】系统信息和状态命令

步骤 1:显示系统信息 命令: uname -a 1.打开终端。 2.输入命令并按回车键。 3.观察:输出将显示包括内核版本、主机名、硬件架构等在内的系统信息。 步骤 2:显示或设置系统的主机名 命令: hostname 1.打开终端。…

IDEA创建Spring Boot项目配置阿里云Spring Initializr Server URL【详细教程-轻松学会】

1.首先打开idea选择新建项目 2.选择Spring Boot框架(就是选择Spring Initializr这个) 3.点击中间界面Server URL后面的三个点更换为阿里云的Server URL Idea中默认的Server URL地址:https://start.spring.io/ 修改为阿里云Server URL地址:https://star…

获得日志记录之外的新视角:应用程序性能监控简介(APM)

作者:来自 Elastic David Hope 日志记录领域即将发生改变。在这篇文章中,我们将概述从单纯的日志记录到包含日志、跟踪和 APM 的完全集成解决方案的推荐流程。 通过 APM 和跟踪优先考虑客户体验 企业软件开发和运营已成为一个有趣的领域。我们拥有一些非…

Qt之第三方库‌QXlsx使用(三)

Qt开发 系列文章 - QXlsx(三) 目录 前言 一、Qt开源库 二、QXlsx 1.QXlsx介绍 2.QXlsx下载 3.QXlsx移植 4.修改项目文件.pro 三、使用技巧 1.添加头文件 2.写入数据 3.读出数据 总结 前言 Qt第三方控件库是指非Qt官方提供的、用于扩展Qt应用…

Codeforces Round 992 (Div. 2)

传送门:Dashboard - Codeforces Round 992 (Div. 2) - Codeforces A. Game of Division 思路:模拟 AC代码:Submission #295676347 - Codeforces B. Paint a Strip 思路:数学 贪心 放置的位置一定是 1 4 10 22 48 ....…

MySQL并发控制(二):锁

只改一行语句,为什么锁那么多 注1:MySQL后面的版本可能会改变加锁策略, 所以这个规则只限于截止到现在的最新版本, 即5.x系列 注2:因为间隙锁在可重复读隔离级别下才有效, 所以本篇文章接下来的描述&#…

ThinkPHP+Layui开发的ERP管理系统

ERP采购生产销售系统,一款基于ThinkPHPLayui开发的ERP管理系统,帮助中小企业实现ERP管理规范化,此系统能为你解决五大方面的经营问题:1.采购管理 2.销售管理 3.仓库管理 4.资金管理 5.生产管理,适用于:服装…

vue的初步使用

一. vue的初步使用 1.引入相关依赖 //<!-- 引入一个vue文件 --><script src"https://cdn.jsdelivr.net/npm/vue2.7.16/dist/vue.js"></script>2. 给出相应的数据 <!DOCTYPE html> <html lang"en"> <head><meta ch…

计算机网络-Wireshark探索ARP

使用工具 Wiresharkarp: To inspect and clear the cache used by the ARP protocol on your computer.curl(MacOS)ifconfig(MacOS or Linux): to inspect the state of your computer’s network interface.route/netstat: To inspect the routes used by your computer.Brows…

开发一套SDK 第一弹

自动安装依赖包 添加条件使能 #ex: filetypesh bash_ls 识别 达到预期,多个硬件环境 等待文件文件系统挂在完成 或者创建 /sys/class/ 属性文件灌入配置操作 AI 提供的 netlink 调试方法,也是目前主流调用方法,socket yyds #include <linux/module.h> #include <linux…

Facebook 人工智能:重塑社交新未来

在数字化迅速发展的今天&#xff0c;人工智能(AI)已经深入了我们的生活&#xff0c;尤其是在社交媒体领域。Facebook作为全球最大的社交平台之一&#xff0c;正利用AI技术&#xff0c;革新其服务和用户体验&#xff0c;为用户打造社交互动的新未来。 首先&#xff0c;人工智能…

Plugin - 插件开发03_Spring Boot动态插件化与热加载

文章目录 Pre方案概览使用插件的好处流程CodePlugin 定义Plugin 实现Plugin 使用方动态加载插件类加载器注册与卸载插件配置文件启动类测试验证 小结 Pre 插件 - 通过SPI方式实现插件管理 插件 - 一份配置&#xff0c;离插件机制只有一步之遥 插件 - 插件机制触手可及 Plug…