以下文章来源于极新 ,作者王吟
据 IDC 预测,随着企业数字化转型,到 2026 年,中国大数据 IT 支出将达到 360 亿美元。Gartner 预测,得益于托管云服务的推动,到 2023 年,全球数据库市场有望达到 1000 亿美元。这给数仓带来的巨大的市场机会。
中国的云原生数据仓库市场的发展存在一个很关键的有利因素,就是中国庞大的数据体量及潜在的数据分析需求,相比欧美更加旺盛,阿里云、华为云、腾讯云等正在布局该市场。
按照技术的火热程度排名,云原生数仓下一步的发展方向是与大模型进行结合。二者结合后能够极大提升数据分析和挖掘的能力。大模型具备强大的学习和理解能力,可以深入解析数仓中的海量数据,发现隐藏在数据背后的潜在规律和趋势,为企业决策提供更精准的依据,企业能够更快速地获取有价值的信息,及时调整业务策略,提高运营效率和竞争力。
那么,云数仓要如何与大模型结合?其中的创新点是什么?激烈的市场竞争下,如何破圈?
上周,Databend Labs 联合创始人王吟,作客极新直播间,与垂直于产业 AI 的创投和行业研究媒体极新创始人 姜稳围绕“云数仓+AI,用数据引领未来”主题进行对话,就上述问题分享精彩观点。
王吟 Databend Labs 联合创始人
王吟在谈到云数仓等领域时侃侃而谈,他的答案既包含了对云数仓重要性的肯定,又表达了对其复杂性的深刻认识。
“我对数据仓库的发展感到非常高兴,未来还会释放出巨大的价值和红利。”
“开源属于我们企业基因的一部分,有很多人都喜欢开源文化。从第一天起,我们就开始考虑开源,也考虑到我们可以从开源中获取到很多收益。”
“出海的机会还很大。”
👇 以下是问答整理:
极新:欢迎王总加入创始人对话栏目,做客极新直播间,请自我介绍并简要介绍Databend Labs的业务。
王吟: 大家好,我是 Databend 的联合创始人王吟,Databend 是一家开源 Data Cloud 服务商,核心团队成员来自 ClickHouse 社区、谷歌 Anthos、阿里云、青云等国内外知名互联网和云计算公司,团队在云原生数据库领域有着丰富的工程经验,研发人员分布在中、美两地,同时也是数据库开源社区活跃贡献者。
Databend 在开源领域很多项目做了贡献,包括 ClickHouse、MySQL 内核、RadonDB 等。至今累积的 Star 数量已经有 7, 200 多个,并有 180 多个 contributor(贡献者),在数仓领域内算作一个全球领先的项目。
项目产品是基于 Rust 研发的、基于对象存储来做数据分析的新一代数仓。在全球对标的产品是 Snowflake ,希望能做一个开源版本的 Snowflake。
从第一天起就开源
“开源才有用户愿意帮你打磨产品”
极新:为什么想到做开源?开源之后面临的主要挑战是哪些?
王吟: 基础软件未来只有开源一条路,如果不做开源,产品的生命力是有限的,企业的宣传成本以及产品迭代都会成问题,连第一批种子用户都很难获得。 在产品没有知名度而且又是闭源的情况下,很难有客户肯帮你打磨产品,这样就没人告诉你产品存在哪些问题。
因此,从第一天开始我们就选择开源的方式,也思考可以从开源中获取哪些收益。
遵循着这个模式,在推出 0.7 产品版本时,市场就开始接受我们的产品了。开源社区中的用户可以帮我们打磨产品,同时产品也获得了很好的收益。开源属于 Databend 基因的一部分,有很多人都喜欢开源文化。
极新:开源需要较高的运维成本,也会面临安全问题,所以很多企业选择了闭源,您是如何看的?
王吟:不同的场景和棋局都会有不同的选择。
在数仓领域,如果不选择开源,产品的打磨将会是一个长期且复杂的过程。数仓并不是一蹴而就的,就像摩天大楼的建设一样,需要不断地迭代和完善。尤其是对于闭源产品而言,如果没有用户的参与和反馈,产品的迭代和更新将会变得非常困难。而开源类产品则能够更容易地实现产品的不断迭代和更新,因为开源社区中的用户可以积极地参与到产品的开发和改进中来。
开源产品还能够积累大量的用户场景和需求,从而加快产品的迭代速度。相比之下,闭源产品在用户知名度和宣传方面都会面临更大的困难,而且在打磨过程中也容易出现各种问题。
不过需要强调的是,开源也并不意味着安全。相反,开源产品反倒能够通过获取更多用户的信任来增强安全性。例如,一些海外用户在使用 Databend 的产品时,正因为看到了我们产品开源,才对我们产生了一定的信任关系。
对于闭源产品而言,如果要进行商业化或 SaaS 化,就需要考虑更多的保障措施。而对于开源产品来说,商业化同样也需要考虑到如何保障数据安全和架构安全等问题。
总体来说,无论是开源还是闭源,产品的成功都需要考虑到多个方面的因素,包括用户需求、迭代速度、安全性以及商业化等。
极新:数据库行业软件企业想做开源,您会给一些什么建议?
王吟: 首先必须要明确你的开源产品和商业模式,从一开始就要清晰地思考商业化路径。
很多企业和创业者在初期可能只是盲目地想要先开源,但之后如何获取信息流、如何实施商业化,这些问题其实并没有想清楚。因此从一开始就需要规划好路径。
做开源不能仅仅是为了开源而开源。如果得到了资本的支持,就要有耐心逐步实现盈利,因为资本可能允许企业有三年或者更长时间进行开源和产品迭代。 所以资本的选择也是非常重要的。
极新:SaaS 企业如果第一年没有确定商业模式的话,后续的发展会非常困难,咱们当时是怎么度过的?
王吟: 第一年我们就确定了方向,但当时数据库的发展并不足以支持我们迅速实现商业化,尤其当时我们是从零开始构建,存在开发周期。
这个周期大致是这样的:首先,需要不断打磨和迭代产品,然后吸引种子用户。这些种子用户会帮助我们进一步迭代产品,之后才开始考虑商业化的问题。
从 0.5 版本到 0.7 版本,我们大概用了一年的时间,后续会持续迭代产品,并不是说产品做完了就结束了,就可以推向市场了,其实并不是这样的,商业化是关键。
在产品不断完善、迭代,并且积累了一定数量的种子用户之后,才开始考虑产品化的问题。我认为这才是真正的关键。目前,我们正处于不断商业化的过程中。
是否能抓住机遇?
“ 如果云数仓能够与大模型有效结合,实现数据的无缝流动,并在数仓内部完成数据分析,那么这将成为一个新的需求点和机会。”
极新:云数仓现在处在发展的那个阶段?
王吟: 云数仓其实已经相当成熟。可以说它正处于发展的上升阶段,甚至可以说是接近顶点的阶段。我更倾向于将其视为一种基础设施,尤其是在信息领域。 云数仓的历史也相当悠久,新型的云数仓正面临着不断涌现的需求,大家对于新的云数仓的需求也正处于上升阶段。
数据库的世界化进程已经到了一个相对较高的水平,云数仓需求的出现,一方面得益于云计算的兴起,另一方面则是因为数据量的不断增长以及大数据分析场景的日益增多。大模型也为云数仓带来了新的机遇。如果云数仓能够与大模型有效结合,实现数据的无缝流动,并在数仓内部完成数据分析,那么这将成为一个新的需求点和机会。
极新:随着大模型的火爆,各行各业慢慢从数字化转型走向数智化转型,对于数仓行业来说,不可错过的机遇是什么?
王吟: 从 2022 年 ChatGPT 发布之后带来了很多机会。我们来回顾一下,2000 年是互联网爆发时期,市场上出现了新浪、搜狐这些网站;2010 年是移动互联网时代,大家开始大规模使用手机;2022 年是人工智能、大模型的浪潮。其实每个阶段的浪潮都是下一个阶段的生产力,所以大模型浪潮也是下个阶段的生产力。
“人工浪潮”这个机遇大家肯定都不想错过,其实我刚才也和同事聊到这个话题,我们都有一种共同的焦虑,那就是我们是否能够抓住这个机遇?
在这波浪潮里我们有两部分规划,第一部分是如何用大模型;第二部分是怎么在产品上加码。
先说第一部分,我们的工程师已经在工作和生活中用它生成代码,并用来编写测试用例。因为在数据库研发过程中,需要编写大量的 SQL 测试用例和数据测试集,这些测试集的数据量可能达到几千亿甚至更多,获取这些数据实际上是非常具有挑战性的。
Databend 的产品对标的是海外的 Snowflake, 而 Snowflake 推出了一个 名为 “cortex” 产品,通过结合大模型的能力做了一个生成式 AI 的产品并内置 ,并结合这个大模型去指引、帮助用户做决策。如果对这个产品感兴趣的话,大家也可以去看一看。
极新:与大模型结合的创新点是什么?目前在“加 AI 量”或“用 AI 量”上是怎样的?大模型现在的底层数据库确实是一个非常重要的考量因素。那么,关于我们目前所做的数据仓库或者数据库与大模型的结合,其结合点究竟是什么呢?换句话说,这个数据库在整个 AI 领域有着怎样的应用呢?
王吟: 如何把云数仓和大模型结合起来,Databend 正在研发中。
在使用 OpenAI 等大模型时,用户普遍会面临两个问题。第一,费用相对较高,且随着使用量的增加,费用也会不断攀升,这是因为 OpenAI 是是根据用户的请求等维度来收费的。第二,数据安全性也是用户关心的一个重要问题, 他们担心将数据交给 OpenAI 后,数据的安全性和合规性无法得到保障。
针对这些问题,Databend 采取了以下措施:基于开源大模型来降低使用成本。同时我们也关注数据安全问题,通过在开源数仓中集成开源大模型,用户可以直接调用大模型的 AI 函数,从而确保所有数据都留在数仓内部,无需外泄。这样既解决了数据安全问题,又降低了使用成本。
极新:如何利用 AI 技术更好地挖掘和分析数仓中的数据价值?
王吟: 首先 AI 兴起时间并不长,特别是在大模型这一领域,但数据仓库这个业务已经存在很久了。同样地,数据库技术也经过了几十年的发展,从 MySQL 到 PG,再到Oracle 等,都经历了长时间的积累和沉淀。
随着云数仓的兴起,我们看到了许多新一代的产品,如 Greenplum、Teradata、ClickHouse、以及 Snowflake 和 Databend 等,这些产品都在不断地满足新的数据处理需求。
但值得注意的是,尽管云数仓是新兴的技术,但数据仓库的概念和产品其实早已存在。从这一角度看,云数仓的落地其实是在满足现有数据仓库无法有效处理的新需求。
极新:有哪些成功的案例可以展示数仓行业与 AI 结合带来的实际效益?
王吟: 我们第一个用户是云平台上的 AIGC 用户,他们是一个初创团队,他们的业务主要是文生图领域,通过开源了解到我们的产品,开始使用 Databend Cloud。
按照他们的预算,如果自己搭建一个数仓并组建数据库团队,费用会非常高昂。在与我们交流并使用我们的产品后,他们发现 Databend Cloud 非常易用,并能迅速融入他们的业务系统中,助力他们快速发展。
破圈的关键
“获取资本的长期支持是获取经验、推动发展的重要一轮。”
极新:当下来看,开发者生态有哪些变化?
王吟: 这个问题的答案其实可以反过来看投资侧,现在主要投人工智能相关的企业比较多,他们可能更关注于开发者是否与人工智能相关,如果是的话会更容易获取一些投资。
从开发者这一侧来看,其实你并不需要独自去编写完整的代码。当你有了新的想法后,可以尝试与 VC(风险投资人)进行交流,以获取他们的认可。同时如果有一个 Demo (演示模型)展示,效果可能会更好。因为对于投资人来说,像数据库这样的内容通常并不容易直观地理解,不像 APP 这类工具容易查看。
极新:中国的云原生数据仓库市场的发展存在一个很关键的有利因素,就是中国庞大的数据体量及潜在的数据分析需求,相比欧美更加旺盛,阿里云、华为云、腾讯云等正在布局该市场,咱们如何破圈,有何布局?
王吟: 我们与云服务提供商之间的关系是协同而非竞争。 我们的产品,即 Databend Cloud,是一个完全基于存算分离架构的云原生产品。目前,包括阿里、腾讯和华为在内的数仓类产品大多采用存算一体化架构,即计算和存储结合在一起,因此我们的产品与这些云服务提供商的产品是互补的。云服务提供商的产品更适合对实时性要求高的应用场景,而我们的产品则更适合近实时数据处理、离线数据分析以及归档数据分析等场景。此外,由于我们底层使用对象存储,成本较云服务提供商显著降低。
我们上层的计算节点采用 Serverless 架构,能够根据需求动态开启或关闭,这为云服务提供商的产品线增加了多样性,用户可以根据具体场景选择不同的产品。
Databend 已经入驻了阿里云和腾讯云市场,用户可以通过云市场一键购买并使用我们的 Cloud 产品。除了 SaaS 产品,我们还提供私有化部署的开源产品 Databend Open Source 和 Databend Enterprise,更适合需要私有化部署的用户。与云服务提供商主要提供 SaaS 产品不同,我们的开源产品允许用户下载并在本地使用,数据格式保持一致,无需转换。
我们还是一个中立的云平台,能够接入多个云服务提供商,包括我们已经接入的阿里云和腾讯云。对于多云部署的客户,他们可以通过 Databend Cloud 平台一键接入多个云服务提供商,从而解决数据中立性问题。
极新:有了解到咱们上线了国际版,出海的布局是怎样的?
王吟: 出海主要是为了解决营收问题,许多国内的 SaaS 厂商都开始考虑出海。
Databend 的产品主要有两部分。首先,Databend Cloud 的 SaaS 产品在国内是首创的、完全 Serverless 的产品形态,目前国内市场还没有同类型的产品出现,因此与 Snowflake 有着直接的竞争关系。同时产品形态还包括 On-premise 私有化部署方案,以满足用户进行私有化部署的需求。
这样就形成了两条腿走路的策略:在国内,既有 SaaS 产品,也有 On-promise 产品;而在海外,主要推广 SaaS 产品。
这样既能满足国内用户对于私有化部署的偏好,又能迎合海外用户对于 SaaS 应用的需求,从而实现更广泛的市场覆盖和更高的营收。
其实东南亚市场是一个非常具有潜力的市场。首先离中国较近,文化习俗也相对接近,时区差异也小,使得双方在交流和合作上更加便捷,而且我们发现他们习惯于使用 SaaS 产品,并愿意为此付费,同时也有部分用户选择使用 On-premise(本地部署)的解决方案。
SaaS 产品在东南亚市场的发展势头确实不错,因为他们大部分的运维工作都是服务商承担,如果使用 SaaS,能够大大降低企业在运维方面的人力成本。同时也观察到印度和印尼的用户在使用某些产品时表现得较为活跃,比如我们在 AWS 的 Marketplace 中提供了丰富的选择,用户不仅可以使用 AWS 本身的产品,还可以在 AWS 上寻找其他数据仓库类产品。
极新:今年是 Databend Labs 成立三周年,有没有什么经验或感慨可以分享给这个领域的其他人或所有创业者?
王吟: 说实话创业三年以来,我们基本上是按照之前的规划来推进的。在技术和产品方面,其实并没有遇到太多的困难或挑战。下一步我们面临的挑战是如何更好地深化和推进实现商业化,这是我们需要面对的主要挑战。
我认为创业团队也需要做好长期的规划,不能只关注眼前的一两年,而是需要考虑到三年或五年的长周期。这样的规划能够帮助我们更好地应对未来的挑战和机遇。
当前经济环境不佳,因此现金流的控制显得尤为重要,这一点是大家所熟知的。
最后一点,获取资本的长期支持也是我们获取经验、推动发展的重要一环。不仅可以为我们的创业之路提供稳定的资金支持,还可以帮助我们积累更多的资源和经验。
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
关于 Databend
👨💻 Databend Cloud:https://databend.cn
📖 Databend 文档:https://databend.rs/
💻 Wechat:Databend
✨ GitHub:https://github.com/datafuselabs/databend