杨传辉:云+AI 时代的一体化数据库|OceanBase发布会实录

在 2024 OceanBase 年度发布会 上, OceanBase CTO 杨传辉进行了主题为《云和 AI 时代的一体化数据库战略思考》的演讲,本文为演讲实录,欢迎阅读。

视频观看可点击:https://www.oceanbase.com/video/9001825 


各位 OceanBase 的客户、OceanBase 的用户、各位领导、各位嘉宾大家好!今天我跟大家分享的主题是《云和 AI 时代的一体化数据库战略思考》。

1、与客户同行,OceanBase一体化架构持续演进

(一)OceanBase 为什么要做一体化数据库

早在两年前,OceanBase 已在业界率先倡导并提出了单机分布式一体化架构的理念。随后,在2022年10月发布了4.0版本。时至今日,众多业界数据库厂商亦开始关注并讨论一体化架构。那么回顾两年前,我们为何会提出一体化架构的理念呢?

随着互联网、移动互联网,特别是人工智能时代的来临,数据库所管理的数据类型已从原本单纯的结构化数据,逐步转变为半结构化乃至无结构化数据。然而,客户仍期望能够利用同一套系统来处理各种不同类型的工作负载,并确保数据的一致性。客户不再希望区分哪些查询属于OLTP,哪些属于OLAP,哪些是多模,哪些是AI,而是期望能够采用一套强大的系统来满足其所有数据存储和管理的需求。

但是,一体化的客户需求,在技术实现上,面临很大的挑战。首先,因为要处理海量数据,这套数据库系统需要是分布式,而不是集中式。其次这套数据库系统需要具备海量数据的存储与计算的能力。

OceanBase 完美契合了客户需求与技术能力,所以在 2022 年首次提出一体化,并持续践行一体化理念。

(二)践行一体化理念,OceanBase 架构持续演进

OceanBase 持续演进一体化能力,迄今为止共经历了两次大的技术迭代。从分布式到一体化,从 TP 到 HTAP,再到 SQL + NoSQL、SQL + AI。

第一次技术迭代是 1.0 版本,实现原生分布式架构下所有的节点可读可写,且单点故障下不丢失任何数据,实现真正意义的原生分布式。

第二次技术迭代是 4.0 版本,在业内首次提出并实现单机分布式一体化架构,用一个系统满足每一个用户从小到大全生命周期数据存储与管理的需求。

基于分布式和单机分布式一体化架构,OceanBase 支持各种数据库的功能,2.0 版本主要用于 OLTP mission critical,核心业务场景接入 MySQL;3.0 版本进一步增强了对实时 OLAP 的支持,即 HTAP;4.2 版本打造 SQL+NoSQL 的综合能力;4.3 版本面向  AI 时代的技术趋势,提供 AI 的融合查询能力。

2、OceanBase一体化数据库解析

OceanBase 一体化数据库主要包括 3 个层面的含义:一体化架构、一体化引擎和一体化产品。

最底层的是一体化架构, 包括单机分布式一体化和多云原生。我们希 OceanBase 一体化数据库既能应用在大企业,也能应用在中小企业,甚至是创业公司。我们希望 OceanBase 可以在业界所有主流公有云平台多云共生,应用于专有云、混合云等各种不同的部署环境,屏蔽掉不同云基础设施差异,保障数据一致性体验。

OceanBase 一体化架构之上是一体化引擎,包括一体化存储,一体化 SQL 引擎和一体化事务。一体化产品包括 HTAP 混合负载处理、SQL+AI 向量的产品、SQL+NoSQL 多模的产品等。

(一)打造一体化架构的基石:单机分布式一体化

单机分布式一体化架构是一体化数据库的基石。分布式数据库首先是用来处理海量数据,它的扩展性比较好,解决了数据规模问题;它的成本比较低,可以极大降低存储成本;它也有比较强的容灾能力。集中式数据库发展时间比较悠久,生态和单机性能非常出色。我们通过单机分布式一体化架构,融合分布式和集中式的双重技术优势,使得同一个系统既能处理数据规模的问题做到很好的扩展性,同时也能提供很好的单机功能和性能,并且像原来的集中式数据库一样,在各种中小企业中间非常通用和普适。

(二)从 TP 到 TP + AP,迈向多工作负载一体化

OceanBase 最早用来处理 OLTP 核心交易场景,从 OLTP +OLAP 乃至 HTAP, OceanBase 经历了三个发展阶段。

第一个阶段是 OLTP +。在保险行业和运营商行业,核心系统具有非常高的并发量,每条 SQL 查询非常复杂,高并发复杂查询相当于 OLTP +,对数据库的底层要求比较高,需要存储引擎能力支持行列混合负载,需要有很好的优化器。OceanBase 通过 OLTP +的方案解决核心场景需求。

第二个阶段是 HTAP。在 OLTP 的基础上引入了对实时 AP 的支持,需要用到原来的行列缓存,也需要列存索引来加速 Operational OLTP 在实时 AP 的能力。

第三个阶段是实时 AP。我们需要通过列存副本的方式,把 AP 的性能做到极致。HTAP 往往在泛互联网的场景应用广泛,正是由于这些场景对实时分析的要求更高。

山东移动是非常典型的 OLTP +的复杂查询场景。山东移动原来使用集中式数据库 Oracle,性能高且扩展受限。通过将数据库系统平滑升级至 OceanBase 后,实现 RPO=0,业务处理的效率提升近 30%,在某些场景下,存储成本降低 90%,只有原来的 1/10。

海底捞原来使用两个不同的系统分别处理 OLTP 和 OLAP。OLTP 是类 MySQL 云原生数据库,OLAP 是云原生数仓,由于 OLTP 和 OLAP 之间存在数据延迟,两个系统既无法保证数据一致性,也需要两份数据存储成本。通过将类 MySQL 云原生数据库+云原生数仓迁移到 OB Cloud 后,实现一份数据两份收益,整体成本降低 30%,同时 AP 性能比原来的云原生数仓提升了 35%。

某全球知名跨国消费品巨头的实时营销场景原来使用多套数据库系统,通过阿里云上的云原生数仓做数据处理,并且把处理结果以 T+1 的方式批量导入到 ClickHouse 做在线查询。这种方式带来两个问题:第一,数据链路复杂,数据一致性难以保障;第二,多份数据多份成本。通过将云原生数仓加 ClickHouse 迁移到 OB Cloud 之后,一份数据多份收益,且在线查询性能提升 40%。

(三)从 SQL 到 SQL + NoSQL:迈向多模一体化

OceanBase 是分布式架构,解决了数据的规模扩展性问题,所以越来越多的用户选择将 OceanBase 应用在 Key Value 存储场景,也选择用 Key Value 存储场景替换 HBase、Redis 等场景。

通过将 Hbase 替换为 OceanBase,可以解决困扰 HBase 已久的 Java 导致的性能抖动的问题,帮助 HBase 用户进一步降低成本。通过把 Redis 迁移到 OceanBase,解决了 Redis 只能使用内存而导致的高成本问题。

同时我们也在不断顺应需求,增加对 JSON、文档型、多种数据模型的支持,让 OceanBase 成为多模一体化的数据库。

(四)SQL+AI 理念:一体化让 AI 像数据库一样通用

AI 是未来的核心趋势,迄今为止,业界主流的 AI 应用大多集中在面向 To C 场景的聊天类应用。接下来的挑战在于,如何把 AI 大模型技术,用更低成本、更易用的方式,广泛应用于各个行业。

其实 IT 行业已经有一个先例,那就是数据库。数据库是 IT 行业所有基础设施里应用最为广泛的软件,我们可以将数据库理念与 AI 理念相融合,让 AI 像数据库一样好用。

3、现场跑分,验证OceanBase的向量能力

向量数据库有两种实现方式:第一种,做完全独立的向量数据库;第二种,在通用数据库里集成向量插件。毫无疑问后者一定会成为未来的趋势,通过在通用数据库里集成向量插件,能够直接复用通用数据库已经有的功能、稳定性和生态。

通过在 OceanBase 一体化数据库里面的插件,能够直接复用 OceanBase 的一体化多云原生架构能力,直接复用 OceanBase 高性能、低成本的存储和事务的引擎,直接复用 SQL,并且扩展 SQL,支持成为 SQL+,同时支持 OceanBase 已有的 SQL 能力。

有了 SQL+AI 一体化,可以帮助各个行业用户大幅简化原来的技术栈。今天很多行业用户都在做自己的智能体,智能体 AI Agent 底层涉及到各种不同的数据源,有可能是结构化的数据、有可能是文档、有可能是向量。

有一种是采用不同的数据库存储处理不同的数据类型,这种方式导致需要涉及到不同的技术栈,业务架构非常复杂,对研发人员要求非常高,不同的数据库之间还涉及到互相之间的数据传输与转化。每一次 AI Agent 查询会涉及到在同类型的数据库里查找数据,无法很好地执行查询下压。

通过一体化数据库的解决方案,可以用一条 SQL 实现对结构化数据、向量数据、地理信息数据的全方位的 Hybrid Search,帮助客户真正简化技术栈。

我认为,在未来的 AI 时代,数据库需要处理海量数据,所以未来的数据库首先是一个分布式数据库。AI 时代的数据库需要支持 Hybrid Search 混合检索,所以它也一定是一个一体化的数据库。OceanBase 一体化数据库正是为 AI 时代打造的数据底座,探讨 AI 与数据库融合的无限可能。

OceanBase 一体化数据库融合蚂蚁多年研究成果,在蚂蚁关键业务场景中长期锤炼,具有更强的性能,直接复用 OceanBase 分布式能力,将向量能力和 SQL 能力做混合搜索,实现 Hybrid Search 融入 AI 流行技术栈,支持大家熟悉的 LangChain、LlamaIndex 等。

4、两个重磅版本:4.2.5 LTS和4.3.3 GA

(一)OceanBase 4.2.5 :面向关键业务负载的 OLTP  LTS 版本

OceanBase 4.2.5 是面向关键业务负载的  OLTP LTS 版本,4.2.5 版本性能进一步提升。

TP 性能提升。在 TP 性能上,相比 4.2.1 版本,性能提升了 26%。Batch Insert 性能提升 52%,4C 小规格的读取性能提升了 37%,写入性能插入性能提升了 53%。

支持多模。4.2.5 版本新增了对多模支持、HBase 2.X 的接口,同时也有 OBKV -Redis 一体化低成本的 KV 存储服务。

提升 MySQL 兼容性。OceanBase 4.2.5 全面提升了 MySQL 的兼容性,包括基础功能、通讯协议、数据类型、语法兼容、视图、变量、生态适配等,用户可以直接将公有云上 MySQL 5.7 版本的应用数据库在不改代码的情况下平滑迁移至 OceanBase 4.2.5 版本。

4.2.5 版本同时也兼容考虑了部分海外用户的需求。在海外有很多的用户的生日是一些特别的日期,如 2000 年 0 月 0 日、2000 年 2 月 30 日,因为有些用户不记得生日,身份证上就是一些非法日期。我们对这样的数据也做了兼容性的处理。

可观测性提升。4.2.5 版本的可观测实现了全新的里程碑,对 Oracle 的兼容性进一步增强,提升了 PL 的稳定性和易用性,增强了安全能力,支持 MySQL 基于角色的权限管理,并且提供与 Oracle ASH Report 基本相当的功能。欢迎大家线下体验 4.2.5 版本!

(二)OceanBase 4.3.3 :面向实时 AP 场景的首个 GA 版本

OceanBase 4.3.3 是面向实时 AP 场景的首个 GA 版本, 4.3.3 版本相比 4.3.0 版本,在性能上有很大提升。

在性能上,相对 4.3.0 版本,TPC-H  1T 场景提升 64%,TPC-DS 1T 场景提升 36%,宽表性能 ClickBench hot-run 提升 49%,cold-run 性能提升 149%。

在功能上,4.3.3 版本大幅度完善了实时 AP 的功能,支持列存副本,进一步完善物化视图,支持物化实图增量实时刷新,支持外表集成,支持快速导入导出,支持 AP 特定数据类型,提供异步的执行功能,增强对文档检索的支持。增强 AP 场景下 SQL 诊断能力。总的来说,用户可以基于 4.3.3 版本直接构建一个 1PB 以内的实时数仓。 

4.3.3 版本是一体化的数据库,一体化多种工作负载的资源隔离能力进一步提升。一体化数据库支持不同场景,但用户很难针对不同的场景做不同的配置。4.3.3 版本提供 AP 参数模板,可以针对不同场景选择特定的模板,无需单独配置参数,即可解决所有问题。

5、多云原生:从一体化数据库到一体化云数据库

OceanBase 是一体化数据库的内核,如何成为一体化云数据库呢?最重要有三点:第一,需要有更好的云上数据库、很好的分布式能力和极致的性价比。第二,需要更开放的生态,和所有主流的公有云平台多云共生,体验一致。第三,需要有更智能的能力,通过云+AI 提升开发运维效率。

(一)分布式  + 极致性价比:打造云上更好的数据库

为了更好地打造云上数据库,首先需要一个更好的数据库内核,即 OceanBase 的内核。OceanBase 的内核是一个一体化的高压缩内核,通过多租户提升系统整合能力,帮助用户降本增效。

当我们 OceanBase 数据库内核部署到云上时,需要实现存储计算分离。OceanBase 已实现公有云上基于对象存储的存储计算分离,只要公有云平台对象存储提供符合 S3 标准的对象存储,OceanBase 就能在云上运行,并且达到极致的性价比。

(二)更开放的生态:云共生融入多云原生   拥抱云上主流技术栈

我们需要有更加开放的生态,OceanBase 和国内和国外主流云平台,包括阿里云、华为云,包括 AWS 等都做完了适配。OceanBase 正在成为所有数据库厂商里面适配云平台数量最多的产品,也是最开放的产品。

OceanBase 也在积极拥抱云上技术栈,包括开发云的框架,对主流框架的接入程度已经达到 95% 以上,包括可观测性、可运维的工具,整合和适配主流最新的 AI 生态供应链。

(三)全链路智能:将 AI 融入多云共生 提升全链路开发运维效率

当 OceanBase 与 AI 结合时,一方面 OceanBase 为 AI 应用提供支撑。另外一方面,OceanBase 也是 AI 的用户,我们需要把 AI 的能力融入 OceanBase 公有云平台,实现所有公有云共生,帮助公有云全面提升全链路的开发,包括运维设计、运维实施,甚至诊断的工具。

OceanBase 有几个工具,可以输入自然语言,也可以把 AI 融入到诊断过程中。当我们在运维过程中遇到问题,可以通过 OAS 自动诊断发现原因。OceanBase 也即将推出智能数仓 AI 工具,通过自然语言直接生成数仓里面各种各样的报表。

OceanBase 一直践行一体化战略,希望通过一个数据库满足每个企业 80% 的 OLTP、OLAP、多模、AI 等各种各样的需求,把简单留给用户。

以上就是我今天的分享,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/907407.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT变AI搜索引擎!以后还需要谷歌吗?

前言 在北京时间11月1日凌晨,正值ChatGPT两岁生日之际,OpenAI宣布推出最新的人工智能搜索体验!具备实时网络功能!与 Google 展开直接竞争。 ChatGPT搜索的推出标志着ChatGPT成功消除了即时信息这一最后的短板。 这项新功能可供 …

QT——记事本项目

目录 1.给pushButton按键添加图片 1.1 首先复制存放图片的文件夹,打开Qt回到编辑页面,右键单击pro文件选择在Explorer中显示,将图片文件夹粘贴进去你的代码同目录即可 1.2 创建一个新的文件夹 1.3 点击Add Files,将所有图片添加…

【在Linux世界中追寻伟大的One Piece】Socket编程TCP(续)

目录 1 -> V2 -Echo Server多进程版本 2 -> V3 -Echo Server多线程版本 3 -> V3-1 -多线程远程命令执行 4 -> V4 -Echo Server线程池版本 1 -> V2 -Echo Server多进程版本 通过每个请求,创建子进程的方式来支持多连接。 InetAddr.hpp #pragma…

为什么可视化大屏要有动态效果,都有哪些类型的效果。

可视化大屏已成为企业和组织展示关键信息的重要工具。这些大屏不仅需要清晰地传达数据,还要吸引观众的注意力并提供深刻的洞察。动态效果在这一过程中扮演着至关重要的角色。 动态效果的重要性 动态效果在可视化大屏中的应用,基于以下几个核心原因 吸…

【C/C++】字符/字符串函数(0)(补充)——由ctype.h提供

零.导言 除了字符分类函数,字符转换函数也是一类字符/字符串函数。 C语言提供了两种字符转换函数,分别是 toupper , tolower。 一.什么是字符转换函数? 顾名思义,即转换字符的函数,如大写字母转小写字母&am…

Hive数据库操作语法

数据类型 内部表和外部表 内部表 (CREATE TABLE table_name ......)未被external关键字修饰的即是内部表, 即普通表。 内部表又称管理表,内部表数据存储的位置由hive.metastore.warehouse.dir参数决定(默认:/user/h…

线程基础知识、jmm(Java内存模型)

目录 线程基础知识 并发与并行 进程和线程 线程优先级 创建线程的方式主要有三种 休眠 作出让步 join() 方法 线程协作注意什么 理解线程状态 选择合适的协作工具 共享资源的访问控制 避免竞争条件 创建线程几种方式 线程状态,状态之间切换 新建&…

图解大模型训练系列:序列并行2,DeepSpeed Ulysses

最近已有不少大厂都在秋招宣讲,也有一些已在 Offer 发放阶段了。 节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行…

MP4650模块改为固定电压记录

目标 这种电源模块,可调电位器质量不太好,可调输出电压改为固定电压。 方法 步骤 按照下图,将计算得到的R1 补到 待添加电阻处。 结论 作者使用输出5V,R1电阻使用5.1K,得到输出电压4.8V; 测试输出电流1A…

51单片机教程(二)- 创建项目

1 创建项目 创建项目存储文件夹:C51Project 打开Keil5软件,选择 Project -> New uVision Project: 选择项目路径,即刚才创建的文件夹 选择芯片,选择 Microchip(微型集成电路)&#xff0…

STM32 HAL库 SPI驱动1.3寸 OLED屏幕

目录 参考硬件引脚与接线 点亮屏幕CubeMX 配置OLED 驱动程序代码 参考 基于STM32F103C8T6最小系统板HAL库CubeMX SPI驱动7针 OLED显示屏(0.96寸 1.3寸通用)0.96 oled HAL库驱动 SPI STM32SPI驱动0.96/1.3寸 OLED屏幕,易修改为DMA控制STM32驱…

通过分解质因数求若干个数的最小公倍数

求最小公倍数的常规方法回顾 暴力枚举法 long long work(long long a,long long b) {for(long long imax(a,b);;i)if(i%a0&&i%b0)return i; }大数翻倍法 long long work(long long a,long long b) {if(a<b) swap(a,b);for(long long ia;;ia) // i 是 a 的倍数&#…

突出显示与条件匹配的列值

Goto Appearance and Conditional Formatting 外观和条件格式 突出显示与条件匹配的列值 本教程说明如何将条件格式应用于 GridControl 中的 Market Share 列&#xff0c;以突出显示与特定条件匹配的单元格。此示例突出显示小于 20% 的 Market Share 列值。 要在设计时创建新…

node.js下载、安装、设置国内镜像源(永久)(Windows11)

目录 node-v20.18.0-x64工具下载安装设置国内镜像源&#xff08;永久&#xff09; node-v20.18.0-x64 工具 系统&#xff1a;Windows 11 下载 官网https://nodejs.org/zh-cn/download/package-manager 版本我是跟着老师选的node-v20.18.0-x64如图选择 Windows、x64、v20.18…

嵌入式开发教程之Linux下IO流

一、文件的概念和类型 文件基础&#xff1a; 概念&#xff1a;一组相关数据的有序集合&#xff0c;文件名、路径。通过文件名指定访问什么文件。 文件类型&#xff1a; 常规文件 r&#xff0c;分为&#xff1a;普通文件&#xff0c;文本文件&#xff08;可见字符&#xff09…

【Python】Python自习课:第一个python程序

【Python】Python自习课&#xff1a;第一个python程序

MySQL【二】

查询列 SELECT [ALL | DISTINCT ] * | 列名1[,……列名n] FROM 表名; 查询所有选课学生的学号&#xff0c;结果去除重复值 select distinct sno from sc; 选择行 查询满足条件的数据集 SELECT 字段列表 FROM 表名 WHERE 查询条件 查询不属于数学系或外国语系的学生全部信息 …

#渗透测试#SRC漏洞挖掘# 信息收集-Shodan进阶之Mongodb未授权访问

免责声明 本教程仅为合法的教学目的而准备&#xff0c;严禁用于任何形式的违法犯罪活动及其他商业行为&#xff0c;在使用本教程前&#xff0c;您应确保该行为符合当地的法律法规&#xff0c;继续阅读即表示您需自行承担所有操作的后果&#xff0c;如有异议&#xff0c;请立即停…

Redis 位图实现签到之长时间未签到预警

#目前通行系统项目中有一个新需求【通过对通行记录数据定时分析&#xff0c;查询出长时间没 有刷卡/刷脸通行的学生】 #一看到通行签到相关&#xff0c;就想到了redis的位图&#xff0c;理由也有很多帖子说明了&#xff0c;最大优点占用空间小。 一.redis命令行 SETBIT&#…

python mac vscode 脚本文件的运行

切换到脚本文件的目录下 路径的修改 当前文件组织形式&#xff1a; 脚本文件在文件夹下&#xff1a; 赋予权限&#xff1a;chmod x ./scripts/fscd_test.sh 运行&#xff1a;./scripts/fscd_test.sh