OceanBase 首席科学家阳振坤:大模型时代的数据库思考

2024年 OceanBase 年度大会 即将于10月23日,在北京举行。
欢迎到现场了解更多“SQL + AI ” 的探讨与分享!


近期,2024年金融业数据库技术大会在北京圆满举行,聚焦“大模型时代下数据库的创新发展”议题,汇聚了国内外众多顶尖金融机构、科技企业代表、行业专家及政府领导。大会通过展示最新的研究成就与技术动向,研讨了在大数据与人工智能等科技迅猛发展的环境下,金融行业如何利用数据库技术的创新来推动高质量发展。

 OceanBase 首席科学家阳振坤受邀出席,并发表了《大模型时代的数据库思考》主题演讲。在演讲中,阳振坤指出:大模型时代下,海量数据带来高昂成本,云和分布式技术可以提高资源利用率,降低数据库使用成本,将是数据库技术未来的发展方向。以下为演讲实录:

图片

1、海量数据和分布式数据库是大模型时代的基石

各位领导,各位专家,很高兴跟大家分享我对大模型时代数据库的一些想法。大模型的时代,一个很大的挑战就是海量数据。海量数据同时也带来了高昂的成本。数据库应该如何应对海量数据和高昂成本的挑战,我觉得有两个基本点,一个是分布式,第二是云化。

可能有人对此有不同的看法,认为金融出于安全、保密等各方面原因,离云很远。我认为,不完全如此。最核心数据还会放在自己的机房里,但是会有更多的东西会逐步走向云。后面我也会跟大家分享云的价值。

我们先看分布式。大家的认知里,可能有两种分布式,一种是乐高积木搭出来分布式,一种是真正的原生分布式。乐高积木搭出来的分布式就像小飞机,小飞机可以运载一些人员和轻型设备,真正的重型设备需要大飞机运输,这是小飞机无法做到的。乐高积木式的分布式在大模型、实时报表、实时分析等场景下,也难以实现复杂的数据分析与管理。

2、上云是降本增效的战略选择

为什么很多企业在一段时间内大量采用云服务?原因逃不过四个字:降本增效。如果我们可以帮助企业提升业务效率、降低运营成本,那么企业一定是欢迎的。云在降本增效这两个方面成效显著。

一个是效率。因为企业需要的计算资源、存储资源,如果自己去购买,最小也是以天为单位计费,但在云上就是以秒计算,多了随时可以退掉,少了可以随时追加,规模效应下的动态伸缩、按需使用的计算与存储服务,将极大提升企业的效率。

另外是成本。好的技术如果增加了企业成本,也很难被人接受。云通过规模效应下资源的池化与复用,大幅降低了企业成本。

资源复用在生活中很常见。举个例子,大家都有 5G 手机,带宽是几十兆至一百兆。实际上,我们所有人都在共享这一个 5G 平台的带宽。有线网络也一样,北京几百万家庭,如果每家家庭网络是独栈的,这将一个巨大的负担。

大负载企业的计算机的利用率通常是个位数,如果云通过集中化把这个比例提高一倍到 20%,用一份硬件投资买两份硬件,这里产生多余的一份硬件几乎是纯利用,但是这个纯利用不可能自己获得,还有一部分返给了相应企业,一定程度也可以降低企业成本。

存储也是如此。当很多台机器每个都是本地硬盘的时候,为了防止本地硬盘写满爆掉,很难把利用率做到 70%-80%。如果把这些硬盘池化,将资源集中使用,那么有 20%-30% 的池化富余作为缓冲给所有资源使用,相当于整个池子可达70%-80% 的利用率。

另外是人的成本。我们派一个技术人员去金融机构,大量时间耗费在路上,还有门口的安全、保卫、登记措施,浪费大量的时间,假如跨地域服务还涉及到差旅。原来我们一个人一天最多服务一两个客户,但在云上,一个专家一天可以服务 8-10 个客户,在线就可以解决相关问题。

图片

从全球数据库的市场份额可以看到,今天全世界云上的数据库的市场份额占有率超过 60%,已经显著超过云下,且每年的增量份额,云上占了超过 90%,这意味着云上数据库市场未来几年还会进一步扩大。

如何做好资源复用?单机数据库和分布式数据库之间存在巨大的差异,云上资源的复用至关重要。资源复用率高,整个成本就能降低。这些 CPU 被申请之后,单台的物理机上 CPU 一定会呈现碎片化的趋势,整体还有余量,但单台 CPU 已不够用。如一个 711 的便利店,晚上流量很小,中午、早上流量很大。业务低峰 2 个 CPU 就够用,但是业务高峰要需 6 个 CPU。这里有 5 台机器,每一台机器的 CPU 都不足以支撑业务。如果是分布式数据库,则可以利用更多的资源,6 个 CPU 不够,用 8 -10 个就可以支撑业务,提升整个系统的资源利用率。

最后,我对今天的分享做一个简单的总结。数据库其实和 IT 三大件、CPU、操作系统一样,和地域文化相关度非常小。过去很多年,是别人引领潮流,无论是商业数据库还是开源数据库,是别人构筑了这个潮流带领我们使用。分布式数据库和大模型、互联网一样,其实是给我们提供了一个机会,让我们能真正构建分布式数据库,来引领这个世界的潮流。


10 月 23 号,OceanBase 年度发布会将在北京召开,想了解更多 OceanBase 在 SQL+AI 的最新技术与实践,欢迎关注下午的「云和 AI 时代的数据库实践专场」。欢迎大家通过 大会官网了解全部议程详情和报名参与本次年度发布会,进一步走近 OceanBase,认识 OceanBase!💪

点击链接立即报名 >> OceanBase 年度发布会

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/900786.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

85.【C语言】数据结构之顺序表的中间插入和删除及遍历查找

目录 3.操作顺序表 1.分析中间插入函数 函数的参数 代码示例 图片分析 main.c部分改为 在SeqList.h添加SLInsert函数的声明 运行结果 2.分析中间删除函数 函数的参数 代码示例 图片分析 main.c部分改为 在SeqList.h添加SLErase函数的声明 运行结果 承接84.【C语…

前端开发:Vue中数据绑定原理

Vue 中最大的一个特征就是数据的双向绑定,而这种双向绑定的形式,一方面表现在元数据与衍生数据之间的响应,另一方面表现在元数据与视图之间的响应,而这些响应的实现方式,依赖的是数据链,因此,要…

未来汽车驾驶还会有趣吗?车辆动力学系统简史

未来汽车驾驶还会有趣吗?车辆动力学系统简史 本篇文章来源:Schmidt, F., Knig, L. (2020). Will driving still be fun in the future? Vehicle dynamics systems through the ages. In: Pfeffer, P. (eds) 10th International Munich Chassis Symposiu…

量子纠错--shor‘s 码

定理1 (量子纠错的条件) C是一组量子编码,P是映射到C上的投影算子。假设是一个算子元素描述的量子操作,那么基于量子编码C,存在一个能对抗描述的噪声的纠错操作R的充要条件是 对某个复元素厄米矩阵成立。 将算子元素称为导致的错误。如果这样…

【大模型实战篇】大模型分词算法Unigram及代码示例

1. 算法原理介绍 与 BPE 分词(参考《BPE原理及代码示例》)和 WordPiece 分词(参考《WordPiece原理及代码示例》)不同,Unigram 分词方法【1】是从一个包含足够多字符串或词元的初始集合开始,迭代地删除其中的…

WPF+MVVM案例实战(四)- 自定义GroupBox边框样式实现

文章目录 1、项目准备2、功能实现1、EnviromentModel.cs 代码2、GroubBoxViewModel.cs 代码实现3、ViewModelLocator.cs 依赖注入4、GroubBoxWindow.xaml 样式布局5、数据绑定 3、效果展示4、资源获取 1、项目准备 打开项目 Wpf_Examples,新建 GroubBoxWindow.xaml…

龙蟠科技业绩压力显著:资产负债率持续攀升,产能利用率也不乐观

《港湾商业观察》施子夫 黄懿 去年十月至今两度递表后,10月17日,江苏龙蟠科技股份有限公司(以下简称,龙蟠科技;603906.SH,02465.HK)通过港交所主板上市聆讯。 很快,龙蟠科技发布公告称,公司全…

基于STM32的Android控制智能家政机器人

基于STM32的Android控制智能家政机器人 基于STM32的Android控制智能家政机器人一、项目背景与意义二、系统设计方案三、硬件电路设计四、软件设计与实现4.1 Android端软件设计4.2 机器人端软件设计 五、系统调试与测试六、结论与展望七、附录 基于STM32的Android控制智能家政机…

信息安全工程师(55)网络安全漏洞概述

一、定义 网络安全漏洞,又称为脆弱性,是网络安全信息系统中与安全策略相冲突的缺陷,这种缺陷也称为安全隐患。漏洞可能导致机密性受损、完整性破坏、可用性降低、抗抵赖性缺失、可控性下降、真实性不保等问题。 二、分类 网络安全漏洞可以根据…

HDU Sum

题目大意:给你一个数字 n ,n 个数字能分成多少组分类情况。 思路:这题要用插空法,一共 n 个数字,所以一共有 n - 1 个空可以插入,所以这道题目的答案就是,由二项式定理易得这个式子的和为 。但是…

Web应用框架-Django应用基础

1. 认识Django Django是一个用Python编写的开源高级Web框架, 旨在快速开发可维护和可扩展的Web应用程序。 使用Django框架的开发步骤: 1.选择合适的版本 2.安装及配置 3.生成项目结构 4.内容开发 5.迭代、上线、维护 Django官网: Djang…

UE4_Niagara基础实例—10、位置事件

效果: 若要为烟花火箭创建尾迹效果,则可将 生成位置事件(Generate Location Event) 模块放置到火箭发射器的粒子更新(Particle Update)组中。然后,尾迹发射器可使用位置数据生成跟随火箭的粒子…

离散制造和流程制造分别是什么?它们有什么区别?

为何有的企业生产过程看似一气呵成,而有的则是由多个环节组合而成?其实这就涉及到了制造业的两种常见生产模式。 流程制造离散制造 那么,在生产管理方面,离散制造和流程制造分别有什么特点、区别呢? 今天&#xff0…

C++游戏开发教程:从入门到进阶

C游戏开发教程:从入门到进阶 前言 在游戏开发的世界里,C以其高效的性能和灵活的特性,成为了众多游戏开发者的首选语言。在本教程中,我们将带您从基础知识入手,逐步深入到实际的游戏开发项目中。无论您是初学者还是有…

二百七十、Kettle——ClickHouse中增量导入清洗数据错误表

一、目的 比如原始数据100条,清洗后,90条正确数据在DWD层清洗表,10条错误数据在DWD层清洗数据错误表,所以清洗数据错误表任务一定要放在清洗表任务之后。 更关键的是,Hive中原本的SQL语句,放在ClickHouse…

深入理解Android WebView的加载流程与事件回调

在Android开发中,WebView用于显示网页和执行JavaScript。理解其加载流程和事件回调对于开发一个功能丰富且用户友好的基于Web的应用至关重要。本文将详细介绍 WebView 加载一个URL时的整个流程和相关的事件回调,帮助开发者更好地掌握其使用方法和处理可能…

数据库、数据仓库、数据湖和数据中台有什么区别

很多企业在面对数据存储和管理时不知道如何选择合适的方式,数据库、数据仓库、数据湖和数据中台,这些方式都是什么?有什么样的区别?企业根据其业务类型该选择哪一种?本文就针对这些问题,来探讨下这些方式都…

基于Netty构建WebSocket服务并实现项目群组聊天和实时消息通知推送

文章目录 前言需求分析技术预研Web端方案服务端技术 技术方案设计思路功能实现添加依赖自定义NettyServer自定义webSocketHandler使用NettyServer向在线用户发送消息 需要完善的地方 前言 我们的项目有个基于项目的在线文档编制模块,可以邀请多人项目组成员在线协同…

2024mathorcup大数据竞赛B题【电商品类货量预测及品类分仓规划】思路详解

问题 1:建立货量预测模型,对该仓储网络 350 个品类未来 3 个月(7-9月)每个月的库存量及销量进行预测,其中库存量根据历史每月数据预测月均库存量即可,填写表 1 的预测结果并放在正文中,并将完整…

Discuz发布原创AI帖子内容生成:起尔 | AI原创帖子内容生成插件开发定制

Discuz发布原创AI帖子内容生成:起尔 | AI原创帖子内容生成插件开发定制 在当今互联网快速发展的时代,内容创作成为了网站运营、社交媒体管理和个人博客维护不可或缺的一部分。然而,高质量内容的创作往往耗时耗力,特别是对于需要频…