【数智化人物展】天云数据CEO雷涛:大模型连接数据库 为数智化提供高价值数据...

ea5b9b851237f1c553a5376fe3a1d47d.png

雷涛

本文由天云数据CEO雷涛投递并参与由数据猿联合上海大数据联盟共同推出的《2024中国数智化转型升级先锋人物》榜单/奖项评选。

e8c1a80ca877d653d073b8599a77dc32.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


这几天,奥特曼讲SQL数据库和大模型结合起来会产生什么样的化学变化引起行业关注。为什么大模型要接数据库?

大模型训练通常需要大量的数据。这些数据往往存储在各种数据库中。数据库提供了结构化和非结构化的数据源,供大模型在训练过程中使用。数据库系统能够高效地存储、检索和管理大量数据,使得大模型能够从中获取所需的信息。例如,训练语言模型时,数据库可以存储大规模的文本数据,方便模型进行访问和处理。

要实现数智化,大模型需要连接价值密度最高、逻辑性强、动态且鲜活的数据,这些数据都跟生产经营的交易相关,比如股票信息、金融账户、医院里挂号信息,我们知道这些数据都不在静态的文档、文献或报告里,而是在数据库里。但是目前大模型所依赖的数据资源局限于静态文献中的知识,这在一定程度上限制了其对于高价值数据的全面获取,尤其是那些存储在客户私域中的宝贵数据。目前普遍采用的RAG技术将信息检索和生成两个阶段结合起来,通过检索数据库中的相关信息来辅助生成过程,解决大模型数据滞后带来的幻觉问题,提高生成内容的质量。

此外,大模型每走一步都观察人类反馈,朝着人类期望的方向迭代。通过条件概率找到最清晰的意图,大幅提升了结果的准确性。因此大模型学习了人类的语言及说话方式以后,它还要了解人类的商业逻辑,对数据库的数据做知识的封装,进一步服务数智化。

那么,大模型如何为数智化提供高价值的数据?

这就需要对数据库里的数据做快速的服务和封装。大模型对数据库里的数据做服务和封装并不仅仅是一个NL2SQL自然语言转换的问题,也不是直接从已经写好的SQL里去检索出答案。那我们如何面向动态的弹性的业务逻辑,从动态的生成类SQL逻辑从数据库中拿到准确的结果。

要实现这个目标,需要应对几个挑战:

1、如何把模糊的意图理解token语句转变成精确的SQL?

很多人都尝试使用各种国内外大模型编写 SQL,但生成的SQL大多无法直接运行成功,所以市场上形成了大模型总在一本正经的胡说八道的认知。不少人放弃并恢复到手动编写SQL的方式。我们用100个场景做了实验,目前最好的大模型真正能够直接生成可以运行且结果准确的SQL只有3%左右,得出的结论是目前大模型仅仅只能做分析师的副驾驶。

既然要盯到一个强逻辑的体系,光靠RAG肯定不够,增加向量索引也只是把逻辑结果就已经做好SQL的表的结果反馈出来,但它不能够动态地生成弹性的业务逻辑。那么怎么能够动态地生成业务逻辑,天云数据进一步通过基于表的Schema、相关的实例SQL、业务逻辑上下文相关示例,通过上下文逻辑的方式进行优化准确率大幅提升。可以使模糊的意图经过多个上下文的提醒做到了精准的SQL的转换。

2、组织数据需要数据编织才能快速地把基于意图的数据在底层表达出来。

仅仅通过上下文逻辑实现精准SQL优化还不够,还需要数据编织技术进一步加强。用传统的主数据管理,强逻辑性的内容是不能够适应动态的token意图表达的,因此数据编织是一个非常核心的内容。多种不同类型的数据源共同编织到一起,在编织之上定义数据产品。数据产品是一组业务的表达,它是一个虚拟物化视图,与传统物化视图不同,他们储在缓存中,并能够动态更新。在数据产品之上,我们通过算法可以动态为数据产品自行打标签,这个标签,是从数据结构和数据中提取的多个标签,实时动态的标签可以为大模型的提供更加实时、丰富的上下文,使意图理解更加精确。数据编织使数据不局限于一个业务系统,也不用关心底层的存储,无论Mysql、Oracle还是国产数据库都可以纳入一套SQL逻辑来管理。

3、大模型连数据库是强高并发任务,底层HTAP数据库是最佳选项。

数据仓库里的批处理操作演变成了高并发的交互性、实时性内容。所以这底层的数据库不是一个简单的NewSQL就能完成的而是需要HTAP这样的同时拥有TP的高并发能力、AP的海量数据快速响应能力。

数据仓库发展了这么多年,技术上大多以大规模并行处理(MPP)、内存计算、列式存储为核心,也就是离线数仓互联网化后的替代方案。但是比较大的实时表进来以后,数据仓库无法支撑,必须得放到一个大的库里来做实时。当然,另一种技术路线是,采用存算一体,或者可以像Facebook一样,采用存算分离架构。以金融行业数据仓库的优化为例,如果要对传统数仓进行实时化升级,会分两部分工作,那就是在数据入口和出口端分别做改造。以权益类服务为例,之前的用户积分都是隔夜算,用户可能几个月后到商场拿积分去兑换一份商品,后端只需要做一次离线服务,就可以了。但是现在服务变了,用户刷完卡,到底是给一张电影票,还是一个电动牙刷?这是个性化服务,必须实时计算,并且要嵌套在整个服务场景里。这时,入口端就可以采用类似于Flink这样的架构,但是很快又发现,银行的一个核心业务就有上千张表,很难用一个简单的 Flink 架构支撑传统的大型银行系统,所以MPP +Hadoop这种奇葩的架构才会出现,而基于新兴技术的HTAP,则对MPP +Hadoop这种架构彻底做了一个洗牌。对于银行业务场景来说,一个用户身份会涉及到卡片、账户、人三层结构,而核实一个用户的建权和授权,就要通过三张这个几千万、上亿记录的表结构完成,很难通过单表的形式拉宽表来操作。而HTAP在银行业务互联网场景里,或者说在传统信息化向产业互联网升级过程中,就表现出独特优势,既满足了MPP 的特性,又能覆盖掉Hadoop能力。

通过以上三点,实现大模型为数智化提供高价值的数据。

大模型连接数据库的连接,能更快地推动行业数智化,但厂商必须同时要做数据库和机器学习才能干这种事儿。现在市场上出现了很多同时做数据库和AI的公司,Databricks是其中的代表。Databricks基于Spark从批处理开始向下做湖仓一体向上延伸至AI。天云数据同时做数据库和AI是因为10年前在云基地时,我就发现了数据供给侧和消费侧最小闭环的存在。当时运营商的内容平台项目需要做动漫、游戏、音乐小说的客户画像分解,传统的Oracle数据库无法支撑亿级用户带来的海量上网日志,数据供给侧升级,转而用HBase等分布式开源组件处理。而数据消费侧也不是SQL、可视化、报表、表盘等,而是升级为机器学习(ML)等新兴的数据处理方法。当看到数据的供给和消费升级,我便带着团队从云基地出来创立天云数据完成最小级闭环时,自然而然会做供给侧的数据库和消费侧的AI两条产品线,我们是市场上最早同时做数据库和机器学习赛道的。

为什么OpenAI要收购Rockset?近期,OpenAI花了5亿美元(约36亿人民币)收购了企业搜索和分析初创公司Rockset。数据库作为企业级数据价值密度最高的基础设施,它是生成式智能绕不开的技术壁垒,所以OpenAI才会打破自己的收购记录购买高并发的混合搜索产品。但是企业级数据库的赛道并不仅仅要解决IO问题,更要解决数据编织的存算分离、物化视图、虚拟数仓、联邦计算等一系列业务逻辑的技术实践才能够支撑大语言模型更为Native的人机交互逻辑对数据的服务方法。这些都需要科创公司就绪全栈AI的能力,尤其是LLM之上的AI Infra,没有所谓秘方和捷径。

·申报人“雷涛”简介:

博士后工作站企业导师,中关村高聚人才,两度CAAI人工智能奖项“吴文俊人工智能科学技术奖”获得者,智能投研技术联盟(ITL)“高级技术顾问”,北京科技协理事;新华社媒体融合生产与技术系统国家重点实验室特约研究员

点击文末左下角“阅读原文”链接还可查看天云数据官网


以上由雷涛投递申报的观点性文章,最终将会角逐由数据猿与上海大数据联盟联合推出的《2024中国数智化转型升级先锋人物》榜单/奖项

该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场:

dad020cbf8e799505a15af73df9659fc.jpeg

ae0f2722f35807e552a8b5675df39339.png

b5d7cb41fd0f557661ba0facde8ade52.png

f0692485386b2500f4530e957cdcd397.jpeg

33c94e170a2cb23c3920ddcbbfbdb892.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/776413.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

im即时通讯软件有哪些?WorkPlus安全专属移动数字化平台

IM即时通讯软件是为满足快速、即时沟通需求而设计的工具。在众多IM即时通讯软件中,WorkPlus作为一种安全专属移动数字化平台,为企业提供了全方位的移动办公解决方案,并注重信息安全和数据隐私保护。本文将介绍几种常见的IM即时通讯软件以及Wo…

【自动驾驶仿真在做什么——初学者总结(陆续补充)】

文章目录 基础概念自动驾驶级别再稍提一下ODD是什么? 自动驾驶仿真分类软件在环仿真硬件仿真 仿真究竟难在哪?关于lidar和radar区别一些名词解释 最近也是学习自动驾驶仿真相关知识,习惯去总结一下,方便自己回顾和总结&#xff0c…

layui-表单(输入框)

1.基本使用方法 先写一个表单元素块 form 加上layui-form 里面写行区块结构,如下: 2.输入框选项 placeholder默认文本 autocomplete自动填充 lay-verify required必填

2.5 C#视觉程序开发实例1----IO_Manager实现切换程序

2.5 C#视觉程序开发实例1----IO_Manager实现切换程序 1 IO_Manager中输入实现 1.0 IO_Manager中输入部分引脚定义 // 设定index 目的是为了今后可以配置这些参数、 // 输入引脚定义 private int index_trig0 0; // trig index private int index_cst 7; //cst index priva…

#招聘数据分析#2024年6月前程无忧招聘北上广深成渝对比情况

#招聘数据分析#2024年6月前程无忧招聘北上广深成渝对比情况 0、根据前程无忧不完全样本统计,北上广深成都重庆平均月工资从高到低依次为 北京15441元、上海14425元、深圳13310元、广州11192元、成都10539元、重庆10290。 1、成都招聘样本数全量35228个&#xff0c…

【论文阅读】-- Interactive Horizon Graphs:改进多个时间序列的紧凑可视化

Interactive Horizon Graphs: Improving the Compact Visualization of Multiple Time Series 摘要1 引言2 相关工作2.1 多个时间序列的可视化2.2 缩减折线图 (RLC)2.3 地平线图 (HG)2.4 大尺度和小尺度变异数据集2.5 多个时间序列…

Explore Synapse

rm -r dp-203 -f git clone https://github.com/MicrosoftLearning/dp-203-azure-data-engineer dp-203 cd dp-203/Allfiles/labs/01 ./setup.ps1 -- This is auto-generated code SELECTTOP 100 * FROMOPENROWSET(BULK https://datalakexxxxxxx.dfs.core.windows.net/fil…

vue css 链式布局模式

<div class"pp-wrap"> <div class"pp-left"><!--跳活动反思--><div class"even-box" v-for"(item,index) in trackingPtoPLeftList" :key"index" click"jumpReview(item)"><div …

嵌入式UI开发-lvgl+wsl2+vscode系列:6、布局(Layouts)

一、前言 这节总结一下整体页面的布局方式&#xff0c;lvgl的布局方式比较少&#xff0c;目前只有flex和grid两大类布局&#xff0c;即弹性布局和网格布局&#xff0c;弹性布局一般就是指定相对位置&#xff0c;网格布局就是将整个页面划分为网格状&#xff0c;我们做其它的UI…

日志自动分析-Web---360星图GoaccessALBAnolog

目录 1、Web-360星图(IIS/Apache/Nginx) 2、Web-GoAccess &#xff08;任何自定义日志格式字符串&#xff09; 源码及使用手册 安装goaccess 使用 输出 3-Web-自写脚本&#xff08;任何自定义日志格式字符串&#xff09; 4、Web-机器语言analog&#xff08;任何自定义日…

【C++】 解决 C++ 语言报错:Invalid Conversion from ‘const char*’ to ‘char*’

文章目录 引言 在 C 编程中&#xff0c;类型转换错误&#xff08;Invalid Conversion&#xff09;是常见的编译错误之一。特别是当程序试图将一个常量字符指针&#xff08;const char*&#xff09;转换为非常量字符指针&#xff08;char*&#xff09;时&#xff0c;会导致编译…

【C++题解】1413. 切割绳子

问题&#xff1a;1413. 切割绳子 类型&#xff1a;贪心&#xff0c;二分&#xff0c;noip2017普及组初赛 题目描述&#xff1a; 有 n 条绳子&#xff0c;每条绳子的长度已知且均为正整数。绳子可以以任意正整数长度切割&#xff0c;但不可以连接。现在要从这些绳子中切割出 m…

TF-IDF和BM25原理和区别

TF-IDF TF-IDF是TF&#xff08;词频&#xff0c;Term Frequency&#xff09;和IDF&#xff08;逆文档频率&#xff0c;Inverse Document Frequency&#xff09;的乘积。我们先来看他们分别是怎么计算的&#xff1a; TF的计算有多种方式&#xff0c;常见的是 除以文章总词数是…

多点mGRE over IPsecVPN 配置及NHRP的使用

一、实验目的及拓扑 1、实验思路&#xff1a;FW1为总部固定IP&#xff0c;FW2和FW3为分支动态地址&#xff0c;通过mGRE over IPsec实现&#xff0c;并加载NHR解决多点隧道目的地址问题 2、网络拓扑 二、基本配置 &#xff08;一&#xff09;配置相关接口地址&#xff0c;并…

14-34 剑和诗人8 - 微调 LLM 的分块策略

​​​​​​ 介绍 使用大规模 LLM 会带来巨大挑战&#xff0c;特别是在内存管理和模型微调方面。一项可以缓解这些挑战的强大技术是分块&#xff0c;这是一种将大量输入或输出分解为更小、更易于管理的部分的策略。 让我们深入研究分块策略的复杂性&#xff0c;探索它们在微…

【C++题解】1561. 买木头

问题&#xff1a;1561. 买木头 类型&#xff1a;省赛、数组问题、二分答案、贪心、2015江苏省青少年信息学奥林匹克竞赛复赛 题目描述&#xff1a; 有 n 个木材供应商&#xff0c;每个供货商有长度相同一定数量的木头。长木头可以锯短&#xff0c;但短木头不能接长。有一个客…

使用ndoe实现自动化完成增删改查接口

使用ndoe实现自动化完成增删改查接口 最近工作内容比较繁琐&#xff0c;手里需要开发的项目需求比较多&#xff0c;常常在多个项目之间来回切换&#xff0c;有时候某些分支都不知道自己开发了什么、做了哪些需求&#xff0c; 使用手写笔记的方式去记录分支到头来也是眼花缭乱&a…

python库(5):Psutil库实现系统和硬件监控工具

1 psutil简介 psutil&#xff08;process and system utilities&#xff09;是一个跨平台库&#xff0c;用于检索运行中进程和系统利用率&#xff08;包括 CPU、内存、磁盘、网络等&#xff09;的信息&#xff0c;可以提供丰富的系统监控功能。 2 psutil安装 pip install -i …

新手教学系列——Git Stash踩坑

在之前的文章《如何彻底避免Git代码相互覆盖问题》中,我曾介绍过通过规范分支合并和使用git stash来避免代码覆盖问题。今天,我要深入探讨一下git stash的使用,并分享一些使用过程中遇到的坑,希望能帮你避免类似问题。 脚本mg.sh简介 为了更好地管理代码合并,我编写了一…

Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method--论文笔记

论文笔记 资料 1.代码地址 https://github.com/iBelieveCJM/pseudo_label-pytorch 2.论文地址 3.数据集地址 论文摘要的翻译 本文提出了一种简单有效的深度神经网络半监督学习方法。基本上&#xff0c;所提出的网络是以有监督的方式同时使用标记数据和未标记数据来训练的…