以数据编织,重构数据管理新范式

030088b99bed8c143ec62df861b05251.png

933c9bb332a2934e46b5d481e3e43d96.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


人工智能几乎统一了全球最顶尖科技公司的认知:这个时代,除了AI,没有第二条路可走。

人工智能的技术逻辑颇有一种“暴力美学”,它依托于海量大数据和超高算力的训练和推理,进而实现智能分析、“智慧涌现”。但在实际应用中,创造一个智能模型的过程并不美妙,整个过程涉及到数据处理、模型搭建、模型训练、测试以及最终部署等多个繁琐的环节,往往要大量数据分析、算法等方面技术人员的高度手工参与,业界一直流传着有多少“人工”,就有多少“智能”的说法。

而在诸多的环节中,数据处理是较为麻烦的,大约6-7成的时间成本都花费在了数据处理环节。数据、算力和算法是人工智能这座伟岸大厦的三根支柱。现在谈到人工智能,让人兴奋的多是算力和算法的进步;让人沮丧的多是数据相关的问题,比如数据管理、合规安全,精准性等。

毫不夸张的说,人工智能发展遇到的挑战,一半可能都与数据处理相关。正如同我们难以想象没有石油革命的工业革命,没有数据革命的AI革命可能也将举步维艰。在这样的背景下,作为数据管理的全新技术理念--数据编织,开始走进了人们的视线之中。

在这样的背景下,亚马逊云科技解决方案架构师许晓亮、深圳市伊登软件有限公司CTO孙军远、丹诺德软件渠道销售总监张博,与数据猿联合创始人兼主编张艳飞进行了一场对话,畅谈“以数据编织,重构数据管理新范式”,从不同视角解析数据编织对产业的变革。

为什么是数据编织?

数据编织是什么?为什么会在近几年异军突起,受到业界的广泛关注?

张博认为:“数据编织不是一种产品而是一种治理理念,或者说是一种数据架构、治理理念和落地软件的结合体。”

数据编织能提供自动编织、动态集成的能力,兼容各种数据集成方式,实现对数据的统一化、集约化、合规化管理。同时,数据编织还有一个核心能力,就是“数据虚拟化”。数据虚拟化是指建立一个虚拟层来实时连接数据,虚拟层记录了数据的关键要素,将数据实现虚拟化,这样无需像数据仓库那般物理地复制、移动数据。

张博形象地指出,我们可以把数据编织理解成一个网状结构,这张网是由不同数据源的点构成的。而点与点之间的连接,不是通过一个实际存在的物理管道实现的。数据编织提供了一种虚拟连接的方式,也正是这种虚拟的连接,不需要格式或者标准的统一,每个节点可以来自不同系统,不同系统间的数据在这张网上都可以被迅速定位和发现。。从技术逻辑的角度看,数据编织改变了传统的数据管理模式,能够把正确的数据,在精准的时间,传递给正确的人,把传统模式下的人找数据变成了数据找人

数据编织技术的出现不是偶然。大约十几年前,互联网上流传着这样一种说法:软件正在吞噬一切。以现在的形势来看,这句话可以改写成:数据正在吞噬一切。人工智能时代,数据就像我们的呼吸一样,每个人每一秒无不在产出大量数据,哪怕我们只是躺在家里什么都不做,在这个时代这也是一种有一定价值的数据,更不要说诸如线上购物、金融交易、交通出行、浏览短视频等各种“强数据相关”行为了。

这些源源不绝而又无处不在的数据,使得企业数据管理的环境变得越来越复杂。来自企业内外部的多源头数据、结构化和半结构化的数据,实时的和批量化的数据,而且这些数据还可能分散在不同系统,多云环境中。数据的复杂化、多样化、规模化等特征前所未有,对于企业管理能力和使用能力提出了巨大的挑战。

一直以来,面对日益复杂的数据问题,产业界不断地寻找各种解决方案。数据编织技术路线的出现会带来新的曙光吗?真正落实到产业,数据编织能为数据处理带来哪些变化呢??从国内市场上首批尝鲜者的反馈来看,数据编织的能力主要体现在三个层面:降本增效,多源异构数据的集成和强大的扩展性。

降本增效

数据编织能够减少一部分数据物理集成的工作,降低一些不必要的开销和成本。同时也加快了数据到价值之间的进程,缩短数据价值实现的时间。

张博表示:“我们把模型运行在数据编织的框架下,在三年之内,整体的投资效益会提升300%~500%。一年之内,数据集成的工作量和耗时都会减少到原来的1/3,在业务端的降本增效是立竿见影的。”

多源异构数据的集成

很多企业的数据要在终端、应用、云上、数据中心之间流动和运转,这些数据可能存在于ERP系统、CRM系统或人力资源系统。这些数据也可能是非结构化数据,如音频、视频、PDF或者报表等。面对这种多源异构的数据,数据编织可以通过虚拟连接的方式,自由连接各种数据源,还可以从公共数据(如社交媒体)等外部系统中提取数据,高效实现多源异构的数据集成。

高扩展性

随着业务的快速增长,企业数据量必将随之增长。这意味着ETL作业数量将会大幅增加,然而一家企业的工程师是有限的,工程师的工作量也是有限的,靠着人力永远追不上飞速增长的数据处理工作需求。

孙军远表示,在现实条件下,企业扩展业务要妥协于当前的应用系统及架构,因为企业不可能把原来的数据仓库或者大数据系统给推倒重来,或者重复建设。而通过ETL的方式进行拓展成本将不堪重负,我们可以用数据编织来改善这一现状。

数据编织超越了传统的ETL技术逻辑。ETL侧重于数据的抽取和转换,数据编织则侧重多元数据资产的融合,强调自动化的集成和智能数据编排。

孙军远形象地指出,基于数据编织,企业就好像站在山顶上俯瞰山脚下的各个楼宇,每个楼宇就像一个数据的原始系统,站在山顶的企业能把所有楼宇尽收眼底,站在顶楼构建整个逻辑视图,为不同的应用人员、决策人员或者数据科学家,通过访问控制的方式,构建他们专属的业务视图,进而再去建立起楼宇之间的一系列关系。

“在不影响原有系统的同时,数据编织能够集成各种各样的数据源。还能基于现有的湖仓一体化架构构建未来的业务视图,像应用视图、决策视图、分析视图等,为企业未来业务的扩展带来非常大的想象空间。

我认为从技术理念的视角来看,数据编织是对ETL的取代,但从实际应用的角度来看,两者实际上是互相补偿的关系。”孙军远说。

生于多云、服务于多云

当前,多云、混合云已经是大势所趋。任何上了规模的企业可能都是类似的布局:一部分业务数据放在亚马逊云上、一部分放在微软云上、一部分放在阿里云上、还有一部分放在自建的本地云上。

许晓亮认为:“在合规的基础上,我建议企业尽可能把数据放到云上。事实上,越核心的数据数据量反倒越不大,比如关系型数据,这些数据可以存储在本地。大部分的行为数据,单条数据的价值都很低,但这些数据具有规模效应,规模上来后价值就会浮现出来。这些数量巨大但暂时没有价值的数据,要找一个成本低、性能稳定、吞吐量大的地方存起来,公有云就是天然之选。”

在日益兴起的混合云和多云环境中,这些彼此孤立,但又互相关联的数据散落在不同环境中。企业必须找到能高效实现数据价值化,促进业务转型的关键工具。

数据编织能够在所有环境(包括混合云和多云平台、本地平台)中设计、部署和利用数据。可以说,数据编织生于多云环境,也服务于多云环境。在传统模式下,无论是数据仓库还是数据湖技术,都需要把数据汇总到一起进行分析。但在多云时代,要想将分布在不同云上的数据集中在一起不仅成本奇高,而且工程量巨大。而通过数据编织,无需数据的集中处理就可以实现价值的释放。

张博举了一个例子,一个澳大利亚的矿业公司,在亚太、美洲、欧洲都建有数据中心。数据中心中存储了大量的非交易型、非关键数据,比如环保相关的数据。由于企业担心在各国当地受到环保处罚,需要这些数据实现全球洞察,实现环保合规经营。

在这样的数据架构下,丹诺德联合亚马逊云科技为这家矿业公司搭建了公有云和私有云系统,帮助其实现全球性的数据洞察。

张博说道,“在安全合规的约束下,企业不可能把全量数据都分享出来,它只会对我们开放一些访问权限。这个时候,数据编织的价值就体现出来了。通过数据编织,数据依然留在本地,我们将数据价值从全球不同的地方提取出来,汇总到分析师。这样既满足了客户本身的数据合规要求,同时也帮助他实现了业务的诉求。”

大模型与数据编织,互相成就和需要

如开头所言,数据处理是人工智能发展的重要一环,而数据编织同样与人工智能紧密相关。一方面,数据编织的诞生就是为了促进人工智能的发展。另一方面,人工智能也能促进数据编织技术的完善。两者之间互相影响、彼此成就,其中一方的技术进步,也势必将带来另一方的变化。当下大模型时代正扑面而来,这将为数据编织带来哪些变化?

许晓亮表示,原来传统数据库的迭代周期大约是三年,但是进入大模型时代,迭代周期可能要以月为单位了。大模型带来了多模态场景,也带来了多模态数据,这对于数据编织而言有了绝佳的用武之地,同时大模型的自身发展也产生了多模态数据的处理需求。在大模型时代,数据编织将会扮演重要角色。

孙军远指出:“我们在企业内部构建了自己的垂直大模型,但即使这样,也没有办法直接跟大数据系统或者相关的各个数据库系统直接进行互联。因为大模型需要构建一个上下文字段的关系描述,以及一系列业务的定义,需要像数据编织这样的技术进行完善。”

张博表示:“毋庸置疑,大模型是大势所趋,但其实有时候机会反而藏在小趋势里,小趋势跟自身业务息息相关。比如今天所谈到的数据编织的概念,在这种小的趋势里反而更能快速找到大趋势的突破口。”

值得一提的是,数据编织作为一种新兴的数据管理理念,在国内市场仍处于起步阶段,能否编织起千丝万缕的数字世界,仍待时间和市场的检验。

73fb2ce643dbd82aac411c4850fff92e.jpeg

点击文末左下角“阅读原文”获取“Denodo”案例集

文:俊驰 / 数据猿
责编:凝视深空 / 数据猿

182a21f22b0331e1a0b173e2907c2756.jpeg

0686bf6f9c641bcadc58e6d0026f5376.png

fcc7438b77747b5701e29ebba556d588.png

232be586efb1beedf86c71ac7a59a591.jpeg

098ce50ef1039a7a1cb9196011f25e50.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/800983.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PE73_E6_BLE

PE73_E6_BLE 产品参数 产品型号 PE73_E6_BLE 尺寸(mm) 180*130*13mm 显示技术 电子墨水屏 显示区域(mm) 163.2(H) * 97.92(V) 分辨率(像素) 800*480 像素尺寸(mm) 0.204*0.204 显示颜色 黑/白/红/黄/橙/蓝/绿 视觉角度 180 工作温度 0-50℃ …

使用自制Qt工具配合mitmproxy进行网络调试

在软件开发和网络调试过程中,抓包工具是不可或缺的。传统的抓包工具如Fiddler或Charles Proxy通常需要设置系统代理,这会抓到其他应用程序的网络连接,需要设置繁琐的过滤,导致不必要的干扰。为了解决这个问题,我们可以…

调用第三方API超时如何区分是连接超时还是响应超时

在Java中调用第三方接口时,遇到超时问题通常涉及两种类型的超时:连接超时(Connect Timeout)和响应超时(Read TimeOut) 要查看是对方响应超时还是自己方连接超时,可以通过设置Java的HttpClient的超时时间和捕获异常来判断。以下是一个示例&…

灌区流量监测设备:农田灌溉的“智慧眼”

随着现代农业的不断发展,对灌溉技术的要求也越来越高。传统的灌溉方式不仅效率低下,而且容易造成水资源的浪费。如今,灌区流量监测设备以其独特的优势,成为农田灌溉的新宠,被誉为农田的“智慧眼”。 精准把控&#xff…

Java 实验五:继承与接口

一、实验目的 1、通过实验内容,锻炼自身进行需求分析,系统设计以及编程开发的能力,了解软件开发的流程。 二、实验环境 Jdk 1.8; Eclipse 三、实验内容 试分析停车场系统的常用业务功能,梳理出基本需求&#xff0…

优阅达线上分享:快速上手 Tableau 计算功能

无论是想获取更深入的业务洞察,还是希望实现更复杂的数据图表,Tableau 计算都能助你实现需求。然而,对于没有数学或统计经验的用户来说,快速理解并掌握 Tableau 计算功能的逻辑和用法并非易事。 如果你刚接触 Tableau 计算不知从…

把ros消息转换成中文输出

把ros消息转换成中文输出 c实现 发布 //发布性能评估数据 /trilateration_time_log void publishTrilaterationLog(const int reflectorPanelPoints_size,const double duration_count,const std::string& resultType,const std::string& resultChineseMessage,cons…

python基础知识点(蓝桥杯python科目个人复习计划69)

做些基础题 第一题:微生物增值 题目描述: 假设有两种微生物x和y。 x出生后每隔3分钟分裂一次(数目加倍),y出生后每隔2分钟分裂一次(数目加倍)。 一个新出生的x,半分钟之后吃掉一…

Git常用命令以及使用IDEA集成Gitee

目录 一、设置用户签名 二、初始化本地库 三、查看本地库状态 四、添加文件到暂存区 五、提交本地库 六、修改文件 七、版本穿梭 八、Git分支 九、分支的操作 9.1、查看分支 9.2、创建分支 9.3、切换分支 9.4、合并分支 十、团队协作 十一、Idea集成Git 11.1、配…

初识C++|类与对象(上)

🍬 mooridy-CSDN博客 🧁C专栏(更新中!) 1. 类的定义 1.1 类定义格式 • class为定义类的关键字,Stack为类的名字,{}中为类的主体,注意类定义结束时后⾯分号不能省略。 类体中内容…

【Web服务与Web应用开发】【C#】VS2019 创建ASP.NET Web应用程序,以使用WCF服务

目录 0.简介 1.环境 2.知识点 3.详细过程 1)创建空项目 2)添加Web表单 3)使用Web表单的GUI设计 4)添加服务引用 5)在Web的button函数中调用服务,获取PI值 6)测试 0.简介 本文属于一个…

如何直接套用模板,快速搭建一个3D展示页面?

随着Web3D技术的飞速进步,网页设计实现了从平面二维到立体三维的华丽蜕变,这一变革为品牌营销领域注入了前所未有的互动活力。多样化的3D营销手段,不仅极大地吸引了消费者的目光,还显著提升了品牌形象与销售量,助力企业…

各类专业技术的pdf电子书

从业多年,收集了海量的pdf电子书籍,感兴趣的私聊。

探索智慧校园德育系统的学生考核之道

在当代教育领域,智慧校园德育管理系统的学生考核功能正逐渐成为推动学生全面发展的重要引擎。它不仅革新了传统德育评价的方式,还深度融入了学生日常的学习生活,成为连接学生、教师与学校管理层之间沟通与理解的桥梁。德育考核功能的核心在于…

Excel办公技巧:制作二级联动下拉菜单

分享制作二级联动下拉菜单的方法,即使数据有增删,菜单也能自动更新! 可以通过先定义名称,再结合数据验证,来做二级联动下拉菜单。 1. 准备数据 首先,我们需要准备好要进行二级联动下拉菜单的数据&#xff…

【大模型入门】LLM-AI大模型介绍

大语言模型 (LLM) 背景 🍹大语言模型 (Large Language Model) 是一种人工智能模型, 它们通常包含数千亿甚至更多的参数,并在大规模数据集上进行训练。大语言模型可以处理多种自然语言任务,如文本分类、问答、翻译、对话等等。 自然语言模型…

识别 TON 生态系统中前10种加密资产,以bitget 钱包为例

元描述:想要找到下一个 100 倍加密货币投资?请密切关注这篇文章;它揭示了所有可能很快变得非常有价值的 TON 网络宝石。 由 Telegram 提供支持的 TON(开放网络)生态系统正在蓬勃发展!这是一个充满激动人心的…

【雅思备考IELTS】美文阅读 艾米莉·勃朗特《呼啸山庄》Wuthering Heights by Emily Bronte

Reading Materials for IELTS (from books that I love) Episode 2 2024/7/15 By James Lee 说明: 奇崛、跌宕、爱恨分明,英国女作家艾米莉 勃朗特(Emily Bronte,1818-1848)短暂一生当中出版的唯一一本小说&#xff…

typescript新规范及vue3常用的属性解析【2024】

文章目录 如在vue中 使用tyescript来规范定义类型解释一下 < >的意思 定义 了 personList &#xff1a;是个数组 Array 且要告诉里面每一项 结构长什么样 Array<PersonInter>definepropsvue3中的hooks组件父子组件 方法、数据、相互调用 如在vue中 使用tyescript来…

C语言课程回顾:十、C语言之 指针

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 C语言之 指针 10 指针10.1 地址指针的基本概念10.2 变量的指针和指向变量的指针变量10.2.1 定义一个指针变量10.2.2 指针变量的引用10.2.3 指针变量作为函数参数10.2.4 指针变…