文献翻译与阅读《Integration Approaches for Heterogeneous Big Data: A Survey》

CYBERNETICS AND INFORMATION TECHNOLOGIES’24

论文原文下载地址:原文下载

目录

1 引言

2 大数据概述

3 大数据的异构性

4 讨论整合方法

4.1 大数据仓库(BDW)

4.2 大数据联盟(BDF)

5 DW 和 DF 方法的比较、分析和结论

5.1 BDW:

优点:

缺点

5.2 BDF:

优点:

缺点:

5.3 建议


1 引言

背景:数字技术的发展和各种来源数据的涌入,使处理异构大数据成为企业的一项重要任务[1],而这一任务的核心需要能够合并和评估这些数据,以获得更深入的洞察力和有效的决策[1]。

传统的数据管理方法:无法处理异构数据,也无法处理各种数据源、格式和质量[1]。

因此,企业需要利用先进的数据管理技术[1],采用综合方法。

本文:

  1. 指出了相关的数据属性,如速度、数量、真实性、多样性和价值
  2. 举例说明了数据源的异构性,如传感器数据、社交媒体和医疗保健信息。
  3. 探讨了 现代企业 在管理异构大数据方面 面临的挑战和机遇。
  4. 提出了异构大数据整合的两种方法:数据仓库和数据联盟。讨论了它们作为整合、管理和分析异构大数据的策略各自的优缺点。
  5. 对各种大数据的管理进行了调查。深入分析了处理异构大数据的复杂性和可能性。
  6. 对于希望了解和充分利用异构大数据管理所带来的挑战和机遇的研究人员、专业人士和决策者来说,这是一个资源库,可帮助其做出明智决策和实现商业成功。

2 大数据概述

大数据是指:组织目前正在处理的大量有组织且非结构化数据。

大数据产生来源:传感器、电子商务交易和社交媒体。

随着技术的发展,大数据的产生越来越多,有必要使用更先进的技术对其进行存储、处理和分析。

大数据的主要特征,包括5V:

  1. Volume [ˈvɒljuːm]:数据量。处理和存储方案有:使用分布式系统和云存储。
    1. 优势:捕获大规模数据
    2. 局限:未考虑数据的实用性或质量
  2. Velocity [vəˈlɒsəti]:数据生成、采集和处理的速度。在实时情况下数据产生的速度很快,必须快速检查这些数据。处理数据方法有:使用流处理和实时分析。
    1. 优势:捕捉数据处理速度
    2. 局限:未考虑数据的实用性或质量
  3. variety [vəˈraɪəti]:数据形式和来源的多样性。大数据包括结构化数据、半结构化数据和非结构化数据。处理数据方法有:自然语言处理和计算机视觉。有人指出,在处理一系列数据格式时,有可能总是得到不准确的结果。
    1. 优势:捕捉数据的多样性
    2. 局限:未考虑数据的实用性或质量
  4. Veracity [vəˈræsəti]:数据的可信度和准确性。确保数据质量和准确性、完整性、可靠性和一致性,要保证数据的可靠性具有很大挑战。处理数据方法有:数据标准化和剖析等现代数据验证和清理流程。文献[36]提出了一种解决方案,可有效处理真实性问题,并显著减少大数据发生的次数。
    1. 优势:掌握数据的质量和可靠性
    2. 局限:难以客观衡量
  5. Value [ˈvæljuː]:数据的商业价值或影响。组织可以通过研究数据发现隐藏的模式和联系。开发 BDAC 能带来更好的决策和结果[39]。要想从数据中获得有意义的见解,分析数据方法有:预测建模和机器学习。分析数据工具和技术有Hadoop、Spark 和 NoSQL 数据库。
    1. 优势:捕捉数据的有用性
    2. 局限:难以客观衡量

应用领域:教育、医疗保健、金融、零售、电信和旅游。

庞大的数据集规模与异质性可能性的增加直接相关[62],这种关系是大数据的一个非常重要的方面。

3 大数据的异构性

异构大数据概念:社交媒体数据、传感器数据、金融数据、医疗数据、客户数据、供应链数据、人力资源数据、环境数据、教育数据、交通数据和制造数据等种类繁多的数据被称为异构大数据。

数据来源:结构化、非结构化和多媒体格式等。

处理异构数据的好处:

  1. 可以全面了解当前的问题
  2. 根据分析这些不同数据集所获得的见解做出更好的决策[67, 68]。

在处理异构数据时,对来自多种不同格式、结构和模型的数据进行整合是一项挑战[64-66]:

  1. 要有效管理和分析异构数据,就必须掌握数据管理领域的专门技能、知识和先进技术[67, 69]。
  2. 在同时管理众多数据类型时,有可能获得不准确的结果[34]。解决因数据集异构性而产生的任何质量问题变得至关重要。

有几项研究强调,为了获得有价值的见解,从而取得商业成功和竞争优势,必须采取综合方法(数据的整合、预处理、分析、管理和语义整合)来释放各种数据源的全部潜力。

4 讨论整合方法

数据集成概念:是指合并和组合来自不同来源和格式的数据,以创建统一、无缝视图的过程[104, 105]。

整合来自程序、数据库和文件系统的数据会给这一过程带来挑战[106]。

整合数据的困难:大量数据来自不同来源,结构各异,且不断变化[107, 108]。

整合数据的挑战

  1. 连接记录
  2. 映射模式
  3. 融合数据 [109]
  4. 提取、组合和交换信息以创建全面综合视图等任务

数据集成是一种程序性机制,好处:

  1. 为组织内部用户使用和访问数据提供便利,提高可访问性,促进对信息的理解
  2. 防止任何潜在的丢失、确保数据的完整性和质量。
  3. 有助于将存储在单个数据源中的数据更改与多个额外数据源持续同步[111]。

现有工作:

  1. [114]:在工业物联网应用领域,提出了一种实时大数据集成解决方案,以解决物联网设备产生的数据异构问题。所提出的解决方案可管理多样化和异构存储库中的数据提取、处理和存储。
  2. [115]:提出了一种强调数据集成系统特征的方法,但没具体说明不同数据库之间的更新传播控制。使用了两种方法整合数据的解决方案:
    1. 基于全局数据模式,即使用统一模式整合多个数据库中的数据;
    2. 基于 “对等”网络概念,即通过对等网络传播更新。
  3. [116]:强调了数据迁移过程中的数据完整性,并介绍了分类查询语言(CQL),将其作为一种可理解的语言,用于数据传输和与复杂模式的交互。但未提及数据流集成。强调了合并异构数据集工具的必要性。
  4. [71]:提出了一个框架,可实现对物联网设备和传感器生成的数据进行监控,并将其与历史数据进行整合。方法以 SQL 为基础,旨在提高拥有不同数据模型的分布式数据存储库的可访问性和利用率。此外,该框架还能让用户将物联网(IoT)设备和传感器生成的数据与已有的历史数据集无缝合并,从而增强数据的可访问性和利用率。
  5. [117-121]:对数据整合的最新方法进行了调查,以解决大数据带来的问题。
  6. [122]:利用更先进的索引技术实时处理高速数据,使数据更易于分析是个挑战。
  7. [117]:提出了几个数据集成问题:
    1. 模式异构,当各种数据源使用不同的模式表示同一主题时,就会出现这种情况。
    2. 数据冲突,可能是由于数据不完整、数据不正确和过时的数据造成。
  8. [123]:利用人工智能技术自动合并来自许多来源(结构化或非结构化)的大量数据。旨在根据数据的元数据分析数据,以验证数据的相似性和可行的整合程度。采用了集成模块,其结构具有适应性,便于维护、部署和根据需要集成新的数据模型。

整合方法:包括数据仓库、数据映射和数据联盟[124]。数据仓库和数据联盟是两种主流方案[125]。

4.1 大数据仓库(BDW)

与数据仓库(DW)相比,大数据仓库(BDW)代表着一种进步。

BDW:一种已被采用的用于整合大数据源的方法。包括为转换和加载的多个来源的数据建立一个存储库。

    1. 优点:有助于将多个来源的数据整合到一个数据库中,便于访问和分析
    2. 为便于整合来自多个来源的异构数据:建立一个强大的分布式数据仓库平台。

传统DW:更适合于有组织的历史数据分析,难以进行横向扩展,因此要确保做到这一点颇具挑战性[128]。

实施 BDW 系统耗时且昂贵的原因是:需要仔细考虑以下几个方面:

  1. 数据建模
  2. 复杂的映射
  3. 复杂的转换程序

现有工作:

  1. [129, 130]:开发了一种定制 BDW 架构,旨在管理异构数据,实现有效的大数据处理。
  2. [131, 132]:BDWs 更容易横向发展,并能实时分析数据。
  3. [133]:提出了一种基于时空 BDW 的干旱数据管理架构。为了将数据加载到 Hadoop 系统中,并行使用了 Apache Flume,以加快数据摄取并提高整个系统的效率。
  4. [134]:提出了一种支持大数据分析的 BDW 架构,该架构能够自动或半自动地适应需求变化或数据扩展。
  5. [126]指出,以互补的方式利用 Hadoop、Apache Spark、Data Lake 和 Delta Lake 等大数据技术和工具,可有效增强和支持现有的 DW 系统。

这种集成不仅增强了可扩展性,还有助于降低传统 DW 架构的建设成本。

数据仓库的概念:是一种完善成熟的管理范式,得到了广泛认可方法论的支持。

大数据领域仍处于发展阶段,虽已有几种方法试图处理部分问题,但大数据的全面集成解决方案尚未完全实现。

4.2 大数据联盟(BDF)

大数据联盟是指:将分散在不同地点的数据源的数据进行组合和分析,以创建统一视图,从而进行高级分析和决策的过程[135]。

与将数据整合到一个地方的方法不同,BDF 的目的:将数据保留在其来源中,使其易于在这些来源之间进行探索和分析。

BDF适用场景:数据所有者关注隐私、安全和控制,BDF避免了存储的需要,而存储可能具有挑战性或不可取[136]。

BDF如何有效解决了访问不同数据源的难题:通过将不同数据源映射到 RDF(S)/OWL 本体或关系模式等单一模式中,允许在这种统一模式上运行 SPARQL 或 SQL 等查询 [135]。

现代数据管理系统通常包含:联合查询应答工具 [137]。

联合查询回答的主要目标:创建一种从数据源访问数据的一致方式,而无需在中央存储库中重复数据。

实现这一目标的方法:使用针对联盟内数据源的子查询,并根据预定义规则评估其结果。

跨异构大数据源的数据联盟 在研究和行业中 都是一个活跃的领域。然而,数据联盟系统仍然需要一个基础和既定原则[135]。

现有工作:

  1. [138] 基于本体的数据访问(OBDA):使用 Spark、Presto 和 OBDA 框架将数据源中的数据结合起来,这样就可以使用 SPARQL 进行查询,利用本体术语持续访问数据类型。
  2. [139] FEDSA,一种针对执法场景中的查询需求而设计的数据联合解决方案。有助于收集和探索信息。
  3. [140]:提出了一个框架,其重点是在物联网(IoT)背景下分析数据。这种方法考虑到了物联网系统网络,每个系统都有自己独特的数据模型。

5 DW 和 DF 方法的比较、分析和结论

5.1 BDW:

  1. 优点:

    1. 专为管理海量数据集而设计,可扩展性强,
    2. 可通过横向和纵向扩展选项来处理数据增长。
    3. 具有实时分析功能,有助于基于数据做出决策。
  2. 缺点

    1. 过程非常复杂,要求很高,
    2. 原因:它需要整合各种来源的数据、进行巨大的数据转换和建模,以确保数据完整性和稳健的管理,这需要付出巨大的努力和额外的实施成本。

5.2 BDF:

  1. 优点:

    1. 可以减少数据转换的需要
    2. 原因:可以从多个来源获取数据,创建一个虚拟的数据画面,而无需进行物理整合。由于它是虚拟的,不需要存储,因此可以降低基础设施的成本。
  2. 缺点:

    1. 执行需要从不同来源获取数据的查询时可能会遇到一些困难。

 

5.3 建议

企业需要:

  1. 根据各自的目标和预算限制,在这两种数据管理战略之间做出选择。
  2. 考虑所需的大数据类型,包括
    1. 基础设施要求
    2. 实时分析能力
    3. 可扩展性
    4. 集成性
    5. 复杂性
    6. 实施成本

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/793814.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智充科技营收增速放缓:经营成本飙升,应收账款大幅增长

《港湾商业观察》黄懿 6月10日, XCHG Limited 智能充电有限公司(下称:智充科技)在美国证监会(SEC)更新招股书,拟在美国纳斯达克上市,其股票代码为“XCH”。北京智充科技有限公司为其国内运营主体(下称“北京智充科技”…

IC后端设计中的shrink系数设置方法

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 在一些成熟的工艺节点通过shrink的方式(光照过程中缩小特征尺寸比例)得到了半节点,比如40nm从45nm shrink得到,28nm从32nm shrink得到,由于半节点的性能更优异,成本又低,漏电等不利因素也可以…

C++学习

一、注释 /*多行 。。。 。。。 注释*/ //单行注释 #include <iostream> using namespace std; int main() {cout << "hellow" << endl;system("pause");return 0; }二、变量定义 #include <iostream> using namespace std; int…

YOLOv8改进 | 注意力机制| 利用并行子网络构建深度较浅但性能卓越的网络【全网独家】

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

[PM]原型与交互设计

原型分类 1.草图原型 手绘图稿, 规划的早期,整理思路会使用 2.低保真原型 简单交互, 无需配色, 黑白灰为主, 产品规划和评审阶段使用 标准化的低保真原型是高保真原型的基础 3.高保真原型 复杂交互, 一般用于公开演示, 产品先产出低保真原型, 设计师根据原型产出设计稿 低保…

【ARM】CCI缓存一致性整理

目录 1.CCI500提供的功能 2.CCI500在SOC系统中所处的位置​编辑 3.CCI500内部结构​编辑 4.功能描述 1.CCI500提供的功能 2.CCI500在SOC系统中所处的位置 3.CCI500内部结构 Transaction Tracker&#xff08;TT&#xff09;是用来解决一致性和ordering问题的&#xff0c;它…

【驱动篇】龙芯LS2K0300之spi设备驱动

实验介绍 GC9A01是一款小巧&#xff08;1.28寸&#xff09;、彩色&#xff08;分辨率为 240 * 240 RGB&#xff09;圆形TFT屏幕&#xff0c;它采用4线 SPI的控制方式&#xff0c;电源供电电压为3.3V&#xff0c;有7个控制引脚&#xff1b;本次实验将使用它来验证龙芯SOC的SPI通…

css实现图片渐变切换效果

一、效果 使用csskeyframes&#xff0c;实现5个图片渐变切换的效果。如下图&#xff1a; 二、代码 1.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"w…

头歌资源库(27)特别的数

一、 问题描述 编程输出一个特别的数&#xff0c;该数是一个由1~9组成的9位数&#xff0c;每个数字只能出现一次&#xff0c;且这个9位数由高位到低位前i位能被i整除。 二、算法思想 创建一个长度为9的数组&#xff0c;用于存放1~9这9个数字。使用回溯算法&#xff0c;从第…

(WRF-UCM)高精度城市化气象动力模拟技术

气候变化及应对是政府、科学界及商业界关注的焦点。气候是多个领域&#xff08;生态、水资源、风资源及碳中和等问题&#xff09;的主要驱动因素&#xff0c;合理认知气候变化有利于解释生态环境变化机理及过程&#xff0c;而了解现在、未来气候变化则是进行生态、环境及能源评…

IDEA中配置代理,解决Codearts Snap登陆不了的问题

问题描述&#xff1a;在mac电脑中的idea中安装了华为的codearts snap插件&#xff0c;一直登录不了&#xff0c;账号是没问题的&#xff0c;后来我怀疑是我的代理有问题&#xff0c;找到IDEA中的代理设置先是有这个问题“You have JVM property "https.proxyHost" se…

C++基础(一)

目录 1.不同版本的hello word&#xff01; 2.namespace和&#xff1a;&#xff1a;域作用限定符以及using 2.1 namespace 2.2&#xff1a;&#xff1a; 2.3using用于展开域 3.C输入和输出 4.缺省参数 5.重载 6.引用 6.1引用介绍 6.2 引用的特性 注意&#xff1a; 6.4 c…

C#绘制阻抗圆图初步

阻抗圆图&#xff0c;或者叫史密斯图&#xff0c;是无线电设计方面用的&#xff1b; 基本的阻抗圆图如下&#xff0c; 下面尝试用C#能不能画一下&#xff1b; 先在网上找一个画坐标的C#类&#xff0c;它的效果如下&#xff1b; 自己再增加一个函数&#xff0c;可以绘制中心在…

Redis的安装配置及IDEA中使用

目录 一、安装redis&#xff0c;配置redis.conf 1.安装gcc 2.将redis的压缩包放到指定位置解压 [如下面放在 /opt 目录下] 3.编译安装 4.配置redis.conf文件 5.开机自启 二、解决虚拟机本地可以连接redis但是主机不能连接redis 1.虚拟机网络适配器网络连接设置为桥接模式…

《昇思25天学习打卡营第16天|基于MindNLP+MusicGen生成自己的个性化音乐》

MindNLP 原理 MindNLP 是一个自然语言处理&#xff08;NLP&#xff09;框架&#xff0c;用于处理和分析文本数据。 文本预处理&#xff1a;包括去除噪声、分词、词性标注、命名实体识别等步骤&#xff0c;使文本数据格式化并准备好进行进一步分析。 特征提取&#xff1a;将文…

【嵌入式Linux】<知识点> GDB调试(更新中)

文章目录 前言 一、GDB调试预备工作 二、GDB的启动与退出 三、GDB中查看源代码 四、GDB断点操作 五、GDB调试指令 前言 在专栏【嵌入式Linux】应用开发篇_Linux打工仔的博客中&#xff0c;我们已经写了大量的源程序。但是在调试这些程序时我们都是通过printf大法和肉眼除…

异业联盟整合各大行业门店,共享资源

异业联盟系统是一种将不同行业的企业或商家整合在一起&#xff0c;通过资源共享、优势互补、合作推广等方式&#xff0c;实现共同发展和互利共赢的商业合作模式的数字化管理和运营系统。 其具有以下显著优势&#xff1a; 1.拓展客户群体&#xff1a;不同行业的企业联合起来&am…

Python骨架肌体运动学数学模型

&#x1f3af;要点 &#x1f3af;运动学矢量计算 | &#x1f3af;跳远的运动学计算 | &#x1f3af;关节肢体运动最小加加速度模型 | &#x1f3af;膝关节和踝关节角度二维运动学计算 | &#x1f3af;上下肢体关节连接运动链数学模型 | &#x1f3af;刚体连接点速度加速度计算…

PPTP、L2TP、IPSec、IPS 有什么区别?

随着互联网的发展&#xff0c;保护网络通信的安全越来越重要。PPTP、L2TP、IPSec、IPS是常见的网络安全协议和技术&#xff0c;在保护网络通信安全方面发挥着不同的作用和特点。下面介绍PPTP、L2TP、IPSec、IPS之间的区别。 点对点隧道协议&#xff08;PPTP&#xff09;是一种用…

Android列表控件的属性与用法

列表控件的属性与用法 列表控件有Spinner、ListView、RecyclerView、ViewPager等。列表控件的显示一般涉及3个部分&#xff1a;控件、适配器、数据&#xff0c;这三者之间的关系如图1所示。适配器是数据与列表之间的桥梁&#xff0c;适配器中需要将数据中需要显示的属性与列表…