大数据基本名词

目录[-]

  1. 1.1.  1. Hadoop
  2. 1.2.  2. Hive
  3. 1.3.  3. Impala
  4. 1.4.  4. Hbase
  5. 1.5.  5.hadoop hive impala hbase关系
  6. 1.6.  6. Spark
  7. 1.7.  7. Flink
  8. 1.8.  8. Spark 和 Flink 的应用场景

1. Hadoop

开源官网:https://hadoop.apache.org/

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

2. Hive

开源官网:https://hive.apache.org/

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析

3. Impala

开源官网:https://impala.apache.org/

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

4. Hbase

开源官网:https://hbase.apache.org/

HBase – Hadoop Database是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

5.hadoop hive impala hbase关系

Hadoop生态系统中的三个重要组件Hive、Impala和HBase各自都有其特定的用途和设计优势,它们之间的主要区别如下:

  • Hive:Hive是一个构建在Hadoop上的数据仓库平台,它提供了类似SQL的查询语言(HQL)来分析存储在Hadoop上的数据。Hive用于静态数据分析,主要是用于批处理。

  • Impala:Impala是一个用于处理存储在Hadoop数据的实时、交互式查询引擎。它比Hive快得多,通过使用Impala,用户可以直接与数据进行交互,而不需要通过MapReduce任务。

  • HBase:HBase是一个分布式、可伸缩的、面向列的开源数据库,它以Google的Bigtable为原型。HBase用于实时、随机访问大规模数据集。它是一个非常适合实时应用程序的数据存储,因为它可以快速地提供随机访问内容。

总结区别:

  • Hive主要用于数据仓库任务,支持批处理查询。
  • Impala主要用于交互式SQL查询,支持实时分析。
  • HBase主要用于实时随机访问大数据,适合存储结构化数据。


每个系统都有其自身的用途,可以根据应用场景选择合适的工具。

Hive的使用虽然和关系型数据库类似,但是其本质上是建立在Hadoop体系架构上的一层SQL抽象,自身不存储和处理数据,实际数据保存在HDFS文件中,真正的计算和执行则由MapReduce完成;Impala是Hive的补充,可以读取和写入 Hive 表,依赖Hive的元数据,自身不存储数据。Impala提供的有一个分布式查询引擎;HBase是列存储的NoSQL数据库,主要提供接口的形式与外界交互,数据保存在HDFS上,也支持使用Hive直接访问HBase;HDFS是Hadoop生态最底层的存储,Hive、Impala、HBase都建立在HDFS之上

6. Spark

开源网址:https://spark.apache.org/

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

7. Flink

https://flink.apache.org/

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行

8. Spark 和 Flink 的应用场景

Spark 适合于吞吐量比较大的场景,数据量非常大而且逻辑复杂的批数据处理,并且对计算效率有较高要求(比如用大数据分析来构建推荐系统进行个性化推荐、广告定点投放等)。其次,Spark是批处理架构,适合基于历史数据的批处理。最好是具有大量迭代计算场景的批处理。Spark可以支持近实时的流处理,延迟性要求在在数百毫秒到数秒之间。Spark的生态更健全,SQL操作也更加健全,已经存在Spark生态的可以直接使用。Flink 主要用来处理要求低延时的任务,实时监控、实时报表、流数据分析和实时仓库。Flink可以用于事件驱动型应用,数据管道,数据流分析等。总的来说,spark离线计算,Flink实时计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/534213.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

arXiv苹果公司新论文“Self-Play”方法训练车辆道路merge的策略

arXiv苹果公司新论文“Self-Play”方法训练车辆道路merge的策略 附赠自动驾驶学习资料和量产经验:链接 苹果于2020年1月28日上传arXiv新论文“Towards Learning Multi-agent Negotiations via Self-Play“。 摘要: 做出复杂、鲁棒和安全的串行决策是智能…

0169. 多数元素

Problem: 169. 多数元素 文章目录 思路解题方法复杂度Code 思路 利用哈希表计数,遍历一遍数组此时时间复杂度为 O ( n ) O(n) O(n),空间复杂度为 O ( n ) O(n) O(n)。 参考K神学会摩尔投票法 这个方法思想很简单,就是模拟投票,且…

嵌入式热门发展方向有哪些?

嵌入式热门发展方向有哪些? 现在越来越多的计算机、电子、通信、自动化等相关专业跨行学习嵌入式,嵌入式开发作为未来职业发展的方向,不论从薪资待遇还是发展前景来看,都非常不错。 在嵌入式领域,有多个热门发展方向&#xff0…

JVM常用参数一

jvm启动参数 JVM(Java虚拟机)的启动参数是在启动JVM时可以设置的一些命令行参数。这些参数用于指定JVM的运行环境、内存分配、垃圾回收器以及其他选项。以下是一些常见的JVM启动参数: -Xms:设置JVM的初始堆大小。 -Xmx&#xff1…

VueRouter使用,界面切换

一、安装 vue-router3,4分别对应vue2,3.。我现在用的是vue2, npm install vue-router3二、使用 ①首先在component路径下提前写好需要渲染的组件。 ②在App.vue中使用router声明路由。其中router-link的to指明渲染哪一个组件。router-view…

企业鸿蒙原生应用元服务备案实操基本材料要求

一、要提前准备的主要材料包括 域名,服务器,包名,公钥,MD5值,法人身份证正反两面,邮箱,手机号2个。 域名是备案过的,应为要求域名能打开,还要悬挂备案号。 操作时要提前沟…

【从浅学到熟知Linux】进程状态与进程优先级(含进程R/S/T/t/D/X/Z状态介绍、僵尸进程、孤儿进程、使用top及renice调整进程优先级)

🏠关于专栏:Linux的浅学到熟知专栏用于记录Linux系统编程、网络编程及数据库等内容。 🎯每天努力一点点,技术变化看得见 文章目录 进程状态进程状态查看R运行状态(running)S睡眠状态(sleeping&a…

CentOS安装MeterSphere并实现无公网IP远程访问本地测试平台

文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…

电脑出现正在清理已完成100%,出现正在清理已完成0%,正在准备windows请不要关闭你的计算机,电脑出现dell图标,下方没有小的旋转圆圈

1.开机发现停留在dell图标。在正上方。和平时不一样。下方没有小的旋转圆圈 2.长按电源键5秒重启 3.电脑重启后。显示正在准备windows请不要关闭你的计算机 4.电脑自动重启 5.电脑出现正在清理已完成0%,等了大概十几分钟 6.电脑出现正在清理已完成100%,等…

图片尺寸在线怎么修改大小?利用图片在线处理工具解决

在社交媒体平台上分享照片是我们日常生活中常见的活动之一。有时,我们需要调整照片的尺寸以适应社交媒体平台的要求。在线修改图片尺寸的工具可以帮助我们快速调整照片的大小,确保其在社交媒体上显示完整且美观。 压缩图网站,点击“图片改大…

Operation is not supported on this platform.

.net core 中&#xff1a; Action<string> action this.DoSome; action.BeginInvoke("button1_Click", null,null);执行报错&#xff1a; System.PlatformNotSupportedException:“Operation is not supported on this platform.”原因&#xff1a; .NET C…

基于YOLOv8的光栅检测系统(Python源码+Pyqt6界面+数据集)

&#x1f4a1;&#x1f4a1;&#x1f4a1;本文摘要&#xff1a;基于YOLOv8的光栅检测系统&#xff0c;并阐述了整个数据制作和训练可视化过程&#xff0c;最后通过Pyside UI界面进行展示。 博主简介 AI小怪兽&#xff0c;YOLO骨灰级玩家&#xff0c;1&#xff09;YOLOv5、v7、…

网络IO模型以及实际应用

网络IO模型 本文主要介绍了几种不同的网络IO模型&#xff0c;以及实际应用中使用到的Reactor模型等。 我们常说的网络IO模型&#xff0c;主要包含阻塞IO、非阻塞IO、多路复用IO、信号驱动IO、异步IO。 根据第一个阶段&#xff1a;是否需要阻塞&#xff0c;分为阻塞和非阻塞IO。…

BMS系统必要参数介绍

系统参数打印解释 (1)Battery Real Capacity:表示电池实际容量值&#xff08;额定容量值是出厂给的&#xff0c;SOH电池健康度计算也可以用实际值/额定值&#xff09; (2)Battery Remain Capacity&#xff1a;表示电池剩余容量值 (3)Battery SOC&#xff1a;电池剩余容量百分比…

头歌-机器学习 第12次实验 Adaboost算法

第1关&#xff1a;什么是集成学习 任务描述 本关任务&#xff1a;根据本节课所学知识完成本关所设置的选择题。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a;1.什么是集成学习。 什么是集成学习 集成学习方法是一种常用的机器学习方法&#xff0c;分为b…

Unity 遮罩

编辑器版本 2017.2.3f1 学习Unity的三张遮罩方式 1. Mask 遮罩方式 首先&#xff0c;在界面上创建2个Image&#xff0c;一个命名Img_Mask,大小设置 400* 400&#xff0c; 一个命名Img_Show,大小设置500*500。 然后&#xff0c;给 Img_Mask添加Mask,选择Img_Mask,点击Add Com…

面试算法-170-二叉树的最大深度

题目 给定一个二叉树 root &#xff0c;返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;3 解 class Solution {public int maxDepth(TreeNod…

卷积运算及实现

本文介绍卷积运算及实现。 1.定义 线性时不变系统的输出是输入样本与系统的冲激响应的卷积。这里假设输入样本为x(n)&#xff0c;系统冲激响应为h(n)&#xff0c;系统输出为y(n)&#xff0c;则 线性卷积计算过程包含以下4个步骤&#xff1a; 1)折叠&#xff0c;关于l0&#…

The C programming language (second edition,KR) exercise(CHAPTER 2)

E x c e r c i s e 2 − 1 Excercise\quad 2-1 Excercise2−1&#xff1a;输出结果如图1和图2所示&#xff0c;这道练习题需要文章1和文章2的知识。 #include <stdio.h> #include <limits.h>float getFloat(char sign, unsigned char exp, unsigned mantissa); do…

抖音小店无货源怎么做?新型无货源玩法,帮商家躲避无货源处罚!

大家好&#xff0c;我是电商糖果 关于现在抖店的商家&#xff0c;是谈“无货源”色变&#xff0c;被平台罚怕了。 动不动就是扣分&#xff0c;扣2000的保证金&#xff0c;商家是苦不堪言。 又不舍得放弃抖音小店现在热度和风口。 糖果做抖音小店无货源有四年时间了&#xf…