hadoop必记知识点(1)

在这里插入图片描述

1.Hadoop是什么,解决什么问题?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它可以让使用者在普通的硬件上搭建起一个强大的计算集群。Hadoop的特点包括:高可靠性、高扩展性、高容错性、支持大数据和高并发等。Hadoop核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。其中,HDFS为分布式文件系统,负责数据存储;MapReduce为分布式计算模型,负责对数据进行处理和分析。

Hadoop主要解决的是大数据处理和分析的问题。传统的单机数据库或服务器在面对海量数据时,处理速度慢,扩展性差,而Hadoop通过分布式架构,可以将海量数据分散存储在多个节点上,并行处理,从而大幅提高处理速度和扩展性。同时,Hadoop还支持各种数据处理和分析模式,包括批处理、流处理、图处理等,可以满足各种复杂的数据需求。

2. Hadoop(Core)核心组件

Hadoop核心组件主要包括HDFS(Hadoop Distributed File System)和MapReduce。其中,HDFS为分布式文件系统,负责数据存储;MapReduce为分布式计算模型,负责对数据进行处理和分析。除此之外,YARN(Yet Another Resource Negotiator)也是一个重要的组件,负责资源的管理和调度。

3. Hadoop 1.x、2.x和3.x版本的区别

主要体现在以下几个方面:

架构差异:

Hadoop 1.x:采用的是经典的双节点架构,包括NameNode和DataNode。NameNode负责管理文件系统的元数据,而DataNode负责实际的数据存储和检索。此外,Hadoop 1.x中的MapReduce也采用了单独的架构,JobTracker负责调度和监控作业,而TaskTracker负责执行任务。这种架构在可扩展性和高可用性方面存在一些限制。

Hadoop 2.x:引入了YARN(Yet Another Resource Negotiator),将MapReduce和HDFS统一在同一个框架下。YARN负责资源的管理和调度,而MapReduce(即MRv1)负责数据的处理。这种架构提高了资源的利用率,改善了系统的扩展性和高可用性。

Hadoop 3.x:在2.x的基础上,进一步优化了YARN的性能,提高了资源利用率和系统吞吐量。同时,Hadoop 3.x还引入了一些新的功能和优化,如Erasure Code、SMB/CIFS支持等。

功能差异:

Hadoop 1.x:功能相对较为简单,主要支持批量数据处理。

Hadoop 2.x:除了支持批量数据处理外,还通过YARN支持了多种计算模型,如实时数据处理、图计算等。此外,Hadoop 2.x还引入了高可用性机制,提高了系统的稳定性和可靠性。

Hadoop 3.x:在2.x的基础上,进一步增强了系统的可用性和稳定性。同时,还引入了一些新的功能和优化,如提高了对大规模数据集的支持能力、优化了内存使用等。

性能差异:

Hadoop 1.x:由于架构和功能的限制,性能相对较低。

Hadoop 2.x:通过引入YARN和多种计算模型,提高了系统的性能和吞吐量。

Hadoop 3.x:在2.x的基础上,进一步优化了性能,提高了处理大规模数据集的能力。

兼容性差异:

Hadoop 1.x:应用程序需要针对1.x版本进行开发和优化。

Hadoop 2.x:向后兼容1.x版本的应用程序,同时支持新的计算模型和功能。

Hadoop 3.x:向后兼容2.x版本的应用程序,同时引入了新的功能和优化。

4. Hadoop生态圈组件及其作用

主要的组件:

  1. HDFS(Hadoop Distributed File System):它是一个分布式文件系统,用于存储大量数据。HDFS具有高容错性和高吞吐量,适合部署在低廉的硬件上。

  2. MapReduce:这是一个用于大规模数据处理的软件框架。它能够将复杂的处理任务分解成Map和Reduce两个步骤来执行。

  3. YARN(Yet Another Resource Negotiator):YARN是一个资源管理和调度平台,负责分配计算资源,管理和调度各种应用程序。

  4. HBase:它是一个非关系型分布式数据库,适合存储非结构化数据,常常作为Hadoop的一种补充,用于存储和查询大数据。

  5. Hive:它是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。

  6. Pig:它是一套用于分析大量数据的工具,可以处理包括简单和复杂的逻辑在内的数据分析。

  7. Zookeeper:它是一个开源的分布式协调服务,用于维护配置信息,命名空间,提供分布式同步等。

  8. Spark:它是一个用于大规模数据处理的快速和通用引擎。Spark 提供了一个统一的解决方案,可以完成批处理、交互式查询、实时分析等任务。

9.Apache Flink 是 Hadoop 生态圈中的一个重要组件,它是一个开源的、用于处理大数据的流处理框架。Flink 可以有效地处理大规模数据流,提供高性能、高吞吐量、低延迟的数据处理能力。

5.Hadoop生态圈离线实时组件及其作用

离线批处理和实时处理。

  1. MapReduce:这是Hadoop生态圈的原始计算模型,主要用于离线批处理。MapReduce将任务划分为Map阶段和Reduce阶段,Map阶段负责读取数据和进行初步处理,Reduce阶段负责对Map阶段的输出进行进一步处理和聚合。虽然MapReduce可以处理实时数据,但由于其设计思想是基于磁盘的,因此不适用于对实时性要求较高的场景。

  2. Spark:这是Hadoop生态圈中的另一个重要组件,它是一个用于大规模数据处理的快速和通用引擎。Spark提供了基于内存的计算,可以完成批处理、交互式查询和实时分析等任务。Spark的实时计算能力比MapReduce更强,因为它支持流处理,可以实时处理数据并提供即时反馈。

  3. Apache Flink 是 Hadoop 生态圈中的一个重要组件,它是一个开源的、用于处理大数据的流处理框架。Flink 可以有效地处理大规模数据流,提供高性能、高吞吐量、低延迟的数据处理能力。
    Flink 的主要特点和作用包括:
    流处理:Flink 是一个流处理框架,可以实时处理和分析大规模数据流,提供即时反馈和决策支持。
    批处理:虽然 Flink 主要是一个流处理框架,但它也支持批处理。这意味着可以使用同一种框架来处理静态数据和动态数据。
    状态管理:Flink 提供了一个状态管理机制,可以存储和管理流处理过程中的状态信息,如用户信息、设备信息等。
    窗口操作:Flink 提供了窗口操作机制,可以对数据流进行分段处理,支持各种窗口类型和操作。
    实时监控:Flink 提供了实时监控和故障恢复机制,可以监控系统的运行状态,及时发现和处理问题。
    分布式计算:Flink 是一个分布式计算框架,可以部署在多台机器上,支持大规模数据的并行处理。
    SQL 和 Table API:Flink 提供了 SQL 和 Table API,可以方便地进行数据查询和处理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/338669.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python写完程序怎么运行

python有两种运行方式,一种是在python交互式命令行下运行; 另一种是使用文本编辑器直接在命令行上运行。 注:以上两种运行方式均由CPython解释器编译运行。 当然,也可以将python代码写入eclipse中,用JPython解释器运行&#xff0c…

推荐系统|2.4 矩阵分解的目的和效果

文章目录 矩阵分解矩阵分解的必要性和方法隐向量 矩阵分解 矩阵分解的必要性和方法 比如原本是一个 m n m\times n mn规模大小的矩阵,经过分解后可得到两个矩阵一个是 m k m\times k mk,另外一个是 k n k\times n kn,于是总占用空间为 ( m n ) k (mn)\times k…

腾讯云.com域名报价

腾讯云com域名首年价格,企业新用户注册com域名首年1元,个人新用户注册com域名33元首年,非新用户注册com域名首年元85元一年,优惠价75元一年,com域名续费85元一年。腾讯云百科txybk.com分享腾讯云com域名注册优惠价格&a…

【C语言编程之旅 7】刷题篇-函数

第1题 解析 A:错误,一个函数只能返回一个结果 B:正确,将形参存在数组中,修改数组中内容,可以通过数组将修改结果带出去 C:正确,形参如果用指针,最终指向的是外部的实参…

Unity3D学习之UI系统——GUI

文章目录 1. 前言2. 工作原理和主要作用3. 基础控件3.1 重要参数及文本和按钮3.1.1 GUI 共同点3.1.2 文本控件3.1.3 按钮控件 3.2 多选框和单选框3.2.1 多选框3.2.2 单选框3.2.3 输入框3.2.4 拖动条 3.3 图片绘制和框3.3.1 图片3.3.2 框绘制 4 工具栏和选择网格4.1 工具栏4.2 选…

Docker(十一)Swarm mode

作者主页: 正函数的个人主页 文章收录专栏: Docker 欢迎大家点赞 👍 收藏 ⭐ 加关注哦! Swarm mode Docker 1.12 Swarm mode 已经内嵌入 Docker 引擎,成为了 docker 子命令 docker swarm。请注意与旧的 Docker Swarm …

Liunx系统和Window系统有什么区别

在信息技术世界里,操作系统扮演着至关重要的角色,它负责管理和控制计算机硬件与软件资源。Linux和Windows是市面上两个最流行的操作系统。接下来,我们将深入研究这两种操作系统的主要差异。 核心体系结构及源代码访问: 首先&#…

node介绍

1.node是什么 Node是一个基于Chrome V8引擎的JS运行环境。 Node不是一个独立的语言、node不是JS框架。 Node是一个除了浏览器之外的、可以让JS运行的环境 Node.js是一个让JS运行在服务端的开发平台,是使用事件驱动,异步非阻塞I/O,单线程&…

团灭 LeetCode 股票买卖问题

这几道题目是有共性的,我们只需要抽出来力扣第 188 题「188. 买卖股票的最佳时机 IV - 力扣(LeetCode)」进行研究,因为这道题是最泛化的形式,其他的问题都是这个形式的简化,看下题目: 第一题是只…

RHCE上课笔记(前半部分)

第一部分 网络服务 第一章 例行性工作 1.单一执行的例行性工作 单一执行的例行性工作(就像某一个时间点 的闹钟):仅处理执行一次 1.1 at命令:定时任务信息 [rhellocalhost ~]$ rpm -qa |grep -w at at-spi2-core-2.40.3-1.el9.x…

一条sql是如何运行的

在我们平时使用sql的时候,基本是基于黑盒的使用方式,在客户端输入一条sql语句,然后回显想要的数据,对于mysql server端内部如何运行的以及与存储引擎如何交互的不得而知。 通过下面一幅图,大致描述客户端和服务端交互…

重定位(一)段的概念引入

1.2440结构图 对于2440来说,cpu可以直接发指令给SRAM、网卡、SDRAM、NOR FLASH,但无法直接控制NAND FLASH,必须由NAND FLASH控制器来操作NAND FLASH,但为什么我们的裸机程序烧入NAND FLASH还可以运行呢? 这就引入了重定位机制&…

matlab appdesigner系列-常用12-日期选择器

日期选择器,目的就是显示时间,时间格式目前常用的 正序2024/1/19 也有倒序 19/1/2024 或者写成年-月-日格式的, 此示例,为当用户要更改日期时,弹出对话框提示:把日期从XXX改到XXX?确认日期…

热血江湖服务端服务器架设教程

热血江湖服务端服务器架设教程 大家好,我是艾西今天简单的说下热血江湖架设需要哪些东西然后怎么操作,不管你是自己玩还是对外开放,这对于有兴趣的小伙伴总的都是一件好事。技多不压身就是这么个道理,当你需要用上时还希望能记起…

【二叉树练习2】

文章目录 判断是否是完全二叉树找出p和q的最近的公共祖先非递归实现前序遍历非递归实现中序遍历非递归实现后序遍历 判断是否是完全二叉树 boolean isCompleteTree(TreeNode root){if (root null){return true;}//创建队列Queue<TreeNode> queue new LinkedList<>…

Midjourney在线绘画及提示词精选库

网址:https://chat.xutongbao.top/ 一碗面粉&#xff1a; Self-Rising Flour in a 50s colourful bowl. professional photograph --ar 720:1170 --v 6 烟花古建筑&#xff1a; At night, with the snow-covered scenery of the Beijing Forbidden City as the backdrop, brill…

linux内核源码编译2.6失败

centos7环境 iso选择 https://mirrors.tuna.tsinghua.edu.cn/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso 自带qemu&#xff0c;未实测是否可用 选择编译版本2.6 下载地址 遇到的编译错误解决 yum list | grep curses yum install ncurses-devel.x86_64 -y yum i…

算法专题[递归-搜索-回溯-2-DFS]

算法专题[递归-搜索-回溯-2-DFS] 一.计算布尔二叉树的值&#xff1a;1.思路一&#xff1a;2.GIF题目解析 二.求根节点到叶子节点的数字之和1.思路一&#xff1a;2.GIF题目解析 三.二叉树剪枝1.思路一&#xff1a;2.GIF题目解析 四.验证二叉搜索树1.思路一&#xff1a;2.GIF题目…

触摸屏监控双速电动机-硬件设计1

主电路设计 主电路如图所示。三相总电源从前门配电箱的-X1-1接线端子排引出&#xff0c;给混料泵电动机供三相电&#xff0c;给PLC供单相电。混料泵电动机用KM3主触点接通低速&#xff0c;用KM4的主触点和辅助触点接通高速。注意&#xff0c;高低速切换时&#xff0c;双速电动…

18G大小的R包 | 将你需要的R包全部下载

写在前面 在上周&#xff0c;我们在社群讨论。安装R包是个玄学”有时候真的很奇怪&#xff0c;在自己的电脑上就是无法安装&#xff0c;但是在其他电脑都可以正常安装…&#xff0c;不是感到很无语&#xff1f;&#xff1f;&#xff1f;&#xff1f;没有办法&#xff0c;类似的…