尚硅谷课程【笔记】——大数据之Hadoop【一】

课程视频链接:尚硅谷Hadoop3.x教程

一、大数据概论

1)大数据概念

        大数据(Big Data):指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

        大数据主要解决:海量数据(TB、PB、EB)的存储和海量数据的分析计算

2)大数据特点(5V)

  • Volume (大量):数据规模巨大,从TB到PB甚至EB级别。

  • Velocity(高速):数据生成、处理和分析的速度快(如实时流数据)。

  • Variety  (多样):数据类型的多样性(结构化、半结构化、非结构化数据等)。

                起源:2001年由Gartner分析师Doug Laney首次提出,作为大数据的核心定义

  • Veracity(真实性):数据的质量和可信度(如噪声、不确定性、数据来源的可靠性)。

             背景:IBM等企业强调数据质量对分析结果的影响,因此将其纳入核心特征。
  • Value     (价值):指的是数据价值密度相对较低,即海量数据中只有少数是有价值的信息

3)大数据部门组织结构


二、从Hadoop框架讨论大数据生态

1)Hadoop是什么?

  •         Hadoop是由Apache基金会所开发的分布式系统基础架构
  •         从广义上来说,Hadoop指一个更广泛的概念——Hadoop生态圈。


2)Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworkds

        Apache版本是最原始、最基础的版本,对入门学习最好。

        Xloudera在大型互联网企业中用的较多(收费)。

        Hortonworks文档较好。

Apache Hadoop:

官网地址:https://hadoop.apache.org/releases.html


3)Hadoop的优势

        1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

        2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

        3)高效性:在MpaReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

        4)高容错性:能够自动将失败的任务重新分配。


4)Hadoop组成(重点)

        在Hadoop1.x中,MapReduce同时处理业务逻辑运算资源调度耦合性较大;在Hadoop2.x中,增加了Yarn部分,由Yarn负责资源的调度,降低了耦合性。Hadoop3.x在组成方面和Hadoop2.x一致,只是增加了部分新功能。

HDFS架构概述

        1)NameNode(nn):存储文件的元数据(文件名、文件目录结构文件属性等),以及每个文件的块列表和块所在的DataNode等。

        2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。

        3)Secondary NameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

Yarn架构概述

1)ResourceManager(RM)主要作用:

        (1)处理客户端请求

        (2)监控NodeManager

        (3)启动或监控ApplicationMaster

        (4)资源的分配和调度

2)NodeManager(NM)主要作用:

        (1)管理单个节点上的资源

        (2)处理来自ResourceManager的命令

        (3)处理来自ApplicationMaster的命令

3)ApplicationMaster(AM)作用:

        (1)负责数据的切分

        (2)为应用程序申请资源,并分配给内部的任务

        (3)任务的监控与容错

4)Container

        Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

MapReduce架构概述

MapReduce将计算分为两个阶段:Map阶段Reduce阶段

        1)Map阶段负责并行处理输入数据

        2)Reduce阶段对Map结果进行汇总

HDFS、YARN、MapReduce协作关系

        DateNode负责存储实际的数据,NameNode负责记录分片数据存在哪个DataNode上。当NameNode“挂”掉以后,SecondaryNode会备份一份数据,来恢复NameNode的部分工作。

        当客户Client向Hadoop集群提交一个任务Job时,此时ResourceManager会找一个节点开启一个Container,将用户提交的任务App Mstr放在该容器中。然后App Mstr会向ResourceManager申请资源,ResourceManager收到申请后会分配给它资源,在该任务中,分配了两个Container容器分别用于执行MapTask任务,分配一个Container容器用于ReduceTask,最终将执行结果写入到DataNode上。


5)大数据技术生态体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/970435.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

海康摄像头IPV6模式,手动,自动,路由公告

海康摄像头DS-2DC7220IW-A 网络设置中的IPv6配置选项。IPv6是互联网协议(IP)的第六版,用于替代IPv4,提供更多的IP地址和改进的网络功能。图片中的选项允许用户选择如何配置设备的IPv6网络连接: 手动:用户可…

CAS单点登录(第7版)22.中断通知

如有疑问,请看视频:CAS单点登录(第7版) 中断通知 概述 认证中断 CAS 能够暂停和中断身份验证流程以访问外部服务和资源,查询状态和设置,然后指示 CAS 应如何管理和控制 SSO 会话。中断服务能够向用户显示…

SQLMesh 系列教程4- 详解模型特点及模型类型

SQLMesh 作为一款强大的数据建模工具,以其灵活的模型设计和高效的增量处理能力脱颖而出。本文将详细介绍 SQLMesh 模型的特点和类型,帮助读者快速了解其强大功能。我们将深入探讨不同模型类型(如增量模型、全量模型、SCD Type 2 等&#xff0…

遵循规则:利用大语言模型进行视频异常检测的推理

文章目录 速览摘要01 引言02 相关工作视频异常检测大语言模型 03 归纳3.1 视觉感知3.2 规则生成Normal and Anomaly (正常与异常)Abstract and Concrete (抽象与具体)Human and Environment (人类与环境) 3…

ISO9001| 分发受控号的详细说明及其管理方法 | QM-001/Rev. 01/002 (2023-10-15)

文章目录 引言I 分发受控号的详细说明及其管理方法1. 分发受控号的作用2. 分发受控号的组成3. 分发受控文件的管理流程4. 分发受控文件的管理工具5. 分发受控文件的示例表格6. ISO 9001 对文件控制的要求II 反例:各部门分发受控号III 常见问题引言 在质量管理体系(如 ISO 900…

CAS单点登录(第7版)18.日志和审计

如有疑问,请看视频:CAS单点登录(第7版) 日志和审计 Logging 概述 Logging CAS 提供了一个日志记录工具,用于记录重要信息事件,如身份验证成功和失败;可以对其进行自定义以生成用于故障排除的其他信息。…

机械学习常用的激活函数(ReLU 、Sigmoid、Tanh 、Softmax、Leaky ReLU、GELU、Swish、ELU、线性激活函数)

按照常用度大致从高到低排列的常用激活函数: ReLU 函数:计算简单、收敛速度快,能有效缓解梯度消失问题,在各种神经网络的隐藏层中广泛应用,是目前最常用的激活函数之一。Sigmoid 函数:常被用于将输出转换为…

前端面试题+算法题(二)

一、LeeCode 算法题 1、643. 子数组最大平均数 I 题目:给你一个由 n 个元素组成的整数数组 nums 和一个整数 k 。请你找出平均数最大且 长度为 k 的连续子数组,并输出该最大平均数。任何误差小于 10-5 的答案都将被视为正确答案。 场景1:输入…

【弹性计算】容器、裸金属

容器、裸金属 1.容器和云原生1.1 容器服务1.2 弹性容器实例1.3 函数计算 2.裸金属2.1 弹性裸金属服务器2.2 超级计算集群 1.容器和云原生 容器技术 起源于虚拟化技术,Docker 和虚拟机和谐共存,用户也找到了适合两者的应用场景,二者对比如下图…

DeepSeek、Kimi、文心一言、通义千问:AI 大语言模型的对比分析

在人工智能领域,DeepSeek、Kimi、文心一言和通义千问作为国内领先的 AI 大语言模型,各自展现出了独特的特点和优势。本文将从技术基础、应用场景、用户体验和价格与性价比等方面对这四个模型进行对比分析,帮助您更好地了解它们的特点和优势。…

DeepSeek 15天指导手册——从入门到精通

大家好,欢迎来到今天的教程!前几天发表 DeepSeek 的文章,收到大家的一致好评。 YYDS!WPS 集成 DeepSeek,办公从此更智能 DeepSeek使用技巧:9个技巧让AI助手变身超级英雄 今天我们为大家带来的是DeepSeek…

百问网(100ask)提供的烧写工具的原理和详解;将自己编译生成的u-boot镜像文件烧写到eMMC中

百问网(100ask)提供的烧写工具的原理 具体的实现原理见链接 http://wiki.100ask.org/100ask_imx6ull_tool 为了防止上面这个链接失效,我还对上面这个链接指向的页面保存成了mhtml文件,这个mhtml文件的百度网盘下载链接: https://pan.baidu.c…

Kafka分区管理大师指南:扩容、均衡、迁移与限流全解析

#作者:孙德新 文章目录 分区分配操作(kafka-reassign-partitions.sh)1.1 分区扩容、数据均衡、迁移(kafka-reassign-partitions.sh)1.2、修改topic分区partition的副本数(扩缩容副本)1.3、Partition Reassign场景限流1.4、节点内副本移动到不…

初阶c语言(练习题,猜随机数,关机程序)

目录 第一题,使用函数编写一个随机数,然后自己猜,猜随机数 第二道题(关机程序) 实现代码(关机程序) 实现代码(猜数字) 前言: 学习c语言,学习…

《千多桃花一世开》:南胥月为何爱暮悬铃

●前世故人:混沌珠神女 •一边不知情为何物时,一边又情不知所起,一往而深 上一世,他们还是神器的时候,混沌珠与天命书形影不离,为天命所创、为天命执行法则,如执行指令的机器,没有…

SpringBoot3 快速启动框架

文章目录 1 SpringBoot3 介绍 1.1 SpringBoot3 简介1.2 快速入门1.3 入门总结 2 SpringBoot3 配置文件 2.1 统一配置管理概述2.2 属性配置文件使用2.3 YAML配置文件使用2.4 批量配置文件注入2.5 多环境配置和使用 3 SpringBoot 整合 springMVC 3.1 实现过程3.2 web相关配置3.3…

21爬虫:使用playwright接管本地已经登录淘宝的浏览器并查找python相关店铺信息

1.playwright如何接管本地浏览器 (1)首先找到电脑上安装的Chrome浏览器可执行程序的完整路径: Mac电脑上可执行程序的完整路径为: /Applications/Google Chrome.app/Contents/MacOS/Google Chrome windows系统的电脑上查找可执行…

C++ Primer 返回值和return语句

欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…

【Java集合二】HashMap 详解

一、简介 1.1 概述 JDK1.8之前:HashMap使用数组链表实现,即使用链表处理冲突,同一hash值的节点都存储在一个链表里。但是当位于一个桶中的元素较多,即hash值相等的元素较多时,通过key值依次查找的效率较低。 JDK1.8…

3、树莓派5 安装VNC查看器 开启VNC服务器

在前序文章中( 2、树莓派5第一次开机),可以使用三种方式开机,其中使用网线及wifi的方式均需要使用到VNC查看器进行远程桌面控制,本文将介绍如何下载安装并配置及使用VNC查看器及服务器,对前序文章做一些补充…