hadoop必记知识点(2)

在这里插入图片描述

6. hadoop集群计算的时候,什么是集群的主要瓶颈?展开说一下,生产遇到了什么问题?

在 Hadoop 集群进行计算时,可能会遇到多个瓶颈,但最主要的通常包括网络带宽、存储以及 CPU 处理能力。

网络带宽:Hadoop 集群中的各个节点需要频繁地进行数据传输和通信,这就需要网络带宽足够大。如果网络带宽不足,节点之间的数据交换将会变得缓慢,从而影响整个集群的计算性能。

存储:Hadoop 集群在进行计算时,需要大量的数据存储空间。如果存储资源不足,可能会导致数据丢失或者无法存储新的数据,进而影响到集群的计算能力。

CPU 处理能力:虽然 Hadoop 集群通常会在高性能服务器上运行,这些服务器通常有足够的 CPU 处理能力,但如果集群中的任务过多,超出了服务器的处理能力,就可能会导致计算性能下降。

在生产环境中,可能会遇到以下问题:

计算效率低:如果 Hadoop 集群遇到了存储或网络瓶颈,数据的读写速度会变慢,进而导致计算效率低下。

数据丢失:如果 Hadoop 集群的存储资源不足,可能会导致数据丢失。

集群扩展性差:如果 Hadoop 集群的 CPU 处理能力不足,可能无法支持新的任务或数据量的增长,这就限制了集群的扩展性。

为了解决这些问题,需要对 Hadoop 集群进行优化和扩展,例如增加存储资源、提高网络带宽或者升级服务器等。

7. Hadoop集群在工作时启动的组件

运行的组件共同保证了Hadoop集群的高效、稳定和可用。它们各自承担着不同的职责,通过协同工作实现了大规模数据存储和处理的功能。

Namenode:在HDFS中,Namenode是主要的节点,负责管理文件系统的元数据,如文件和目录的创建、删除、复制等操作。它还负责确定文件数据在磁盘上的存储位置,以及管理DataNode之间的数据复制。

ZooKeeper:ZooKeeper是一个开源的分布式协调服务,它提供了一个用于构建分布式应用的模式,包括配置维护、域名服务、分布式同步、分组服务等。在Hadoop集群中,ZooKeeper主要用于实现集群配置信息的管理、命名服务、分布式同步等功能。

ZKFC:ZKFC是NameNode的高可用组件,用于监控NameNode的状态并提供故障转移功能。当NameNode出现故障时,ZKFC可以自动将命名空间切换到另一个NameNode上,以保证HDFS的可用性。

JobHistory:JobHistory用于保存MapReduce作业的历史信息,包括作业的运行状态、任务信息等。它可以帮助用户查看作业的运行情况、分析作业的性能瓶颈等。

Datanode:在HDFS中,Datanode负责存储实际的数据,接收NameNode的指令进行数据的读写操作。它还负责数据的复制和恢复,以及与NameNode进行通信以保证数据的可用性和一致性。

ResourceManager:在YARN中,ResourceManager负责整个集群的资源管理和调度。它管理着集群中的所有节点和资源(CPU、内存等),并根据用户的需求进行资源的分配和调度。

NodeManager:在YARN中,NodeManager负责单个节点的资源管理和任务运行。它与ResourceManager进行通信以获取资源,并将资源分配给运行在节点上的应用程序。

Proxy:Proxy用于提供对Hadoop集群的访问代理,可以用于屏蔽集群内部节点的地址变化,提供稳定的访问接口。它可以将外部请求转发到内部的Hadoop服务,并处理服务之间的通信和认证。

JournalNode:JournalNode用于保存HDFS命名空间的修改日志,用于NameNode的高可用。它协助NameNode存储文件系统的元数据变更历史,以便在NameNode故障时恢复数据。

8.Hadoop使用块划分的优缺点

优点:

提高数据可靠性:Hadoop默认的块大小为128MB,每个块会存储三个副本,这样可以保证数据的可靠性,即使部分节点失效也不会影响数据的读取。
提高数据处理效率:Hadoop的MapReduce框架会尽可能的将计算任务分配到存储数据的节点上,这样可以减少数据在网络中的传输,提高数据处理效率。
简化数据管理:Hadoop的块划分方式可以简化数据的管理,Hadoop系统会自动负责数据的复制和存储。

缺点:

存储开销大:由于每个块都会存储三个副本,所以存储开销会比较大。
数据一致性问题:由于副本的存在,数据的一致性问题可能会出现,需要通过Hadoop的机制来解决。
对于小文件而言,由于其本身数据量不大,但也会被划分成多个块,因此会产生一些额外的开销。

9.从磁盘、网络、内存角度详细说明Hadoop块划分的原因

Hadoop块划分的主要原因是为了优化系统性能和资源利用率。

磁盘角度:Hadoop块划分可以最大程度地减少磁盘I/O操作,因为Hadoop默认的块大小为128MB,这样可以减少磁盘I/O操作,提高数据读取速度。而块划分可以将大文件划分为多个块,在磁盘上以块的方式进行存储,可以提高磁盘存储空间的利用率,同时也可以降低磁盘的读写压力。

网络角度:Hadoop块划分可以优化网络传输,减少网络带宽的占用,提高数据传输效率。当数据块足够大时,可以减少网络传输的数据量,降低网络延迟,提高数据传输速度。此外,Hadoop的数据块默认存储三个副本,这样可以将数据块的存储位置分布在不同的节点上,提高数据的可靠性和可用性。

内存角度:Hadoop块划分可以减轻内存压力,提高内存利用效率。当数据块足够大时,可以减少内存中的数据缓存的数量,降低内存压力。同时,块划分可以帮助减少内存中的中间结果的存储,降低内存压力。此外,Hadoop块划分还可以提高数据处理并行度,将大规模数据集分成多个块进行并行处理,提高数据处理效率。

CPU角度:Hadoop块划分可以优化CPU利用效率。当数据块足够大时,可以减少CPU处理数据的次数,降低CPU处理压力。同时,块划分可以将大规模数据集分成多个块进行并行处理,提高数据处理效率,从而降低CPU的处理压力。此外,Hadoop的MapReduce框架可以将数据块的存储位置和计算任务分配到同一台机器上,减少数据传输和计算开销,提高CPU利用效率。

10. Hadoop配置最短路径读的优缺点

优点:

提高数据读取速度:最短路径读可以减少数据在网络中的传输开销,提高数据读取速度。

减少网络带宽占用:最短路径读可以减少数据在网络中的传输,降低网络带宽的占用。

优化系统性能:最短路径读可以优化系统性能,提高系统的吞吐量和响应速度。

提高存储空间利用率:最短路径读可以帮助减少数据的冗余,提高存储空间的利用率。

缺点:

增加系统复杂度:最短路径读需要对系统进行额外的配置和管理,增加了系统的复杂度。

增加数据处理开销:最短路径读需要对数据进行额外的处理,增加了数据处理的成本。

不适合小规模数据:最短路径读适合大规模数据的处理,对于小规模数据可能不是最好的选择。

需要合理的块大小设置:最短路径读需要合理的块大小设置,如果块大小设置不合理,可能会影响系统的性能和数据处理效率。

综上所述,Hadoop配置最短路径读的优缺点需要根据具体的场景来权衡和选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/341083.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何制作自己的实景中国视频地图?

让每一个人都有自己的地图! 我们在《水经微图Web版1.5.0发布》一文中,提到了水经微图(简称“微图”)Web版新增了视频气泡的功能。 现在,我们为你分享一下如何基于此功能,制作一个属于自己的实景中国视频地…

Axios取消请求:AbortController

AbortController AbortController() 构造函数创建了一个新的 AbortController 实例。MDN官网给出了一个利用AbortController取消下载视频的例子。 核心逻辑是:利用AbortController接口的只读属性signal标记fetch请求;然后在需要取消请求的时候&#xff0…

【XR806开发板试用】系列之一 - Linux环境下Ubuntu完全开发流程

前言 为了让极术社区开发者体验搭载安谋科技STAR-MC1处理器的面向IoT领域的全志XR806开发板,极术社区联合全志在线开发者社区共同推出XR806开发板免费试用活动。 极术社区特准备了200块XR806开发板作为2022年社区新年活动,申请的人数有600多&#xff0c…

分布式websocket IM聊天系统相关问题问答【第九期】

前言 上期视频讲解了自己关于聊天系统的设计的时候出现了一些不一样的声音。不了解情况的可以看上上期视频。这期主要是讨论。IM聊天系统设计方案多。我的先说明一下自己的技术背景互相之间才能更好的理解。 本期对应视频 目前已经写的文章有。并且有对应视频版本。 git项目地…

线性代数的学习和整理23:用EXCEL和python 计算向量/矩阵的:内积/点积,外积/叉积

目录 1 乘法 1.1 标量乘法(中小学乘法) 1.1.1 乘法的定义 1.1.2 乘法符合的规律 1.2 向量乘法 1.2.1 向量:有方向和大小的对象 1.2.2 向量的标量乘法 1.2.3 常见的向量乘法及结果 1.2.4 向量的其他乘法及结果 1.2.5 向量的模长(长度&#xff0…

安装向量数据库milvus可视化工具attu

使用docker安装的命令和简单就一个命令: docker run -p 8000:3000 -e MILVUS_URL{milvus server IP}:19530 zilliz/attu:v2.3.5sunyuhuasunyuhua-HKF-WXX:~/dockercom/milvus$ docker run -p 8000:3000 -e MILVUS_URL127.0.0.1:19530 zilliz/attu:latest yarn run…

扫地机器人(二分算法+贪心算法)

1. if(robot[i]-len<sweep)这个代码的意思是——如果机器人向左移动len个长度后&#xff0c;比现在sweep的位置&#xff08;现在已经覆盖的范围&#xff09;还要靠左&#xff0c;就是覆盖连续不起来&#xff0c;呢么这个len就是有问题的&#xff0c;退出函数&#xff0c;再…

微信小程序-03

小程序官方把 API 分为了如下 3 大类&#xff1a; 事件监听 API 特点&#xff1a;以 on 开头&#xff0c;用来监听某些事件的触发 举例&#xff1a;wx.onWindowResize(function callback) 监听窗口尺寸变化的事件 同步 API 特点1&#xff1a;以 Sync 结尾的 API 都是同步 API 特…

在全志H616核桃派上实现USB摄像头的OpenCV颜色检测

在给核桃派开发板用OpenCV读取图像并显示到pyqt5的窗口上并加入颜色检测功能&#xff0c;尝试将图像中所有蓝色的东西都用一个框标记出来。 颜色检测核心api 按照惯例&#xff0c;先要介绍一下opencv中常用的hsv像素格式。颜色还是那个颜色&#xff0c;只是描述颜色用的参数变…

【vscode】远程资源管理器自动登录服务器保姆级教程

远程资源管理器自动登录服务器 介绍如何配置本地生成rsa服务端添加rsa.pub配置config文件 介绍 vscode SSH 保存密码自动登录服务器 对比通过账号密码登录&#xff0c;自动连接能节约更多时间效率&#xff0c;且通过vim修改不容易发现一些换行或者引号导致的错误&#xff0c;v…

CentOS 7安装全解析:适合初学者的指导

目录 前言 一.centos安装 1.下载镜像文件 2.安装 二.远程连接&#xff0c;换源 1.下载并且使用MobaXtermMobaXterm free Xserver and tabbed SSH client for Windows (mobatek.net)https://mobaxterm.mobatek.net/ 远程连接 2.换源 前言 在当今的信息化时代&#xff0c…

使用Go语言编写简单的HTTP服务器

在Go语言中&#xff0c;我们可以使用标准库中的"net/http"包来编写HTTP服务器。下面是一个简单的示例&#xff0c;展示了如何使用Go编写一个基本的HTTP服务器。 go复制代码 package main import ( "fmt" "net/http" ) …

JavaScript DOM表单相关操作之获取表单数据的方式

在与表单相关的操作中&#xff0c;我们用的最多的就是获取表单中的数据。想要获取指定输入框的数据&#xff0c;首先就需要获取到这个输入框对象。 1、通过id属性获取表单数据 <!DOCTYPE html> <html> <head><meta charset"UTF-8"><tit…

【论文阅读笔记】Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation

1.介绍 Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation Swin-Unet&#xff1a;用于医学图像分割的类Unet纯Transformer 2022年发表在 Computer Vision – ECCV 2022 Workshops Paper Code 2.摘要 在过去的几年里&#xff0c;卷积神经网络&#xff…

java程序cpu飙高如何排查

一、使用传统jstack手法来排查 如何使用原生top命令、jstack命令来做定位具体代码的位置处理 1、简单步骤有下面几步 执行top命令&#xff0c;查看CPU占用情况&#xff0c;找到进程的pid(12002)使用 top -Hp <pid> 命令&#xff08;为Java进程的id号&#xff09;查看该…

System.Data.SqlClient.SqlException:“在与 SQL Server 建立连接时出现与网络相关的或特定于实例的错误

目录 背景: 过程: SQL Express的认识: 背景: 正在运行程序的时候&#xff0c;我遇到一个错误提示&#xff0c;错误信息如下&#xff0c;当我将错误信息仔细阅读了一番&#xff0c;信息提示的很明显&#xff0c;错误出现的来源就是连接数据库代码这块string connStr "s…

【教程】iOS Swift应用加固

&#x1f512; 保护您的iOS应用免受恶意攻击&#xff01;在本篇博客中&#xff0c;我们将介绍如何使用HTTPCORE DES加密来加固您的应用程序&#xff0c;并优化其安全性。通过以下步骤&#xff0c;您可以确保您的应用在运行过程中不会遭受数据泄露和未授权访问的风险。 摘要 …

网络防御保护——1.网络安全概述

一.网络安全概念 通信保密阶段 --- 计算机安全阶段 --- 信息系统安全 --- 网络空间安全 APT攻击 --- 高级持续性威胁 网络安全(网络空间安全--Cyberspace)从其本质上讲就是网络上的信息安全&#xff0c;指网络系统的硬件、软件及数据受到保护。不遭受破坏、更改、泄露&#xf…

[pytorch入门] 4. torchvision中数据集的使用

介绍 文档 可以去看官方文档 可以在里面找到一些数据集的使用 CIFAR10 import torchvision from torch.utils.tensorboard import SummaryWriterdataset_transform torchvision.transforms.Compose([torchvision.transforms.ToTensor(), ])train_set torchvision.datas…

opencv#27模板匹配

图像模板匹配原理 例如给定一张图片&#xff0c;如上图大矩阵所示&#xff0c;然后给定一张模板图像&#xff0c;如上图小矩阵。 我们在大图像中去搜索与小图像中相同的部分或者是最为相似的内容。比如我们在图像中以灰色区域给出一个与模板图像尺寸大小一致的区域&#xff0c;…