hadoop必记知识点(3)

在这里插入图片描述

  1. Hadoop的Combiner的作用

在这里插入图片描述

Hadoop的Combiner是一个在map任务执行完之后、在数据被发送到reduce任务之前执行的函数。其主要作用是减少Map和Reduce之间的数据传输量,提高Hadoop处理大数据的效率。
具体来说,Combiner会对map任务输出的key-value对进行局部汇总。例如,如果我们进行一个求平均值的mapreduce任务,map任务输出的可能是一个(key,[value1, value2, …])的形式,其中key是某个特征,value是该特征在所有输入文件中出现的次数。而Combiner会对这些value进行求和,得到一个(key,sum(value))的输出。这样,当这些数据被发送到reduce任务时,reduce任务就不需要再对这些value进行求和,而可以直接对这些value进行平均,大大减少了数据传输和处理的量。
需要注意的是,Combiner的输出和Reduce的输出类型应该是一样的,而且Combiner的函数应该是可合并的,即多个Combiner的输出可以被合并成一个单一的输出。这是因为Combiner是在map任务上并行执行的,而reduce任务可能需要合并多个map任务的输出。计算逻辑上,Combine操作后不会影响计算结果,像求和,最大值就不会影响,求平均值就影响了。
12. Hadoop序列化和反序列化
Hadoop 框架提供了一种默认的序列化方式,称为序列化。Hadoop 序列化是用于在分布式系统中存储和传输数据的一种方式,它可以有效地存储和传输大量数据。

Hadoop 的序列化机制包括两个步骤:序列化和反序列化。

序列化:序列化是将对象转换为字节序列的过程,以便在网络上传输或写入到磁盘进行永久存储的过程。Hadoop使用了一种称为Writable的接口来实现序列化。实现Writable接口的对象可以被Hadoop MapReduce框架进行序列化。

反序列化:反序列化是字节序列转回为对象的过程。当从磁盘读取数据或者从网络接收数据时,Hadoop会将接收到的字节序列反序列化为对象。

  1. Hadoop的运行模式,适用场景

Hadoop有三种运行模式,分别是独立模式(本地模式)、伪分布式模式和完全分布式模式。

独立模式(本地模式):这种模式下,Hadoop的所有组件都在同一台机器上运行,无需额外的配置,主要用于单机上的快速测试和调试。

伪分布式模式:这种模式下,Hadoop的所有组件在同一台机器上运行,但是各个组件会在不同的进程中运行,更接近于真正的分布式环境。主要用于开发者在本机上进行开发和测试。

完全分布式模式:这是Hadoop的正式运行模式,所有的Hadoop组件在不同的节点上运行,每个节点都是集群中的一员,能够处理一些大型数据。主要用于生产环境。

  1. Hadoop RPC原理

在这里插入图片描述

Hadoop的RPC(Remote Procedure Call)是Hadoop中非常重要的一个部分,主要用于Hadoop各个组件之间的通信。下面是Hadoop RPC涉及的一些源码的详细说明:

客户端调用接口:在客户端的Hadoop RPC客户端代码中,通常会有一段代码调用服务端的某个方法。这段代码通常会使用Hadoop的RPC客户端来发起一个RPC请求,并将请求发送到服务端。

请求序列化:在客户端发起RPC请求时,请求中的参数需要被序列化。Hadoop使用了一个叫做ProtocolBuffer的工具来进行序列化。在Hadoop的源码中,序列化的过程通常会涉及到ProtocolBuffer的一些方法,例如Message.newBuilder()、Message.build()等。

请求发送:在请求序列化完成后,Hadoop的RPC客户端会将请求发送到服务端。这个过程通常会涉及到Hadoop的RPC客户端的几个方法,例如call()、getProxy()等。

服务端接收请求:在服务端,Hadoop的RPC服务端代码会接收到客户端的请求。这个过程通常会涉及到Hadoop的RPC服务端的几个方法,例如serve()、run()等。

请求反序列化:在服务端接收到请求后,需要对请求进行反序列化。这个过程通常会涉及到ProtocolBuffer的一些方法,例如Message.parseFrom()等。

方法调用:在请求反序列化完成后,服务端的Hadoop RPC服务端代码会调用请求中指定的方法,并使用反序列化后的参数作为方法的参数。这个过程通常会涉及到Java反射的一些API,例如Method.invoke()等。

响应返回:在方法调用完成后,服务端的Hadoop RPC服务端代码会生成一个响应,并将其返回给客户端。这个过程通常会涉及到Hadoop的RPC服务端的几个方法,例如reply()、getProxy()等。

响应反序列化:在客户端接收到响应后,需要对响应进行反序列化。这个过程通常会涉及到ProtocolBuffer的一些方法,例如Message.parseFrom()等。

结果处理:在响应反序列化完成后,客户端的Hadoop RPC客户端代码会对响应中包含的结果进行处理。这个过程通常会涉及到Java的一些基本的数据类型和I/O操作

15.Hadoop设计思想

Hadoop的设计思想主要包括以下几点:

分布式处理:Hadoop采用分布式架构,将计算任务分解到各个节点上并行处理,充分利用集群的计算能力。

数据本地性:Hadoop的计算节点和存储节点在同一台机器上,减少了数据传输的开销,提高了处理速度。

容错性:Hadoop能够自动处理节点的故障,保证计算任务的正常进行。

水平扩展:Hadoop可以通过增加节点数来提升系统的处理能力,支持大规模数据的处理。

简单性:Hadoop使用简单的编程模型,只需要编写一次程序,就可以在本地运行,也可以在分布式环境下运行。

可扩展性:Hadoop的设计允许系统进行水平扩展,只需增加更多的服务器,就可以处理更多的数据。

高性价比:Hadoop使用普通的硬件设备,降低了成本,而且其开源特性也减少了软件成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/356768.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

树--二叉树(C语言纯手凹)

目录 目录 1.什么是树?(不深入,仅做了解) 2.树的表示方式 2.1孩子兄弟表示法(左孩子右兄弟) 2.2孩子表示法 2.3双亲表示法 3.什么是二叉树 4.二叉树分类 4.1满二叉树 4.2完全二叉树 4.3二叉搜索树…

2024年 全新 HTTP 客户端 你用了?

我们平时开发项目的时候,经常会需要远程调用下其他服务提供的接口,于是我们会使用一些 HTTP 工具类比如 Hutool 提供的 HttpUtil。SpringBoot 3.0 出了一个Http Interface的新特性,它允许我们使用声明式服务调用的方式来调用远程接口&#xf…

个性化联邦学习所面临的挑战:

个性化联邦学习所面临的挑战: 1、Federated Learning with Personalization Layers Li等人(2019)最近发表的综述文章阐述了联邦学习系统面临的许多独特挑战。其中一个挑战是,不同客户端的有效数据分布可能在参与的设备之间(可能有数百万台)差异很大。这…

AJAX的原理(重点)

◆ XMLHttpRequest 什么是XMLHttpRequest? 定义: 关系:axios 内部采用 XMLHttpRequest 与服务器交互 注意:直白点说就是axios内部就是封装了XMLHttpRequest这个对象来实现发送异步请求的 使用 XMLHttpRequest 步骤&#xff1a…

Edge浏览器进入csdn的网址出现“你的连接不是专用连接”错误

文章目录 问题描述解决方案 问题描述 Edge浏览器出现无法打开网页,出现:你的连接不是专用连接 错误。 解决方案 很有可能是DNS的问题,进入浏览器的设置页面,通过以下方式选择合适的的DNS即可 2024-1-29更新: 其他备用…

Linux true/false区分

bash的数值代表和其它代表相反:0表示true;非0代表false。 #!/bin/sh PIDFILE"pid"# truenginx进程运行 falsenginx进程未运行 checkRunning(){# -f true表示普通文件if [ -f "$PIDFILE" ]; then# -z 字符串长度为0trueif [ -z &qu…

Tensorflow2.0笔记 - tensor的padding和tile

本笔记记录tensor的填充和tile操作,对应tf.pad和tf.tile import tensorflow as tf import numpy as nptf.__version__#pad做填充 # tf.pad( tensor,paddings, modeCONSTANT,nameNone) #1维tensor填充 tensor tf.random.uniform([5], maxval10, dtypetf.int32) pri…

compose部署nginx

下拉Nginx镜像: docker pull nginx docker run -itd \ -p 80:80 \ --name n1 \ -v /root/soft/nginx/html:/usr/share/nginx/html \ (自己的文件路径) -v /root/nginx/conf.d/default.conf/:/etc/nginx/conf.d/default.conf \ (文…

SQL注入-sqli-labs-master第一关

实验环境: Nginx.1.15.11 MySQL:5.7.26 实验步骤: 1.第一步: 在id1后加入一个闭合符号,如果报错,再在后面加上 -- 将后面注释掉,如果不报错,则证明为字符型。 http://127.0.0.1/…

jvm优化过程

1.top命令执行查看,当前占比比较高的进程,可以看到21660这个进程的cpu占比已经100%了 编辑 2.可以定位到那个微服务的进程,可以看到是fs服务 编辑 3.执行 top -p 21660,然后按下大写的H,可以看到21772这个线程占比最高 编辑 4.…

标准库中的string类(下)——“C++”

各位CSDN的uu们你们好呀,这段时间小雅兰的内容仍然是Cstring类的使用的内容,下面,让我们进入string类的世界吧!!! string类的常用接口说明 string - C Reference string类的常用接口说明 string类对象的修…

【leetcode】01背包总结

01 背包 关键点 容器容量固定每件物品只有两种状态:不选、选 1 件求最大价值 代码 int N, W; // N件物品,容量为W int w[N], v[N]; // w为大小,v为容量/* 数组定义 */ int[][] dp new int[N][W 1]; // 注意是W 1, 因为重量会取到W dp[…

C++(6) 继承

文章目录 继承1. 继承1.1 什么是继承1.2 C 继承方式1.2.1 基本案例1.2.2 继承权限组合1.2.3 继承中构造函数的说法1.2.4 继承中析构函数的执行顺序1.2.5 继承中变量名称冲突问题1.2.6 继承中函数【重写】 继承 1. 继承 1.1 什么是继承 面向对象程序设计中最重要的一个概念是继…

C语言——指针进阶(四)

目录 一.前言 二.指针和数组笔试题解析 2.1 二维数组 2.2 指针笔试题 三.全部代码 四.结语 一.前言 本文我们将迎来指针的结尾,包含了二维数组与指针的试题解析。码字不易,希望大家多多支持我呀!(三连+关注&…

网络基础二 session、cookie、token

HTTP协议以明文方式发送内容,不提供任何方式的数据加密,如果攻击者截取了Web浏览器和网站服务器之间的传输报文,就可以直接读懂其中的信息,因此,HTTP协议不适合传输一些敏感信息,比如:信用卡号、…

正则表达式 文本三剑客

一 正则表达式: 由一类特殊字符及文本字符所编写的模式,其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能,类似于增强版的通配符功能,但与通配符不同,通配符功能是用…

Log4j2的Appenders配置详解

官方配置文档 https://logging.apache.org/log4j/2.x/manual/appenders.html#RollingFileAppender <Appenders> 常使用的类如下&#xff1a; org.apache.log4j.ConsoleAppender&#xff08;控制台&#xff09; org.apache.log4j.FileAppender&#xff08;文件&#xff…

【Go-zero】手把手带你在goland中创建api文件并设置高亮

【Go-zero】手把手带你在goland中创建api文件并设置高亮 大家好 我是寸铁&#x1f44a; 总结了一篇手把手带你在goland中创建api文件并设置高亮解决方案的文章✨ 喜欢的小伙伴可以点点关注 &#x1f49d; 问题复盘 在使用go-zero 框架时&#xff0c;常常需要用到goctl 一键生成…

Netty源码二:服务端创建NioEventLoopGroup

示例 还是拿之前启动源码的示例&#xff0c;来分析NioEventLoopGroup源码 NioEventLoopGroup构造函数 这里能看到会调到父类的MultiThread EventLoopGroup的构造方法 MultiThreadEventLoopGroup 这里我们能看到&#xff0c;如果传入的线程数目为0&#xff0c;那么就会设置2倍…

Vue2 props组件通信-父子组件传值

一、父组件向子组件传值 1、流程图 2、父组件代码 <template><div class"app"><UserInfo:usernameusername:ageage:isSingleisSingle:carcar:hobbyhobby></UserInfo></div> </template><script> import UserInfo from .…