大数据Hadoop入门2

第三部分(Hadoop MapReduce和Hadoop YARN)

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

map这里不能翻译成地图,翻译为mapping比较好一点

4.Hadoop MapReduce介绍、阶级划分和进程组成

 

5.Hadoop MapReduce官方示例-圆周率PI评估

首先验证一下我们的hadoop集群有没有启动

发现没有启动,下面我们启动一下

启动时,我们看一下示例

先进入hadoop安装包

安装包中有一个share目录

然后再cd到hadoop中

然后再cd到MapReduce中

我们就要使用其中的example jar包来评估圆周率PI值

我们的yarn页面也正有一个程序在运行

6.Hadoop MapReduce官方示例-wordCount单词统计

这里上传可以使用web页面上传

新建一个input

然后点击上传

我们可以浏览一下这个文件

在当前路径下使用这个示例

看一下输出的output中的结果

结果有两个

第一个没东西,表示执行成功

第二个是结果

7.Hadoop MapReduce--map阶段执行过程

红线左边就是map阶段

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

但yarn不仅支持MapReduce,还支持spark、flink等

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

下面以MR(MapReduce)程序为例

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分(数据仓库基础和Hadoop Hive入门)

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

比如CRM就是客户关系管理

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

下面我们看一下配置

拖拽过去

下面做一个解压

然后安装

继续安装

没有报错,上面就是安装成功了

下面进行初始化设置

因为是初次启动,不知道密码

下面我们查看一下临时密码

登录成功

下面修改密码

授权

授权结束点击ctrl+d退出MySQL

如果MySQL安装错误

下面是卸载

10.Hadoop Hive安装部署--配置文件修改编辑

hive不需要每台机器都安装,只要安装一台机器即可

还有另外一个配置文件

红框中的是MySQL的用户名和密码

红框就是元数据服务的地址

将上面的内容复制粘贴

首先打开红框中的lib地址

将资料中的驱动拖拽到lib文件夹中

这里就成功了

没有就去创建

11.Hadoop Hive安装部署--metastore服务启动方式

因为我们使用的是远程模式

所以要单独启动

点击ctrl+c服务就关闭了

后台启动就是将服务当做一个进程,挂在后台去运行

使用jsp查看一下

多了runjar进程,就是我们上面的hive进程

后台启动的日记在nohup.out中

后台启动想要关闭

使用kill杀死进程

12.Apache hive--新老客户端使用hiveserver2服务

图中可以发现

老客户端可以直接访问metastore

新客户端是先访问另外一个服务hiveserver2,然后访问metastore

所以使用新客户端需要启动两个服务

上面我们已经启动了metastore

我们在启动hiveserver2,两个启动命令十分相似

多了新的runjar,启动成功

==================================================================================================================================================

上面的情况是

服务在node1机器上,客户端也在node1机器上

没有远程访问的感觉

我们使用scp将hive安装包拷贝给其它机器node3

启动hive

启动成功

这样我们的第一代客户端就成功连接到hive服务上

我们可以查看一下当前有哪些数据库和表

第一代客户端官方不推荐

还是使用第二代客户端

但第二代客户端想要我们手动输入地址,连接到我们的hive服务的地址(我们的hive服务在node1机器上)

这里需要我们记住

我们在企业中干活,别人让我们去访问hive,就需要怎么一个hive地址

这个地址就告诉我们。我们的hiveserver2服务运行在哪个机器上,端口是多少

继续输入用户,没有密码

下面就已经成功连接到hiveserver2服务上

我们同样可以查看数据库和表

上面就是使用beeline客户端连接到hive上

13.Apache hive--Datagrip连接HiveServer2

建好后选择关联本地目录到工程中

下面就要配置连接

连接到hive上

首先要解决驱动问题

系统自带的驱动并不友好,我们将其删除

使用课程提供的驱动

这里变白就解析成功了

返回进行其它配置

主要是URL地址

就是beeline连接的地址

测试连接

14.Apache hive--数据库与建库、切换库操作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/960519.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么是BFF?他有什么用?

BFF(Backend for Frontend) 是一种架构模式,专门为前端应用提供定制化的后端服务。它的核心思想是为不同的前端客户端(如 Web、移动端、桌面端等)提供专门的后端服务,而不是让所有客户端共享同一个通用的后…

【深度之眼cs231n第七期】笔记(三十一)

目录 强化学习什么是强化学习?马尔可夫决策过程(MDP)Q-learning策略梯度SOTA深度强化学习 还剩一点小尾巴,还是把它写完吧。(距离我写下前面那行字又过了好几个月了【咸鱼本鱼】)(汗颜&#xff…

K8S极简教程(4小时快速学会)

1. K8S 概览 1.1 K8S 是什么 K8S官网文档:https://kubernetes.io/zh/docs/home/ 1.2 K8S核心特性 服务发现与负载均衡:无需修改你的应用程序即可使用陌生的服务发现机制。存储编排:自动挂载所选存储系统,包括本地存储。Secret和…

SPDK vhost介绍

目录 1. vhost技术的背景与动机Virtio 介绍virtio-blk数据路径为例 2. vhost技术的核心原理2.1 vhost-kernel2.2 vhost-user举例 2.3 SPDK vhostvhost的优势IO请求处理数据传输控制链路调整 3. SPDK vhost的实现与配置3.1 环境准备3.2 启动SPDK vhost服务3.3 创建虚拟块设备3.4…

【C++数论】880. 索引处的解码字符串|2010

本文涉及知识点 数论:质数、最大公约数、菲蜀定理 LeetCode880. 索引处的解码字符串 给定一个编码字符串 s 。请你找出 解码字符串 并将其写入磁带。解码时,从编码字符串中 每次读取一个字符 ,并采取以下步骤: 如果所读的字符是…

[创业之路-270]:《向流程设计要效率》-2-企业流程架构模式 POS架构(规划、业务运营、支撑)、OES架构(业务运营、使能、支撑)

目录 一、POS架构 二、OES架构 三、POS架构与OES架构的差异 四、各自的典型示例 POS架构典型示例 OES架构典型示例 示例分析 五、各自的典型企业 POS架构典型企业 OES架构典型企业 分析 六、各自典型的流程 POS架构的典型流程 OES架构的典型流程 企业流程架构模式…

FFmpeg音视频采集

文章目录 音视频采集音频采集获取设备信息录制麦克风录制声卡 视频采集摄像机画面采集 音视频采集 DirectShow(简称DShow)是一个Windows平台上的流媒体框架,提供了高质量的多媒体流采集和回放功能,它支持多种多样的媒体文件格式&…

qt-QtQuick笔记之常见项目类简要介绍

qt-QtQuick笔记之常见项目类简要介绍 code review! 文章目录 qt-QtQuick笔记之常见项目类简要介绍1.QQuickItem2.QQuickRectangle3.QQuickImage4.QQuickText5.QQuickBorderImage6.QQuickTextInput7.QQuickButton8.QQuickSwitch9.QQuickListView10.QQuickGridView11.QQuickPopu…

Autosar-Os是怎么运行的?(多核系统运行)

写在前面: 入行一段时间了,基于个人理解整理一些东西,如有错误,欢迎各位大佬评论区指正!!! 目录 1.Autosar多核操作系统 1.1多核启动过程 1.2多核运行过程 1.2.1核间任务同步 1.2.2Counte…

spring万字面试题汇总

Spring Springboot 目录 1.什么是依赖循环? 2.Spring 如何解决循环依赖? 3. 为什么Spring解决循环依赖要用到三级缓存,二级缓存不够吗? 4.什么是Spring 的IOC? 5.什么是Spring的DI? 6.什么是spring的bean? 7.…

UiAutomator的详细介绍

UIAutomator作为一种高效的测试框架,通过自动化手段显著提升了用户界面(UI)测试的效率与准确性。它不仅支持自动生成功能测试用例,还允许开发者在不同设备上执行这些测试,确保了应用程序的一致性和稳定性。 以下是对 …

SpringBoot源码解析(八):Bean工厂接口体系

SpringBoot源码系列文章 SpringBoot源码解析(一):SpringApplication构造方法 SpringBoot源码解析(二):引导上下文DefaultBootstrapContext SpringBoot源码解析(三):启动开始阶段 SpringBoot源码解析(四):解析应用参数args Sp…

Agent群舞,在亚马逊云科技搭建数字营销多代理(Multi-Agent)(下篇)

在本系列的上篇中,小李哥为大家介绍了如何在亚马逊云科技上给社交数字营销场景创建AI代理的方案,用于社交动态的生成和对文章进行推广曝光。在本篇中小李哥将继续本系列的介绍,为大家介绍如何创建主代理,将多个子代理挂载到主代理…

美国本科申请文书PS写作中的注意事项

在完成了introduction之后,便可进入到main body的写作之中。美国本科申请文书PS的写作不同于学术论文写作,要求你提出论点进行论证之类。PS更多的注重对你自己的经历或者motivation的介绍和描述。而这一描述过程只能通过对你自己的过往的经历的展现才能体…

2024.1.22 安全周报

政策/标准/指南最新动态 01 工信部印发《关于加强互联网数据中心客户数据安全保护的通知》 原文: https://www.secrss.com/articles/74673 互联网数据中心作为新一代信息基础设施,承载着千行百业的海量客户数据,是关系国民经济命脉的重要战略资源。…

Brave132 编译指南 Windows 篇:安装 Visual Studio 2022(二)

1. 引言 在着手编译 Brave 浏览器的 132 版本之前,构建一个完备的开发环境至关重要。Visual Studio 2022 作为一款功能强大的集成开发环境(IDE),为 Brave 浏览器的编译提供了坚实的工具链和技术支持。它不仅提供了高效的代码编辑…

【go语言】并发编程

一、协程、线程、进程 在计算机编程中,进程、线程和协程都是用于并发执行任务的不同概念。他们的区别主要体现在创建、管理和调度的复杂度上,特别是在不同的编程语言中有不同的实现方式。下面是他们的详细区别和在 go 语言中的实现方式。 1.1 进程 定义…

day6手机摄影社区,可以去苹果摄影社区学习拍摄技巧

逛自己手机的社区:即(手机牌子)摄影社区 拍照时防止抖动可以控制自己的呼吸,不要大喘气 拍一张照片后,如何简单的用手机修图? HDR模式就是让高光部分和阴影部分更协调(拍风紧时可以打开&…

1905电影网中国地区电影数据分析(一) - 数据采集、清洗与存储

文章目录 前言一、数据采集步骤及python库使用版本1. python库使用版本2. 数据采集步骤 二、数据采集网页分析1. 分析采集的字段和URL1.1 分析要爬取的数据字段1.2 分析每部电影的URL1.2 分析每页的URL 2. 字段元素标签定位 三、数据采集代码实现1. 爬取1905电影网分类信息2. 爬…