Cloudera虚拟机配置(虚拟机环境自带Hadoop、Impala等大数据处理应用)

        上学期的大数据处理课程,笔者被分配到Impala的汇报主题。然而汇报内容如果单纯只介绍Impala的理论知识,实在是有些太过肤浅,最起码得有一些实际操作来展示一下Impala的功能。但是Impala的配置实在是有些困难与繁琐,于是笔者通过各种渠道找到了Cloudera公司(Hadoop数据管理软件与服务提供商)在早些年发行的虚拟机文件,通过配置该虚拟机可以直接获得一个较为完整的大数据处理应用环境(包括Hadoop、Impala等数种大数据处理应用)。

【虚拟机文件资源已上传百度网盘,没办法,这个虚拟机文件实在是太大了(5+G),要不然我就直接在博客上资源绑定了】

链接:https://pan.baidu.com/s/1hRhJySvZTqmxUvqZJ3tYuQ?pwd=a6t3 
提取码:a6t3 
 

虚拟机软件

        笔者使用的虚拟机软件是Oracle VM VirtualBox(图标如下),关于该软件的详细安装步骤请恕笔者不在此赘述,直接进入配置阶段。

 配置cloudera-quickstart虚拟机

将文件夹全部下载下来后,文件夹里应该有这两个文件,不能有缺漏。

确认无误后,打开虚拟机,导入该虚拟机文件,如下图。

在下列划横线处选择下载好的虚拟机文件路径

(选择图标为黄色方块的那个文件,文件格式为ovf)

进入下一步,该页面全部采用默认设置即可👇 

设置完成后,点击导入即可在虚拟机首页看到虚拟机文件。但此时还不能直接运行,因为该虚拟机对于内存和显存都有一定要求,必须进行额外的设置才能满足虚拟机运行的条件,笔者尝试了一种可正常运行的设置方案如下:

首先点击设置

在“系统-主板”选项中,将内存改为7500MB(也可以再稍微调大一些,根据实际情况来)

在“系统-处理器”界面,将“处理器数量”更改为4个。

在“显示-屏幕”选项中,将“显存大小”更改为28MB
完成如上设置后,点击运行虚拟机,一般情况下即可正常完成运行。虚拟机的启动过程比较缓慢,需要耐心等待,启动成功后虚拟机如下图所示。该虚拟机中基本包含了大数据处理的所有基本应用(包括Hadoop、Impala、Hive等),虚拟机的操作系统是Red Hat,跟Ubuntu差不多,启动这些应用可以直接通过终端命令行进行操作。 

实操应用

本部分主要对Impala的大数据处理操作进行一些实操演示,并将其与Hive进行一个简单对比。

Impala适用于处理在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C++和Java编写的开源软件。与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。

简而言之,它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。但是Impala只能处理PB级别的数量级,更大数量级的数据处理起来性能很差。它的主要应用在于处理实时数据、进行交互计算。

接下来进行Impala的相关操作

首先启动Impala,如下在命令行中直接输入“impala-shell”。

Impala的控制语句和数据库的控制语句基本相同,以下演示几个基本命令。

【创建数据库】

【向表格中插入数据】

在Impala中的相关操作,都可以在虚拟机中自带的Hue中进行可视化数据查看,如下展示了笔者通过Impala插入了若干数据后查看的结果。

为了更好地理解Impala”快“的特点,笔者简单插入了20个数据,并将impala和hive进行取数据的时间对比,比较两者的速度差异。(左侧为hive,右侧为impala)

笔者进行多次操作确保时间达到相对稳定的值,可以看到,在较少样本的情况下,impala仍然能比hive快0.06s。

当然以上的对比差异可能不够显著,主要是因为样本的数量实在过少,但是根据笔者搜索到的一个大样本数据测试显示,impala在实时处理、交互计算方面确实存在明显的优势。


以上就是本篇博客的全部内容,欢迎大家下载资源进行测试。cloudera的虚拟机文件近年来已经不再发行了,本篇博客中的虚拟机文件差不多算是绝品了,笔者当时能找到这个文件真的是费劲了九牛二虎之力啊,实属不易~果然做研究是必须要下大功夫的!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/411867.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VSCode设置成中文语言环境

1,打开VSCode软件,按快捷键【CtrlShiftP】 2,在弹出的搜索框中输入configure language,然后选择Configure Display Language 3,在选择框中选择zh-cn 4,确认重启VSCode就可以了

【基础知识】MPP架构和hadoop架构比对

架构比对 简单一句描述。 mpp架构,就是找一群和自己能力差不多的任一起做事,每个人做的事情是一致的。 hadoop架构,就是找一群能力差一些的人,但只需要他们每个人只做一部分工作。 举例说明 一个特色小饭店如何成为连锁餐饮巨…

基于JAVA springboot+mybatis智慧生活分享平台设计和实现

基于JAVA springbootmybatis智慧生活分享平台设计和实现 博主介绍:5年java开发经验,专注Java开发、定制、远程、文档编写指导等,csdn特邀作者、专注于Java技术领域 作者主页 央顺技术团队 Java毕设项目精品实战案例《1000套》 可定制系统 欢迎点赞 收藏 …

代码随想录算法训练营第二十二天| 235. 二叉搜索树的最近公共祖先、701.二叉搜索树中的插入操作、450.删除二叉搜索树中的节点

文章目录 1.二叉搜索树的最近公共祖先2.二叉搜索树中的插入操作3.删除二叉搜索树中的节点 1.二叉搜索树的最近公共祖先 因为是有序树&#xff0c;所以中间节点如果是p、q的公共祖先&#xff0c;那么一定存在p<公共祖先<q 或 q<公共祖先<p 代码如下&#xff1a; /**…

树的基本概念和结构

目录 树的概念和结构 树的相关概念 树的特点 树的表示 树的基本应用 树的概念和结构 树是一种非线性的数据结构&#xff0c;它是由n&#xff08;n>0&#xff09;个有限结点组成一个具有层次关系的集合 &#x1f4cc; 把它叫做树是因为它看起来像一棵倒挂的树&#x…

springboot集成docker快速入门demo

一、docker介绍 Docker是一个开源的应用容器引擎&#xff0c;它允许开发者将应用及其依赖打包到一个可移植的容器中。这个容器可以在任何流行的 Linux或 Windows操作系统上运行&#xff0c;并且支持虚拟化。容器是完全基于沙箱机制的&#xff0c;这意味着它们之间不会有任何接口…

一般情况下,硬件中使用Repeating Sequence出现波形很奇怪就是数据的周期频率和mcu运行的频率不一致导致的

一般情况下&#xff0c;出现波形很奇怪就是数据的周期频率和mcu运行的频率不一致导致的 把timer values 修改为0 1就好了&#xff0c;如果是0&#xff0c;0.1就不行&#xff0c;不会有下面的波形

计算机组成原理 — 存储器(2)

高速缓冲存储器 大家好呀&#xff01;我是小笙&#xff0c;由于存储器这部分章节内容较多&#xff0c;我分成二部分进行总结&#xff0c;以下是第二部分&#xff0c;希望内容对你有所帮助&#xff01; 概述 目的&#xff1a;避免CPU空等现象 原理&#xff1a;程序访问的局部…

【王道数据结构】【chapter6图】【P258t7】

试编写 利用DFS实现有向无环图的拓扑排序的算法 #include <iostream> #define maxsize 10 typedef struct node{int data;struct node *next; }node ,*pnode;pnode buynode(int x) {pnode tmp(pnode) malloc(sizeof (node));tmp->datax;tmp->next nullptr;return t…

【K8s】初识PV和PVC

​ 目录 收起 O、致谢 一、前言 二、Volume 2.1 什么是Volume 2.2 为什么要引入Volume 2.3 Volume类型有哪些 2.4 Volume如何使用 2.4.1 通过emptyDir共享数据 2.4.2 使用HostPath挂载宿主机文件 2.4.3 挂载NFS至容器 三、PV和PVC 3.1 什么是PV和PVC 3.2 为什么要引入PV和PVC 3…

Remainder Problem(根号分治)

Educational Codeforces Round 71 (Rated for Div. 2) F. Remainder Problem 题目链接 F. Remainder Problem 题意&#xff1a; 给你一个由 500000 500000 500000 个整数&#xff08;编号从 1 1 1 到 500000 500000 500000 &#xff09;组成的数组 a a a 。最初 a a a…

【JavaEE】网络原理: HTTPS协议相关内容

目录 HTTPS 是什么 HTTPS 的工作过程 对称加密 非对称加密 引入证书 理解数据签名 通过证书解决黑客攻击 HTTPS 是什么 HTTPS也是一个应用层协议, 是在HTTP协议的基础上引入了一个加密层. HTTP协议内容都是按照文本的方式明文传输的, 这就导致在传输过程中出现一些被篡…

minHash(最小哈希)和LSH(局部敏感哈希)

在数据挖掘中,有一个比较基本的问题,就是比较两个集合的相似度。关于这个问题,最笨的方法就是用一个两重循环来遍历这两个集合中的所有元素,进而统计这两个集合中相同元素的个数。但是,当这两个集合里的元素数量非常庞大时,同时又有很多个集合需要判断两两之间的相似度时…

代码随想录算法训练营第二十三天| 669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索树、538.把二叉搜索树转换为累加树

文章目录 [1.修剪二叉搜索树(https://leetcode.cn/problems/trim-a-binary-search-tree/description/)2.将有序数组转换为二叉搜索树3.把二叉搜索树转换为累加树 [1.修剪二叉搜索树(https://leetcode.cn/problems/trim-a-binary-search-tree/description/) 遇到超范围节点&…

论文精读--GPT3

不像GPT2一样追求zero-shot&#xff0c;而换成了few-shot Abstract Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnos…

探究前端路由hash和history的实现原理(包教包会)

今天我们来讲一讲前端中很重要的一个部分路由&#xff08;router&#xff09;&#xff0c;想必前端小伙伴对‘路由’一词都不会感到陌生。但是如果哪天面试官问你&#xff0c;能大概说一说前端路由的实现原理吗&#xff1f; 你又会如何应对呢&#xff1f; 今天勇宝就带着大家一…

Educational Codeforces Round 160 (Rated for Div. 2) D. Array Collapse(笛卡尔树+DP)

原题链接&#xff1a;D. Array Collapse 题目大意&#xff1a; 给你一个长度为 n n n 的排列 p p p &#xff0c;排列的定义为 [ 1 , 2 , 3 , . . , n ] [1,2,3,..,n] [1,2,3,..,n] 中每个数都出现 恰好 一次。 你可以做 任意多次 这样的操作&#xff1a; 选出一个任意长度…

8万就能买混动!秦PLUS、启源A05、帝豪L Hi-P谁值得买?

文 | AUTO芯球 作者 | 雷歌 你可以不买比亚迪&#xff0c;但一定要感谢比亚迪。 比亚迪凭着一己之力&#xff0c;将整个混动汽车的价格降到了7万元时代。 秦PLUS价格自9.98万直降2万来到7.98万后&#xff0c;它的直接竞争对手们开始降价&#xff0c;长安启源A05混动降至7.8…

Linux提权—服务漏洞,以MySQL-UDF提权为例

UDF(user defined function&#xff0c;用户自定义函数) 利用条件&#xff1a; 有对MySQL数据库进行创建&#xff0c;插入&#xff0c;删除的权限 secure_file_priv为空 利用过程 secure_file_priv的值为空或者是我们恰巧需要用到的目录&#xff0c;如下&#xff1a; 提权成…