大数据Hadoop入门3

目录

第五部分(Apache Hive DML语句和函数使用)

1.课程内容大纲和学习目标

2.Hive SQL-DML-load加载数据操作

3.Hive SQL-DML-insert插入数据

4.Hive SQL-DML-select查询-语法书和环境准备

5.Hive SQL-DML-select查询-列表达式和distinct去重

6.Hive SQL-DML-select查询-where条件过滤

7.Hive SQL-DML-select查询-聚合操作aggregate

8.Hive SQL-DML-select查询-group by分组及语法限制

9.Hive SQL-DML-select查询-having过滤操作

10.Hive SQL-DML-select查询-order by排序

11.Hive SQL-DML-select查询-limit限制语法

12.Hive SQL-DML-select查询-梳理执行顺序

13.Hive SQL  join关联查询

14.hive函数概述及分类标准

15.hive常用的内置函数

第六部分(Hadoop生态综合案例--陌陌聊天数据分析)

1.课程内容大纲与学习目标

2.陌陌聊天数据分析案例需求

3.基于hive数仓实现需求开发-建库建表与加载数据

4.基于hive数仓实现需求开发-ETL需求分析与技术支持

5.基于hive数仓实现需求开发-ETL SQL实现

6.基于hive数仓实现需求开发--SQL编写思路与指标计算part1

7.基于hive数仓实现需求开发--SQL编写思路与指标计算part2

8.基于hive数仓实现需求开发--SQL编写思路与指标计算part3

9、基于fineBI实现可视化报表-fineBi介绍与安装

10.基于fineBI实现可视化报表-配置数据源和数据准备

11.基于fineBI实现可视化报表-标题配置与文本框使用

12.基于fineBI实现可视化报表-地图、雷达、柱状图构建

13.基于fineBI实现可视化报表-饼图、词云、趋势图构建


第五部分(Apache Hive DML语句和函数使用)

1.课程内容大纲和学习目标

2.Hive SQL-DML-load加载数据操作

下面我们随机创建文件尝试一下

先创建一个hivedata文件夹

在这个文件夹中写一个1.txt文件

下面使用beeline创建一张表

只要将1.txt文件放在t_1文件夹下,就能映射成功了

==================================================================================================================================================

下面是第一种方法,直接put进去

刷新一下

或者直接在web页面上传

不管什么方法

将结构化的文件放在对应的目录下面就能成功

 

=================

上面的方法,hive官方是不推荐的(因为上面的都是跳过hive去操作的)

我们有三台机器

我们的hive是安装在node1上面的,node1上面启动了hiveserver2和metastore两个服务

我们是使用node3作为客户端的(包括第一代客户端和第二代beeline客户端),如果使用的是datagrip,则客户端在外面的Windows系统上。

但不管我们的客户端在哪,最终都是连接到node1的hiveserver2上进行操作的。

如果我们在客户端上敲一个命令,加载数据local,这个local是hiveserver2服务所在的机器

本课程的SQL已经写好了

我们直接将其复制粘贴到datagrip

首先将我们当前的SQL语法切换为hive语法

接着将我们的会话做一个绑定

如果有直接绑定即可,没有的话创建一个新的会话即可

之后我们做一个验证

看是否与我们的hive集群连接上

然后针对下面的文件

我们创建两张表

我们运行命令创建两张表

==================================================================================================================================================

下面首先进行本地上传

文件首先存放到本地中

成功

红框中是关键的日志信息

做一个查看

数据显示正常

我们发现本地目录中的文件依旧存在

所以本地加载就是一个复制的过程

==================================================================================================================================================

我们将刚刚的文件放在hdfs的根目录下面

我们刚刚建了两张表

我们看一下另外一张表

我们继续加载数据

我们发现根目录下的文件没有了

3.Hive SQL-DML-insert插入数据

insert插了一条数据花了47秒

因为我们底层使用了Mr程序

我们首先创建一个表student

然后将student.txt加载到表student

再创建另外一个空表

使用insert+select

4.Hive SQL-DML-select查询-语法书和环境准备

下面我们创建一个表

将这个数据映射成功

首先将我们的文件上传到Linux

5.Hive SQL-DML-select查询-列表达式和distinct去重

选中表点击ctrl+q,可以查看表信息

6.Hive SQL-DML-select查询-where条件过滤

7.Hive SQL-DML-select查询-聚合操作aggregate

where中不能使用聚合函数

8.Hive SQL-DML-select查询-group by分组及语法限制

我们的state被group by分组

country被count聚合函数应用

但death什么都没有(系统不知道返回哪一行的death)

我们可以对报错做一个修改

9.Hive SQL-DML-select查询-having过滤操作

having主要为了解决where无法与聚合函数一起使用的弊端

10.Hive SQL-DML-select查询-order by排序

11.Hive SQL-DML-select查询-limit限制语法

12.Hive SQL-DML-select查询-梳理执行顺序

13.Hive SQL  join关联查询

14.hive函数概述及分类标准

15.hive常用的内置函数

如果有多个条件判断

第六部分(Hadoop生态综合案例--陌陌聊天数据分析)

1.课程内容大纲与学习目标

2.陌陌聊天数据分析案例需求

3.基于hive数仓实现需求开发-建库建表与加载数据

我们点击显示所有符号,可以查看我们的分割符

我们的tab键制表符就是->

空格键就是 ..... 

下面是课程使用的SQL文件

复制到datagrip

修改SQL为hive支持

与hive服务器做一个连接

首先创建数据库

然后创建表

然后加载数据

要先将文件上传到Linux系统中

4.基于hive数仓实现需求开发-ETL需求分析与技术支持

比如要统计每个小时的数量

我们做一个截取

那我们要以小时分组,可以用下面的方式

但有一个弊端

14w条数据,每次都要截取,性能受到很大的影响

需求4,就是解决我们清洗好的数据放在什么地方的问题

5.基于hive数仓实现需求开发-ETL SQL实现

6.基于hive数仓实现需求开发--SQL编写思路与指标计算part1

7.基于hive数仓实现需求开发--SQL编写思路与指标计算part2

8.基于hive数仓实现需求开发--SQL编写思路与指标计算part3

9、基于fineBI实现可视化报表-fineBi介绍与安装

这里的登入提供了上面的服务器

登入在网页中进行

10.基于fineBI实现可视化报表-配置数据源和数据准备

首先是hive驱动

安装结束要重启才能生效

这是数据库名字

如果要更新的话

11.基于fineBI实现可视化报表-标题配置与文本框使用

右上角可以预览一下效果

再给这个组件起一个名字(可以选择不显示)

结束后

进入仪表盘

12.基于fineBI实现可视化报表-地图、雷达、柱状图构建

地图

里面的信息不是很详细

我们可以根据GPS调整它的粒度

我们还可以根据人的多少

调整圈的大小

==================================================================================================================================================

雷达图

==================================================================================================================================================

柱状图

13.基于fineBI实现可视化报表-饼图、词云、趋势图构建

饼图

==================================================================================================================================================

词云

==================================================================================================================================================

词云

​​​​​​​

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/961329.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WPS数据分析000005

目录 一、数据录入技巧 二、一维表 三、填充柄 向下自动填充 自动填充选项 日期填充 星期自定义 自定义序列 1-10000序列 四、智能填充 五、数据有效性 出错警告 输入信息 下拉列表 六、记录单 七、导入数据 ​编辑 八、查找录入 会员功能 Xlookup函数 VL…

【Redis】hash 类型的介绍和常用命令

1. 介绍 Redis 中存储的 key-value 本身就是哈希表的结构,存储的 value 也可以是一个哈希表的结构 这里每一个 key 对应的一个 哈希类型用 field-value 来表示 2. 常用命令 命令 介绍 时间复杂度 hset key field value 用于设置哈希表 key 中字段 field 的值为…

基于STM32的阿里云智能农业大棚

目录 前言: 项目效果演示: 一、简介 二、硬件需求准备 三、硬件框图 四、CubeMX配置 4.1、按键、蜂鸣器GPIO口配置 4.2、ADC输入配置 4.3、IIC——驱动OLED 4.4、DHT11温湿度读取 4.5、PWM配置——光照灯、水泵、风扇 4.6、串口——esp8266模…

Ollama+DeepSeek本地大模型部署

1、Ollama 官网:https://ollama.com/ Ollama可以干什么? 可以快速在本地部署和管理各种大语言模型,操作命令和dokcer类似。 mac安装ollama: # 安装ollama brew install ollama# 启动ollama服务(默认11434端口&#xf…

2025美赛MCM数学建模A题:《石头台阶的“记忆”:如何用数学揭开历史的足迹》(全网最全思路+模型)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ 《石头台阶的“记忆”:如何用数学揭开历史的足迹》 目录 《石头台阶的“记忆”:如何用数学揭开历史的足迹》 ✨摘要✨ ✨引言✨ 1. 引言的结构 2. 撰写步骤 (1)研究背景 &#…

定西市建筑房屋轮廓数据shp格式gis无偏移坐标(字段有高度和楼层)内容测评

定西市建筑房屋轮廓数据是GIS(Geographic Information System,地理信息系统)领域的重要资源,用于城市规划、土地管理、环境保护等多个方面。这份2022年的数据集采用shp(Shapefile)格式,这是一种…

fpga系列 HDL:XILINX Vivado Vitis 高层次综合(HLS) 实现 EBAZ板LED控制(上)

目录 创建工程创建源文件并编写C代码C仿真综合仿真导出RTL CG导出RTL错误处理: 创建工程 创建源文件并编写C代码 创建源文件(Souces下的hlsv.h和hlsv.cpp,Test Bench下的test_hlsv1.cpp): hlsv1.h #ifndef HLSV1 #define HLSV1 #include &l…

gesp(C++六级)(4)洛谷:B3874:[GESP202309 六级] 小杨的握手问题

gesp(C六级)(4)洛谷:B3874:[GESP202309 六级] 小杨的握手问题 题目描述 小杨的班级里共有 N N N 名同学,学号从 0 0 0 至 N − 1 N-1 N−1。 某节课上,老师安排全班同学进行一次握手游戏,具…

DeepSeek-R1本地部署笔记

文章目录 效果概要下载 ollama终端下载模型【可选】浏览器插件 UIQ: 内存占用高,显存占用不高,正常吗 效果 我的配置如下 E5 2666 V3 AMD 590Gme 可以说是慢的一批了,内存和显卡都太垃圾了,回去用我的新设备再试试 概要 安装…

ESP32 I2S音频总线学习笔记(二):I2S读取INMP441音频数据

简介 在这个系列的上一篇文章中,我们介绍了ESP32 I2S音频总线的相关知识,简要了解了什么是I2S总线、它的通信格式,以及相关的底层API函数。没有看过上篇文章的可以点击文章进行回顾: ESP32 I2S音频总线学习笔记(一&a…

CNN-GRU卷积门控循环单元时间序列预测(Matlab完整源码和数据)

CNN-GRU卷积门控循环单元时间序列预测(Matlab完整源码和数据) 目录 CNN-GRU卷积门控循环单元时间序列预测(Matlab完整源码和数据)预测效果基本介绍CNN-GRU卷积门控循环单元时间序列预测一、引言1.1、研究背景与意义1.2、研究现状1…

Springboot集成Swagger和Springdoc详解

Springboot2.x集成Swagger21. Springboot匹配版本2.7.0~2.7.18(其它版本需要自己去调试匹配)2. 首先导入Swagger2匹配的依赖项3. 导入依赖后创建配置文件SwaggerConfig4. Swagger集成完后,接下来接口的配置Springboot3.x集成Springdoc1. Springboot3.x依赖Springdoc配置2. 在…

【2024年华为OD机试】 (C卷,200分)- 矩阵匹配(JavaScriptJava PythonC/C++)

一、问题描述 问题描述 给定一个大小为 ( N \times M )(( N \leq M ))的矩阵,从中选出 ( N ) 个数,要求任意两个数字不能在同一行或同一列。求选出来的 ( N ) 个数中第 ( K ) 大的数字的最小值。 输入描述 输入矩阵要求:( 1 \leq K \leq N \leq M \leq 150 )输入格式:…

【python 逆向分析惠农网】分析惠农网的【headers】载荷签名,并实现获取公开数据,全程异步跟栈,仅供学习参考

文章日期:2025.1.24 使用工具:Python、Node.js 本章知识:分析惠农网的【headers】载荷签名,有点多,就不展示了 文章难度:中等(比较麻烦,异步较多) 文章全程已做去敏处理&…

[论文阅读] (37)CCS21 DeepAID:基于深度学习的异常检测(解释)

祝大家新春快乐,蛇年吉祥! 《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正&#xff0…

使用Avalonia UI实现DataGrid

1.Avalonia中的DataGrid的使用 DataGrid 是客户端 UI 中一个非常重要的控件。在 Avalonia 中,DataGrid 是一个独立的包 Avalonia.Controls.DataGrid,因此需要单独通过 NuGet 安装。接下来,将介绍如何安装和使用 DataGrid 控件。 2.安装 Dat…

DeepSeek-R1:开源Top推理模型的实现细节、使用与复现

核心观点 ● 直接用强化学习就可以让模型获得显著的推理能力,说明并不一定需要SFT才行。 ● 强化学习并不一定需要复杂的奖励模型,使用简单的规则反而取得意想不到的效果。 ● 通过知识蒸馏让小模型一定程度上也有推理能力,甚至在某些场景下…

Linux 阻塞IO

Linux 阻塞IO 阻塞IO是最常见的IO,我们使用的 scanf()、cin 等都是阻塞IO。

Ubuntu 安装 QGIS LTR 3.34

QGIS官方提供了安装指南:https://qgis.org/resources/installation-guide/#linux。大多数linux发行版将QGIS拆分为几个包:qgis、qgis-python、qgis-grass、qgis-plugin-grass、qgis-server,有的包最初安装时被跳过,可以在需要使用…

Spring Boot - 数据库集成05 - 集成MongoDB

Spring Boot集成MongoDB 文章目录 Spring Boot集成MongoDB一:使用前的准备1:依赖导入 & 配置2:实体类创建 二:核心 - MongoRepository三:核心 - MongoTemplate1:集合操作2:文档操作(重点)3&…