生产实习Day7 ---- Hive介绍

文章目录

    • 概要
    • 整体架构流程
    • Hive数据库操作
    • 建表语法
    • 表分类

概要

Hive是基于Hadoop的数据仓库工具。可以用于存储在Hadoop集群中的HDFS文件数据集进行数据整理、特殊查询和分析处理。Hive提供了类似于关系型数据库SQL语言的HiveQL工具,通过HQL(HiveQL)可以快速实现简单的MapReduce统计。

整体架构流程

在这里插入图片描述
Hive服务端组件:

  • Driver组件:该组件包括Complier(编译)、Optimizer(优化)和Executor(执行),它的作用是将HiveQL(类SQL)语句进行解析、编译优化、生成执行计划,然后调用底层的MapReduce计算框架。
  • Metastore组件:元数据服务组件,这个组件用于存储Hive的元数据,Hive的元数据存储在关系数据库里,Hive支持的关系数据库有Derby和Mysql,它的作用是客户端连接metastore服务,metastore再去连接MySQL数据库来存取元数据。
  • HiveServer2服务:用来进行可扩展且跨语言的服务的开发,Hive集成了该服务,能让不同的编程语言调用Hive的接口,还可做权限管理。

客户端组件:

  • CLI:Command Line Interface,命令行接口。
  • JDBC/ODBC:Hive架构的JDBC和ODBC接口是建立在HiveServer2客户端之上。
  • WEBGUI:Hive客户端提供了一种通过网页的方式访问Hive所提供的服务。这个接口对应Hive的HWI组件,使用前要启动HWI服务。

Hive数据库操作

  • 创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, …)];

其中:WITH DBPROPERTIES ,用来指定数据属性数据。

--创建带有属性的数据库
create database testdb WITH DBPROPERTIES ('creator' = 'tp', 'date' = '2024-06-12');
--显示创建语句
show create database testdb;

--显示所有数据库
show databases;
  • 删除数据库
    DROP DATABASE [IF EXISTS] database_name [RESTRICT|CASCADE];

注:

  • RESTRICT:严格模式,若数据库不为空,则会删除失败,默认为该模式。
  • CASCADE:级联模式,若数据库不为空,则会将库中的表一并删除。

建表语法

-- EXTERNAL 代表外部表                                  
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
  [(col_name data_type [COMMENT col_comment], ...)] 
  [COMMENT table_comment] 
-- 分区表设置 分区的字段和类型
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
-- 桶表设置 按照什么字段进行分桶
  [CLUSTERED BY (col_name, col_name, ...) 
-- 桶内的文件 是按照 什么字段排序   分多少个桶
  [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
-- 分隔符 + 序列化反序列化
  [ROW FORMAT row_format] 
-- 输入输出格式
  [STORED AS file_format] 
-- 表所对应的hdfs目录
  [LOCATION hdfs_path]  

表分类

  • 内部表

​ 内部表又称受控表,当删除内部表的时候,存储在文件系统上的数据(例

如HDFS上的数据)和元数据都会被删除。先有内部表,再向表中插入数据

--创建inner_test表(内部表)
CREATE TABLE inner_test(word string, num int); 

删除内部表,表对应的hdfs目录也一并删除

-- 创建emp职工表(内部表)
CREATE TABLE emp(
empno int, 
ename string,
job string, 
mgr int, 
hiredate string,
sal double, 
comm double, 
deptno int)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
  • 外部表

创建外部表需要使用EXTERNAL关键字,当删除外部表的时候,只删除元

数据,不删除数据。

​ 使用场景,例如:某个公司的原始日志数据存放在一个目录中,多个部

门对这些原始数据进行分析,那么创建外部表就是比较好的选择了,因为即

使删除了外部表,原始数据并不会被删除。

  • 分区表

分区表是为了防止暴力扫描全表,提高查询效率。分区字段在源文件中是

不存在的,需要在添加数据的时候手动指定。

​ 每一个分区对应一个目录。通过partitioned by来在创建分区表的时候添

加分区字段。分区表可以是内部表,也可以是外部表。

​ 使用场景:可以通过分区表,将每天搜集的数据进行区分,查询统计的时

候通过指定分区,提高查询效率。

  • 分桶表

​ 桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/732633.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

用VPS部署聊天机器人有哪些优势?

VPS足以帮助您将人工智能 (AI) 的功能无缝融入聊天机器人并增强客户支持。聊天机器人已迅速成为改善用户体验的首选解决方案,因为它们全天候在线且可编程回答各种问题。 聊天机器人在客户支持方面的作用不容置疑。但所有出色的解决方案都需要出色的网络托管。 VPS…

从零到发布:npm插件包终极指南

在JavaScript和Node.js的生态系统中,npm(Node Package Manager)是最重要的包管理工具之一。通过npm,开发者可以共享代码、复用他人的工作成果以及协作开发。本指南将详细介绍如何通过npm发布自己的插件包,以便其他开发…

力扣372. 超级次方

Problem: 372. 超级次方 文章目录 题目描述思路复杂度Code 题目描述 思路 1.处理数组指数:如下图可以将其转换为一个递归的操作 2.处理 mod 运算:对于模运算我们有公式: ( a b ) % k ( a % k ) ( b % k ) % k (a \times b) \% k (a \% k) \times (b…

如何利用数据仓库进行业务分析:一名大数据工程师的视角

在大数据时代,数据的有效利用对企业的成功至关重要。 本文将基于上面的流程图,详细介绍如何利用数据仓库进行业务分析,并提供实际的例子和代码演示,以帮助读者更好地理解和应用相关技术。 数据仓库的基本流程 上图展示了一个典…

PointCloudLib 点云边缘点提取 C++版本

0.实现效果 1.算法原理 PCL(Point Cloud Library)中获取点云边界的算法主要基于点云数据的几何特征和法向量信息。以下是对该算法的详细解释,按照清晰的格式进行归纳: 算法概述 PCL中的点云边界提取算法主要用于从3D点云数据中识别并提取出位于物体边界上的点。这些边界…

五种主流数据库连接池的比较和分析(从零入门)

数据库连接池(Database Connection Pool)是现代应用程序中至关重要的组件。它通过管理一组数据库连接的复用,极大地提升了应用程序的性能和效率。在没有连接池的情况下,每个数据库请求都需要打开和关闭数据库连接,这不…

【C++】关于代码编译自动更新版本的问题

在写代码的时候,总是需要添加一个版本号,用于后续的版本管理 我常遇到的一个问题是,开发过程中,不一定会记得这件事情,导致有时候会出现同样的版本 于是希望有一个方式,能在编译代码的时候自动生成一个版…

【机器学习 复习】第11章 神经网络与深度学习(重中之重)

一、概念 1.神经元模型 (1)神经网络的基本组成单位 (2)生物上,每个神经元通过树突接受来自其他被激活神经元的信息,通过轴突释放出来的化学递质改变当前神经元内的电位。当神经元内的电位累计到一个水平时…

从同—视角理解扩散模型(Understanding Diffusion Models A Unified Perspective)

从同—视角理解扩散模型 Understanding Diffusion Models A Unified Perspective【全公式推导】【免费视频讲解】 B站视频讲解 视频的论文笔记 从同一视角理解扩散模型【视频讲解笔记】 配合视频讲解的同步笔记。 整个系列完整的论文笔记内容如下,仅为了不用—一回复…

在Linux下使用CMake加载自定义路径第三方库的指南

CMake是一个强大的跨平台构建系统,广泛应用于C项目中。它不仅能够处理标准的构建过程,还可以灵活地集成各种第三方库,包括自定义路径的库、已编译的共享库(.so 文件),以及仅包含头文件的库(如Ei…

AlphaMissense:预测错义变异的致病性

错义变异或错义变体(missense variation或missense variants)是改变蛋白质氨基酸序列的遗传变异。致病性错义变异会严重破坏蛋白质功能,在目前观察到的400多万个错义变异中,只有2%在临床上被确定为致病或良性。对剩下的类型不明的…

关于使用绿联 USB-A转RJ45 2.5G网卡提速的解决问题

问题 网络下载速率低 我的自带网卡是 I219v 在嵌入了2.5G网络后一直无法到达1.5G以上。 平均测速300~500M 解决方案 更新了USB的网卡驱动 禁用了 I219-V的驱动。测速即可 USB下载地址 https://download.csdn.net/download/qq_28198181/89468806

基于SpringBoot+Vue二手交易平台设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

银河麒麟V10安装docker和docker-compose

1. 说明 系统镜像使用的是Kylin-Server-V10-SP3-2403-Release-20240426-x86_64.iso如果是在VMware中安装这个系统,需选择Ubuntu,如果选Centos会有问题。 尝试使用在线方式安装docker,报了很多错误,比较麻烦,建议使用离…

Kubernetes集群UI及主机资源监控

Kubernetes集群UI及主机资源监控 1. Kubernetes dashboard作用 通过dashboard能够直观了解Kubernetes集群中运行的资源对象,可以直接管理(创建、删除、重启等操作)资源对象 2. 获取Kubernetes dashboard资源清单文件 下载kubernetes-dashboard配置文件cd /data/k8s-work wg…

【CV炼丹师勇闯力扣训练营 Day13:§6二叉树1】

CV炼丹师勇闯力扣训练营 代码随想录算法训练营第13天 二叉树的递归遍历 二叉树的迭代遍历、统一迭代 二叉树的层序遍历 一、二叉树的递归遍历(深度优先搜索) 【递归步骤】 1.确定递归函数的参数和返回值:确定哪些参数是递归的过程中需要处理…

【仿真建模-anylogic】Network代码解析

Author:赵志乾 Date:2024-06-22 Declaration:All Right Reserved!!! 1. 类图 2. 代码解析 //************************核心字段************************* // Network所属的level private transient Leve…

FFmpeg+javacpp+javacv使用

FFmpegjavacppjavacv使用 Bytedeco官网案例1、导入opencv、ffmpeg依赖包2、FFmpeg 数据结构2.1 AVFormatContext 格式化I/O上下文2.1.1 metadata2.1.2 Duration、start、bitrate等其他信息2.1.3 dump信息 Bytedeco GitHub:javacpp Bytedeco官网案例 FFmpeg – [示例…

Flutter图像编辑器应用:创造生动美丽的照片体验

介绍 引言 想象一下,在一个阳光明媚的下午,与家人或朋友漫步在风景如画的街道上。拿出手机,迫不及待地捕捉这一刻的美好,按下快门,留下了一张充满回忆的照片。 然而,回到家后发现照片的亮度有些偏暗&…

【机器学习】正则卷积群理论及Python代码实现

1. 引言 1.1.卷积神经网络CNN 卷积神经网络(CNN)的数学模型是深度学习中用于处理图像和其他高维数据的关键组成部分。那么,CNN究竟是什么呢? 总结起来,CNN网络主要完成以下操作: 卷积操作(Co…