【Hive SQL 每日一题】行列转换

文章目录

    • 行转列
    • 列传行

行转列

测试数据:

DROP TABLE IF EXISTS student_scores;

CREATE TABLE student_scores (
    student_id INT,
    subject STRING,
    score INT
);


INSERT INTO student_scores (student_id, subject, score) VALUES
(1, 'Math', 85),
(1, 'English', 78),
(1, 'Science', 92),
(2, 'Math', 88),
(2, 'English', 76),
(2, 'Science', 81),
(3, 'Math', 90),
(3, 'English', 82),
(3, 'Science', 89);

表的结构以及数据展示如下:

student_idsubjectscore
1Math85
1English78
1Science92
2Math88
2English76
2Science81
3Math90
3English82
3Science89

根据上面的学生成绩表,将其中的行转换成列进行展示,如下所示:

student_idmathenglishscience
1857892
2887681

这个需求主要从两个方面切入:

  • 因为是统计每名学生的成绩,所以按学生进行分组。

  • 行转列操作,其实就是将行数据通过列的方式进行查询展示而已,这里将行转为列的数据共有 3 列,分别代表每名同学各科的成绩,我们只需要在统计时加入判断条件即可,每列固定求某科的成绩,如果不是该科则用 0 或者空值替代,这样就可以轻松完成需求啦。

select
  student_id,
  sum(if(subject="Math",score,0)) math,
  sum(if(subject="English",score,0)) english,
  sum(if(subject="Science",score,0)) science
from
    student_scores
group by
    student_id;

输出结果如下:

在这里插入图片描述

列传行

现在变换一下需求,将学生成绩表中的数据列转换为行,测试数据:

DROP TABLE IF EXISTS student_scores_pivoted;
CREATE TABLE student_scores_pivoted (
    student_id INT,
    math INT,
    english INT,
    science INT
);

INSERT INTO student_scores_pivoted VALUES
(1, 85, 78, 92),
(2, 88, 76, 81),
(3, 90, 82, 89);

表的结构以及数据展示如下:

student_idMathEnglishScience
1857892
2887681
3908289

我们需要将其转换为如下结构:

student_idsubjectscore
1Math85
1English78
1Science92
2Math88
2English76
2Science81
3Math90
3English82
3Science89

这里使用到了 lateral view + posexplode 的方式,将表的一列扩展到多行,从而完成列转行的需求。

相较于传统的 lateral view + explode 扩展方式,posexplode 会返回两个参数,其中第一个参数表示索引,第二个参数才是其对应的值。

select
    student_id,
    subject_name_list,
    subject_list
from
    (select
        student_id,
        concat_ws(',',"Math","English","Science") subject_name,
        concat_ws(',',cast(math as string),cast(english as string),cast(science as string)) subject
    from
        student_scores_pivoted)t1 
    lateral view posexplode(split(subject,",")) tmp1 as pos1,subject_list
    lateral view posexplode(split(subject_name,",")) tmp2 as pos2,subject_name_list
where
    tmp1.pos1 = tmp2.pos2;

输出结果如下:

在这里插入图片描述

explodeposexplode 的区别:

-- explode 主要用于将一个包含多个元素的列转换为多行,每行对应一个元素。
SELECT explode(array(1, 2, 3));
-- 结果为:
1
2
3

-- posexplode 与 explode 类似,但它不仅返回数组中的值,还返回值在数组中的位置(索引)。
SELECT posexplode(array(1, 2, 3));
-- 结果为:
0  1
1  2
2  3

那么这里为什么使用 posexplode 而不是 explode 呢?

如果在这里使用 explode,那么会导致扩张多次(因为在这里使用了两次 explode3*3 最终会将每行扩张 9 次,形成笛卡尔积),变成如下所示的结果:

在这里插入图片描述

所以在这里并不使用 explode,推荐使用另一个函数 posexplode,虽然它也会导致笛卡尔积,但可以根据索引设置条件进行过滤:

在这里插入图片描述

下面将来讲述这些笛卡尔积数据产生的原因,以及过滤条件该如何设置。

在只使用一个扩展函数时,并不会产生笛卡尔积,如下所示:

在这里插入图片描述

如果同时使用两个扩展函数,那么就会产生笛卡尔积,会随着后续每行的数据量成倍数增长,如下所示:

在这里插入图片描述

在使用 posexplode 函数形成笛卡尔积后,我们可以通过设置 where 条件来进行过滤,取到对应的数据。

通过观察可以发现,只有当两个索引列的值相同时,其扩展的数据行才是正确的,我们可以通过这一特性来对数据进行过滤,获取最终的结果:

在这里插入图片描述

其实,列转行还有其它的写法,这里提供另一种更容易理解的思路:

  • 先通过子查询获取单科的成绩;

  • 然后再进行合并。

如下所示:

select
    student_id,
    "math" subject_name,
    math score
from
    student_scores_pivoted
union all
select
    student_id,
    "english" subject_name,
    english score
from
    student_scores_pivoted
union all
select
    student_id,
    "science" subject_name,
    science score
from
    student_scores_pivoted;

输出结果如下:

在这里插入图片描述

解决问题的方式有许多种,但往往我们需要去注重学习解决问题的思路,希望本文对你有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/636602.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

高效爬取Reddit:C#与RestSharp的完美结合

介绍 在数据驱动的时代,网络爬虫已经成为获取网页数据的重要工具。Reddit,作为全球最大的社区平台之一,以其丰富的用户生成内容、广泛的讨论话题和实时的信息更新吸引了大量用户。对于研究人员和开发者而言,Reddit提供了宝贵的数…

VMware Workstation 虚拟机安装 ubuntu 24.04 server 详细教程 服务器安装图形化界面

1 阿里云下载 ubuntu-releases安装包下载_开源镜像站-阿里云 2 打开vmware,新建虚拟机 3 选择下载的镜像,开始安装 3 光驱这里修改下 4 重新启动,安装图形化界面 #更新软件包列表 sudo apt-get update #安装Ubuntu图形桌面 sudo apt install ubuntu-desktop 5 安…

南京沁恒微USB HUB CH334/CH335多种封装规格选择,外围简单,价格还美丽

概述: CH334 和 CH335 是符合 USB2.0 协议规范的 全速,下行端口支持 USB2.0 高速 480Mbps 个 TT 分时调度 4 个下行端口),还支持高性能的 工业级设计,外围精简,可应用于计算机和工控机主板 特点&#xff1…

单细胞分析(Signac): PBMC scATAC-seq 整合

引言 在本教学指南中,我们将探讨由10x Genomics公司提供的人类外周血单核细胞(PBMCs)的单细胞ATAC-seq数据集。 加载包 首先加载 Signac、Seurat 和我们将用于分析人类数据的其他一些包。 if (!requireNamespace("EnsDb.Hsapiens.v75&qu…

数据源管理|JDBC|JdbcTemplate|MybatisPlusGenerator

个人博客:无奈何杨(wnhyang) 个人语雀:wnhyang 共享语雀:在线知识共享 Github:wnhyang - Overview 复杂的项目常常会涉及到多数据源的配置,解决方案也是有很多。但这篇文章不是讲这个的&…

el-table 实现嵌套表格的思路及完整功能代码

要实现的需求是这样的: 本来我是用 el-table 的 :span-method 方法实现的,但发现合并起来有问题,跟我的需求差距有些大,于是我想到了嵌套表格。但是嵌套完之后的样子也是很奇怪: 不要气馁,思路还是对的&a…

MacOS使用PhpStorm+Xdebug断点调式

基本环境: MacOS m1 PhpStorm 2024.1 PHP7.4.33 Xdebug v3.1.6 1、php.ini 配置 [xdebug] zend_extension "/opt/homebrew/Cellar/php7.4/7.4.33_6/pecl/20190902/xdebug.so" xdebug.idekey "PHPSTORM" xdebug.c…

SpringBoot集成Logback将日志写入文件夹

一、logback简介: 目前比较常用的ava日志框架:Logback、log4j、log4j2、JUL等等。 Logback是在log4j的基础上重新开发的一套日志框架,是完全实现SLF4J接口API(也叫日志门面)。 Logback 的架构非常通用,可以应用于不同的环境。目前logback分为…

【人工智能项目】小车障碍物识别与模型训练(完整工程资料源码)

实物演示效果: 一、绪论: 1.1 设计背景 小车障碍物识别与模型训练的设计背景通常涉及以下几个方面: 随着自动驾驶技术的发展,小车(如无人驾驶汽车、机器人等)需要能够在复杂的环境中自主导航。障碍物识别是实现这一目标的关键技术之一,它允许小车检测并避开路上的障碍物…

C++-函数

函数(Function):是一个提前封装好的、可重复使用的、完成特定功能的独立代码单元。 特点:提前封装、可重复使用的、完成特定功能 将针对特定功能的、有重复使用需求的代码,提前封装到函数内, 在需要的时候…

IEN在Web3.0中的性能与安全优势

随着Web3.0的快速发展,优化网络基础设施变得至关重要。智能生态网络(Intelligent Ecological Network, IEN)作为新一代网络架构,在提升性能与增强安全方面展现出巨大潜力。本文将深入探讨IEN在Web3.0中的技术优势,并展…

Qt输入输出类使用总结

Qt输入输出类简介 QTextStream 类(文本流)和 QDataStream 类(数据流)Qt 输入输出的两个核心类,其作用分别如下: QTextStream 类:用于对数据进行文本格式的读/写操作,可在 QString、QIODevice或 QByteArray 上运行,比如把数据输出到 QString、QIODevice 或 QByteArray 对象…

JS、Go、Rust 错误处理的不同 - JS 可以不用 Try/Catch 吗?

原文:Mateusz Piorowski - 2023.07.24 先来了解一下我的背景吧。我是一名软件开发人员,有大约十年的工作经验,最初使用 PHP,后来逐渐转向 JavaScript。 大约五年前,我开始使用 TypeScript,从那时起&#…

Go微服务——go-micro v4安装使用

安装go-micro 打开cmd窗口,执行以下命令 go install github.com/go-micro/cli/cmd/go-microlatest测试是否成功安装 go-micro -v创建服务 go-micro new service helloworldwindows 安装make 安装地址 https://gnuwin32.sourceforge.net/packages/make.htm 配置…

python从0开始学习(九)

前言 上一篇文章我们介绍了python中的序列类型和元组类型,本篇文章将接着往下将。 1、字典类型 字典类型是根据一个信息查找另一个信息的方式所构成的“键值对”,它表示索引用的键和对应的值构成的成对关系。它是一个可变数据类型,也就是说它…

JAVA基础知识100题练习、蓝桥杯竞赛题,编程基础必练题!

各位编程小伙伴们,这里可是作者花费了无数个日日夜夜,熬秃了不知道多少根头发,凭借着那超级无敌多年的编程经验,拼死拼活、千辛万苦总结出来的呀!这可是各种开发语言都绝对必须要练的基础编程知识哇!什么九…

jenkins自动化部署详解

一、准备相关软件 整个自动化部署的过程就是从git仓库拉取最新代码,然后使用maven进行构建代码,构建包构建好了之后,通过ssh发送到发布服务的linux服务器的目录,最后在此服务器上执行相关的linux命令进行发布。 此篇文章jenkins…

Linux gurb2简介

文章目录 前言一、GRUB 2简介二、GRUB 2相关文件/文件夹2.1 /etc/default/grub文件2.2 /etc/grub.d/文件夹2.3 /boot/grub/grub.cfg文件 三、grubx64.efi参考资料 前言 简单来说,引导加载程序(boot loader)是计算机启动时运行的第一个软件程…

262 基于matlab的一级倒立摆仿真

基于matlab的一级倒立摆仿真,在对一级倒立摆进行数学建模的基础上,对模型进行线性化,得到其状态空间模型,利用二次型最优控制方法得出控制率。输出角度和位置优化曲线。程序已调通,可直接运行。 262 一级倒立摆仿真 状…

Sui生态DeFi项目Cetus和Aftermath宣布启动孵化器

Sui DeFi中的去中心化交易所Cetus和Aftermath Finance联合Sui基金会宣布启动新的孵化器,为初创项目提供更多可行性途径。这两个DeFi项目在Sui上有着较长的历史,自去年一同与主网推出以来,目前在TVL方面位居前五。这两个项目的持久性和成功使它…