HiveSql中的函数家族(二)

一、窗口函数

1、什么是窗口函数

        在 SQL 中,窗口函数(Window Functions)是一种特殊的函数,它允许在查询结果集的特定窗口(通常是一组行)上执行聚合、分析和计算操作,而无需聚合整个结果集。窗口函数可以用来解决许多复杂的数据分析问题,例如计算排名、累积总数、移动平均值等。窗口函数通常与 OVER 子句一起使用,该子句用于定义窗口的大小和位置。

窗口函数的一般语法结构如下:

<窗口函数>([参数]) OVER (
    [PARTITION BY 列1, 列2, ...]
    [ORDER BY 列3 [ASC|DESC]]
    [ROWS | RANGE 关键字]
    [窗口范围或行数定义]
)
  • <窗口函数> 是要执行的窗口函数,例如 SUM、AVG、ROW_NUMBER 等。
  • PARTITION BY 子句可选,用于对结果集进行分区,将数据划分为不同的分组。
  • ORDER BY 子句可选,用于对每个分区内的行进行排序。
  • ROWSRANGE 关键字指定窗口的类型,ROWS 表示窗口以行数为单位,RANGE 表示窗口以值范围为单位。
  • 窗口范围或行数定义用于指定窗口的大小和位置,例如 ROWS BETWEEN 3 PRECEDING AND 1 FOLLOWING 表示窗口包括当前行及其前面的三行和后面的一行。

2、常用的窗口函数

  1. ROW_NUMBER():为结果集中的每一行分配一个唯一的数字序号。

    语法格式:

    ROW_NUMBER() OVER (ORDER BY 列1 [ASC|DESC])
  2. RANK():为结果集中的每一行分配一个排名,如果有相同的值,则会跳过相同的排名。

    语法格式:

    RANK() OVER (ORDER BY 列1 [ASC|DESC])
  3. DENSE_RANK():为结果集中的每一行分配一个密集排名,如果有相同的值,则仍然连续分配排名。

    语法格式:

    DENSE_RANK() OVER (ORDER BY 列1 [ASC|DESC])
  4. SUM():计算指定列的总和,可以在窗口内计算。

    语法格式:

    SUM(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  5. AVG():计算指定列的平均值,可以在窗口内计算。

    语法格式:

    AVG(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  6. LEAD():获取结果集中当前行后面的指定行数的值。

    语法格式:

    LEAD(列1, offset, default_value) OVER (ORDER BY 列2 [ASC|DESC])
  7. LAG():获取结果集中当前行前面的指定行数的值。

    语法格式:

    LAG(列1, offset, default_value) OVER (ORDER BY 列2 [ASC|DESC])

  8. FIRST_VALUE():获取结果集中指定列的第一个值。

    语法格式:

    FIRST_VALUE(列1) OVER (ORDER BY 列2 [ASC|DESC])
  9. LAST_VALUE():获取结果集中指定列的最后一个值。

    语法格式:

    LAST_VALUE(列1) OVER (ORDER BY 列2 [ASC|DESC] ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING)
  10. COUNT():计算指定列的行数,可以在窗口内计算。

    语法格式:

    COUNT(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  11. MAX():获取指定列的最大值,可以在窗口内计算。

    语法格式:

    MAX(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  12. MIN():获取指定列的最小值,可以在窗口内计算。

    语法格式:

    Min(列1) OVER (PARTITION BY 列2 ORDER BY 列3 [ASC|DESC])
  13. NTILE():将结果集分成指定数量的桶,并为每个桶分配一个编号。

    语法格式:

    NTILE(number_of_buckets) OVER (ORDER BY 列1 [ASC|DESC])
  14. PERCENT_RANK():计算结果集中每行的百分比排名。

    语法格式:

    PERCENT_RANK() OVER (ORDER BY 列1 [ASC|DESC])
  15. CUME_DIST():计算结果集中每行的累积分布值。

    语法格式:

    CUME_DIST() OVER (ORDER BY 列1 [ASC|DESC])
  16. ROW_NUMBER():为结果集中的每一行分配一个唯一的数字序号。

        语法格式:        

ROW_NUMBER() OVER (ORDER BY 列1 [ASC|DESC])

二、CTE语法

CTE语法类似子查询,可以将一个select语句计算的结果当成一个新的临时表使用。

-- 子查询,将子查询的结果当做表使用
select empno,ename from (
select * from emp) t1;
-- 基本用法
with 临时表名 as(查询语句)
select * from 临时表名

-- 多个计算结果保存
with tb1 as(查询语句),,
	tb2 as(查询语句 select * from tb1),
	tb3 as(查询语句)
	.....
select * from tb3 join tb2
with tb1 as(select * from emp)
select ename,sal from tb1;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/555851.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

使用Python工具库SnowNLP对评论数据标注(二)

这一次用pandas处理csv文件 comments.csv import pandas as pd from snownlp import SnowNLPdf pd.read_csv("C:\\Users\\zhour\\Documents\\comments.csv")#{a: [1, 2, 3], b: [4, 5, 6], c: [7, 8, 9]}是个字典 emotions[] for txt in df[sentence]:s SnowNLP(…

接收区块链的CCF会议--ICSOC 2024 截止7.24

ICSOC是CCF B类会议&#xff08;软件工程/系统软件/程序设计语言&#xff09; 2023年长文短文录用率22% Focus Area 4: Emerging Technologies Quantum Service Computing Digital Twins 3D Printing/additive Manufacturing Techniques Blockchain Robotic Process Autom…

【QT+OpenCV】车牌号检测 学习记录 遇到的问题

【QTOpenCV】车牌号检测 学习记录 首先在QT里面配置好OpenCV .pro文件中加入&#xff1a; INCLUDEPATH G:/opencv/build/include LIBS -L"G:/opencv/build/x64/vc14/lib"\-lopencv_core \-lopencv_imgproc \-lopencv_highgui \-lopencv_ml \-lopencv_video \-lo.c…

Meta Llama 3强势来袭:迄今最强开源大模型,性能媲美GPT-4

前言 Meta的最新语言模型Llama 3已经发布&#xff0c;标志着在大型语言模型&#xff08;LLM&#xff09;领域的一次重大突破&#xff0c;其性能在行业内与GPT-4相媲美。此次更新不仅提升了模型的处理能力和精确性&#xff0c;还将开源模型的性能推向了一个新的高度。 Huggingf…

Docker八股总结

1. 容器和虚拟机的区别 传统虚拟机技术是虚拟出一套硬件后&#xff0c;在其上运行一个完整操作系统&#xff0c;在该系统上再运行所需应用进程&#xff1b;而容器内的应用进程直接运行于宿主的内核&#xff0c;容器内没有自己的内核&#xff0c;而且也没有进行硬件虚拟。因此容…

2021年全国大学生电子设计竞赛D题——基于互联网的摄像测量系统(二)

09 电路设计 前面介绍了系统的硬件框图如下&#xff1a; 硬件基本分为三块&#xff0c;两个摄像节点&#xff0c;一个终端节点。 1. 摄像节点硬件 摄像节点由一个DE10-Nano开发板和一个D8M摄像头实现&#xff0c;DE10-Nano开发板的HDMI接口外接HDMI显示器来显示拍摄到的视频。…

Flask + Bootstrap vs Flask + React/Vue:初学者指南

在这篇博客文章中&#xff0c;我们将比较 Flask Bootstrap 和 Flask React/Vue 这两种技术栈&#xff0c;以帮助初学者了解哪种组合更适合他们的项目需求。我们将从学习曲线、易用性、依赖管理、构建部署和路由定义等方面进行比较。 学习曲线 Flask 是一个基于 Python 的轻…

信息系统项目管理师0055:优化和持续改进(4信息系统管理—4.1管理方法—4.1.5优化和持续改进)

点击查看专栏目录 文章目录 4.1.5优化和持续改进1.定义阶段2.度量阶段3.分析阶段4.改进/设计阶段5.控制/验证阶段4.1.5优化和持续改进 优化和持续改进是信息系统管理活动中的一个环节,良好的优化和持续改进管理活动能够有效保障信息系统的性能和可用性等,延长整体系统的有效使…

偏微分方程算法之一阶双曲差分法

目录 一、研究目标 二、理论推导 2.1 引言 2.2 迎风格式 2.3 完全不稳定差分格式 2.4 蛙跳格式&#xff08;Leapfrog&#xff09; 2.5 Lax-Friedrichs格式 2.6 Lax-Wendroff格式 2.7 Beam-Warming格式 2.8 隐格式 2.9 Courant-Friedrichs-Lewy条件&#xff08;CFL条…

一文学会时序约束

主时钟约束命令/生成时钟约束命令IO输入输出延迟约束命令及效果最大最小延迟命令及作用多周期路径怎么约束什么情况设置伪路径时钟组设置的三个选项 如果不了解时序分析可以先看下下面这篇文章&#xff1a; 数字IC/FPGA——时序分析 目录 1.时钟约束&#xff08;1&#xff09;…

线性代数---行列式的性质

1. 行列式的行与列(按原顺序)互换

redis的数据结构报错

文章目录 redis的数据结构报错Redis使用LocalDateTime报错问题 redis的数据结构报错 Redis使用LocalDateTime报错问题 SpringBoot整合Redis时&#xff0c;使用LocalDate以下报错 org.springframework.data.redis.serializer.SerializationException: Could not read JSON: C…

数字时代安全风险防范与保密科技创新

文章目录 前言一、新技术应用带来的保密挑战1.1 通过技术手段获取国家秘密和重要情报日益普遍1.2 新型信息技术存在的风险不容忽视 二、加强保密科技创新的必要性2.1 提高定密准确性2.2 及时变更密级或解密2.3 对失泄密事故案件进行自动高效的预警和初步处理 三、保密科技创新中…

Jenkins机器已经安装了ansible, 运行的时候却报错ansible: command not found

操作系统&#xff1a;MacOS Jenkins log提示 ansible: command not found 直接在Jenkins 机器中&#xff0c;进入一样的目录执行ansible --version OK 原因&#xff1a; Jenkins 默认使用的环境是 /usr/bin, 而我的ansible 安装配置在conda3 下面&#xff0c;所以需要在Jenkin…

OpenCV从入门到精通实战(四)——答题卡识别判卷系统

基于OpenCV的答题卡识别系统&#xff0c;其主要功能是自动读取并评分答题卡上的选择题答案。系统通过图像处理和计算机视觉技术&#xff0c;自动化地完成了从读取图像到输出成绩的整个流程。下面是该系统的主要步骤和实现细节的概述&#xff1a; 1. 导入必要的库 系统首先导入…

修改npm全局安装模式的路径

修改npm全局安装模式的路径 由于之前安装过nodejs&#xff0c;并且配置环境变量以及cache 、prefix 的信息&#xff1b; 由于项目需求安装最新版本的Nodejs&#xff0c;把环境变量的path相关目录进行调整&#xff0c;然后使用一下命令进行安装cnpm命令&#xff1b; npm insta…

本地启用并操作Redis

本篇文章将向各位讲解redis的基础用法&#xff0c;废话不多说我们直接开始吧&#xff01; 首先需要下载redis到你本地&#xff0c;我这儿是下载到以下文件夹中&#xff1a; 双击redis-server.exe文件运行redis&#xff1a; 然后我们另外启用一个命令窗口&#xff08;需要进入你…

决策树分类器(保姆级教学) 定义+特性+原理及公式+鸢尾花分类经典问题示例(完整Python代码带详细注释、保姆级分部代码解释及结果说明、决策树可视化及解释)

文章目录 引言定义特性基本原理和公式理解信息增益&#xff08;ID3算法&#xff09;熵的定义条件熵信息增益的计算 基尼不纯度&#xff08;CART算法&#xff09;基尼不纯度的定义基尼不纯度的计算例子 实现步骤解决鸢尾花分类问题&#xff08;机器学习入门中的经典案例Python代…

在Linux上用最原始的方式查看内存情况

2024年4月18日&#xff0c;周四上午 cat /proc/meminfo

Hive进阶(3)----Checkpoint机制(赋图助君理解)

Checkpoint机制 一、Checkpoint机制概念 本机制可以参考《Hadoop权威指南》第十一章&#xff1a; fsimage文件其实是Hadoop文件系统元数据的一个永久性的检查点&#xff0c;其中包含Hadoop文件系统中的所有目录和文件idnode的序列化信息&#xff1b;fsimage包含Hadoop文件系统…