摸鱼大数据——Hive函数14

14、开窗(开列)函数

官网链接:Window Functions - Apache AsterixDB - Apache Software Foundation

14.1 基础使用
开窗函数格式: 开窗函数 over(partition by 分组字段名 [order by 排序字段名 asc|desc] [rows between 开窗开始 and 开窗结束])
​
partition by: 按照谁进行分组
order by: 对分组后的数据进行排序
rows between and: 限定窗口统计数据范围
​
开窗函数分类:
    第一类: 编号相关。
        row_number(): 123456。不管数据有没有重复,单调递增往后进行编号
        rank(): 123446。如果遇到相同数据,那么会重复编号,并且会占用后续的编号
        dense_rank(): 123445。如果遇到相同数据,那么会重复编号,但是不会占用后续的编号
        
    第二类: 聚合函数。count()、sum()、avg()、max()、min()....
    第三类: 取值函数。ntile()、lag()、lead()、first_value()、last_value()

示例:

use day09;
​
-- 创建表
create table pv_tb(
    cookieid string,
    datestr string,
    pv int
)row format delimited fields terminated by ',';
​
-- 导入数据
load data inpath '/dir/website_pv_info.txt' into table pv_tb;
​
-- 验证数据
select * from pv_tb;
​
-- 编号相关的窗口函数
select
    cookieid,
    datestr,
    pv,
    -- row_number:用的最多。单调递增的进行编号,不管重复数据
    row_number() over(partition by cookieid order by pv asc) as rs1,
    -- rank:单调递增的进行编号,如果遇到重复数据,编号是相同,同时会占用后面的编号资格
    rank() over(partition by cookieid order by pv asc) as rs2,
    -- dense_rank:单调递增的进行编号,如果遇到重复数据,编号是相同,同时不会占用后面的编号资格
    dense_rank() over(partition by cookieid order by pv asc) as rs3
from pv_tb;
​
​
select
    cookieid,
    datestr,
    pv,
    row_number() over(partition by cookieid order by pv asc) as rn,
    -- 如果有order by那么窗口的大小是慢慢逐渐放大的
    sum(pv) over(partition by cookieid order by pv asc) as sum_result,
    -- 如果没有order by那么窗口的大小直接彻底放大到最大
    sum(pv) over(partition by cookieid) as sum_result2
from pv_tb;

窗口的运行原理:

针对sum(pv) over(partition by cookieid order by pv asc) as sum_result语句

14.2 控制数据范围
开窗函数控制范围: rows between 范围开始 and 范围结束
​
具体的语法含义:
    1- 范围开始
        unbounded preceding: 从窗口开始
        数字 preceding: 前几行数据
        
    2- 范围结束
        unbounded following: 到窗口结束
        数字 following: 后几行数据
    
    3- 特殊的,既能够作为范围开始,也能够作为范围结束
        current row: 当前行

示例:

-- 控制窗口统计的数据范围
select
    cookieid,
    datestr,
    pv,
    sum(pv) over(partition by cookieid order by pv rows between unbounded preceding and current row) as rs1,
    sum(pv) over(partition by cookieid order by pv rows between 2 preceding and current row) as rs2,
    sum(pv) over(partition by cookieid order by pv rows between unbounded preceding and unbounded following) as rs3,
    sum(pv) over(partition by cookieid order by pv rows between 2 preceding and unbounded following) as rs4,
    sum(pv) over(partition by cookieid order by pv rows between 2 preceding and 2 following) as rs5,
    sum(pv) over(partition by cookieid order by pv rows between current row and unbounded following) as rs6
from pv_tb;

14.3 其他开窗函数
ntile(n): 将窗口内的数据分配到n个桶里面去,返回的结果是桶的编号。可以使用在数据抽样中
​
lag: 取窗口中上一行的数据
lead: 取窗口中下一行的数据
​
first_value: 取窗口中第一行的数据
last_value : 取窗口中最后一行的数据

示例:

-- 其他函数
select
    cookieid,
    datestr,
    pv,
    row_number() over(partition by cookieid order by pv asc) as rn,
    -- ntile(n):将窗口内的数据分配到n个桶里面去,返回的结果是桶的编号
    ntile(3) over(partition by cookieid order by pv asc) as rs1,
    -- 取窗口中上一行的数据
    lag(pv) over(partition by cookieid order by pv asc) as rs2,
    -- 取窗口中下一行的数据
    lead(pv) over(partition by cookieid order by pv asc) as rs3,
    -- 取窗口中第一行的数据
    first_value(pv) over(partition by cookieid order by pv asc) as rs4,
    -- 取窗口中最后一行的数据
    last_value(pv) over(partition by cookieid order by pv asc) as rs5
from pv_tb;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/674332.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

动画技术在AI绘画中的革新作用

引言: 随着人工智能技术的飞速发展,AI绘画作为其应用领域之一,已经引起了艺术和技术界的广泛关注。动画技术,作为视觉艺术的重要组成部分,与AI绘画的结合不仅为传统绘画带来了新的活力,也推动了创意表达和艺…

第24讲:Ceph集群RGW对象存储高可用集群部署与测试

文章目录 1.RGW对象存储高可用集群架构1.1.环境规划1.2.高可用集群架构图 2.部署RGW对象存储高可用集群2.1.在所有的Ceph节点中部署RGW2.2.部署Haproxy负载均衡服务2.3.配置Haproxy负载均衡三个节点中的RGW2.4.配置Keepalived实现RGW高可用集群2.5.启动Keepalived并观察VIP地址…

关于域环境

一.什么是域 Windows域是计算机网络的一种形式,其中所有用户帐户,计算机,打印机和其他安全主体都向位于一个或多个中央计算机群集(域控制器)上的中央数据库注册。通过域用户登录域内主机,需要通过域控制器…

升级你的工作流:集成钉钉企微的可道云teamOS网盘体验全攻略,办公体验瞬间升级

我们知道,企业微信、钉钉扫码登录已经成为现代企业高效办公的标配。 然而,市面上绝大多数企业网盘产品,都无法对接企业微信和钉钉,这无疑给企业的工作流程带来一定困扰。 今天给大家介绍一下,集成了钉钉和企微的企业…

动态规划1:1137. 第 N 个泰波那契数

动态规划解题步骤: 1.确定状态表示:dp[i]是什么 2.确定状态转移方程:dp[i]等于什么 3.初始化:确保状态转移方程不越界 4.确定填表顺序:根据状态转移方程即可确定填表顺序 5.确定返回值 题目链接:1137…

格式化数据恢复指南:从备份到实战,3个技巧一网打尽

朋友们!你们有没有遇到过那种“啊,我的文件呢?”的尴尬时刻?无论是因为手滑、电脑抽风还是其他原因,数据丢失都可能会让我们抓狂,甚至有时候,我们可能一不小心就把存储设备格式化了,…

第二证券:A股年内首家非ST股面值退市!这类ST股数量逐年增加

A股出清残次上市公司的速度正在加速。 年内首家非ST退市股“诞生” 5月30日晚间,正源股份公告称已收到买卖所下发的《关于拟停止正源控股股份有限公司股票上市的事前奉告书》,2024年4月30日至2024年5月30日,公司股票接连20个买卖日的每日股…

强达电路营收下滑净利润急剧放缓:周转率骤降,2次因环保被罚

《港湾商业观察》施子夫 自2022年6月向深交所创业板递交招股书起,深圳市强达电路股份有限公司(以下简称,强达电路)已收到深交所下发的两轮审核问询函,并且公司已于2023年3月31日顺利过会。但由于迟迟未提交注册申请&a…

用SNMP模仿Zabbix读取设备接口流量

正文共:666 字 11 图,预估阅读时间:1 分钟 前文(通过SNMP统计网络资产)介绍了SNMPWALK的安装及简单使用。SNMP的功能还是十分强大的,几乎所有设备上支持查看的信息通过SNMP协议都能读取到,甚至有…

API开放平台项目细节

1.前端如何区分用户权限的,是管理员还是普通用户? Ant Design Pro内置了一套权限管理机制,通过access.ts页面实现。它会去取到全局初始化状态(InitialState)的loginUser,根据当前登录用户判断是否有管理员…

建设智慧校园,需要哪些步骤?

智慧校园作为校园信息化的载体,涵盖了校园事务的各个方面。由于涉及系统过多,构建一个数字化校园是一个复杂的过程,因为智慧校园不是单独存在的,而是需要作为数据中心与业务枢纽连接学校的各个业务系统。 因此,有步骤&…

C# MQTTNET 服务端+客户端 实现 源码示例

目录 1.演示效果 2.源码下载 3.服务端介绍 4.客户端介绍 1.演示效果 2.源码下载 下载地址:https://download.csdn.net/download/rotion135/89385802 3.服务端介绍 服务端用的控制台程序进行设计,实际使用可以套一层Windows服务的皮,进…

015、列表_应用场景

1.消息队列 如图所示,Redis的lpush+brpop命令组合即可实现阻塞队列,生产者客户端使用lrpush从列表左侧插入元素,多个消费者客户端使用brpop命令阻塞式的“抢”列表尾部的元素,多个客户端保证了消费的负载均衡和高可用性。 2.文章列表 每个用户有属于自己的文章列表,现…

CSAPP Lab07——Malloc Lab完成思路

等不到天黑 烟火不会太完美 回忆烧成灰 还是等不到结尾 ——她说 完整代码见:CSAPP/malloclab-handout at main SnowLegend-star/CSAPP (github.com) Malloc Lab 按照惯例,我先是上来就把mm.c编译了一番,结果产生如下报错。搜索过后看样子应…

Matlab进阶绘图第58期—带填充纹理的横向堆叠图

带填充纹理的横向堆叠图是通过在原始横向堆叠图的基础上添加不同的纹理得到的,可以很好地解决由于颜色区分不够而导致的对象识别困难问题。 由于Matlab中未收录提供填充纹理选项,因此需要大家自行设法解决。 本文使用hatchfill2工具(Kesh I…

一些智能音箱类的软硬件方案

主要参考资料 Rabbit R1: https://www.rabbit.tech/rabbit-r1 mediatek-helio-p35: https://www.mediatek.com/products/smartphones-2/mediatek-helio-p35 NSdisplay: https://www.nsdisplay.com/ai-holobox-mini/ai-holobox-mini.html RK3566: https://www.rock-chips.com/a/…

I2C总线上拉电阻计算

I2C 总线上拉电阻计算 I2C接口的上拉电阻计算是一个常见问题。本文介绍如何使用简单的方程式进行计算。 1 介绍 I2C通信标准是当今电子系统中应用最广泛的芯片间通信标准。它是一种漏极开路/集电极开路通信标准,这意味着可以连接具有不同电源轨的集成电路 &#…

java jar包后台运行方式

在实际工作中,java开发的spring boot等通过jar包部署需要一直运行的程序部署到服务器上时,都希望后台运行,方便管理程序服务、防止被误操作关闭,本文结合自己工作经验讲解jar包后台运行的两种方式,分别是按操作系统支持…

LeetCode 两两交换链表中的节点

原题链接24. 两两交换链表中的节点 - 力扣(LeetCode) 思路,请看图片的过程模拟,这里添加了一个哨兵节点0,目的是为了方便操作,得到指向1节点的指针。 class Solution {public:ListNode* swapPairs(ListNod…

17、matlab实现均值滤波、中值滤波、Butterworth滤波和线性相位FIR滤波

1、创建信号 1)创建正余弦信号、噪声信号和混合信号 原始正余弦信号公式:Signal1 sin(2*pi*20* t) sin(2*pi*40* t) sin(2*pi*60* t) 高斯分布的白噪声:NoiseGauss [randn(1,2000)] 均匀分布的白噪声:[rand(1,2000)] 正余弦…