MySQL修炼手册4:分组与聚合:GROUP BY与HAVING的应用

写在开头

MySQL数据库的强大功能为我们提供了丰富的数据处理工具,其中GROUP BY与HAVING的应用使得数据的分组与聚合变得更加灵活和高效。在本篇博客中,我们将深入研究GROUP BY与HAVING的基础知识,并通过实际案例,展示它们在数据分析中的强大威力。

创建水果销售表

首先,为了更好地演示GROUP BY与HAVING的应用,我们创建了一个水果销售表fruit_sales,包含字段:id(销售记录ID)、fruit_name(水果名称)、sales_year(销售年份)、sales_quantity(销售量)、sales_revenue(销售额)。下面是一些示例数据:

CREATE TABLE fruit_sales (
    id INT PRIMARY KEY,
    fruit_name VARCHAR(50),
    sales_year INT,
    sales_quantity INT,
    sales_revenue DECIMAL(10, 2)
);

INSERT INTO fruit_sales (id, fruit_name, sales_year, sales_quantity, sales_revenue) VALUES
(1, 'Apple', 2022, 100, 150.00),
(2, 'Orange', 2022, 120, 180.00),
(3, 'Banana', 2022, 80, 90.00),
(4, 'Apple', 2023, 150, 225.00),
(5, 'Orange', 2023, 90, 108.00),
(6, 'Banana', 2023, 120, 144.00),
(7, 'Apple', 2024, 80, 120.00),
(8, 'Orange', 2024, 110, 132.00),
(9, 'Banana', 2024, 100, 120.00);

运行下面语句,查询所有数据。

SELECT
	* 
FROM
	fruit_sales;

查询所有数据:
009

1 GROUP BY子句基础

1.1 基本的GROUP BY语法

GROUP BY子句是MySQL中用于对结果进行分组的关键。通过以下语法,我们可以按照指定列的值将结果分组:

SELECT fruit_name
FROM fruit_sales
GROUP BY fruit_name;

1.2 在SELECT中使用聚合函数

与GROUP BY结合使用聚合函数,可以对每个分组进行更详细的统计分析:

SELECT
	fruit_name,
	AVG( sales_quantity ) AS avg_quantity,
	SUM( sales_revenue ) AS total_revenue 
FROM
	fruit_sales 
GROUP BY
	fruit_name;

2 常见聚合函数

2.1 COUNT函数:统计行数

COUNT函数用于统计指定列中的行数,适用于对数据集大小进行直观认识。在这里介绍三种常见的写法:
写法1:count(字段)

SELECT COUNT(id) AS total_sales

写法2:count(1)

SELECT COUNT(1) AS total_sales

写法3:count(*)

SELECT COUNT(*) AS total_sales

2.2 SUM函数:求和

通过SUM函数,我们可以计算某一列的总和,比如计算水果的总销售额:

SELECT
	SUM( sales_revenue ) AS total_revenue 
FROM
	fruit_sales;

2.3 AVG函数:求平均值

AVG函数用于计算某一列的平均值,例如计算水果的平均销售数量:

SELECT
	AVG( sales_quantity ) AS avg_quantity 
FROM
	fruit_sales;

2.4 其他常见函数

MAX(): 用于获取某列的最大值。

SELECT MAX(sales_quantity) FROM fruit_sales;

MIN(): 用于获取某列的最小值。

SELECT MIN(sales_quantity) FROM fruit_sales;

GROUP_CONCAT(): 用于将组内的值连接成字符串。

SELECT
	GROUP_CONCAT( fruit_name ) fruits_category
FROM
	fruit_sales 
GROUP BY
	sales_year;

STD() 和 STDDEV(): 分别用于计算总体标准差和样本标准差。

SELECT
	std( sales_quantity ) sales_quantity_std
FROM
	fruit_sales;
	
	SELECT
	stddev( sales_quantity ) sales_quantity_stddev
FROM
	fruit_sales;

VAR_POP() 和 VAR_SAMP(): 分别用于计算总体方差和样本方差。

SELECT
	var_pop( sales_quantity ) sales_quantity_var
FROM
	fruit_sales;
	
SELECT
	var_samp( sales_quantity ) sales_quantity_varsamp
FROM
	fruit_sales;

3 GROUP BY子句的应用

在MySQL中,GROUP BY子句是进行分组操作的关键工具,它允许我们按照指定的列对结果进行分类,从而进行更加细致的数据分析。接下来,我们将深入研究GROUP BY子句的不同应用场景,并列举一些实际的例子。

3.1 对结果进行分组

基本的GROUP BY语法已经在前文中介绍过,这里我们来看一些更具体的例子。

3.1.1 按照年份分组统计水果销售量

SELECT sales_year, SUM(sales_quantity) AS total_quantity
FROM fruit_sales
GROUP BY sales_year;

这个查询会将销售表按照年份分组,计算每年的总销售量。

3.1.2 按照水果种类和年份分组统计销售额

SELECT fruit_name, sales_year, SUM(sales_revenue) AS total_revenue
FROM fruit_sales
GROUP BY fruit_name, sales_year;

这个查询将销售表按照水果种类和年份两个维度进行分组,计算每种水果每年的总销售额。

3.2 稍微复杂一些的聚合

结合GROUP BY和聚合函数,我们可以在分组的基础上对每个分组进行各种统计操作,以下是一些示例。

3.2.1 计算每年平均销售量和总销售额

SELECT sales_year, AVG(sales_quantity) AS avg_quantity, SUM(sales_revenue) AS total_revenue
FROM fruit_sales
GROUP BY sales_year;

这个查询会计算每年的平均销售量和总销售额。

3.2.2 查找每种水果的最大销售量和最小销售额

SELECT fruit_name, MAX(sales_quantity) AS max_quantity, MIN(sales_revenue) AS min_revenue
FROM fruit_sales
GROUP BY fruit_name;

这个查询会找出每种水果的最大销售量和最小销售额。

4 聚合函数的条件运用

在实际的数据分析过程中,经常需要根据特定条件对数据进行聚合分析。聚合函数的条件运用主要通过在聚合函数内部结合使用WHERE子句和HAVING子句来实现,让我们深入探讨各种应用场景。

4.1 示例:统计每个水果在销售年份为2023年的销售量

SELECT fruit_name, SUM(sales_quantity) AS total_quantity
FROM fruit_sales
WHERE sales_year = 2023
GROUP BY fruit_name;

在这个例子中,WHERE子句用于筛选出销售年份为2023年的数据,然后通过SUM函数计算每个水果的总销售量。

4.2 示例:计算销售额超过100的水果的平均销售量

SELECT fruit_name, AVG(sales_quantity) AS avg_quantity
FROM fruit_sales
WHERE sales_revenue > 100
GROUP BY fruit_name;

在这个例子中,WHERE子句用于筛选出销售额超过100的数据,然后通过AVG函数计算每个水果的平均销售量。

5 HAVING子句的应用

在MySQL中,HAVING子句通常用于对GROUP BY的结果进行条件过滤。它在很大程度上类似于WHERE子句,但WHERE用于过滤行,而HAVING用于过滤组。下面我们将详细展开HAVING的应用,并列举一些实际场景中的使用案例。

5.1 在GROUP BY的基础上使用HAVING

当我们通过GROUP BY对数据进行分组后,有时候希望进一步筛选出符合特定条件的组,这时就需要使用HAVING子句。以下是一个简单的例子:

SELECT sales_year, fruit_name, AVG(sales_quantity) AS avg_quantity
FROM fruit_sales
GROUP BY sales_year, fruit_name
HAVING avg_quantity > 100;

在这个例子中,我们首先按年份和水果名称对数据进行了分组,然后使用HAVING筛选出平均销售数量超过100的组。

5.2 HAVING与聚合函数的进一步结合

HAVING经常与聚合函数一起使用,以便更精细地过滤分组。以下是一个例子,我们想找出销售额最高的水果,但只考虑那些销售额总和超过500的水果:

SELECT fruit_name, SUM(sales_revenue) AS total_revenue
FROM fruit_sales
GROUP BY fruit_name
HAVING total_revenue > 500;

这个查询首先按水果名称分组,然后计算每个组的销售额总和,最后通过HAVING过滤出总销售额超过500的水果。

5.3 多条件的HAVING过滤

HAVING也可以使用多个条件进行过滤,从而更灵活地满足复杂的查询需求。例如,我们想找出在2023年和2024年都有销售记录的水果:

SELECT fruit_name, COUNT(DISTINCT sales_year) AS years_with_sales
FROM fruit_sales
GROUP BY fruit_name
HAVING years_with_sales = 2;

这个查询中,我们首先按水果名称分组,然后使用COUNT(DISTINCT sales_year)计算每个组中不同年份的销售记录数量,最后通过HAVING过滤出年份数量为2的水果,即在2023年和2024年都有销售记录的水果。

5.4 HAVING与其他条件的结合

在实际应用中,HAVING通常与其他条件一起使用,以进一步精炼查询结果。例如,我们想找出在2022年以后有销售记录的水果中,销售额总和超过200的水果:

SELECT fruit_name, SUM(sales_revenue) AS total_revenue
FROM fruit_sales
WHERE sales_year >= 2022
GROUP BY fruit_name
HAVING total_revenue > 200;

这个查询中,我们首先使用WHERE条件筛选出销售年份在2022年及以后的数据,然后按水果名称分组,并通过HAVING进一步过滤出销售额总和超过200的水果。

5.5 HAVING与聚合函数的嵌套

在某些情况下,我们可能需要对聚合函数的结果再次进行聚合,这时HAVING与聚合函数的嵌套就派上用场了。例如,我们想找出每个水果销售量的平均值超过所有水果平均销售量的水果:

SELECT fruit_name, AVG(sales_quantity) AS avg_quantity
FROM fruit_sales
GROUP BY fruit_name
HAVING avg_quantity > (SELECT AVG(sales_quantity) FROM fruit_sales);

这个查询中,我们首先按水果名称分组,计算每个组的销售量平均值,然后通过HAVING子句筛选出平均销售量超过所有水果平均销售量的水果。

6 GROUP BY与多表查询的结合使用

在实际的数据库应用中,数据通常存储在多个表中,因此对这些表进行联合查询并进行适当的分组是非常普遍的操作。GROUP BY与多表查询的结合使用能够为我们提供更深入的数据分析和统计能力。

6.1 使用GROUP BY对多表进行分组

在涉及多表查询时,GROUP BY可以帮助我们对结果进行更有意义的分组。考虑以下示例,我们有一个水果销售表fruit_sales和一个水果类别表fruit_categories

CREATE TABLE fruit_categories (
    id INT PRIMARY KEY,
    fruit_name VARCHAR(50),
    category VARCHAR(50)
);



INSERT INTO fruit_categories (id, fruit_name, category) VALUES
(1, 'Apple', 'hard'),
(2, 'Orange', 'soft'),
(3, 'Banana', 'soft');

现在,我们想要按照水果类别进行销售量的统计,可以使用如下查询:

SELECT
	fc.category,
	SUM( fs.sales_quantity ) AS total_quantity 
FROM
	fruit_sales fs
	JOIN fruit_categories fc ON fs.fruit_name = fc.fruit_name 
GROUP BY
	fc.category;

这个查询将fruit_salesfruit_categories两个表联合起来,按照水果类别进行分组,然后计算每个类别的总销售量。这对于分析不同类别水果的整体销售表现非常有帮助。

6.2 GROUP BY与JOIN操作的协同应用

在多表查询中,JOIN操作和GROUP BY可以协同使用,为我们提供更为复杂的数据统计和分析。考虑以下场景,我们要找出每个水果类别的平均销售额:

SELECT
	fc.category,
	AVG( fs.sales_revenue ) AS avg_revenue 
FROM
	fruit_sales fs
	JOIN fruit_categories fc ON fs.fruit_name = fc.fruit_name 
GROUP BY
	fc.category;

这个查询首先通过JOIN将fruit_salesfruit_categories两个表关联,然后按照水果类别进行分组,最后计算每个类别的平均销售额。这样的查询可以为市场策略制定、库存管理等方面提供重要的数据支持。

写在最后

通过本篇MySQL修炼手册,我们深入研究了GROUP BY与HAVING的应用,以及它们在不同场景下的运用技巧。掌握这些知识,将使我们在实际应用中更加游刃有余地处理复杂的数据分析与统计任务。在下一篇手册中,我们将继续拓展MySQL的强大功能,探讨更多高级查询与优化技巧,为数据库操作的深入理解打下坚实基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/310340.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【网络安全】【密码学】【北京航空航天大学】实验二、数论基础(中)【C语言和Java实现】

实验二、数论基础(中) 一、实验内容 1、扩展欧几里得算法(Extended Euclid’s Algorithm) (1)、算法原理 已知整数 a , b ,扩展的欧几里得算法可以在求得 a , b 的最大公约数的同时,找到一对…

群发邮件被判定为垃圾邮件的原因有哪些呢?

群发邮件被判定为垃圾邮件如何处理?邮件群发时怎么避免成为垃圾邮件? 群发邮件一直以来都是一种高效的信息传递方式,然而,随着网络垃圾邮件的激增,越来越多的群发邮件被系统判定为垃圾邮件。蜂邮EDM将深入探讨群发邮件…

用TF-IDF处理文本数据

计算机擅长处理数字,但不擅长处理文本数据,TF-IDF是处理文本数据最广泛使用的技术之一,本文对它的工作原理以及它的特性进行介绍。 根据直觉,我们认为在文本数据分析中出现频率更高的单词应该具有更大的权重,但事实并…

starrocks权限管理-2.3.2版本

1.新用户创建以及授权 1.创建用户(未分配角色) -- 使用明文密码创建用户,允许其从 172.25.20.1 登陆。如果172.25.20.1被%替换就是所有ip都可以访问 CREATE USER bigdata172.25.20.1 IDENTIFIED WITH mysql_native_password BY Zhengda1; 不…

API文档、API自动化测试神器:Apipost

在数字化时代,API已成为企业和开发者实现数据互通、应用集成的重要桥梁。然而,随着API数量的不断增加,API设计、调试、文档和测试等工作也变得越来越复杂。为了解决这一痛点,一款名为Apipost的API协同研发工具应运而生&#xff0c…

尝试添加服务器中正在运行的docker容器时报错:当前用户没有运行“docker”的权限

尝试添加服务器中正在运行的docker容器时报错:当前用户没有运行“docker”的权限 环境 1,通过vscode ssh到服务器的 2,服务器端有一个contianer,但是无法通过vscode的Dev contianer组件将服务器中正在运行的contianer添加过来 3…

XUbuntu22.04之快速复制绝对路径(二百零五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

【开源】基于JAVA+Vue+SpringBoot的超市账单管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块三、系统设计3.1 总体设计3.2 前端设计3.3 后端设计在这里插入图片描述 四、系统展示五、核心代码5.1 查询供应商5.2 查询商品5.3 新增超市账单5.4 编辑超市账单5.5 查询超市账单 六、免责说明 一、摘要 1.1 项目介绍 基于…

【大数据架构】OLAP实时分析引擎选型

OLAP引擎面临的挑战 常见OLAP引擎对比 OLAP分析场景中,一般认为QPS达到1000就算高并发,而不是像电商、抢红包等业务场景中,10W以上才算高并发,毕竟数据分析场景,数据海量,计算复杂,QPS能够达到1…

手部受伤手术完就万事大吉?不!还有50%靠康复

在骨科急诊病人中,手外伤约占就诊人数的四分之一,比如常见的擦伤、撕裂伤、挫伤、肌肉拉伤、关节韧带扭伤、骨折及关节脱位等。对于此类损伤,手术的功劳占一半,另一半则是术前术后的功能康复训练。 所以,对手外伤病人来…

systick_config 建立系统时钟

1.systick_config, 建立1ms(可以改)的系统时钟,包含计数值, 初始值,中断 2. 计数值 SystemCoreClock,对于STM32F4xx 系统时钟为168M, 那么假如168M为1S, /1000为1ms, /1000000为1us 3. SysTick_…

如何使用 Helm 在 K8s 上集成 Prometheus 和 Grafana|Part 2

在 Part 1 中,我们一起了解了什么是 Prometheus 和 Grafana,以及使用这些工具的前提条件和优势。在本部分,将继续带您学习如何安装 Helm 以及如何使用 Prometheus Helm Charts。 开始使用 Helm 和 Helm Chart ArtifactHub 为 Helm Chart 提供…

限流算法之计数器法

文章目录 一、计数器法是什么?二、模拟限流算法java版效果 一、计数器法是什么? 计数器法是限流算法里最简单也是最容易实现的一种算法。 比如:对于一个接口来说,我们1分钟的访问次数不能超过100个。那么我们可以这么做&#xff…

删除sys_file表中的文件信息后同步操作表单中对应的文件字段信息

需求:由于系统的表单文件上传/删除操作与表单的保存操作不同时进行,所以需要调整 细节:(某个表:A表)表单的文件字段只是保存了上传文件的id,名称,真正的文件保存是保存在一个系统的文…

异步编程利器:CompletableFuture深度解析

本文已收录至Github,推荐阅读 👉 Java随想录 微信公众号:Java随想录 文章目录 摘要如何使用源码解析基本结构内部原理执行流程 方法介绍创建对象异步执行任务链式操作异步任务组合异常处理取值与状态超时控制与取消操作依赖完成并发限制记忆…

yum来安装php727

yum 安装php727,一键安装,都是安装在系统的默认位置,方便快捷 先确定linux平台中centos的版本信息,一下内容针对el7 查看linux版本 : cat /etc/redhat-release 查看内核版本命令: cat /proc/version (0)如果有安装好…

频率阈图像滤波

介绍 频率阈图像滤波是一种在频域中进行图像处理的方法,它基于图像的频率分布来实现滤波效果。具体步骤如下: 将原始图像转换到频域:使用快速傅里叶变换(FFT)将图像从空间域转换到频域。对频域图像应用频率阈滤波器&a…

力扣 | 139. 单词拆分

主要是要注意组合的顺序是任意的&#xff01;所以就要先选择目标字串&#xff0c;再选择wordDict public boolean wordBreak(String s, List<String> wordDict) {// dp[i]: 表示前 i 个字符组成的子串是否可以被 wordDict 中的字符串组合而成boolean[] dp new boolean[s…

Prometheus实战篇:Prometheus告警简介

Prometheus告警简介 简介 告警能力在Prometheus的架构中被划分为俩个独立的部分.如下图所示,通过在Prometheus中定义AlertRule(告警规则),Prometheus会周期性的对告警规则进行计算,如果满足告警触发条件就会向Alertmanager发送告警信息 alertManager作为一个独立的组件,负责接…

Jenkins-Pipeline语法总结大全

这里写目录标题 pipeline的组成1、pipeline最简单结构1.1、pipeline1.2、stages1.3、stage1.4、steps1.5、agent 2、post3、pipeline支持的命令3.1、environment3.2、tools3.3、input3.4、options3.5、parameters3.6、parallel3.7、triggers3.8、when pipeline的组成 1、pipel…