【Python】进阶学习:pandas--groupby()用法详解

📊【Python】进阶学习:pandas–groupby()用法详解

在这里插入图片描述

🌈 个人主页:高斯小哥
🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程👈 希望得到您的订阅和支持~
💡 创作高质量博文(平均质量分92+),分享更多关于深度学习、PyTorch、Python领域的优质内容!(希望得到您的关注~)


🌵文章目录🌵

  • 🤔 一、为什么需要groupby()?
  • 🎯 二、groupby()的基本用法
  • 📈 三、聚合运算
  • 🛠️ 四、高级用法与技巧
    • 🔧 应用自定义函数
    • 🔄 数据转换
    • 🔍 过滤数据
  • 🛠️ 五、实际案例应用
  • 🎉 六、总结
  • 🤝 七、期待与你共同进步

  👋 欢迎来到Python进阶学习之旅!今天,我们将深入探讨pandas库中非常强大的groupby()函数。groupby()函数在数据分析和数据清洗中发挥着关键作用,能够帮助我们轻松地对数据进行分组、聚合和转换。

🤔 一、为什么需要groupby()?

  在处理大量数据时,我们经常需要按照某个或多个特征对数据进行分组,以便更好地理解数据的结构和关系。例如,我们可能希望按照年份、地区或产品类别对数据进行分组,并对每个组进行聚合运算,如求和、平均值、最大值等。这时,groupby()函数就显得非常有用。

🎯 二、groupby()的基本用法

  首先,我们需要导入pandas库,并创建一个示例数据集。然后,我们可以使用groupby()函数按照指定的列对数据进行分组。

import numpy as np
import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)

# 使用groupby按列'A'进行分组
grouped = df.groupby('A')


# 打印分组后的GroupBy对象
print(grouped)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2C070B8E0>

  上述代码将按照列’A’的值对DataFrame进行分组,并返回一个GroupBy对象。我们可以进一步对这个对象进行聚合运算。

📈 三、聚合运算

  GroupBy对象提供了多种聚合函数,如sum()mean()max()等。我们可以使用这些函数对每个组进行聚合运算。

import numpy as np
import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)

# 使用groupby按列'A'进行分组
grouped = df.groupby('A')

# 打印分组后的对象
print(grouped)

# 计算每个组的平均值
mean_grouped = grouped.mean()
print(mean_grouped)

# 计算每个组的总和
sum_grouped = grouped.sum()
print(sum_grouped)

输出:

            C         D
A                      
bar  0.658173 -0.225388
foo  0.778100 -0.164148
           C         D
A                     
bar  1.97452 -0.676164
foo  3.89050 -0.820740

  除了内置的聚合函数外,我们还可以使用agg()函数应用自定义的聚合函数。例如,我们可以计算每个组的标准差:

import numpy as np
import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)

# 使用groupby按列'A'进行分组
grouped = df.groupby('A')

# 打印分组后的对象
print(grouped)

# 计算每个组的标准差
std_grouped = grouped.agg(np.std)
print(std_grouped)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002B2F480B880>
            C         D
A                      
bar  0.101229  0.274698
foo  0.996597  0.812362

🛠️ 四、高级用法与技巧

  除了基本的分组和聚合操作外,groupby()还提供了许多高级功能,如应用自定义函数、转换数据等。

🔧 应用自定义函数

  我们可以使用apply()方法应用自定义函数到每个组。例如,我们可以定义一个函数来计算每个组的最大值和最小值之差:

import numpy as np
import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)

# 使用groupby按列'A'进行分组
grouped = df.groupby('A')

# 打印分组后的对象
print(grouped)

# 定义一个自定义函数,计算每个组的最大值和最小值之差
def range_diff(group):
    return group.max() - group.min()

# 使用apply()应用自定义函数
diff_grouped = grouped.apply(range_diff)
print(diff_grouped)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002ACBD83AA60>
            C         D
A                      
bar  2.497695  1.086924
foo  2.826518  2.063781

🔄 数据转换

  groupby()还提供了transform()方法,用于将聚合运算的结果广播到原始数据的每一行。这在数据转换中非常有用。

import numpy as np
import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)

# 使用groupby按列'A'进行分组
grouped = df.groupby('A')

# 打印分组后的对象
print(grouped)

# 使用transform()方法将每个组的平均值广播到原始数据的每一行
mean_transformed = grouped['C'].transform('mean')
print(mean_transformed)

# 将转换后的平均值添加到原始DataFrame中
df['C_mean'] = mean_transformed
print(df)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000188A56DA8E0>
0    0.344876
1   -1.358760
2    0.344876
3   -1.358760
4    0.344876
5   -1.358760
6    0.344876
7    0.344876
Name: C, dtype: float64
     A         C         D    C_mean
0  foo  0.783914 -1.027288  0.344876
1  bar -2.072893 -0.972087 -1.358760
2  foo  0.035637 -0.315908  0.344876
3  bar -1.953068  0.409697 -1.358760
4  foo  0.576048 -0.258289  0.344876
5  bar -0.050318 -1.115734 -1.358760
6  foo  0.093456  0.106227  0.344876
7  foo  0.235322  1.365150  0.344876

🔍 过滤数据

  除了聚合和转换外,我们还可以使用filter()方法根据条件过滤出满足条件的组。

import numpy as np
import pandas as pd

# 创建一个简单的DataFrame
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
}
df = pd.DataFrame(data)

# 使用groupby按列'A'进行分组
grouped = df.groupby('A')

# 打印分组后的对象
print(grouped)

# 使用filter()方法过滤出满足条件的组(例如,组的大小大于3)
filtered_groups = grouped.filter(lambda x: len(x) > 3)
print(filtered_groups)

输出:

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000015ADE2FA940>
     A         C         D
0  foo  1.967217  0.005976
2  foo  0.950149  0.098143
4  foo  0.568101  1.461587
6  foo -1.905337 -1.106591
7  foo -0.168686  0.692850

🛠️ 五、实际案例应用

  最后,让我们通过一个实际案例来演示如何应用groupby()函数进行数据分析和清洗。

  假设我们有一个包含销售数据的DataFrame,其中包含日期、地区、产品名称、销售额等列。我们希望按地区和产品名称对数据进行分组,并计算每个组的总销售额。

import numpy as np
import pandas as pd

# 创建一个包含销售数据的DataFrame
sales_data = {
    'date': pd.date_range(start='2023-01-01', periods=100),
    'region': np.random.choice(['North', 'South', 'East', 'West'], size=100),
    'product': np.random.choice(['Product A', 'Product B', 'Product C'], size=100),
    'sales': np.random.rand(100) * 1000
}
df_sales = pd.DataFrame(sales_data)

# 按地区和产品名称对数据进行分组,并计算总销售额
grouped_sales = df_sales.groupby(['region', 'product'])['sales'].sum().reset_index()

# 打印分组后的销售额
print(grouped_sales)

输出:

   region    product        sales
0    East  Product A  2728.679432
1    East  Product B  1847.966730
2    East  Product C  4518.356763
3   North  Product A  5882.374531
4   North  Product B  5519.364196
5   North  Product C  4229.953852
6   South  Product A  5303.784425
7   South  Product B  2321.080682
8   South  Product C  4239.002167
9    West  Product A  1689.650513
10   West  Product B  4002.790867
11   West  Product C  4894.553548

  在这个案例中,我们首先创建了一个包含销售数据的DataFrame。然后,我们使用groupby()函数按地区和产品名称对数据进行分组,并使用sum()函数计算每个组的总销售额。最后,我们使用reset_index()函数将结果转换为一个新的DataFrame,并打印出来。

🎉 六、总结

  groupby()函数是pandas库中一个非常强大的工具,它允许我们按照一个或多个特征对数据进行分组,并对每个组进行聚合、转换和过滤操作。通过熟练掌握groupby()函数的用法,我们可以更高效地处理和分析大量数据,从而洞察数据的内在结构和关系。希望这篇博客能够帮助你更好地理解和应用groupby()函数!

🤝 七、期待与你共同进步

  🌱 亲爱的读者,非常感谢你每一次的停留和阅读!你的支持是我们前行的最大动力!🙏

  🌐 在这茫茫网海中,有你的关注,我们深感荣幸。你的每一次点赞👍、收藏🌟、评论💬和关注💖,都像是明灯一样照亮我们前行的道路,给予我们无比的鼓舞和力量。🌟

  📚 我们会继续努力,为你呈现更多精彩和有深度的内容。同时,我们非常欢迎你在评论区留下你的宝贵意见和建议,让我们共同进步,共同成长!💬

  💪 无论你在编程的道路上遇到什么困难,都希望你能坚持下去,因为每一次的挫折都是通往成功的必经之路。我们期待与你一起书写编程的精彩篇章! 🎉

  🌈 最后,再次感谢你的厚爱与支持!愿你在编程的道路上越走越远,收获满满的成就和喜悦!祝你编程愉快!🎉

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/425187.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习】有监督学习算法之:支持向量机

支持向量机 1、引言2、决策树2.1 定义2.2 原理2.3 实现方式2.4 算法公式2.5 代码示例 3、总结 1、引言 小屌丝&#xff1a;鱼哥&#xff0c;泡澡啊。 小鱼&#xff1a;不去 小屌丝&#xff1a;… 此话当真&#xff1f; 小鱼&#xff1a;此话不假 小屌丝&#xff1a;到底去还是…

ssm666社区流浪动物救助领养系统的设计与开发

** &#x1f345;点赞收藏关注 → 私信领取本源代码、数据库&#x1f345; 本人在Java毕业设计领域有多年的经验&#xff0c;陆续会更新更多优质的Java实战项目希望你能有所收获&#xff0c;少走一些弯路。&#x1f345;关注我不迷路&#x1f345;** 一 、设计说明 1.1 课题…

Window下编写的sh文件在Linux/Docker中无法使用

Window下编写的sh文件在Linux/Docker中无法使用 一、sh文件目的1.1 初始状态1.2 目的 二、过程与异常2.1 首先获取标准ubuntu20.04 - 正常2.2 启动ubuntu20.04容器 - 正常2.3 执行windows下写的preInstall文件 - 报错 三、检查和处理3.1 评估异常3.2 处理异常3.3 调整后运行测试…

笔记本hp6930p安装Android-x86补记

在上一篇日记中&#xff08;笔记本hp6930p安装Android-x86避坑日记-CSDN博客&#xff09;提到hp6930p安装Android-x86-9.0&#xff0c;无法正常启动&#xff0c;本文对此再做尝试&#xff0c;原因是&#xff1a;Android-x86-9.0-rc2不支持无线网卡&#xff0c;需要在BIOS中关闭…

前端学习第六天-css浮动和定位

达标要求 了解浮动的意义 掌握浮动的样式属性 熟练应用清除浮动 熟练掌握定位的三种方式 能够说出网页布局的不同方式的意义 1. 浮动(float) 1.1 CSS 布局的三种机制 网页布局的核心——就是用 CSS 来摆放盒子。CSS 提供了 3 种机制来设置盒子的摆放位置&#xff0c;分…

【推荐算法系列十七】:GBDT+LR 排序算法

排序算法经典中的经典 参考 推荐系统之GBDTLR 极客时间 手把手带你搭建推荐系统 课程 逻辑回归&#xff08;LR&#xff09;模型 逻辑回归&#xff08;LR,Logistic Regression&#xff09;是一种传统机器学习分类模型&#xff0c;也是一种比较重要的非线性回归模型&#xff…

0.8秒一张图40hx矿卡stable diffusion webui 高质极速出图组合(24.3.3)

新消息是。经过三个月的等待&#xff0c;SD Webui (automatic1111)终于推出了新版本1.8.0&#xff0c;本次版本最大的更新&#xff0c;可能就是pytorch更新到2.1.2, 不过还是晚了pytorch 2.2.2版。 不过这版的一些更新&#xff0c;在forget分支上早就实现了&#xff0c;所以。…

快递批量查询高手:轻松管理物流信息,提升工作效率

快递批量查询高手&#xff1a;轻松管理物流信息&#xff0c;提升工作效率着 电商市场的不断壮大&#xff0c;物流行业的发展也日新月异。在如此繁忙的物流环境中&#xff0c;如何高效地管理物流信息成为了一个重要的课题。而在这个背景下&#xff0c;一款名为“快递批量查询高…

Linux网络编程——网络基础

Linux网络编程——网络基础 1. 网络结构模式1.1 C/S 结构1.2 B/S 结构 2. MAC 地址3. IP地址3.1 简介3.2 IP 地址编址方式 4. 端口4.1 简介4.2 端口类型 5. 网络模型5.1 OSI 七层参考模型5.2 TCP/IP 四层模型 6. 协议6.1 简介6.2 常见协议6.3 UDP 协议6.4 TCP 协议6.5 IP 协议6…

时产20吨成套饲料生产线设备;一键式操作省时省力

时产20吨成套饲料生产线设备采用钢架结构&#xff0c;确保了设备的稳定性和耐用性。这种结构不仅提供了强大的支撑力&#xff0c;还使得设备在长时间运行过程中能够保持稳定的性能。 该生产线设备由多个关键部分组成&#xff0c;包括原料预处理系统、粉碎系统、混合系统、制粒…

k8s-prometheus监控部署 22

新建项目仓库并上传部署prometheus所需的镜像 开始部署 修改svc访问方式为LoadBalancer 查看用户名和密码 访问grafana监控页面 http://192.168.182.103/​​​​​​ 修改可视化模板 官方监控模板&#xff1a;https://grafana.com/grafana/dashboards 访问prometheus监控页面…

vue2结合electron开发跨平台应用(桌面端应用)

1.确定nodejs和electron的版本号 确定nodejs和electron的版本号及其重要&#xff0c;因为electron的开发版本需要指定的nodejs版本支持。 本文安装测试使用的是: 1.node18.19.0 2.npm10.2.3 3.vue-cli5.0.8 4.electron29.0.0 2.创建vue2项目 vue create elctron29.0.0_no…

【MySQL】:约束全解析

&#x1f3a5; 屿小夏 &#xff1a; 个人主页 &#x1f525;个人专栏 &#xff1a; MySQL从入门到进阶 &#x1f304; 莫道桑榆晚&#xff0c;为霞尚满天&#xff01; 文章目录 &#x1f4d1;前言一. 约束概述二. 约束演示三. 外键约束3.1 介绍3.2 语法3.3 删除/更新行为 &…

2024最新EasyRecovery数据恢复软件的优点介绍

EasyRecovery数据恢复软件的优点主要包括&#xff1a; 强大的恢复能力&#xff1a;EasyRecovery采用先进的深度扫描技术&#xff0c;能够恢复因误删除、格式化、分区丢失或损坏等多种原因丢失的数据。它支持从各种存储设备中恢复数据&#xff0c;包括硬盘、U盘、SD卡等。广泛的…

MyBatisPlus(SpringBoot版)的分页插件

目录 一、前置工作: 1.整体项目目录结构 2.创建普通javamaven项目。 3.导入依赖&#xff0c;改造成springboot项目 4.配置启动类 5.创建service接口及其实现类 6.创建接口Mapper 7.配置数据源 8.创建数据库表 二、使用MP&#xff08;mybatisplus&#xff09;的分页插件 二、使…

上限和下限之间的随机值

实验结果; 上限和下限之间的随机值 第一步&#xff1a;新建项目 第二步&#xff1a;找到相应的部件 第三步&#xff1a;实验结果验证

【C++】STL学习之旅——初识STL,认识string类

string类 1 STL 简介2 STL怎么学习3 STL缺陷4 string4.1 初识 string4.2 初步使用构造函数成员函数 5 小试牛刀Thanks♪(&#xff65;ω&#xff65;)&#xff89;谢谢阅读&#xff01;&#xff01;&#xff01;下一篇文章见&#xff01;&#xff01;&#xff01; 1 STL 简介 …

【深度学习笔记】计算机视觉——目标检测和边界框

目标检测和边界框 前面的章节&#xff08;例如 sec_alexnet— sec_googlenet&#xff09;介绍了各种图像分类模型。 在图像分类任务中&#xff0c;我们假设图像中只有一个主要物体对象&#xff0c;我们只关注如何识别其类别。 然而&#xff0c;很多时候图像里有多个我们感兴趣…

故障诊断 | 一文解决,XGBoost极限梯度提升树的故障诊断(Matlab)

效果一览 文章概述 故障诊断 | 一文解决,XGBoost极限梯度提升树的故障诊断(Matlab) 模型描述 XGBoost通过集成多个决策树来建立一个强大的预测模型。它采用了一种特殊的梯度提升技术,称为极限梯度提升(Extreme Gradient Boosting),以提高模型的性能和鲁棒性。 极限梯度…

Pygame教程01:初识pygame游戏模块

Pygame是一个用于创建基本的2D游戏和图形应用程序。它提供了一套丰富的工具&#xff0c;让开发者能够轻松地创建游戏和其他图形应用程序。Pygame 支持许多功能&#xff0c;包括图像和声音处理、事件处理、碰撞检测、字体渲染等。 Pygame 是在 SDL&#xff08;Simple DirectMed…