027—pandas 不同分类每天指定取值的比例

前言

本例我们将进行分组计算,分组后得到一个堆叠数据,并对堆叠数据解除堆叠,最后再按要求格式化为百分数样式。
此类操作会经常发生在业务数据透视场景下,一般都会有 Excel 来操作完成,今天我们使用 Python 的 pandas 的完成。

需求:

期望按 Category 分组,得到每日 Repeat 列 Y 值的占比,即 Y/(Y+N) 的百分比。

思路:

  • 根据需求要求,要按 [‘Category’, ‘Date’] 进行分组,分组后最关键的是计算 Y 值的占比,计算占比可以写一个函数,先计算
    Y 的取值数据再除以当前组的总值数。
  • 得到的分组数据是一个堆叠形式的数据,将其解除堆叠,第二层索引会出现在行索引上。
  • 最后再利用 DataFrame 的 style 对象应用 format 方法进行百分数的格式化。

二、使用步骤

1.引入库

代码如下(示例):

import pandas as pd
from io import StringIO

2.读入数据

代码如下(示例):

data = '''
CustomerID Category Repeat Date
1 A Y 2022-01-10
2 B N 2022-01-10
3 A N 2022-02-10
4 A N 2022-01-10
5 B Y 2022-01-10
6 B Y 2022-02-10
7 A Y 2022-01-10
8 B N 2022-02-10
9 A Y 2022-02-10
10 A N 2022-01-10
11 A Y 2022-02-10
12 B N 2022-01-10
13 A N 2022-01-10
14 A N 2022-02-10
15 B Y 2022-02-10
16 B Y 2022-01-10
17 A Y 2022-01-10
18 B N 2022-02-10
19 A Y 2022-02-10
20 A N 2022-01-10
'''

df = pd.read_csv(StringIO(data), sep=' ')
df

在这里插入图片描述

#此时得到的是一个分组对象,每个分组包含各组的子 DataFrame。在计算时,只需要 Repeat 参与计算,因此我们可以取分组对象的 Repeat 的列,就得到了几个 Repeat 分组的子 Series。
#然后对这个分组对象应用函数:
(
    df.groupby(['Category', 'Date'])
    .Repeat
    .apply(lambda x: (x=='Y').sum()/x.count())
)
# 定义的 lambda 函数中,(x=='Y') 得到一个布尔序列,代表子 Series 对应位置上的是否为 Y,
# 由于 sum() 求值时, True 为 1,可以计算出有多少个 True,即得到有多少个值为 Y。
# 分母上的 x.count() 表示子序列有多少个值。

在这里插入图片描述

#上边代码得到的结果就是按 Category 分组下的每天 Y 值的占比。由于结果是一个堆叠形式,我们使用 unstack() 解除堆叠:
(
    df.groupby(['Category', 'Date'])
    .Repeat
    .apply(lambda x: (x=='Y').sum()/x.count())
    .unstack()
)
# 这样,Date 列就成为了列索引。

在这里插入图片描述

# 最后,使用 DataFrame 的 style 对象应用 format 方法进行百分数的格式化。
# 最终代码为:
(
    df.groupby(['Category', 'Date'])
    .Repeat
    .apply(lambda x: (x=='Y').sum()/x.count())
    .unstack()
    .style
    .format("{:.2%}")
)

在这里插入图片描述

总结

以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/450729.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

钉钉扫码登录,sdk问题

别问我为啥会写这玩意。因为有人问到了 1.钉钉扫码登录,网上代码一大堆,但是小同学在抄的时候突然问我,为啥jar包倒入不了。pom添加了,镜像也是阿里的,还是不行 下载了包,按这个放啊发去操作就好了 1.先…

1.Datax数据同步之Windows下,mysql数据同步至另一个mysql数据库

目录 前言步骤操作大纲步骤明细其他问题 前言 Datax是什么? DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、SQL Server、Oracle、PostgreSQL、HDFS、Hive、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。准备…

Hand 3D相关

看到一个不错的文献总结网址,如下 GitHub - SeanChenxy/Hand3DResearch 涉及的内容如下图:

基于SSM框架的民族文化传承与乡村扶贫网站设计与实现【附项目源码】分享

民族文化传承与乡村扶贫网站设计与开发: 源码地址:https://download.csdn.net/download/qq_41810183/88842794 一、引言 随着信息技术的飞速发展,互联网已成为文化传播与经济发展的重要平台。为了有效传承和弘扬民族文化,同时推动乡村地区…

【Linux】Shell编程【一】

shell是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 Shell属于内置的…

Docker上部署LPG(loki+promtail+grafana)踩坑复盘

Docker上部署LPG(lokipromtailgrafana)踩坑复盘 声明网上配置部署踩坑多机采集 声明 参考掘金文章:https://juejin.cn/post/7008424451704356872 版本高的用docker compose命令,版本低的用docker-compose 按照文章描述&#xff0c…

应急响应-Webshell-典型处置案例

网站后台登录页面被篡改 事件背景 在2018年11月29日4时47分,某网站管理员发现网站后台登录页面被篡改,“中招”服务器为windows系统,应采用java语言开发,所使用的中间件为Tomcat。 事件处置 Webshell排查 利用D盾对网站目录进…

C++_包装器

目录 1、包装器的用法 2、包装器的类型 3、包装器的作用 4、包装成员函数 5、bind(绑定) 5.1 bind的用法 5.2 bind减少参数个数 结语 前言: C11的包装器,总称为function包装器,而包装器又称适配器…

模块化机房的成本效益分析

在当今日益数字化的商业环境中,数据中心的建设和运营成本成为企业关注的重点。模块化机房以其独特的优势,不仅满足了快速部署和高效能的需求,还显著降低了总体成本。本文将深入探讨模块化机房在不同方面带来的成本效益。 1.预制模块化设计 …

如何解决由触发器导致 MySQL 内存溢出?

由触发器导致得 OOM 案例分析过程和解决方式。 作者:龚唐杰,爱可生 DBA 团队成员,主要负责 MySQL 技术支持,擅长 MySQL、PG、国产数据库。 爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编…

如何用 RAG 技术玩转文档问答?Milvus × 网易有道 QAnything 为你揭秘!

过去一年,RAG 在技术层面发展迅速,为向量数据库赛道添了一把火。RAG 和向量数据库的结合,能够有效解决幻觉、时效性差、专业领域知识不足等阻碍大模型应用的核心问题。 不久前,网易有道开源了自研的 RAG 引擎 QAnything。用户的任…

如何下载安装chromium浏览器

下载安装chromium浏览器去这个网站下载: CNPM Binaries Mirror 参考链接:手写 Puppeteer:自动下载 Chromium - 知乎

渲染农场:大规模渲染任务的高效处理方式

在当今的数字内容创作领域,渲染农场是处理大规模渲染任务的关键技术,它利用多台计算机的集群来分担复杂的渲染工作,大大提高了效率和速度。这篇文章将深入探讨渲染农场的工作原理、技术架构,以及如何根据需求选择合适的渲染农场。…

Vmware 点进centos不显示鼠标

今天安装了Vmward16 安装后在里面安装了centos7,但进入centos7 时没显示鼠标,但有点击效果。 设置了右上角的 编辑->首选项 -输入-》单击鼠标时抓取键盘和鼠标输入然后重启下vmware,但鼠标还是不显示 后面我的电脑重启了,然后…

【数学】【网格】【状态压缩】782 变为棋盘

作者推荐 视频算法专题 本文涉及知识点 数学 网格 状态压缩 LeetCode:782 变为棋盘 一个 n x n 的二维网络 board 仅由 0 和 1 组成 。每次移动,你能任意交换两列或是两行的位置。 返回 将这个矩阵变为 “棋盘” 所需的最小移动次数 。如果不存在可行的变换&am…

小区水电智能化系统

随着科技的进步,我们的生活变得越来越智能化,而小区水电智能化系统正是这一趋势的典范。这个系统不仅仅是一种便利,更是未来智慧生活的关键组成部分。让我们一起来了解一下它的奥秘吧! 让我们来看看小区水电智能化系统的核心:智能…

【Spring】idea连接mysql数据库

1 MySQL安装 下载地址:https://dev.mysql.com/downloads/installer/ 安装server only选项,之后的可以选择默认安装选项 2 MySQL登录并创建数据 -- 创建数据库 create databases spring_db; use spring_db; -- 创建表 create table users (id INT AUTO…

现货黄金交易网上有用的交易技巧

在不同的现货黄金交易网上,经常有投资者分享交易技巧。由于在网上发文没什么限制,所以这些交易技巧都是泥沙俱下,质量良莠不齐。不过也有一些是有用的,下面我们就来介绍一下现货黄金交易网上那些有用的交易技巧。 培养防守意识。什…

DataFunSummit 2023因果推断在线峰会:解码数据与因果,引领智能决策新篇章(附大会核心PPT下载)

在数据驱动的时代,因果推断作为数据科学领域的重要分支,正日益受到业界的广泛关注。DataFunSummit 2023年因果推断在线峰会,汇聚了国内外顶尖的因果推断领域专家、学者及业界精英,共同探讨因果推断的最新进展、应用与挑战。本文将…

滑动窗口的概念,糊涂窗口综合征,nagle算法

目录 1.流量控制 2.滑动窗口 3.思考问题 1.流量控制 一般来说,我们总是希望数据传输得更快一些,但如果发送方把数据发送得过快,接收方就可能来不及接收,这就会造成数据的丢失.所谓流量控制(flow control)就是发送方的发送速率不要太快,要让接收方来得及接收. 2.滑动窗口 T…