【机器学习5】数据处理(二)Pandas:表格处理

Pandas:表格处理

  • 🌟🌟Pandas三种数据类型
  • ✨✨Series数据结构
  • ✨✨ DataFrame数据结构
  • 🌙🌙DataFrame数据的选取
    • 🌕🌕DataFrame的构建
    • 🌕🌕选取多行
    • 🌕🌕选取某一列
    • 🌕🌕选取多列
    • 🌕🌕单条件过滤
    • 🌕🌕多条件过滤
    • 🌙🌙获取列名和行名
    • 🌙🌙观察DataFrame的内容
  • ✨✨变量的变换
  • ✨✨表格的拼接
  • ✨✨ 表格的分组操作
    • 🌙🌙按照分组求均值、求和
  • ✨✨表格的拼接

🌟🌟Pandas三种数据类型

Pandas提供了三种数据类型,分别是SeriesDataFramePanel。Series用于保存一维数据,DataFrame用于保存二维数据,Panel用于保存三维数据或者可变维数据。平时的表格处理数据分析最常用的数据类型是SeriesDataFrame,Panel较少用到。

✨✨Series数据结构

Series本质上是一个含有索引的一维数组,其包含一个左侧自动生成的index和右侧的values值,分别使用s.indexs.values进行查看。

下面举个例子:
在这里插入图片描述
下面我们导入数据:

import pandas  as pd
s=pd.read_excel("D:\A_data\Data_Series.xlsx")
s

运行结果如下:
在这里插入图片描述
其中,左侧这一列就是索引列,下面我们分别打印s.index和s.values
在这里插入图片描述
在这里插入图片描述
index返回一个index对象,而values返回一个array。

✨✨ DataFrame数据结构

DataFrame(数据框)类似于Excel电子表格,也与R语言中DataFrame的数据结构类似。

🌙🌙DataFrame数据的选取

🌕🌕DataFrame的构建

import pandas as pd
df=pd.DataFrame({'x':['a','b','c'],'y':[1,2,3],'z':[4,5,6]})
df

在这里插入图片描述

🌕🌕选取多行

方法一:

df.iloc[[0,1],:]

在这里插入图片描述

df.iloc[[0,2],:]

在这里插入图片描述
方法二:

df.loc[['0','2'],:]

在这里插入图片描述

🌕🌕选取某一列

df.y
df['y']
df.loc[:,['y']]
df.iloc[:,[1]]

🌕🌕选取多列

方法一:

df.iloc[:,[1,2]]

在这里插入图片描述
方法二:

df.loc[:,['x','y']]

在这里插入图片描述
方法三:

df[['x','y']]

在这里插入图片描述

🌕🌕单条件过滤

df[df.z>=5]

在这里插入图片描述

🌕🌕多条件过滤

df[(df.z>=4)&(df.z<=5)]

在这里插入图片描述

🌙🌙获取列名和行名

df.columns #获取列名
df.index  #获取行名

🌙🌙观察DataFrame的内容

df.info() #打印属性信息
df.head()# 查看前五行的数据
df.tail()#查看后五行的数据

✨✨变量的变换

有时候,我们需要对DataFrame某列的每个元素都进行运算处理,从而产生并添加新的列

我么可以直接对DataFrame的列进行加减乘除某个数,产生新的列:

df['z1']=df['z']*2

在这里插入图片描述

apply、applymap和map方法都可以向对象中的数据传递函数,主要区别如下:
🌙apply的操作对象是DataFrame的某一列(axis=1)或者某一行(axis=0)
🌙applymap的操作对象是元素极,作用于每个DataFrame的每个数据
🌙map的操作对象也是元素极,但其是对Series的每个数据调用一次函数

使用apply方法,结合lambda表达式,可以为原数据框添加新的列:

df['z2']=df.apply(lambda x:x['z']*2 if x['z']==4 else x['z'],axis=1)

在这里插入图片描述

✨✨表格的拼接

有时候,我们需要在已有数据框的基础上添加新的行或者列,或者横向或纵向的表格。此时我们需要使用pd.concat函数或者append函数实现该功能。

✨✨ 表格的分组操作

DataFrame往往存在某列包含多个类别的数据,例如上次博客中的经典的葡萄酒数据集。我们以此为例。

import pandas as pd
file_path="D:\A_data\Data_wine数据\wine.xlsx"
df=pd.read_excel(file_path)
df

在这里插入图片描述
使用 groupby()函数进行分组操作:

df1=df.groupby('label')
df

在这里插入图片描述
分组之后的结果与原来数据一样,这是因为在类别标签‘label’这一列,原来的数据就是按照0、1、2三种类别的顺序排下来的。

🌙🌙按照分组求均值、求和

求均值:

df2=df.groupby('label').mean()
df2

在这里插入图片描述
当然了,也可以只打出我们想要的某一列的均值:

df2=df.groupby('label').ash.mean()
df2

在这里插入图片描述
求和:

对于这个葡萄酒数据集可能求和操作并没有意义,但在此只是练习:

df2=df.groupby('label').sum()
df2

在这里插入图片描述
求方差:

df2=df.groupby('label').std()
df2

在这里插入图片描述

✨✨表格的拼接

有时候,我们需要在已有数据框的基础上添加新的行或者列,或者横向或纵向的表格。此时我们需要使用pd.concat函数或者append函数实现该功能。

其中,axis=0表示沿纵轴连接。axis=1表示沿横轴连接。
下面我们再举一个例子:
(我觉得2020年国赛数学建模国赛C题很不错)
首先,我们可以看一下,这是一个多sheet Excel:
在这里插入图片描述
在这里插入图片描述

而且,sheet2 、sheet3企业代号就是sheet1中企业的所有发票信息,也就是说一个企业就有很多发票号码。
我们需要整合sheet2,以及sheet3中的信息,将一个企业的某一个指标进行计算,然后希望补到heet1中,形成一个更宏观的表格。

分析指标:总进项价税额:是指企业在一段时间内购进产品的价值总和,该值越高说明企业的生产和经营规模就越大,可以作为衡量企业生产规模大小的有效指标。

我希望根据sheet2算出这个指标,然后添加到sheet1中。
首先导入数据。

import pandas as pd
file_path="D:\A_data\Data.2020.C\附件1:123家有信贷记录企业的相关数据.xlsx"
df=pd.read_excel(file_path,sheet_name=None)
df

这里设置sheet_name=None,会将所有的sheet都整合在df中。
在这里插入图片描述
将sheet1保存至df1

df1=pd.read_excel(file_path,sheet_name='企业信息')
df1

在这里插入图片描述

将我们所要研究的sheet2即“进项发票信息”保存给df2

df2=pd.read_excel(file_path,sheet_name='进项发票信息')
df2

在这里插入图片描述
根据sheet2计算总进项价税额:

df2_=df2.groupby(['企业代号'],as_index=False,sort=False)['价税合计'].sum()
df2_

在这里插入图片描述
这里注意,设置参数sort=False,不然会改变企业代号的排序。
在这里插入图片描述
删除企业代号这一列:

df2_.drop(labels='企业代号',axis=1,inplace=False)

参数说明:axis默认为0,指删除行,axis=1,指删除列。
inplace=False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新DataFrame。inplace=True,则会直接在原数据上进行删除操作,且删除后无法返回。

在这里插入图片描述

😭😭😭😭**由于我拼接表格,添加新的一列,没有成功。弄出来是这个样子的:**😱😱😱
在这里插入图片描述
所以下面我是导出数据,形成一个新的excel,然后利用excel复制粘贴到sheet1中。

df2__.to_excel("D:\A_data\Data.2020.C\进项价税合计.xlsx")

在这里插入图片描述

还要继续努力呀😭😭😭😭加油加油!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/74963.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【广州华锐视点】VR燃气轮机故障判断模拟演练系统

VR燃气轮机故障判断模拟演练系统由广州华锐视点开发&#xff0c;是一款基于虚拟现实技术的教育工具&#xff0c;旨在为学生提供一个安全、高效、互动的学习环境&#xff0c;帮助他们更好地掌握燃气轮机的故障诊断技能。 这款VR实训软件能够模拟真实的燃气轮机故障诊断场景&…

JVM---理解jvm之对象已死怎么判断?

目录 引用计数算法 什么是引用 可达性分析算法&#xff08;用的最多的&#xff09; 引用计数算法 定义&#xff1a;在对象中添加一个引用计数器&#xff0c;每当有一个地方引用它时&#xff0c;计数器值就加一&#xff1b;当引用失效时&#xff0c;计数器值就减一&#xff1…

利用python实现批量登录网络设备进行日常巡检

利用python实现批量登录网络设备 实现ensp与物理机互通ensp 配置配置网络设备远程登录 用python实现批量登录常见问题 通过阅读本文可以学习自动化运维相关知识&#xff0c;本文章代码可以直接使用&#xff0c;通过批量登录功能后&#xff0c;可以按照自己意愿进行功能更改与完…

CentOS7最小化安装使用KVM虚拟化

说明&#xff1a;本文初衷在于记录一次实战经验&#xff0c;以便后续参考&#xff0c;不具有任何权威作用&#xff0c;如若对你有帮助深感荣幸&#xff01; 一、环境安装 CentOS Linux release 7.9.2009 (Core)【不带GUI】Xshell 6Xmanager 6 # 执行 export DISPLAY客户端机器…

MongoDB数据库

目录 一、概述 二、安装 三、目录结构 四、MongoDB数据库操作 五、MongoDB数据库备份 一、概述 mongodb是一个nosql数据库&#xff0c;它有高性能、无模式、文档型的特点。是nosql数据库中功能最丰富&#xff0c;最像关系数据库的。数据库格式为BSON 相关概念 实例&…

计算机网络-物理层(二)- 传输方式

计算机网络-物理层&#xff08;二&#xff09;- 传输方式 串型传输与并行传输 串行传输:是指数据是一个比特一个比特依次发送的&#xff0c;因此在发送端和接收端之间&#xff0c;只需要一条数据传输线路即可 并行传输:是指一次发送n个比特而不是一个比特&#xff0c;因此发送…

电脑ip地址怎么改 ip地址怎么改到别的城市

一、ip地址怎么改到别的城市 1.ip地址怎么改到别的城市&#xff0c;1、重启WIFI路由设备 一般手机或电脑在家或公司上网时都是接入到路由器的WIFI网络,再由路由器分配上网IP地址,如果要更换上网IP那么重启路由器设备后,路由器会向网络运营商进行宽带的重新拨号,此时手机或电脑设…

Gin安装解决国内go 与 热加载

get 方式安装超时问题&#xff0c;国内直接用官网推荐的下面这个命令大概率是安装不成功的 go get -u github.com/gin-gonic/gin 可以在你的项目目录下执行下面几个命令&#xff1a; 比如我的项目在E:\Oproject\zl cmd E:\Oproject\zl>就在目录下执行 go env -w GO111…

推断统计(配对样本t检验)

根据题目我们也可以看出配对样本 t 检验是用来检验两配对正态总体的均值是否存在显著差异的一种假设检验方法&#xff0c;虽然是两组数据但是其来自同一部分个体在两个时间段内的测试数据&#xff0c;是同一部份个体&#xff01; 进行配对样本 t 检验之后也是分别做出原假设和备…

i18n 配置vue项目中英文语言包(中英文转化)

一、实现效果 二、下载插件创建文件夹 2.1 下载cookie来存储 npm install --save js-cookienpm i vue-i18n -S 2.2 封装组件多页面应用 2.3 创建配置语言包字段 三、示例代码 3.1 main.js 引用 i18n.js import i18n from ./lang// 实现语言切换:i18n处理element&#xff0c…

【计算机视觉|生成对抗】改进的生成对抗网络(GANs)训练技术

本系列博文为深度学习/计算机视觉论文笔记&#xff0c;转载请注明出处 标题&#xff1a;Improved Techniques for Training GANs 链接&#xff1a;[1606.03498v1] Improved Techniques for Training GANs (arxiv.org) 摘要 本文介绍了一系列应用于生成对抗网络&#xff08;G…

数据库设计

一 需求分析(requirement analysis) 根据用户对系统的使用需求&#xff0c;明确系统需要的数据和它们如何使用。也是整个设计过程的基础。通过详细调查现实世界要处理的对象&#xff0c;充分了解原系统工作概况&#xff0c;明确用户的各种需求&#xff0c;然后在此基础上确定新…

STM32F103C8T6蓝牙OTA教程

一、准备与简介 1. 准备材料 文章使用的软硬件并不局限&#xff0c;下述仅作参考&#xff0c;文章的所有使用的工程可在文末获取&#xff08;百度网盘Github&#xff09; 1&#xff09;STM32F103C8T6核心板 2&#xff09;下载器&#xff08;PWLINK&#xff09; 3&#xff0…

Linux文件属性查看和修改学习

一、基本属性 1、看懂文件属性&#xff1a; Linux系统是一种典型的多用户系统&#xff0c;不同的用户处于不同的地位&#xff0c;拥有不同的权限。为了保护系统的安全性&#xff0c; Linux系统对不同的用户访问同一文件&#xff08;包括目录文件&#xff09;的权限做了不同的…

Spark(39):Streaming DataFrame 和 Streaming DataSet 输出

目录 0. 相关文章链接 1. 输出的选项 2. 输出模式(output mode) 2.1. Append 模式(默认) 2.2. Complete 模式 2.3. Update 模式 2.4. 输出模式总结 3. 输出接收器(output sink) 3.1. file sink 3.2. kafka sink 3.2.1. 以 Streaming 方式输出数据 3.2.2. 以 batch …

Https、CA证书、数字签名

Https Http协议 Http协议是目前应用比较多应用层协议&#xff0c;浏览器对于Http协议已经实现。Http协议基本的构成部分有 请求行 &#xff1a; 请求报文的第一行请求头 &#xff1a; 从第二行开始为请求头内容的开始部分。每一个请求头都是由K-V键值对组成。请求体&#xf…

微服务05-Sentinel流量防卫兵

随着微服务的流行,服务和服务之间的稳定性变得越来越重要。Sentinel 是面向分布式、多语言异构化服务架构的流量治理组件,主要以 流量 为切入点,从流量路由、流量控制、流量整形、熔断降级、系统自适应过载保护、热点流量防护等多个维度来帮助开发者保障微服务的稳定性。 S…

06-2_Qt 5.9 C++开发指南_自定义对话框及其调用

本篇介绍到的对话框及其调用实例较为复杂但十分详细&#xff0c;如果做了解可以先参考&#xff1a;QT从入门到实战x篇_13_模态和非模态对话框创建。 文章目录 1. 对话框的不同调用方式2. 对话框QWDialogSize 的创建和使用2.1 创建对话框QWDialogSize2.2 对话框的调用和返回值 …

C++入门基础(万字详解!!!)

文章目录 前言1.C关键字2.命名空间3.C的输入输出4.缺省参数4.1 全缺省4.2 半缺省 5.函数重载6. 引用6.1 引用的特性6.2 引用的使用场景6.3 引用和指针 7.内联函数7.1 特性 8.auto关键字8.1 注意事项 9. 基于范围的for循环9.1 使用条件 10.指针控制nullptr10.1 注意事项 11.总结…

LVGL学习笔记 28 - 键盘keyboard

目录 1. 设置关联文本框 2. 设置模式 2.1 LV_KEYBOARD_MODE_TEXT_LOWER 2.2 LV_KEYBOARD_MODE_TEXT_UPPER 2.3 LV_KEYBOARD_MODE_SPECIAL 2.4 LV_KEYBOARD_MODE_NUMBER 2.5 LV_KEYBOARD_MODE_USER_1 ~ LV_KEYBOARD_MODE_USER_4 3. 使能弹窗模式 4. 更改按键布局 5. 事…