机器学习 | 利用Pandas进入高级数据分析领域

目录

初识Pandas

Pandas数据结构

基本数据操作

DataFrame运算

文件读取与存储

高级数据处理


初识Pandas

Pandas是2008年WesMcKinney开发出的库,专门用于数据挖掘的开源python库,以Numpy为基础,借力Numpy模块在计算方面性能高的优势,其基于matplotlib能够简便画图,具有独特的数据结构。

与Numpy相比,Pandas能够更好地理解数据和发现其关联性,增强图表的可读性

具有丰富的数据清洗功能,可以处理缺失值、重复值、异常值等问题。

当然其还有如下的功能:

数据处理:可以轻松处理各种类型的数据,包括二维表格数据、时间序列数据等。

数据分析:可以轻松地计算均值、中位数、标准差等统计指标。

与其他工具的兼容性:可以使用Pandas读取和写入各种数据格式,如CSV、SQL数据库等。

总之,Pandas是一款功能强大且易于使用的数据分析工具,能够让你高效地处理和分析结构化数据。通过利用Pandas的各种功能,你可以更快地了解数据、发现洞察,并做出有意义的数据驱动决策。

Pandas数据结构

Pandas中一共有三种数据结构,分别为:Series、DataFrame和Multilndex(老版本中叫Panel),其中Series是一维数据结构,DataFrame是二维的表格型数据结构,Multilndex是三维的数据结构。如果电脑没有pandas这个包的话,我们首先终端执行如下命令进行安装:

pip install pandas -i https://pypi.mirrors.ustc.edu.cn/simple

Series:Series是一个类似于一维数组的数据结构,它能够保存任何类型的数据,比如整数、字符串、浮点数等,主要由一组数据和与之相关的索引两部分构成。其代码创建如下:

# 导入 pandas
import pandas as pd

# data:传入的数据,可以是ndarray,list等
# index:索引,必须是唯一的,且与数据的长度相等。
# dtype:数据的类型
pd.Series(data=None, index=None, dtype=None)

以下是通过Series创建的三种方式:

为了更方便地操作Series对象中的索引和数据,Series中提供了两个属性index和values

DataFrame:DataFrame是一个类似于二维数组或表格(如excel)的对象,既有行索引,又有列索引。行索引,表明不同行,横向索引,叫index,0轴,axis=0;列索引,表名不同列,纵向索引,叫columns,1轴,axis=1。其代码创建如下:

# 导入pandas
import pandas as pd

# index:行标签。如果没有传入索引参数,则默认会自动创建一个从o-N的整数索引。
# columns:列标签。如果没有传入索引参数,则默认会自动创建一个从o-N的整数索引。
pd.DataFrame(data=None, index=None, columns=None)

以下是通过DataFrame创建的方式:

为了更方便地操作DataFrame对象中的数据,DataFrame中提供了如下属性进行操作:

如果想对DataFrame索引的内容进行修改的话可以采用如下的方式进行设置(不能单个索引修改):

如果想重置或删除索引的话,可以采用如下的方式进行:

如果想以某列值设置为新的索引,可以采用如下的方式进行:

Multilndex:是三维的数据结构;多级索引(也称层次化索引)是pandas的重要功能,可以在Series、DataFrame对象上拥有2个以及2个以上的索引。

当我们打印上面的年月表格的行索引结果时,给出的结果如下:

多级或分层索引对象中index的属性有names表示levels的名称,levels表示每个levels的元组值:

使用MultiIndex进行创建的方式如下:

基本数据操作

以下是使用pandas对数据进行基本的操作,我们首先通过pandas读取csv获取到数据,然后操作:

索引操作:pandas支持索引选取序列和切片操作,也可以直接使用列名和行名:

赋值操作:可以直接对某项数据进行赋值操作:

排序操作:使用排序操作可以采用如下的方式进行

当然还有更简单的Series排序,使用 Series 排序时,只有一列不需要参数:

DataFrame运算

算术运算:可以采用如下方式

逻辑运算:可以采用如下方式 

当然我们也可以采用相应的函数进行操作:

统计运算:可以采用如下方式 

综合分析直接得出所有字段的统计结果:

如果想求某一字段的累计求和的话,可以采用如下的方式进行:

如果想自定义运算的话,可以采用如下的方式进行: 

文件读取与存储

我们的数据大部分存在于文件当中,所以pandas会支持复杂的iO操作,pandas的API支持众多的文件格式如CSV、SQL、XLS、JSON、HDF5。最常用的就是HDF5和CSV文件:

如果要读取 CSV 可以采用如下的方式:

如果要读取 HDF5 可以采用如下的方式:

注意

1)HDF5在存储的时候支持压缩,使用的方式是blosc,这个是速度最快的也是pandas默认支持的

2)用压缩可以提磁盘利用率,节省空间

3)HDF5还是跨平台的,可以轻松迁移到hadoop上面

如果要读取 JSON 可以采用如下的方式:

高级数据处理

pandas还有需要高级数据处理的操作,就以下几个常用的高级数据操作进行讲解:

缺失值处理:在Pandas中,缺失值表示数据集中的空值或未知值。它们通常由NaN(Not a Number)或None表示,具体取决于数据类型。缺失值可能是由于多种原因造成的,比如数据采集过程中的错误、数据转换过程中的问题、用户未提供某些值等。在数据分析和处理过程中,了解和处理缺失值是非常重要的。如何处理缺失值呢?

首先我们先导入一个电脑数据的分析的案例:

接下来我们对缺失值进行判断,如果存在缺失值进行删除:

接下来我们对缺失值进行判断,如果存在缺失值进行替换: 

如果缺失值不是NaN而是?的话,我们可以进行如下操作:

数据离散化:连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数值代表落在每个子区间中的属性值。离散化有很多种方法,这使用一种最简单的方式去操作:

原始人的身高数据:165,174,160,180,159,163,192,184

假设按照身高分几个区间段:150~165,165~180,180~195

这样我们将数据分到了三个区间段,我可以对应的标记为矮、中、高三个类别,最终要处理成一个"哑变量"矩阵

连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。首先我们先导入数据:

接下来对数据进行一个分组操作:

如果我们想把分组数据变成one-hot编码的话可以采用如下操作(把每个类别生成一个布尔列,这些列中只有一列可以为这个样本取值为1.其又被称为热编码):

数据合并:如果你的数据由多张表组成,那么有时候需要将不同的内容合并在一起分析:

交叉表与透视表:两种用于数据分析和汇总的功能

其使用操作如下:

具体操作如下:

分组与聚合:分组与聚合通常是分析数据的一种方式,通常与一些统计函数一起使用,查看数据的分组情况。其具体操作如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/352312.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【计网·湖科大·思科】实验二 计算机网络的寻址问题

🕺作者: 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux 😘欢迎关注:👍点赞🙌收藏✍️留言 🏇码字不易,你的👍点赞🙌收藏❤️关注对我真的很重要&…

物联网IOT: 风浆叶片拧紧装配及实时监测系统

某大型风电设备,通过机器人应用与精益化生产体系的融合,打造出行业领先的具备柔性生产能力的“脉动式”生产体系。同时在关键工序上。其中,在叶片装配等关键工序上使用由智能机器人代替人工,以提高生产的效率和装配质量可靠性,将六轴机器人、视觉系统、光电系统、液压、气动、伺…

RISC-V常用汇编指令

RISC-V寄存器表: RISC-V和常用的x86汇编语言存在许多的不同之处,下面将列出其中部分指令作用: 指令语法描述addiaddi rd,rs1,imm将寄存器rs1的值与立即数imm相加并存入寄存器rdldld t0, 0(t1)将t1的值加上0,将这个值作为地址,取…

科技助力“双碳”:墨水屏电子桌牌在绿色办公中的作用

随着科技的发展,人们对绿色环境可持续发展也越来越重视,所以,我国在几年前,就提出了“双碳”政策(即碳达峰与碳中和的简称。2020年9月中国明确提出2030年“碳达峰”与2060年“碳中和”目标),而作…

DNS欺骗

DNS(域名系统)作为当前全球最大 、最复杂的分布式层次数据库系统,具有着开放、庞大、复杂的特性。它为全球用户提供域名解析服务,是互联网的重要基础设施。但由于其在设计之初未考虑安全性、人为破坏等因素 ,DNS系统在互联网高度发达的今天面…

Python之数据可视化(地图)

目录 一 基础地图应用 二 全国疫情图 一 数据准备 二 数据处理 二 湖北省疫情图 一 数据准备 二 数据处理 一 基础地图应用 导入map地图对象 from pyecharts.charts import Map map Map() 写入数据 data [("北京市",100),("上海市"…

详细解读vcruntime140_1.dll修复的手段,如何快速解决vcruntime140_1.dll丢失问题

当出现“无法找到vcruntime140_1.dll”或程序“未能正常启动”时,这通常指示系统中缺失了一个关键文件:vcruntime140_1.dll。作为Visual C Redistributable组件的一部分,这个小文件在很多用Visual Studio编译的C程序运行时发挥着重要作用。解…

OJ_叠框问题

问题描述 c语言实现 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<string.h> using namespace std;int main() {int n; //存放外框尺寸int a,b; //存放两个字符char matrix[100][100] { 0 };//全部初始化为休止符/0while (scanf("%d %c %c&…

【开源】基于JAVA的实验室耗材管理系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 耗材档案模块2.2 耗材入库模块2.3 耗材出库模块2.4 耗材申请模块2.5 耗材审核模块 三、系统展示四、核心代码4.1 查询耗材品类4.2 查询资产出库清单4.3 资产出库4.4 查询入库单4.5 资产入库 五、免责说明 一、摘要 1.1…

IntelliJ IDEA 快捷键大全

IntelliJ IDEA 快捷键大全 一、文本编辑二、构建、编译项目 一、文本编辑 CtrlN 查找类 CtrlN 查找文件 CtrlF 查找文本 可以根据需求去选择红框内的选项 CtrlX 剪切 剪切选中文本&#xff0c;如果未选中则剪切当前行CtrlC 复制 复制选中文本&#xff0c;如果未选中则复制当前…

机房环境动力监控系统:S275远程控制网关助力高效管理

现场问题 1、机房安全隐患 机房存在意外断电、温湿度过高过低、漏水断路等隐患&#xff0c;传统监测手段难以提前发现和预警。 2、机房远程运维困难 因环境改变、非授权活动、设备状态变化等引起的事故&#xff0c;难以满足机房远程运维的可靠管控要求。 3、机房改造成本高…

数论Leetcode204. 计数质数、Leetcode858. 镜面反射、Leetcode952. 按公因数计算最大组件大小

Leetcode204. 计数质数 题目 给定整数 n &#xff0c;返回 所有小于非负整数 n 的质数的数量 。 代码 class Solution:def countPrimes(self, n: int) -> int:if n < 2:return 0prime_arr [1 for _ in range(n)]prime_arr[0], prime_arr[1] 0, 0ls list()for i in…

南方故乡吹来的风

故乡的风 - 张明敏 词&#xff1a;刘因国 曲&#xff1a;刘因国 南方故乡吹来的风 带着潮水的呼唤 吹着你的秀发 飘散着茉莉的香 茉莉的香哟 南方故乡吹来的风 带着渔船的归航 吹着你的欢畅 吹着渔帆点点醉哟 点点的醉哟 远方的姑娘 你是否听见 我的心在嘿哟 你…

缓存技术—redis

一、redis介绍 1.什么是NoSQL NosQL (Not-Only:sQL)&#xff0c;泛指非关系型的数据库(关系型数据库: 以二维表形式存储数据) 非关系型的数据库现在成了一个极其热门的新领域&#xff0c;发展非常迅速。而传统的关系数据库在应付超大规模和高并发的网站已经显得力不从…

设计模式-生成器设计模式

什么是生成器设计模式 众所周知我们设计代码的时候要将代码设计出模块化的&#xff0c;一个功能是一个模块&#xff0c;那么生成器设计模式&#xff0c;是将一个类再度进行了一个拆分&#xff0c;让一个类的内部进行了单一职责化&#xff0c;其实我们在平时开发的时候就会不经…

金智易表通构建学生缴费数据查询+帆软构建缴费大数据报表并整合到微服务

使用金智易表通挂接外部数据,快速建设查询类服务,本次构建学生欠费数据查询,共有3块设计,规划如下: 1、欠费明细查询:学校领导和财务处等部门可查询全校欠费学生明细数据;各二级学院教职工可查询本二级学院欠费学生明细数据。 2、大数据统计报表:从应收总额、欠费总额…

Debezium发布历史90

原文地址&#xff1a; https://debezium.io/blog/2020/04/09/using-debezium-with-apicurio-api-schema-registry/ 欢迎关注留言&#xff0c;我是收集整理小能手&#xff0c;工具翻译&#xff0c;仅供参考&#xff0c;笔芯笔芯. 将 Debezium 与 A​​picurio API 和架构注册表…

每次请求sessionid变化【SpringBoot+Vue】

引言&#xff1a;花了一晚上的时间&#xff0c;终于把问题解决了&#xff0c;一开始后端做完后,用apifox所有接口测试都是可以的,但当前端跑起来后发现接收不到后端的数据。 当我写完前后端&#xff0c;主页面和获取当前页面信息接口后&#xff0c;配置了cros注解 CrossOrigin…

【PythonRS】Rasterio库安装+基础函数使用教程

Rasterio是一个Python库&#xff0c;专门用于栅格数据的读写操作。它支持多种栅格数据格式&#xff0c;如GeoTIFF、ENVI和HDF5&#xff0c;为处理和分析栅格数据提供了强大的工具。RasterIO适用于各种栅格数据应用&#xff0c;如卫星遥感、地图制作等。通过RasterIO&#xff0c…

奇怪问题说 - 测试篇

文章目录 1.什么是软件测试2.软件测试和开发的区别3.软件测试的发展&#xff1a;4.软件测试岗位5.软件测试在不同类型公司的定位6.一个优秀的软件测试人员具备的素质6.1综合能力6.2掌握自动化测试技术6.3优秀的测试用例设计能力6.4探索性思维6.5有责任感和一定的压力 7.软件测试…