《Python基础》之Pandas库

目录

一、简介

二、Pandas的核心数据结构

1、Series

2、DataFrame

三、数据读取与写入

1、数据读取

 2、数据写入

四、数据清洗与处理

1、处理缺失值

2、处理重复值

3、数据转换

五、数据分析与可视化

1、统计描述

2、分组聚合

3、数据可视化

六、高级技巧

1、时间序列分析

2、数据透视表

七、总结


在数据科学的世界里,Python 的 Pandas 库无疑是一把瑞士军刀。无论你是数据分析师、数据科学家,还是机器学习工程师,Pandas 都是你不可或缺的工具。本文将带你深入了解 Pandas 库的核心功能、常用操作以及一些高级技巧,帮助你更好地利用这个强大的工具。

一、简介

Pandas 是一个开源的数据处理和分析库,由 Wes McKinney 在 2008 年创建。它建立在 NumPy 库之上,提供了高效、灵活的数据结构,使得数据操作和分析变得更加简单和直观。Pandas 主要的数据结构是 Series 和 DataFrame,分别用于处理一维和二维的数据。

二、Pandas的核心数据结构

1、Series

Series 是 Pandas 中的一维数组,类似于带标签的数组。每个元素都有一个标签(索引),可以通过标签访问数据。

import pandas as pd

# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s)

2、DataFrame

DataFrame 是 Pandas 中的二维表格数据结构,类似于电子表格或 SQL 表。它由行和列组成,每列可以是不同的数据类型。

# 创建一个 DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'city': ['New York', 'Los Angeles', 'Chicago']
}
df = pd.DataFrame(data)
print(df)

 

三、数据读取与写入

Pandas 支持从多种数据源读取数据,包括 CSV、Excel、SQL 数据库、JSON 等。同样,它也支持将数据写入这些格式。

1、数据读取

# 从 CSV 文件读取数据
df = pd.read_csv('data.csv')

# 从 Excel 文件读取数据
df = pd.read_excel('data.xlsx')

# 从 SQL 数据库读取数据
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table_name', conn)

 2、数据写入

# 将数据写入 CSV 文件
df.to_csv('output.csv', index=False)

# 将数据写入 Excel 文件
df.to_excel('output.xlsx', index=False)

# 将数据写入 SQL 数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)

四、数据清洗与处理

数据清洗是数据分析过程中非常重要的一步。Pandas 提供了丰富的功能来处理缺失值、重复值、异常值等。

1、处理缺失值

# 检查缺失值
print(df.isnull().sum())

# 删除包含缺失值的行
df_cleaned = df.dropna()

# 填充缺失值
df_filled = df.fillna(method='ffill')  # 前向填充
df_filled = df.fillna(method='bfill')  # 后向填充
df_filled = df.fillna(df.mean())      # 用均值填充

2、处理重复值

# 检查重复值
print(df.duplicated().sum())

# 删除重复值
df_cleaned = df.drop_duplicates()

3、数据转换

# 数据类型转换
df['age'] = df['age'].astype(float)

# 数据标准化
df['age'] = (df['age'] - df['age'].mean()) / df['age'].std()

五、数据分析与可视化

Pandas 提供了丰富的数据分析功能,包括统计描述、分组聚合、透视表等。结合 Matplotlib 和 Seaborn 等可视化库,可以轻松创建各种图表。

1、统计描述

# 统计描述
print(df.describe())

# 计算相关系数
print(df.corr())

2、分组聚合

# 按城市分组并计算平均年龄
grouped = df.groupby('city')['age'].mean()
print(grouped)

3、数据可视化

import matplotlib.pyplot as plt
import seaborn as sns

# 绘制柱状图
df['age'].plot(kind='bar')
plt.show()

# 绘制散点图
sns.scatterplot(x='age', y='city', data=df)
plt.show()

六、高级技巧

1、时间序列分析

Pandas 提供了强大的时间序列处理功能,支持日期解析、时间差计算、重采样等。

# 创建时间序列数据
dates = pd.date_range('20230101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))

# 重采样
df_monthly = df.resample('M').mean()
print(df_monthly)

2、数据透视表

数据透视表是数据分析中非常有用的工具,Pandas 提供了 pivot_table 函数来创建透视表。

# 创建数据透视表
pivot_table = pd.pivot_table(df, values='age', index='city', columns='name', aggfunc='mean')
print(pivot_table)

七、总结

Pandas 是数据科学领域中不可或缺的工具,它提供了丰富的功能来处理、分析和可视化数据。无论你是初学者还是经验丰富的数据科学家,掌握 Pandas 都将极大地提升你的工作效率。希望本文能帮助你更好地理解和使用 Pandas,开启你的数据科学之旅。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/928336.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch在liunx 中单机部署

下载配置 1、下载 官网下载地址 2、上传解压 tar -zxvf elasticsearch-XXX.tar.gz 3、新建组和用户 (elasticsearch 默认不允许root账户) #创建组 es groupadd es #新建用户 useradd ryzhang -g es 4、更改文件夹的用户权限 chown -R ryzhang …

基于 MVC 的 SpringBoot 高校行政事务管理系统:设计思路与实现步骤详解

2系统开发环境 2.1vue技术 Vue (读音 /vjuː/,类似于 view) 是一套用于构建用户界面的渐进式JavaScript框架。 [5] 与其它大型框架不同的是,Vue 被设计为可以自底向上逐层应用。Vue 的核心库只关注视图层,不仅易于上手,还便于与第…

不敢相信,Nginx 还能这么玩?

大家好,我是程序员鱼皮。今天来聊聊 Nginx 技术,这是一个企业项目必用,但是却经常被程序员忽略的技术。学好 Nginx,可以助你在求职中脱颖而出。 或许你会想:“Nginx 不就是用来部署网站的服务器嘛?这有何难…

【AI系统】指令和存储优化

指令和存储优化 除了应用极广的循环优化,在 AI 编译器底层还存在指令和存储这两种不同优化。 指令优化 指令优化依赖于硬件提供的特殊加速计算指令。这些指令,如向量化和张量化,能够显著提高计算密度和执行效率。向量化允许我们并行处理数…

底部导航栏新增功能按键

场景需求: 在底部导航栏添加power案件,单击息屏,长按 关机 如下实现图 借此需求,需要掌握技能: 底部导航栏如何实现新增、修改、删除底部导航栏流程对底部导航栏部分样式如何修改。 比如放不下、顺序排列、坑点如…

基于Matlab卡尔曼滤波的GPS/INS集成导航系统研究与实现

随着智能交通和无人驾驶技术的迅猛发展,精确可靠的导航系统已成为提升车辆定位精度与安全性的重要技术。全球定位系统(GPS)和惯性导航系统(INS)在导航应用中各具优势:GPS提供全球定位信息,而INS…

Jenkins升级到最新版本后无法启动

1. 场景还原 最近在web界面将jenkins升级到最新版本后,后台无法启动jenkins服务,服务状态如下: 运行jenkins命令提示invalid Java version jenkins --version jenkins: invalid Java version: java version "1.8.0_202" Java(TM)…

shell编程 1 (泷羽sec)

声明 学习视频来自B站UP主 泷羽sec,如涉及侵泷羽sec权马上删除文章。 笔记只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 这节课旨在扩大自己在网络安全方面的知识面,了解网络安全领域的见闻,了…

威联通-001 手机相册备份

文章目录 前言1.Qfile Pro2.Qsync Pro总结 前言 威联通有两种数据备份手段:1.Qfile Pro和2.Qsync Pro,实践使用中存在一些区别,针对不同备份环境选择是不同。 1.Qfile Pro 用来备份制定目录内容的。 2.Qsync Pro 主要用来查看和操作文…

【机器学习】分类任务: 二分类与多分类

二分类与多分类:概念与区别 二分类和多分类是分类任务的两种类型,区分的核心在于目标变量(label)的类别数: 二分类:目标变量 y 只有两个类别,通常记为 y∈{0,1} 或 y∈{−1,1}。 示例&#xff…

GaussDB(类似PostgreSQL)常用命令和注意事项

文章目录 前言GaussDB(类似PostgreSQL)常用命令和注意事项1. 连接到GaussDB数据库2. 查看当前数据库中的所有Schema3. 进入指定的Schema4. 查看Schema下的表、序列、视图5. 查看Schema下所有的表6. 查看表结构7. 开始事务8. 查询表字段注释9. 注意事项&a…

点灯大师——WIFI控制灯

在之前的教程中,我们学习了 ESP6266 的原理,并动手写了驱动,实现了串口的通讯和 STA、AP、STAAP 三种模式。本次我们就来教大家如何使用 ESP8266 控制灯。这是一个简单的示例,展示了如何将 WIFI 通信与硬件控制相结合,…

如何使用brew安装phpredis扩展?

如何使用brew安装phpredis扩展? phpredis扩展是一个用于PHP语言的Redis客户端扩展,它提供了一组PHP函数,用于与Redis服务器进行交互。 1、cd到php某一版本的bin下 /usr/local/opt/php8.1/bin 2、下载 phpredis git clone https://githu…

Android 使用OpenGLES + MediaPlayer 获取视频截图

概述 Android 获取视频缩略图的方法通常有: ContentResolver: 使用系统数据库MediaMetadataRetriever: 这个是android提供的类,用来获取本地和网络media相关文件的信息ThumbnailUtils: 是在android2.2(api8)之后新增的一个,该类为…

面向对象(二)——类和对象(上)

1 类的定义 做了关于对象的很多介绍,终于进入代码编写阶段。 本节中重点介绍类和对象的基本定义,属性和方法的基本使用方式。 【示例】类的定义方式 // 每一个源文件必须有且只有一个public class,并且类名和文件名保持一致! …

echarts的双X轴,父级居中的相关配置

前言:折腾了一个星期,在最后一天中午,都快要放弃了,后来坚持下来,才有下面结果。 这个效果就相当是复合表头,第一行是子级,第二行是父级。 子级是奇数个时,父级label居中很简单&…

顶刊算法 | 鱼鹰算法OOA-BiTCN-BiGRU-Attention多输入单输出回归预测(Maltab)

顶刊算法 | 鱼鹰算法OOA-BiTCN-BiGRU-Attention多输入单输出回归预测(Maltab) 目录 顶刊算法 | 鱼鹰算法OOA-BiTCN-BiGRU-Attention多输入单输出回归预测(Maltab)效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实…

Agile VMO分享:海尔案例

海尔集团是全球最大的家电制造商之一,拥有超过76 000名员工。它获得了2018-2019年全球智能家电品牌前10名和2018-2019年全球消费电子品牌前50名的荣誉。 海尔利用价值流结构将自己组织成一些可以自管理的微型企业。这些微型企业拥有决策,设计和交付新产品…

第七课 Unity编辑器创建的资源优化_UI篇(UGUI)

上期我们学习了简单的Scene优化,接下来我们继续编辑器创建资源的UGUI优化 UI篇(UGUI) 优化UGUI应从哪些方面入手? 可以从CPU和GPU两方面考虑,CPU方面,避免触发或减少Canvas的Rebuild和Rebatch&#xff0c…

LabVIEW MathScript工具包对运行速度的影响及优化方法

LabVIEW 的 MathScript 工具包 在运行时可能会影响程序的运行速度,主要是由于以下几个原因: 1. 解释型语言执行方式 MathScript 使用的是类似于 MATLAB 的解释型语言,这意味着它不像编译型语言(如 C、C 或 LabVIEW 本身的 VI&…