开源的 Python 数据分析库Pandas 简介

         阅读本文之前请参阅-----如何系统的自学python

        Pandas 是一个开源的 Python 数据分析库,它提供了高性能、易用的数据结构和数据分析工具。Pandas 特别适合处理表格数据,例如时间序列数据、异构数据等。以下是对 Pandas 的简明扼要的介绍,包括一些基本的概念和操作示例。

        Pandas 的核心数据结构

1. **Series**:一维的带标签数组,可以存储任何数据类型(整数、字符串、浮点数、Python 对象等)。
2. **DataFrame**:二维的表格型数据结构,具有灵活的行索引和可变的列名。DataFrame 可以被看作是一个由 Series 组成的字典。

        安装 Pandas

在 Python 环境中,你可以使用 pip 来安装 Pandas:


pip install pandas

        创建 Series

创建一个 Series 非常简单,你只需要传递一个列表或数组给 Series 构造器,并为它指定一个索引。


import pandas as pd

# 创建一个 Series
s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print(s)

输出:


a    1
b    3
c    5
d    7
e    9
dtype: int64
 

        创建 DataFrame

DataFrame 可以通过多种方式创建,例如从一个字典、一个列表的列表、一个 Series 的字典等。

```python
# 创建一个 DataFrame
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 22],
    'Salary': [85000, 92000, 60000]
})
print(df)

输出:


       Name  Age  Salary
0    Alice   24   85000
1      Bob   27   92000
2  Charlie   22   60000
 

        数据访问

在 Pandas 中,你可以使用多种方式来访问数据。


# 访问单个值
print(df.loc[0, 'Name'])  # 输出:Alice

# 访问多行多列
print(df.loc[0:1, ['Name', 'Age']])

# 访问列
print(df['Name'])

# 访问行
print(df.loc[0])

# 使用条件访问数据
print(df[df['Age'] > 25])

        数据操作

Pandas 提供了丰富的数据操作功能,包括排序、筛选、合并、分组等。


# 排序
df_sorted = df.sort_values(by='Age', ascending=False)
print(df_sorted)

# 筛选
df_filtered = df[df['Salary'] > 70000]
print(df_filtered)

# 合并
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})
df_merged = pd.merge(df1, df2, on='A')
print(df_merged)

# 分组
grouped = df.groupby('Name')['Salary'].mean()
print(grouped)

        数据清洗

Pandas 提供了多种数据清洗工具,例如处理缺失值、重复值等。


# 处理缺失值
df['Missing'] = [1, 2, None, 4]
df_cleaned = df.dropna()  # 删除包含缺失值的行
print(df_cleaned)

# 处理重复值
df['Duplicate'] = [1, 1, 2, 2]
df_unique = df.drop_duplicates()  # 删除重复的行
print(df_unique)

        数据聚合

Pandas 允许你对数据进行聚合操作,例如计算总和、平均值、最大值、最小值等。


# 聚合操作
print(df.sum())  # 计算每列的总和
print(df.mean())  # 计算每列的平均值
print(df.max())  # 计算每列的最大值
print(df.min())  # 计算每列的最小值

        时间序列分析

Pandas 在处理时间序列数据方面非常强大,它提供了许多用于日期和时间的工具。


# 创建时间序列数据
dates = pd.date_range('20230101', periods=3)
ts = pd.Series([1.5, -1.2, 2.8], index=dates)
print(ts)

# 时间序列操作
print(ts.resample('D').mean())  # 按天聚合数据

        结论

        Pandas 是一个功能强大的数据分析库,它提供了丰富的数据结构和数据分析工具。通过使用 Pandas,你可以轻松地进行数据清洗、处理、分析和可视化。无论是数据科学家、数据分析师还是数据工程师,Pandas 都是 Python 生态系统中不可或缺的一部分。掌握 Pandas 的基本用法,将极大地提高你的数据处理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/415990.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【MATLAB】兔子机器人动力学模型解读(simulink中的simscape的各模块介绍)

1、动力学模型 Rectangular Joint 控制平面上(x,y轴)的移动,去掉以后,机器人在原地翻滚不移动 Rigid Transform 坐标转换,B站视频已收藏 去掉,机体与地面贴合 此处的作用是设定机体的初…

深入探究【观察者模式】:简单音乐会售票系统案例分析

文章目录 1.观察者模式概述基本概念:工作原理: 2.案例-音乐会抢票2.1.具体实现2.1.1.被观察者接口2.1.2.被观察者实现类2.1.3.定义观察者接口2.1.3.定义观察者实现类2.1.4.测试观察者 3.总结3.1.优点和局限性3.2.思考 1.观察者模式概述 观察者模式是一种…

动态规划(算法竞赛、蓝桥杯)--混合背包DP

1、B站视频链接&#xff1a;E14 背包DP 混合背包_哔哩哔哩_bilibili #include <bits/stdc.h> using namespace std; const int N1010,M10000; int a[M],b[M],c[M];//体积、价值、类型 int f[N];int main(){int n,m,v,w,s;cin>>n>>m;int num1;for(int i1;i&…

精准杜绝医疗设备漏费的智慧防线

19339904493&#xff08;康&#xff09; 医疗设备漏费管理系统&#xff0c;如同医疗设备的智慧守望者&#xff0c;时刻守护着患者的权益与医院的利益。它运用先进的人工智能算法&#xff0c;深度读取设备内部图像与项目信息&#xff0c;通过深度学习图像并分析患者的检查部位、…

如何保护服务器的安全

互联网的迅速发展&#xff0c;让很多企业都很重视网络技术的使用&#xff0c;但是网络的传播速度比较快&#xff0c;同时容易造成数据、隐私方面的泄露现在每个企业基本有自己的服务器。有几点需要注意&#xff0c;可以参考&#xff1a; 1.基础密码安全 最基本的安全就是密码安…

Docker数据卷-自定义镜像

一.数据卷 1.1数据卷的基本使用 数据卷是一个特殊的目录&#xff0c;用于在Docker容器中持久化和共享数据。 数据卷的主要特点包括&#xff1a; 数据持久性&#xff1a;数据卷允许您在容器的生命周期之外保持数据的持久性。即使容器被删除&#xff0c;数据卷中的数据依然存在&…

礼遇派兑|神工坊龙年豪礼大放送,千元惊喜等你来领

新年伊始 万象更新 转眼间 已全面复工复学啦&#xff01; 前方警告⚠️&#xff1a;“年后再说”已无退路 万千“子涵”在线求助 别担心&#xff01;神工坊替你解决&#xff01; 神工坊高性能工业仿真平台 以国家超级计算无锡中心 丰富的软件资源和海量的硬件资源为支撑…

接口测试实战--mock测试、日志模块

一、mock测试 在前后端分离项目中,当后端工程师还没有完成接口开发的时候,前端开发工程师利用Mock技术,自己用mock技术先调用一个虚拟的接口,模拟接口返回的数据,来完成前端页面的开发。 接口测试和前端开发有一个共同点,就是都需要用到后端工程师提供的接口。所以,当…

本届挑战赛季军方案:构建由大模型辅助的基于多模态数据融合的异常检测、根因诊断和故障报告生成系统

DDopS团队荣获本届挑战赛季军。该团队来自中山大学计算机学院Intelligent DDS 实验室。实验室主要方向为云计算、智能运维(AIOps)、软件定义网络、分布式软件资源管理与优化、eBPF 性能监控与优化等。 选题分析 基于对竞赛数据的洞察和对时代趋势的考量&#xff0c;我们尝试应…

苹果Vision Pro芯片级拆解:339S01186传感器协处理器,电源管理芯片:343S00627、343S00628、343S00629

2月2日&#xff0c;苹果官方发售Vision Pro后&#xff0c;引发了抢购潮&#xff0c;产品“秒光”&#xff0c;甚至将起售价 3499 美元一度炒到近 9 万元人民币的代购价。 日前知名维修网站iFixit又一次“首拆”了苹果Vision Pro&#xff0c;每一块电路板、每一颗螺丝钉、每一颗…

阿里云4核16G服务器多少钱?幻兽帕鲁配置报价

2024阿里云幻兽帕鲁专用服务器价格表&#xff1a;4核16G幻兽帕鲁专用服务器26元一个月、149元半年&#xff0c;默认10M公网带宽&#xff0c;8核32G幻兽帕鲁服务器10M带宽价格90元1个月、271元3个月。阿里云提供的Palworld服务器是ECS经济型e实例&#xff0c;CPU采用Intel Xeon …

FPGA高端项目:FPGA基于GS2971的SDI视频接收转HDMI输出,提供3套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐本博已有的 SDI 编解码方案本方案的SDI图像缩放应用本方案的SDI纯verilog图像缩放视频拼接应用本方案的SDI HLS图像缩放视频拼接应用本方案的SDI视频编码动态字符叠加输出应用本方案的SDI视频编码多路视频融合视频叠加应用本方案的SDI视频…

npm 最新淘宝镜像配置 + nrm工具配置及使用

一、前言 npm 淘宝镜像已经从 registry.npm.taobao.org 切换到了 registry.npmmirror.com &#xff08;HTTPS 证书到期不能用了&#xff09; 二、直接命令配置 1、执行以下命令即可切换淘宝源 npm config set registry https://registry.npmmirror.com/2、执行以下命令即可…

学不动系列-eslint

ESLint 介绍在最简单的项目使用eslint,包括eslint的vscode插件的使用&#xff0c;自动化格式代码&#xff0c;自动化修复代码&#xff0c;和webpack&#xff0c;vite的配合使用 单独使用 第一步&#xff1a;构建一个空项目 npm init -y 在根目录新建文件./src/app.js&#…

C++重点---STL简介

顾得泉&#xff1a;个人主页 个人专栏&#xff1a;《Linux操作系统》 《C从入门到精通》 《LeedCode刷题》 键盘敲烂&#xff0c;年薪百万&#xff01; 一、STL简介 STL&#xff08;Standard Template Library&#xff09;是C标准库中的一个重要组成部分&#xff0c;它提供了…

跳跃游戏Ⅱ

问题 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。换句话说&#xff0c;如果你在 nums[i] 处&#xff0c;你可以跳转到任意 nums[i j] 处: 0 < j < nums[i] i j < n 返回到达 nums[n - …

SpringBoot整合rabbitmq-直连队列,没有交换机(一)

说明&#xff1a;本文章只是springboot和rabbitmq的直连整合&#xff0c;只使用队列生产和消费消息&#xff0c;最简单整合&#xff01; 工程图&#xff1a; A.总体pom.xml <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://…

压力测试工具Jmeter的下载与使用

1、进入官网下载Jmeter https://jmeter.apache.org/ 国内镜像&#xff08;下载的慢的话可以用国内镜像下载&#xff09; https://mirrors.cloud.tencent.com/apache/jmeter/binaries/ 2、跳转到下载页面 3、根据不同系统下载相应版本的Jmeter压缩包&#xff0c;Linux系统下载…

精品springboot校园失物招领系统

《[含文档PPT源码等]精品基于springboot校园失物招领系统[包运行成功]》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程、包运行成功&#xff01; 软件开发环境及开发工具&#xff1a; Java——涉及技术&#xff1a; 前端使用技术&#xff1a;HTML5,…

机器学习——CBOW基于矩阵(手动实操)

基于矩阵的CBOW基础算法&#xff0c;其实是负采样的前提算法。 主要是根据 预测准确率为22%左右 说实话。。。我已经很满意了&#xff0c;至少这个东西是可以去预测的&#xff0c;至于预测为什么不正确&#xff0c;我目前猜测主要还是跟词频有关。 在结果中&#xff0c;an…