python之Pandas

1.Pandas简介

Pandas 是 Python 语言的一个扩展程序库,用于数据分析。

Pandas 名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python 数据分析)。

Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。

Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。

Pandas 广泛应用在学术、金融、统计学等各个数据分析领域。

安装方式:

pip install pandas
#查看版本
import pandas as pd
pd.__version__

2. Pandas 中数据结构

2.1 Series

Series结构,也称 Series序列,是Pandas常用的数据结构之一,它是一种类似于一维数组的结构,由一组数据值(value)和一组标签组成,其中标签与数据值具有对应关系。

标签不必是唯一的,但必须是可哈希类型。该对象既支持基于整数的索引,也支持基于标签的索引,并提供了许多方法来执行涉及索引的操作。ndarray 的统计方法已被覆盖,以自动排除缺失的数据(NaN)。

Series可以保存任何数据类型,比如整数、字符串、浮点数、Python对象等,它的标签默认为整数,从0开始依次递增。

Series类似于表格中的一个列(column),类似于一个一维数组:

格式

pandas.Series(data,index,dtype,name,copy)

参数说明:

  • data:一组数据(ndarray 类型)。
  • index:数据索引标签,如果不指定,默认从 0 开始。
  • dtype:数据类型,默认会自己判断。
  • name:设置名称。
  • copy:拷贝数据,默认为 False。

代码示例

a = [1,2,3]
my_var = pd.Series(a,index=['a','b','c'],dtype=float,name='myvar')
print(my_var)

也可以使用key/value对象创建Series:

dict1 = {'aa':'a','bb':'b','cc':'c'}
myvar = pd.Series(dict1,index = ['aa','bb','cc'])
myvar
# aa    a
# bb    b
# cc    c
# dtype: object

2.2 DataFrame

DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值)。

DataFrame 既有行索引也有列索引,因此它可以被看做是:共用一个索引,由Series组成的字典。

在这里插入图片描述

格式

pandas.DataFrame(data,index,coolumns,dtype,copy)

参数说明

  • data:一组数据(ndarray、series, map, lists, dict 等类型)。
  • index:索引值,或者可以称为行标签。
  • columns:列标签,默认为 RangeIndex (0, 1, 2, …, n) 。
  • dtype:数据类型。
  • copy:拷贝数据,默认为 False。

代码示例

import pandas as pd
data = [
    ['Google',1],
    ['Baidu',2],
    ['Wiki',3],
]
df = pd.DataFrame(data,columns=['Name','Count'])
print(df)
#      Name  Count
# 0  Google      1
# 1   Baidu      2
# 2    Wiki      3

3. Pandas 处理CSV文件

CSV(Comma-Separated Values,以逗号为分割值,有时也称为字符分割值,因为分割字符也可以不是逗号,其文件以纯文本形式存储表格数据(数字和文本))。

CSV是一种通用的、相对简单的文件格式,被用户、商业和科学广泛应用。

代码演示

df = pd.read_csv('anjuke.csv')
print(df)

如果不使用df.to_string(),则输出结果为数据前面5行,和后面5行,而中间部分则以… 代替,如图所示:

在这里插入图片描述

因此,需要全部显示需要使用:df.to_string()

如果需要将DataFrame转换为.csv文件,可以调用:to_csv()

name = ['xiaofang','xiaoming','xiaohua']
address = ['beijin','tianjin','xian']
ag = [90,80,70]

# 组成字典
dict1 = {'Name':name,'Address':address,'Ag':ag}
df = pd.DataFrame(dict1)

#
print(df)
print(df.Name[0])
#保存dataframe
df.to_csv('my.csv') 

3.1 查看CSV数据

3.1.1 head(n):读取前面的n行,如果不填参数,默认返回前5行
df = pd.read_csv('anjuke.csv')
print(df.head())
print(df.head(6))
3.1.2 head(n):读取尾部的后n行,如果不填参数,默认返回后5行

如果是空行,各个字段的值都返回NaN

df = pd.read_csv('anjuke.csv')
print(df.head())
print(df.head(6))
3.1.3 info():返回表格的一些基本信息
import pandas as pd
df = pd.read_csv('anjuke.csv')
print(df.info())

4.Pandas 处理JSON文件

JSON(JavaScript Object Notation,JavaScript对象表示法),是存储和交换文本信息的语法,类似于XML。JSON语法是JavaScript对象表示语法的子集。

特点

  • 数据在名称/键值对中
  • 数据由逗号 , 分隔
  • 使用斜杆 \ 来转义字符
  • 大括号 {} 保存对象
  • 中括号 [] 保存数组,数组可以包含多个对象

JSON 比XML更小、更快,更容易解析。Pandas 可以很方便的处理JSON数据。

实例代码:

df = pd.read_json('site.json')
# print(df.info)
print(df)

to_string() 用于返回 DataFrame 类型的数据. JSON 对象与 Python 字典具有相同的格式,因此可以相互转换。

而当遇到嵌套的复杂JSON数据时,例如mix.js中如图所示:

{
    "school_name": "ABC primary school",
    "class": "Year 1",
    "students": [
        {
            "id": "A001",
            "name": "Tom",
            "math": 60,
            "physics": 66,
            "chemistry": 61
        },
        {
            "id": "A002",
            "name": "James",
            "math": 89,
            "physics": 76,
            "chemistry": 51
        },
        {
            "id": "A003",
            "name": "Jenny",
            "math": 79,
            "physics": 90,
            "chemistry": 78
        }
    ]
}

这时候我们就需要使用到 json_normalize() 方法将内嵌的数据完整的解析出来,具体来说:json_normalize() 使用了参数 record_path 并设置为 [‘students’] 用于展开内嵌的 JSON 数据 students。

代码示例:

import pandas as pd
import json

# 使用Python JSON 模块载入数据
with open('mix.json','r') as f:
    data = json.loads(f.read())

#将嵌套的JSON数据展平
df = pd.json_normalize(
    data,
    record_path=['students'],
    meta=['school_name','class']
)
print(df)

结果如图

在这里插入图片描述

5.Pandas 数据清洗

数据清晰是对一些没有用的数据进行处理的过程。

因为数据集存在数据缺失、数据格式错误、错误数据或者数据重复的情况。如果想要对数据分析更加准确的前提,就必须对错误的数据进行处理。

实战示范:利用Pandas包进行数据清洗,数据集如下:

在这里插入图片描述
上表的数据集中包含了四种空数据:n/a 、NA、 --、na、87)]

文本预处理示范代码:见下面资源文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/86470.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构OJ题】相交链表

原题链接:https://leetcode.cn/problems/intersection-of-two-linked-lists/description/ 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 看到这道题,很容易想到的方法就是暴力求解,就是将一个链表的每个结点的地址…

校园二手物品交易平台/二手交易系统/基于java的校园跳蚤市场系统

​ 摘 要 本文论述了校园二手物品交易平台的设计和实现,该网站从实际运用的角度出发,运用了计算机网站设计、数据库等相关知识,网络和Mysql数据库设计来实现的,网站主要包括用户注册、用户登录、浏览商品、搜索商品、查看商品并进…

【数据结构】顺序队列模拟实现

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …

React+Typescript从请求数据到列表渲染

我们在项目src目录下创建一个目录 叫 pages 在里面创建一个组件叫 list.tsx 这里 我启动了自己的java项目 创建接口 你们就也需要弄几个自己的接口做测试 然后 list.tsx 编写代码如下 import * as React from "react";export default class hello extends React.C…

uniapp 回退到指定页面 保存页面状态

uniapp 历史页面回退到指定页面。 getCurrentPages() 内容如下 let delta getCurrentPages().reverse().findIndex(item > item.route "pages/popularScience/daodi") if(delta-1){uni.navigateTo({url: /pages/popularScience/daodi,success: res > {},fa…

Blazor前后端框架Known-V1.2.13

V1.2.13 Known是基于C#和Blazor开发的前后端分离快速开发框架,开箱即用,跨平台,一处代码,多处运行。 Gitee: https://gitee.com/known/KnownGithub:https://github.com/known/Known 概述 基于C#和Blazo…

element+vue 表格行拖拽功能

解决方案 使用 sortable.js 步骤一&#xff1a; 安装 npm install vuedraggable步骤二&#xff1a;引入 import Sortable from sortablejs;步骤三&#xff1a; el-table 添加row-key属性&#xff0c;外层包一层 sortableDiv <div class"sortableDiv"> 拖…

学习开发振弦采集模块的注意事项

学习开发振弦采集模块的注意事项 &#xff08;三河凡科科技/飞讯教学&#xff09;振弦采集模块是一种用来实时采集和处理振弦信号的电子设备&#xff0c;在工业、航空、医疗等领域都有广泛应用。学习开发振弦采集模块需要注意以下几点&#xff1a; 一、硬件选择 首先需要选择…

SpeedBI数据可视化工具:浏览器上做分析

SpeedBI数据分析云是一种在浏览器上进行数据可视化分析的工具&#xff0c;它能够将数据以可视化的形式呈现出来&#xff0c;并支持多种数据源和图表类型。 所有操作&#xff0c;均在浏览器上进行 在浏览器中打开SpeedBI数据分析云官网&#xff0c;点击【免费使用】进入&#…

【C++/C 实现球球大作战】

目录 1.引言2.游戏设计&#xff1a;概述游戏的玩法和操作方式。3.游戏实现&#xff08;1&#xff09;函数 GameInit() 初始化游戏的函数。&#xff08;2&#xff09;函数 GameDraw() 用于绘制游戏场景的函数。&#xff08;3&#xff09;函数 keyControl(int speed) 负责处理键盘…

安装搭建私有仓库Harbor

目录 一、安装docker编排工具docker compose 二、安装Harbor软件包 三、修改配置文件 四、运行安装脚本 五、安装后验证 六、使用Harbor 一、安装docker编排工具docker compose 在github上选择自己想要的版本下载 https://github.com/docker/compose/releases 下载好…

Apache和Nginx各有什么优缺点,应该如何选择?

Apache和Nginx各有什么优缺点&#xff0c;应该如何选择&#xff1f; Apache和Nginx都有各自的优点和缺点&#xff0c;选择应该根据您的具体需求而定。Nginx的优点包括&#xff1a;轻量级&#xff0c;与同等web服务相比&#xff0c;Nginx占用更少的内存和资源&#xff1b;抗并发…

评测凯迪仕K70「千里眼」智能锁:不忘安全初心,便捷体验更上一层

能打败凯迪仕的&#xff0c;只有它自己。这是我们在体验过凯迪仕最新旗舰产品K70「千里眼」智能锁之后的感受。作为凯迪仕2023年最新旗舰机型&#xff0c;K70「千里眼」智能锁在配置上可以说是「机皇」般的存在。3K超高清智能锁猫眼、车规级24GHz雷达、大小双屏设计、三方可视对…

2023网络建设与运维模块三:服务搭建与运维

任务描述: 随着信息技术的快速发展,集团计划2023年把部分业务由原有的X86架构服务器上迁移到ARM架构服务器上,同时根据目前的部分业务需求进行了部分调整和优化。 一、X86架构计算机操作系统安装与管理 1.PC1系统为ubuntu-desktop-amd64系统(已安装,语言为英文),登录用户…

AlphaZero能否从围棋和国际象棋飞跃到量子计算?

一项新的研究表明&#xff0c;DeepMind惊人的游戏算法AlphaZero可以帮助释放量子计算的力量和潜力。 自两年多前出现以来&#xff0c;AlphaZero一再证明了其快速学习能力&#xff0c;将自己提升到围棋&#xff0c;国际象棋和将棋&#xff08;日本象棋&#xff09;的特级大师级别…

【MySQL】视图

目录 一、什么是视图 二、视图的操作 2.1 创建视图 2.2 删除视图 三、视图规则和限制 一、什么是视图 视图是一个虚拟表&#xff0c;其内容由查询定义。同真实的表一样&#xff0c;视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表&#xff08;创建视图所…

为什么PDF校对工具是2023年数字文档管理的必备良伴

随着企业和个人工作量的日益增长&#xff0c;PDF已成为跨平台文件交换的黄金标准。不仅仅因为它的可靠性&#xff0c;还因为它几乎可以在任何设备上查看。但与此同时&#xff0c;如何确保PDF文档的准确性和专业性呢&#xff1f;答案是使用高效的PDF校对工具。 1.全面性校对&am…

HummingBird 基于 Go 开源超轻量级 IoT 物联网平台

蜂鸟&#xff08;HummingBird&#xff09; 是 Go 语言实现的超轻量级物联网开发平台&#xff0c;包含设备接入、产品管理、物模型、告警中心、规则引擎等丰富功能模块。系统采用GoLang编写&#xff0c;占用内存极低&#xff0c; 单物理机可实现百设备的连接。 在数据存储上&…

在vue中使用codemirror格式化JSON

1. 下载指定版本的包 (避免引发不必要的错误) yarn add codemirror^5.64.02. 导入需要的文件 import CodeMirror from codemirrorimport codemirror/addon/lint/lint.cssimport codemirror/addon/fold/foldgutter.cssimport codemirror/lib/codemirror.cssimport codemirror/t…

mysql全文检索使用

数据库数据量10万左右&#xff0c;使用like %test%要耗费30秒左右&#xff0c;放弃该办法 使用mysql的全文检索 第一步:建立索引 首先修改一下设置: my.ini中ngram_token_size 1 可以通过 show variables like %token%;来查看 接下来建立索引:alter table 表名 add f…