[黑马程序员Pandas教程]——Pandas缺失值处理

目录:

  1. 学习目标
  2. 空值和缺失值
  3. 查看缺失值
    1. 加载数据并通过info函数初步查看缺失值情况
    2. df.isnull().sum()空值数量统计
    3. Missingno库对缺失值的情况进行可视化探查
      1. 安装missingno库
      2. missingno.bar(df)缺失值数量可视化
      3. missingno.matrix(df)缺失值位置的可视化
      4. missingno.heatmap(df)缺失值之间相关性可视化
  4. 缺失值的处理
    1. dropna删除缺失值
    2. fillna固定值填充缺失值
    3. fillna前后值填充缺失值
    4. interpolate线性插值
  5. 总结:
  6. 项目地址

1.学习目标

  • 知道空值和缺失值的区别以及缺失值的影响

  • 知道如何查看数据集缺失值情况的方法

  • 知道缺失值处理的办法

 2.空值和缺失值

  • 在Pandas中空值和缺失值是有区别的,缺失值包含了空值
  • 好多数据集都含缺失数据。缺失数据有多重表现形式

    • 数据库中,缺失数据表示为NULL

    • 在某些编程语言中用NANone表示

    • 缺失值也可能是空字符串''或数值 0

    • 在Pandas中使用NaN表示缺失值

      • Pandas中的NaN值来自Numpy库,Numpy中缺失值有几种表示形式:NaN,NAN,nan,他们都一样

    • 除了Pandas中的空值以外,上述类型的缺失值都可以使用replace函数统一替换为NaN

  • NaN表示空值

    • NaN是pandas中的特殊的数据结构,来源于numpy包的特殊数据结构

    • NaN毫无意义

      • NaN不等于0

      • 也不等于空字符串

      • 更不等于布尔值False

      • 并且两个NaN也不相等

# 使JupyterNotebook单个cell可以有多个输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

from numpy import NaN,NAN,nan

# 缺失值和其它类型的数据不同,它毫无意义,NaN不等于0,也不等于空字符串
NaN==True
NaN==False
NaN==0
NaN==''
NaN==None

# 两个NaN也不相等
NaN==NaN
NaN==nan
NaN==NAN
nan==NAN

 3.查看缺失值

加载数据并通过info函数初步查看缺失值情况
  • 加载印度城市空气质量数据集,并初步查探缺失值

import pandas as pd

# 加载印度城市空气质量数据集
# index_col='Date' 指定Date列作为索引列
# parse_dates=True 将Date列中的数据解析为时间类型
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')
print(city_day)
print(city_day.info())
  •  isnull函数和notnull函数判断是否存在空值
import pandas as pd

# 加载印度城市空气质量数据集
# index_col='Date' 指定Date列作为索引列
# parse_dates=True 将Date列中的数据解析为时间类型
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 空值返回True
print(city_day.isnull())
print(city_day['PM2.5'].isnull())
  •  isnull的返回值中存在True,`any()`就返回True
import pandas as pd

# 加载印度城市空气质量数据集
# index_col='Date' 指定Date列作为索引列
# parse_dates=True 将Date列中的数据解析为时间类型
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

print(city_day.isnull().any())
print(city_day.isnull().any().any())
print(city_day['PM2.5'].isnull().any())
  • notnull函数和notna函数相同,判断是否存在非空值;与isnull函数对应,返回结果正好相反

import pandas as pd

# 加载印度城市空气质量数据集
# index_col='Date' 指定Date列作为索引列
# parse_dates=True 将Date列中的数据解析为时间类型
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 空值返回False
print(city_day.notna())
print(city_day['PM2.5'].notna())

 

df.isnull().sum()空值数量统计
import pandas as pd

# 加载印度城市空气质量数据集
# index_col='Date' 指定Date列作为索引列
# parse_dates=True 将Date列中的数据解析为时间类型
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 空值数量统计
print(city_day.isnull().sum())
print(city_day['PM2.5'].isnull().sum())
# 非空值数量统计
print(city_day.notnull().sum())
print(city_day['PM2.5'].notnull().sum())
Missingno库对缺失值的情况进行可视化探查
  • 可以使用第三方库Missingno来对缺失值进行可视化
安装missingno库
  • pip install missingno
missingno.bar(df)缺失值数量可视化
# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')
# 查看缺失值数量
city_day.isnull().sum()
# 查看非缺失值数量
city_day.notna().sum()
# 可视化查看缺失值数量情况
msno.bar(city_day)
plt.show()
missingno.matrix(df)缺失值位置的可视化
  • `missingno.matrix(df)` 可以快速直观的查看缺失值的分布情况
# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

msno.matrix(city_day)
plt.show()
# 对数据集进行随机取样后再查看数据缺失情况
msno.matrix(city_day.sample(100))
plt.show()
missingno.heatmap(df)缺失值之间相关性可视化
# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

msno.heatmap(city_day)
plt.show()

**返回结果如下**:相关性取值 0 不相关,1强相关,-1强负相关

4.缺失值的处理

  • 缺失值的处理方法有以下几种方式:
    • 删除缺失值:删除缺失值会损失信息,并不推荐删除,当缺失数据占比较低的时,或可以忽略相关性时,可以尝试使用删除缺失值
    • 填充缺失值:填充缺失值是指用一个估算的值来去替代缺失数
      • 平均值、中位数
      • 前后值填充,数据呈现顺序变化的时候可以使用缺失值前边或后边的值进行填充
  • 线性插值:假定数据点之间存在严格的线性关系,并利用相邻数据点中的非缺失值来计算缺失数据点的值
dropna删除缺失值 

使用`dropna`函数来删除空值,具体用法如下

# 函数用法
df.dropna(
    axis=0, 
    how='any', 
    inplace=True, 
    subset=['列名',...],
    thresh=10
)

df.drop() # 按列删除
  • dropna函数参数解释

    • axis=0

      • 可选参数 ,默认为0按行删

      • 0, or 'index':删除包含丢失值的行

      • 1, or 'columns':删除包含丢失值的列

    • how='any'

      • 可选参数,默认为any

      • any: 如果存在NA值,则删除该行或列

      • all: 如果所有值都是NA,则删除该行或列

    • inplace=False

      • 可选参数,不建议使用这个参数

      • 默认False, 不对原数据集进行修改

      • inplce=True,对原数据集进行修改

    • subset接收一个列表

      • 可选参数,不与thresh参数一起使用

      • 接收一个列表,列表中的元素为列名: 对特定的列进行缺失值删除处理

    • thresh=n

      • 可选参数

      • 参数值为int类型,按行去除NaN值,去除NaN值后该行剩余数值的数量(列数)大于等于n,便保留这一行

  • 示例代码如下

# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 构造示例数据集
city_day2 = city_day.sample(n=10, random_state=5)
print(city_day2)
msno.matrix(city_day2)
plt.show()

city_day2 = city_day2.dropna(how='any', subset=['PM10'])
print(city_day2)
msno.matrix(city_day2.dropna(how='any', subset=['PM10']))
plt.show()
 fillna固定值填充缺失值
  • 用平均值填充PM2.5的缺失值

# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 构造示例数据集
city_day3 = city_day.copy()
msno.matrix(city_day3)
plt.show()

# 计算PM2.5平均值
pm25_mean = city_day3['PM2.5'].mean()
print(pm25_mean)

# fillna函数填充缺失值,将返回值赋值给原来的列
city_day3['PM2.5'] = city_day3['PM2.5'].fillna(pm25_mean)

# 查看填充完缺失值的数据集
msno.matrix(city_day3)
plt.show()
 fillna前后值填充缺失值

时序数据在某一列值的变化往往有一定线性规律,绝大多数的时序数据,具体的列值随着时间的变化而变化,所以对于有时序的行数据缺失值处理可以使用上一个非空值或下一个非空值填充

印度城市空气质量数据明显就是一个时序数据集,空气中的各种成分会随着时间变化而变化,不会出现特别大的急剧变化

  • 使用上一个非空值(参数method='ffill')填充Xylene(二甲苯)的空值

# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 构造示例数据集
city_day3 = city_day.copy()

# 用上一个非空值填充并赋值指定列
city_day3['Xylene'] = city_day3['Xylene'].fillna(method='ffill')
msno.matrix(city_day3)
plt.show()
  • 使用下一个非空值(参数method='ffill')填充整个数据集的空值

# 导包
import pandas as pd
import missingno as msno
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 构造示例数据集
city_day3 = city_day.copy()

city_day3 = city_day3.fillna(method='bfill')
msno.matrix(city_day3)
plt.show()
interpolate线性插值

绝大多数的时序数据,具体的列值随着时间的变化而变化。 因此,除了使用bfill和ffill进行插补以外还可以使用线性插值法:它假定数据点之间存在严格的线性关系,并利用相邻数据点中的非缺失值来计算缺失数据点的值。

  • 使用df.interpolate(limit_direction="both") 对缺失数据进行线性填充

# 导包
import pandas as pd
import matplotlib.pyplot as plt

# 加载数据
city_day = pd.read_csv('../datas/data_set/city_day.csv', parse_dates=True, index_col='Date')

# 拷贝数据集
city_day4 = city_day.copy()
# 线性插值填充,并赋值
city_day4 = city_day4.interpolate(limit_direction='both')
# 画图查看
city_day4['PM2.5'][50:65].plot()
plt.show()
city_day['PM2.5'][50:65].plot()
plt.show()

5.总结:

  • 缺失值会影响分析计算的结果,这个结果又要用来指导生产经营,所以要重视缺失值
  • 空值仅指Pandas中的空值类型,比如`NaN`
  • 缺失值包含空值,也有可能是空字符串、数字0、False或None等
  • 不是空值的缺失值可以通过`replace`函数先替换为`NaN`空值,之后再按空值进行处理
  • 查看空值
    • `df.info()` 可以查看数据集每一列非空值的数量
    • `isnull` & `notnull`函数 判断是否存在空值
    • `df.isnull().sum()` 统计空值数量
    • `missingno`库可以对空值进行可视化探查
      • `missingno.matrix(df)` 查看缺失值的位置
      • `missingno.heatmap(df)` 查看缺失值之间的相关性
  • 缺失值的处理
  • `df.dropna()` 删除缺失值
  • `df.fillna(具体值)` 将缺失值填充为具体指
  • `df.fillna(method='ffill')` 使用上一个非空值进行填充
  • `df.fillna(method='bfill')` 使用下一个非空值进行填充
  • `df.interpolate(limit_direction='both')` 线性插值:假定数据点之间存在严格的线性关系,并利用相邻数据点中的非缺失值来计算缺失数据点的值

 6.项目地址

Python: 66666666666666 - Gitee.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/124571.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【23-24 秋学期】NNDL 作业7 基于CNN的XO识别

一、用自己的语言解释以下概念 局部感知、权值共享池化(子采样、降采样、汇聚)。会带来那些好处和坏处?全卷积网络(课上讲的这个概念不准确,同学们查资料纠正一下)低级特征、中级特征、高级特征多通道。N输…

Java提高与实践

IO流 IO流概述 文件字节输入流:每次读取一个字节 package fileStream;import java.io.*;public class HelloFileInputStream {public static void main(String[] args) throws IOException {//创建文件字节输入流 管道,与源文件接通//写法一//InputStr…

getid3 获取视频时长

1、首先,我们需要先下载一份PHP类—getid3https://codeload.github.com/JamesHeinrich/getID3/zip/master 2.我在laravel6.0 中使用 需要在composer.json 自动加载 否则系统访问不到 在命令行 执行 composer dump-autoload $getID3 new \getID3();//视频文件需要放…

『 C++类与对象 』多继承与虚继承

文章目录 ⌨️多继承的概念语法 🖱️ ⌨️棱形继承⌨️虚继承虚继承是如何解决数据冗余和二义性的(不谈虚表概念)?🖱️ ⌨️多继承的概念 多继承指的是一个派生类是由多个基类继承而来的; 而在生活当中也有类似的例子:番茄既可以是水果,也可以是蔬菜;…

内核移植笔记 Cortex-M移植

常用寄存器 PRIMASK寄存器 为1位宽的中断屏蔽寄存器。在置位时,它会阻止不可屏蔽中断(NMI)和HardFault异常之外的所有异常(包括中断)。 实际上,它是将当前异常优先级提升为0,这也是可编程异常/…

K8S知识点(五)

(1)资源管理介绍 Pod控制器的作用,就是为了最终产生各种各样的Pod,Pod里面运行容器,容器里面运行程序 程序需要数据持久化,可以用数据存储卷来存储 Pod想要让外部访问需要通过Service代理,外部…

SAP-PP-报错:工作中心 7333_JQ 工厂 7331 对任务清单类型 N 不存在

创建工艺路线时报错:工作中心 7333_JQ 工厂 7331 对任务清单类型 N 不存在, 这是因为在创建工作中心时未维护控制键值导致的

latex加密符号怎么打|同态加密|Paillier

最近在写论文的时候遇到了一点阻碍,因为论文中需要用到paillier加密算法,想用一个公式表达加密的过程,但是不知道怎么打加密符号。 加密符号如下所示: 其中a是被加密的数字 $[\![a]\!] $ 公式: \begin{equation} …

【编程语言发展史】SQL的发展历史

目录 目录 SQL概述 SQL发展历史 SQL特点 SQL基本语句 SQL是结构化查询语言(Structure Query Language)的缩写,它是使用关系模型的数据库应用语言,由IBM在70年代开发出来,作为IBM关系数据库原型System R的原型关系语言,实现了…

单链表详解

今天我们继续来学习我们的链表,今天我们来学习单链表,什么是单链表呢,我们逻辑结构上可以认为是下面这个图。 然后我们结构体的定义就是下面这个 typedef int SLDateType; typedef struct SList {SLDateType x;struct SList* next; }SL;为什么…

(14)学习笔记:动手深度学习(Pytorch神经网络基础)

文章目录 神经网络的层与块块的基本概念自定义块 问答 神经网络的层与块 块的基本概念 以多层感知机为例, 整个模型接受原始输入(特征),生成输出(预测), 并包含一些参数(所有组成层…

vue3 开启 https

1、安装mkcert证书创建器 npm i mkcert -g 2、检验是否安装成功 mkcert --version 有版本好出现则成功 3、创建证书颁发机构 mkcert create-ca 会在当前目录生成,ca.crt 和 ca.key 两个文件 4、创建证书 mkcert create-cert 会在当前目录生成,…

【2023.11.6】OpenAI发布会——近期chatgpt被攻击,不能使用

OpenAI发布会 写在最前面发布会内容GPT-4 Turbo 具有 128K 上下文函数调用更新改进了指令遵循和 JSON 模式可重现的输出和对数概率更新了 GPT-3.5 Turbo 助手 API、检索和代码解释器API 中的新模式GPT-4 Turbo 带视觉DALLE 3文字转语音 (TTS)收听语音样本…

Linux第一个小程序进度条

缓冲区 ​ 在写进度条程序之前我们需要介绍一下缓冲区,缓冲区有两种,输入和输出缓冲区,这里主要介绍输出缓冲区。在我们用C语言写代码时,输出一些信息,实际上是先输出到输出缓冲区里,然后才输出到我们的显…

AI系统ChatGPT程序源码+AI绘画系统源码+支持GPT4.0+Midjourney绘画+已支持OpenAI GPT全模型+国内AI全模型

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

3D全景技术,为我们打开全新宣传领域

随着科技的发展,3D全景技术正在融入我们的生活,这种全新视觉体验方式为我们打开了一扇全新的宣传领域,可以让我们多方位、多视角地探索各个行业,无论是对教育、商业、还是其他领域,都产生了深远的影响。 3D全景技术结合…

【云备份|| 日志 day5】文件热点管理模块

云备份day5 热点管理模块 热点管理模块 服务器端的热点文件管理是对上传的非热点文件进行压缩存储,节省磁盘空间。 而热点文件的判断在于上传的文件的最后一次访问时间是否在热点判断时间之内,比如如果一个文件一天都没有被访问过我们就认为这是一个非…

多VLAN之间的通信,静态路由

一、适用场景 1、多个C类网络(不同网段)之间需要通信,每个网段有1个网关ip。 2、当网络结构比较简单时,只需配置静态路由就可以使网络正常工作。本例采用简单网络结构 3、在复杂网络环境中,配置静态路由可以改进网络的…

牛客出bug(华为机试HJ71)

Hj71:字符串通配符 描述 问题描述:在计算机中,通配符一种特殊语法,广泛应用于文件搜索、数据库、正则表达式等领域。现要求各位实现字符串通配符的算法。 要求: 实现如下2个通配符: *:匹配0个…

Java --- Mybatis的动态sql标签

一、if标签 <select id"queryEmpByCondition" resultType"User">select * from t_user where 11<if test"username ! null and username ! ">and username #{username}</if></select> if&#xff1a;根据标签中的test…