Pandas | 理性判断数据是否存在缺失值的一种方法

理性判断

    • 一般思路
    • 进一步思考
      • df['B'].explode()

一般思路

tcc.info()

在这里插入图片描述

上述信息info显示没有缺失值 但是真实的情况还是要根据业务实际分析
tcc.isnull().sum() # 和tcc.info()

在这里插入图片描述
作用和tcc.info() 其实是一样的

进一步思考

在此过程中,我们需要检验是否存在采用别的值来表亓缺失值的情况。就像此前所说我们通过isnull只能检验出None(Python/原生对象)和np.Nan(numpy/pandasi在读取数据文件时文件内部缺失对象的读取后表示形式)对象。
但此外我们还需要注意数据集中是否包含采用某符号表示缺失值的情况,例如某些时候可能使用空格(其本质也是一种字符)来代替空格:

df= pd.DataFrame({'A':['Y',None,'N','N'],'B':[np.NaN,'','Y','N']})
df

在这里插入图片描述

df.isnull()

在这里插入图片描述

但根据实际情况来看,空格可能确实是代表着数据采集时数据是缺失的,因此我们仍然需要将其识别然后标记为缺失值,此时可以通过比较数据集各列的取值水平是否和既定的一致来进行检查。例如,对于上述d数据集来说,特征A和B默认情况只有Y和N两种取值,而B列由于通过空格表示了缺失值,因此用nuniquei查看数据集的话,B列将出现3种取值:

df.nunique()

在这里插入图片描述

| 注意,缺失值None或NaN并不是某一种取值

此时我们可以进一步查看B列每个不同取值出现的次数:

df['B'].explode().value_counts().to_dict()

{‘’: 1, ‘Y’: 1, ‘N’: 1}

df[‘B’].explode()

pandas 中,explode() 函数用于将 DataFrameSeries 中的列表、元组、集合或字典类型的元素展开成多行。如果列中的元素是列表或类似的可迭代对象,explode() 会将这些元素分解成单独的行,每个元素占据一行,从而增加行数。

例如,假设你有一个 DataFrame df,其中包含一个名为 ‘B’ 的列,该列包含列表:

import pandas as pd

# 示例 DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [[1, 2, 3], [4, 5], [6]]
})

print("原始 DataFrame:")
print(df)

输出将是:

   A       B
0  1  [1, 2, 3]
1  2     [4, 5]
2  3      [6]

如果你对这个 ‘B’ 列使用 explode() 方法,每个列表中的元素将被展开成单独的行:

# 使用 explode() 展开 'B' 列
df_exploded = df['B'].explode().reset_index(drop=True)

print("\n展开后的 DataFrame:")
print(df_exploded)

输出将是:

0    1
1    2
2    3
3    4
4    5
5    6

注意,explode() 默认返回的是一个 Series,如果你想要将其转换回 DataFrame,可以使用 reset_index(drop=True) 来重置索引并丢弃原来的索引。

explode() 方法不会修改原始的 DataFrame,它返回一个新的 DataFrameSeries。如果你想要直接在原始 DataFrame 上进行操作,可以使用 assign() 方法或者直接将结果赋值回原来的 DataFrame

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/910618.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大数据新视界 -- 大数据大厂之经典案例解析:广告公司 Impala 优化的成功之道(下)(10/30)

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

基于vue框架的的冷链食品物流信息管理系统v81wb(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,司机,冷链食品,冷链食品订单,冷链车辆,配送信息,订单费用,站点信息,食品种类,省,市,食品质量,县 开题报告内容 基于Vue框架的冷链食品物流信息管理系统开题报告 一、研究背景与意义 随着全球食品贸易的快速发展和消费者对食品品质…

职场逆袭!学会管理上司,你也能成为职场赢家

书友们,不要错过了!我挖到了一本真正让我彻夜难眠的小说,情节跌宕起伏,角色鲜活得就像从书里跳出来陪你聊天。每一页都是新的惊喜,绝对让你欲罢不能。要是你也在寻找那种让人上瘾的阅读体验,这本书就是你的…

byte加byte居然是int了?

问题现象 最近在看 Java 的基础知识时看到一个有意思的现象,在 Java 中两个 byte 相加之后的结果的类型变成 int 类型了: byte a 1; byte b 2; b a b;从Idea给的提示可以看到,两个 byte 类型相加的结果变成了 int 类型,不能…

vue3中使用mqtt数据传输(封装)

使用版本 "mqtt": "^5.8.0",安装指令 npm install mqtt --save ------ yarn add mqtt介绍mqtt 参考使用文档 配置 connection: {protocol: "ws",host: "broker.emqx.io",port: 8083,endpoint: "/mqtt",clean: true,con…

全面解析谷歌浏览器的功能与使用技巧

谷歌浏览器(Google Chrome)作为全球最受欢迎的网页浏览器之一,以其简洁的界面、快速的加载速度和强大的功能赢得了广大用户的青睐。本文将全面解析谷歌浏览器的功能和使用技巧,帮助您更好地利用这一工具提升上网体验。&#xff08…

《探索Zynq MPSoC》学习笔记(二)

引言:本文开始学习第二章内容,本文重点介绍FPGA、Zynq和Zynq MPSoC器件技术演进以及Zynq和Zynq MPSoC器件的基本结构和特点。 第二章 FPGA、Zynq和Zynq MPSoC (1) Zynq MPSoC是Xilinx发布的第一款SoC Zynq-7000片上系统&#xf…

mac 本地docker-mysql主从复制部署

mac 本地docker-mysql主从复制部署,服务器同理 1.本地docker启动两个mysql服务.端口号不一样 没有选择挂载到宿主机.只做测试用. 只是端口号不一样容器删掉.就没有数据了. 生产测试,需要挂在 master docker run -d --name mysql-slave -p 3308:3306 \ -e MYSQL_ROOT_PASSWORD…

七.numpy模块

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant…

测试用例小锦囊——基于思维导图的测试用例生成和维护

敲黑板,测试用例真的很重要! 测试用例是测试工作的基础,通过提供结构化和系统化的方法,来帮助验证软件产品的功能是否按预期正确实现,从而确保软件质量,提升用户满意度。 测试用例的关键要素包括用例编号、…

Linux网络命令:用于查看和修改路由表的重要工具ip route 详解

目录 一、概述 二、用法 1、基本语法 2、参数说明 3、常用选项 4、获取帮助 三、基本用法示例 1、 查看路由表 2、 添加路由 3、 删除路由 4、 修改路由 5、 添加默认路由 6、 删除默认路由 四、路由表管理 1、查看所有路由表 2、指定路由表 五、其他选项 1、…

银行信贷风控专题:Python、R 语言机器学习数据挖掘应用实例合集:xgboost、决策树、随机森林、贝叶斯等

银行信贷风控专题:Python、R 语言机器学习数据挖掘应用实例合集:xgboost、决策树、随机森林、贝叶斯等 原创 拓端研究室 全文链接:https://tecdat.cn/?p38026 在当今金融领域,风险管控至关重要。无论是汽车贷款违约预测、银行挖掘…

容器内pip安装Apache Airflow的经历:如何重置初始密码

背景 Apache Airflow™https://github.com/apache/airflow 是一个开源平台,用于开发、调度和监控面向批处理的工作流程。Airflow 可扩展的 Python 框架使您能够构建几乎可以连接任何技术的工作流程。Web 界面有助于管理工作流程的状态。Airflow 可以通过多种方式部…

RHCE作业四

一要求: 1.搭建dns服务器能够对自定义的正向或者反向域完成数据解析查询。 2.配置从DNS服务器,对主dns服务器进行数据备份。 二操作: 主服务器 1.安装 2主配置真反向 3正反设置 区域 1安装 2添加allow-transfer 3增量 4重启 Systemctl …

算法练习:1658. 将 x 减到 0 的最小操作数

题目链接:1658. 将 x 减到 0 的最小操作数 这道题目的意思就是,给定一个整数数组,和一个x,只能从数组最左边或者最右边进行删除,使得x恰好等于0,并且要操作次数最少的情况,否则返回-1. 这道题直…

职场如雷场,稍有不慎就会被炸翻?十大生存法则送给你

大多数人的一生都要经历过:求学,入职,退休三个阶段。其中职场生涯一般都在30至40年左右,占据了人生的大部分时间,而这段时间,是每个人最年富力强,精力充沛的时光。 那么,如何把这人…

这款神器,运维绝杀 !!!

项目简介 CrowdSec 是一款开源的、基于社区协作的网络安全防护工具,它通过分析和共享IP信誉数据来对抗恶意行为。该软件不仅支持IPv6,而且相较于传统的Python实现,其采用Go语言编写,运行速度提升了60倍。CrowdSec 利用Grok模式解析…

[C++] cpphttplib使用https而不是http

前言 首先我们假设是直接使用 httplib.h 的源文件。 支持 https 根据readme来看,需要开启一个宏,链接libssl和libcrypto就可以了。 下载openssl 保姆级OpenSSL下载及安装教程 选择非light的版本,这样才会有头文件和lib库引入文件。 编写C…

gitee 使用 webhoot 触发 Jenkins 自动构建

一、插件下载和配置 Manage Jenkins>Plugin Manager 搜索 gitee 进行安装 插件配置 1、前往Jenkins -> Manage Jenkins -> System -> Gitee Configuration -> Gitee connections 2、在 Connection name 中输入 Gitee 或者你想要的名字 3、Gitee host URL 中…

MDC(重要)

1.简介 MDC 介绍​ MDC(Mapped Diagnostic Context,映射调试上下文)是 log4j 和 logback 提供的一种方便在多线程条件下记录日志的功能。MDC 可以看成是一个与当前线程绑定的Map,可以往其中添加键值对。MDC 中包含的内容可以被同一…