【机器学习】数据清洗之处理缺失点

🎈个人主页:甜美的江
🎉欢迎 👍点赞✍评论⭐收藏
🤗收录专栏:机器学习
🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步!

数据清洗之处理缺失点

  • 一 删除缺失值:
    • 1.1 删除行:
    • 1.2 删除列:
    • 1.3 阈值删除:
    • 1.4条件删除:
    • 1.5 特定列删除:
  • 二 插值法
    • 2.1 线性插值:
    • 2.2 多项式插值:
    • 2.3 样条插值:
    • 2.4 Kriging插值:
    • 2.5 基于机器学习的方法:
  • 三 填充法
    • 3.1 均值(Mean)填充:
    • 3.2 中位数(Median)填充:
    • 3.3 众数(Mode)填充:
    • 3.4 最近邻填充(Nearest Neighbor Imputation):
    • 3.5 回归模型填充:
    • 3.6 随机抽样填充:
    • 3.7 插值法填充:
    • 3.8 利用业务规则填充:
  • 四 三种方法的优缺点及适用场景
    • 4.1 删除法:
    • 4.2 插值法:
    • 4.3 填充法:
  • 五 总结:

在这里插入图片描述

引言:

在机器学习领域,数据被广泛认为是驱动模型性能的关键。然而,在真实世界的数据中,缺失值是一个不可避免的问题,可能来自于测量错误、系统故障或其他未知因素。正确而有效地处理这些缺失值对于确保数据质量和模型的准确性至关重要。

本文将深入探讨数据清洗中一项关键任务:处理缺失点。我们将介绍不同的方法,涵盖从删除缺失值到插值法和填充法的多个层面,以帮助您更好地理解在不同场景下如何处理缺失值。

一 删除缺失值:

在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。以下是详细介绍删除缺失值的方法:

1.1 删除行:

最简单的方法是直接删除包含缺失值的行。这种方法适用于数据集中缺失值较少,删除缺失值后仍然保留足够的数据用于分析的情况。

示例代码:

import pandas as pd

# 创建一个示例DataFrame
data = pd.DataFrame({'A': [1, 2, None, 4],
                     'B': [None, 5, 6, 7]})

# 删除包含缺失值的行
cleaned_data = data.dropna()
print(cleaned_data)

1.2 删除列:

如果某一列缺失值过多或者对分析任务没有贡献,可以选择删除该列。
示例代码:

# 删除包含缺失值的列
cleaned_data = data.dropna(axis=1)
print(cleaned_data)

1.3 阈值删除:

设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。
示例代码:

# 设置阈值,删除超过阈值的行或者列
threshold = 2  # 设置阈值为2
cleaned_data = data.dropna(thresh=threshold)
print(cleaned_data)

1.4条件删除:

根据特定条件,删除包含缺失值的行或者列。
示例代码:

# 根据条件删除缺失值
cleaned_data = data.dropna(subset=['A'])  
# 删除'A'列中的缺失值所在的行
print(cleaned_data)

1.5 特定列删除:

如果只对特定列感兴趣,可以仅删除这些列中包含缺失值的行。

示例代码:

# 对特定列删除缺失值
cleaned_data = data.dropna(subset=['B'])  
# 删除'B'列中的缺失值所在的行
print(cleaned_data)

在实际应用中,选择何种方法取决于数据集的特征、分析任务以及缺失值的分布情况。

需要谨慎考虑删除缺失值可能带来的信息损失,并根据具体情况选择合适的方法。

二 插值法

在数据清洗中,处理缺失值的一种常见方法是使用插值法。插值是通过已知数据点的信息来估计未知点的值。这种方法对于连续型数据的缺失值填充尤其有用。以下是一些常见的插值方法:

2.1 线性插值:

概念:

线性插值假设变量之间的关系是线性的。

对于缺失值,可以通过已知的相邻数据点之间的线性关系来进行估计。

实现:

常见的线性插值方法包括一次线性插值和二次线性插值。

在一次线性插值中,缺失值被估算为其相邻两个已知值的平均值。在二次线性插值中,利用相邻三个已知值构建二次方程,从而进行估算。

2.2 多项式插值:

概念:

多项式插值通过使用更高阶的多项式来适应已知数据点。

这可以更准确地拟合数据,但也容易引入过拟合。

实现:

常见的多项式插值方法包括拉格朗日插值和牛顿插值。

这些方法使用已知数据点构建多项式,然后通过多项式来估计缺失值。

2.3 样条插值:

概念:

样条插值使用分段函数(通常是三次样条)来逼近已知数据。

这种方法更平滑,避免了多项式插值的过拟合问题。

实现:

三次样条插值是一种常见的方法,将整个数据集拟合成一组三次多项式,并保证在连接点处平滑过渡。

2.4 Kriging插值:

概念:

Kriging是一种基于地理空间的插值方法,广泛用于地理信息系统(GIS)。

它考虑了空间相关性,并通过对数据之间的空间相关性建模来估计未知位置的值。

实现:

Kriging通常需要对数据进行协方差分析,以确定空间相关性的参数。

2.5 基于机器学习的方法:

概念:

使用机器学习模型来预测缺失值,例如回归模型、决策树、随机森林等。

这种方法可以通过考虑多个特征之间的复杂关系来提高预测准确性。

实现:

训练机器学习模型来预测含有缺失值的特征,然后用模型的预测值填充缺失值。

总的来说,在选择插值方法时,需要根据数据的性质和问题的背景来权衡方法的优劣。

每种插值方法都有其适用的场景和局限性,因此在实际应用中需要谨慎选择。

同时,为了减少不确定性,可以结合多个插值方法进行比较和验证。

三 填充法

处理缺失值时,除了插值法外,还可以使用填充法来填补缺失值。填充法主要通过一些规则或统计量来估算缺失值。以下是一些常见的填充法方法:

3.1 均值(Mean)填充:

概念:

使用变量的均值来填充缺失值。适用于连续型数据,简单且不引入额外的复杂性。

实现:

计算变量的均值,然后将缺失值替换为均值。

3.2 中位数(Median)填充:

概念:

使用变量的中位数来填充缺失值。对于存在异常值的情况,中位数可能比均值更稳健。

实现:

计算变量的中位数,将缺失值替换为中位数。

3.3 众数(Mode)填充:

概念:

使用变量的众数来填充缺失值。适用于分类变量。

实现:

计算变量的众数,将缺失值替换为众数。

3.4 最近邻填充(Nearest Neighbor Imputation):

概念:

根据其他样本的数值来填充缺失值,选择与缺失值最相似的样本进行填充。

实现:

计算样本之间的相似度,选择最近邻的样本来填充缺失值。

3.5 回归模型填充:

概念:

使用回归模型来预测缺失值,将其他特征作为预测变量。

实现:

对于含有缺失值的特征,将其看作目标变量,使用其他特征建立回归模型,预测缺失值。

3.6 随机抽样填充:

概念:

从变量的已知值中随机抽样来填充缺失值。

实现:

从非缺失值中随机选择一个值,用于填充缺失值。

3.7 插值法填充:

概念:

利用插值方法(如线性插值、多项式插值)来估算缺失值。

实现:

使用插值法对缺失值进行估算,如在相邻数据点之间进行线性插值。

3.8 利用业务规则填充:

概念:

基于领域知识或业务规则来填充缺失值。

实现:

根据特定业务场景的规则,为缺失值设定合适的数值。

总的来说,在选择填充方法时,需要考虑数据的性质、缺失值的分布以及问题的要求。

不同的填充方法可能对数据产生不同的影响,因此在应用填充方法之前,最好先对数据进行探索性分析,了解缺失值的分布情况和数据的特性。

同时,可以尝试不同的填充方法,并评估它们对最终分析结果的影响。

四 三种方法的优缺点及适用场景

4.1 删除法:

优点:

简单直接,不引入额外的复杂性。

对于确保数据分析的准确性和可靠性很重要的情况,如建模分析等,可以选择删除缺失值,确保结果的准确性。

缺点:

可能导致信息丢失,减少样本量。

可能引入样本选择偏差,使得分析结果不够全面。

适用场景:

当缺失值占比较小,对整体数据集影响不大时,或者在确保删除不会引入偏差的情况下使用。

4.2 插值法:

优点:

考虑了数据的连续性,填充的值更加平滑。

适用于时间序列等具有一定规律性的数据。

缺点:

对于非线性的关系,插值法可能不够准确。

对异常值比较敏感,可能受到极端值的影响。

适用场景:

适用于连续型数据,特别是时间序列数据,且缺失值的分布具有一定的规律性。

4.3 填充法:

优点:

通过估计缺失值,保留了样本量,不会引入样本选择偏差。

可以利用其他变量的信息进行填充,提高填充的准确性。

缺点

需要根据具体情况选择合适的填充方法,不同方法的效果可能有差异。

对于高维数据集,处理复杂的关系可能会比较困难。

适用场景:

适用于各种数据类型,尤其是当数据集中的变量之间存在一定关联性时。

五 总结:

数据清洗中处理缺失值是机器学习流程中不可或缺的一环。

通过本文的介绍,我们深入了解了删除缺失值、插值法和填充法这三种主要的处理缺失值的方法。

每种方法都有其独特的优势和限制,选择合适的方法需要考虑数据的特性、缺失值的分布情况以及分析的目标。

在实践中,综合运用这些方法,结合具体情况,将有助于提高数据质量,为机器学习模型的建设奠定坚实的基础。

这篇文章到这里就结束了

谢谢大家的阅读!

如果觉得这篇博客对你有用的话,别忘记三连哦。

我是甜美的江,让我们我们下次再见

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/380940.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Web Services 服务 是不是过时了?创建 Web Services 服务实例

Web Services 是不是过时了? 今天是兔年最后一天,先给大家拜个早年 。 昨天上午视频面试一家公司需要开发Web Services 服务,这个也没有什么,但还需要用 VB.net 开发。这个是多古老的语言了,让我想起来了 10年 前 写 …

NLP_Bag-Of-Words(词袋模型)

文章目录 词袋模型用词袋模型计算文本相似度1.构建实验语料库2.给句子分词3.创建词汇表4.生成词袋表示5.计算余弦相似度6.可视化余弦相似度 词袋模型小结 词袋模型 词袋模型是一种简单的文本表示方法,也是自然语言处理的一个经典模型。它将文本中的词看作一个个独立…

ChatGPT高效提问—prompt常见用法(续篇七)

ChatGPT高效提问—prompt常见用法(续篇七) 1.1 零样本、单样本和多样本 ​ ChatGPT拥有令人惊叹的功能和能力,允许用户自由向其提问,无须提供任何具体的示例样本,就可以获得精准的回答。这种特性被称为零样本&#x…

Electron+Vue实现仿网易云音乐实战

前言 这个项目是我跟着官方文档的那个Electron入门教程大致跑了一遍,了解了下Electron开发流程之后的实战项目,所以中间应该是会有很多写法不是很规范,安全性有可能也没考虑到,可实现的各种api也不是很了解,适合初学者。 必须感谢 https://github.com/Binaryify/NeteaseC…

第二节课[Demo]作业

基础作业 使用 InternLM-Chat-7B 模型生成 300 字的小故事 user avatar 你是一个精通isekai的勇者,现在需要你讲述一段清新脱俗的异世界日常故事,字数300字以上robot avatar 在一个普通的早晨,我像往常一样起床、洗漱、吃早餐。但是&#xf…

力扣231. 2 的幂(数学,二分查找,位运算)

Problem: 231. 2 的幂 文章目录 题目描述思路即解法复杂度Code 题目描述 思路即解法 思路1:位运算 1.易验证2的幂为正数; 2.易得2的幂用二进制表示只能有一个位为数字1 3.即将其转换为二进制统计其二进制1的个数 思路2:数学 当给定数n大于1时…

基于tomcat运行jenkins常见的报错处理

目录 1.jenkins.util.SystemProperties$Listener错误 升级jdk11可能遇到的坑 2.java.lang.RuntimeException: Fontconfig head is null, check your fonts or fonts configuration 3.There were errors checking the update sites: UnknownHostException:updates.jenkins.i…

redis双写一致

redis双写一致,指的是redis缓存与mysql数据同步 双写一致常见方案有很多: 同步双写:更新完mysql后立即同时更新redis mq同步:程序在更新完mysql后,投递消息到中间键mq,一个程序监听mq,获得消…

全网最快2024刘谦春晚魔术揭秘

早点关注我,精彩不错过! 来来来,我的手机快被私信爆炸了,一次性给大家说清楚。 原版 Woody Arogon的教学《Woodyland》 数学原理 约瑟夫问题与魔术(五)——魔术《自我匹配的奇迹》中的数学原理 魔术原理 约…

Doris中的本地routineload环境,用于开发回归测试用例

----------------2024-2-6-更新-------------- doris的routineload,就是从kafka中加载数据到表,特点是定时、周期性的从kafka取数据。 要想在本地开发测试routine load相关功能,需要配置kafka环境,尤其是需要增加routine load回…

春晚刘谦第二个魔术原理讲解

目录 1. 先说一下步骤:2. 原理讲解:2.1 第一步分析2.1 第二步分析2.1 第三步分析2.1 第四步分析2.1 第五步分析2.1 第六步分析2.1 第七步分析2.1 第八步分析2.1 第七步重新分析 小结: 首先,先叠个甲。我本人很喜欢刘谦老师&#x…

C语言函数的栈帧与销毁(面试亮点)

目录 如果你能熟练的掌握函数的栈帧与销毁在面试中是及其亮眼的加分项,所以我们来以实例来将解函数是如何实现栈帧与销毁的。 一. 函数栈帧 二.寄存器 三. 用例题讲解创建栈帧的过程 3.1 main 函数的反汇编代码。 第一步:给调用main函数的函数分配…

使用 Elasticsearch 和 OpenAI 构建生成式 AI 应用程序

本笔记本演示了如何: 将 OpenAI Wikipedia 向量数据集索引到 Elasticsearch 中使用 Streamlit 构建一个简单的 Gen AI 应用程序,该应用程序使用 Elasticsearch 检索上下文并使用 OpenAI 制定答案 安装 安装 Elasticsearch 及 Kibana 如果你还没有安装好…

Linux死机排查方法——内存日志

一般情况下,Linux系统在死机时会产生一些dump信息,例如oops,通过分析oops信息就可以基本定位问题所在,但有些特殊情况下死机时,没有任何的打印的信息。如果直接使用printk等打印排查问题,有可能会因为print…

生成式人工智能攻击的一年:2024

趋势科技最近公布了其关于预期最危险威胁的年度研究数据。生成人工智能的广泛可用性和质量将是网络钓鱼攻击和策略发生巨大变化的主要原因。 趋势科技宣布推出“关键可扩展性”,这是著名年度研究的新版本,该研究分析了安全形势并提出了全年将肆虐的网络…

以管理员权限删除某文件夹

到开始菜单中找到—命令提示符—右击以管理员运行 使用:del /f /s /q “文件夹位置” 例:del /f /s /q "C:\Program Files (x86)\my_code\.git"

动态SQl简单创建

创建pojo实体类,使用lombok注解 package com.example.pojo;import lombok.AllArgsConstructor; import lombok.Data; import lombok.NoArgsConstructor;import java.time.LocalDate; import java.time.LocalDateTime;Data NoArgsConstructor AllArgsConstructor pu…

记:STM32F4参考手册-存储器和总线架构

STM32F4参考手册-存储器和总线架构 系统架构 主系统由32位多层AHB总线矩阵构成,可实现以下部分部分的互连: 八条主控总线: Cortex-M4F内核I总线、D总线和S总线 DMA1存储器总线 DMA2存储器总线 DMA2外设总线 以太网DMA总线 USB OTG HS DMA总线…

秒杀相关问题解决

秒杀 超卖问题 如下,我们先来复现问题,抢购秒杀券的代码逻辑也是很简单, 先判断优惠券是否开始了,是的化,判断库存是否充足,如果是的化,扣减库存,最后创建订单 如下是代码 Override Transactional public Result seckillVoucher(Long voucherId) {//1.查询优惠券SeckillVo…

力扣刷题之旅:进阶篇(六)—— 图论与最短路径问题

力扣(LeetCode)是一个在线编程平台,主要用于帮助程序员提升算法和数据结构方面的能力。以下是一些力扣上的入门题目,以及它们的解题代码。 --点击进入刷题地址 引言 在算法的广阔天地中,图论是一个非常重要的领域。…