06-机器学习-数据预处理

数据清洗

数据清洗是数据预处理的核心步骤,旨在修正或移除数据集中的错误、不完整、重复或不一致的部分,为后续分析和建模提供可靠基础。以下是数据清洗的详细流程、方法和实战示例:


一、数据清洗的核心任务

问题类型表现示例影响
缺失值数值型字段为空(NaN)模型无法处理缺失值,导致训练中断或偏差
异常值年龄=200岁,房价=-100万扭曲统计指标(如均值),降低模型泛化性
重复数据两行记录完全相同导致模型过拟合,降低数据代表性
不一致数据日期格式混乱(2023-09-01 vs 01/09/23)解析错误,特征提取失败

二、数据清洗流程与工具

1. 缺失值处理
  • 检测缺失值

    # 统计每列缺失比例
    missing_ratio = data.isnull().mean() * 100
    print(missing_ratio.sort_values(ascending=False))
    
  • 处理方法

    方法适用场景代码示例
    直接删除缺失比例高(>80%)或无关字段data.dropna(axis=1, thresh=len(data)*0.2)
    均值/中位数填充数值型字段,缺失随机分布data['age'].fillna(data['age'].median(), inplace=True)
    众数填充类别型字段data['gender'].fillna(data['gender'].mode()[0], inplace=True)
    插值法时间序列数据(如温度记录)data['temperature'].interpolate(method='time', inplace=True)
    模型预测填充复杂场景(如多变量关联缺失)使用KNN或随机森林预测缺失值(见下方代码)

    KNN填充示例

    from sklearn.impute import KNNImputer
    imputer = KNNImputer(n_neighbors=5)
    data_filled = pd.DataFrame(imputer.fit_transform(data), columns=data.columns)
    

2. 异常值处理
  • 检测方法

    • 描述性统计:检查最小/最大值是否合理
      print(data.describe())
      
    • 箱线图(Boxplot)
      plt.figure(figsize=(8,4))
      sns.boxplot(x=data['income'])
      plt.title("Income Distribution")
      plt.show()
      
    • Z-Score法(正态分布数据):
      z_scores = (data['value'] - data['value'].mean()) / data['value'].std()
      outliers = data[abs(z_scores) > 3]  # Z>3为异常
      
    • IQR法(非正态分布数据):
      Q1 = data['age'].quantile(0.25)
      Q3 = data['age'].quantile(0.75)
      IQR = Q3 - Q1
      lower_bound = Q1 - 1.5 * IQR
      upper_bound = Q3 + 1.5 * IQR
      
  • 处理方法

    方法代码示例
    删除异常值data = data[(data['age'] >= 0) & (data['age'] <= 100)]
    截断(Winsorize)from scipy.stats.mstats import winsorize<br>data['income'] = winsorize(data['income'], limits=[0.05, 0.05])
    分箱(Binning)data['age_bin'] = pd.cut(data['age'], bins=[0,18,35,60,100])

3. 重复数据处理
  • 检测与删除

    # 检测完全重复的行
    duplicates = data.duplicated()
    print(f"重复行数量: {duplicates.sum()}")
    
    # 删除重复行(保留第一个出现值)
    data.drop_duplicates(keep='first', inplace=True)
    
  • 部分重复处理(如用户ID重复但信息不同):

    # 按关键字段去重(如用户ID)
    data.drop_duplicates(subset=['user_id'], keep='last', inplace=True)
    

4. 不一致数据修正
  • 格式统一

    # 日期格式标准化
    data['date'] = pd.to_datetime(data['date'], format='mixed')
    
    # 文本大小写统一
    data['category'] = data['category'].str.lower()
    
    # 单位统一(如货币转换)
    data['price'] = data['price'].apply(
        lambda x: x * 6.5 if 'USD' in x else x
    )
    
  • 逻辑校验

    # 检查年龄与出生日期是否一致
    current_year = pd.Timestamp.now().year
    data['calculated_age'] = current_year - data['birth_year']
    invalid_age = data[abs(data['age'] - data['calculated_age']) > 1]
    

三、实战案例:电商订单数据清洗

原始数据问题
import pandas as pd
data = pd.DataFrame({
    'order_id': [101, 102, 103, 104, 105, 106],
    'user_id': [1, 2, 2, 3, 4, None],
    'price': [29.9, 199.0, 199.0, -50.0, 89.9, 120.0],
    'order_date': ['2023-09-01', '01/09/2023', '2023-09-01', '2023-10-32', None, '2023-09-05']
})
清洗步骤
  1. 处理缺失值

    # 填充user_id缺失值(假设新用户ID为999)
    data['user_id'].fillna(999, inplace=True)
    
    # 删除order_date缺失的行
    data.dropna(subset=['order_date'], inplace=True)
    
  2. 修正异常价格

    # 删除价格为负的订单
    data = data[data['price'] > 0]
    
    # 截断价格超过200的订单(假设业务上限为200)
    data['price'] = data['price'].clip(upper=200)
    
  3. 标准化日期格式

    # 转换日期并过滤无效日期(如2023-10-32)
    data['order_date'] = pd.to_datetime(data['order_date'], errors='coerce')
    data.dropna(subset=['order_date'], inplace=True)
    
  4. 去重

    # 按user_id和order_date去重(保留最后一条)
    data.drop_duplicates(subset=['user_id', 'order_date'], keep='last', inplace=True)
    
清洗后数据
order_iduser_idpriceorder_date
101129.92023-09-01
1022199.02023-09-01
105489.9NaT(已删除)
106999120.02023-09-05

四、注意事项

  1. 避免过度清洗:保留合理的数据多样性(如正常的价格波动)。
  2. 记录清洗日志:跟踪每一步操作的影响(如删除了多少行数据)。
  3. 业务规则优先:与领域专家确认异常定义(如“用户年龄>100是否合理”)。
  4. 自动化流水线:对持续更新的数据,使用Pipeline封装清洗步骤:
    from sklearn.pipeline import Pipeline
    
    clean_pipeline = Pipeline([
        ('fill_na', SimpleImputer(strategy='constant', fill_value=999)),
        ('remove_duplicates', DropDuplicates(subset=['user_id'])),
        ('clip_outliers', ColumnTransformer([('clip', FunctionTransformer(lambda x: x.clip(0, 200)), ['price'])])),
    ])
    

数据变换

以下是对数据变换的更紧凑、更细节化的总结,突出核心要点与实用技巧:


一、标准化/归一化:核心差异

方法公式适用场景异常值敏感度Scikit-learn工具
Z-score z = x − μ σ z = \frac{x - \mu}{\sigma} z=σxμ数据近似正态分布,线性模型(SVM、回归)StandardScaler
Min-Max x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x=xmaxxminxxmin图像像素、神经网络输入层MinMaxScaler
Robust x ′ = x − median I Q R x' = \frac{x - \text{median}}{IQR} x=IQRxmedian存在异常值,非正态分布RobustScaler

关键技巧

  • 树模型(如随机森林、XGBoost)无需标准化,但对特征组合敏感的模型(FM、NN)需要。
  • 归一化到[-1,1]可能对某些激活函数(如tanh)更友好。

二、非线性变换:快速选择

  1. 对数变换:右偏数据(如收入),用np.log1p避免零值。
  2. Box-Cox变换:需数据严格为正,自动优化λ值(scipy.stats.boxcox)。
  3. 分位数变换:强制数据服从均匀/正态分布(QuantileTransformer)。

示例代码

from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method='yeo-johnson')  # 兼容零/负值
X_transformed = pt.fit_transform(X)

三、分类变量编码:场景化方案

方法优点缺点适用模型
One-Hot无顺序假设,兼容所有模型高维稀疏,需处理共线性线性模型、神经网络
Target编码保留类别与目标的关系需防过拟合(如交叉验证)树模型、高基数类别
Embedding低维稠密,捕捉语义相似性需预训练或端到端学习深度学习(NLP/推荐系统)

关键点

  • 高基数类别优先用Target EncodingCatBoost内置处理。
  • 树模型可尝试Label Encoding,但需验证类别顺序是否合理。

四、特征工程:高效操作

  1. 数值特征
    • 交叉特征:加减乘除(如电商中“单价×购买量=总金额”)。
    • 分箱:等频分箱(pd.qcut)或等宽分箱(pd.cut),捕捉非线性。
  2. 时间特征
    • 提取周期性(星期、月份),滑动窗口统计(均值、标准差)。
  3. 文本特征
    • 短文本用TF-IDF,长文本用BERT嵌入,高维稀疏时用TruncatedSVD降维。

代码示例

# 时间特征处理
df['hour'] = df['timestamp'].dt.hour
df['is_weekend'] = df['timestamp'].dt.weekday >= 5

五、降维:选择策略

方法核心思想适用场景注意事项
PCA线性投影最大化方差高维数据可视化/去噪需先标准化,可能丢失非线性信息
t-SNE非线性保留局部结构可视化高维聚类计算代价高,不用于特征输入
UMAP平衡速度与局部/全局结构大规模数据可视化/预处理参数敏感,需调参

经验

  • 输入特征>50时优先用PCA,保留95%方差(n_components=0.95)。
  • 避免对树模型使用降维,可能破坏特征重要性。

六、避坑指南

  1. 数据泄露
    • 所有变换必须仅用训练集统计量!用Pipeline确保流程:
      from sklearn.pipeline import make_pipeline
      pipe = make_pipeline(StandardScaler(), SVM())
      pipe.fit(X_train, y_train)
      
  2. 异常值处理
    • 缩尾处理(np.clip)或中位数填充,避免破坏分布。
  3. 评估验证
    • 对KNN、SVM等敏感模型,对比不同缩放方法的分类边界(如决策边界图)。

七、端到端流程

  1. 输入检查:分布(直方图/Q-Q图)、缺失值、异常值。
  2. 数值特征:缩放→非线性变换→分箱。
  3. 分类特征:编码→嵌入(可选)。
  4. 特征构造:领域知识驱动交叉/聚合。
  5. 输出验证:模型在验证集的表现波动是否<5%。

总结:数据变换需与模型特性深度耦合,通过实验迭代优化。记住:“Garbage in, garbage out”——宁可花80%时间在数据准备,而非调参!


特征工程

特征工程:从原始数据到模型燃料的核心技术

特征工程是机器学习的“炼金术”,旨在将原始数据转化为模型可理解的强特征,直接影响模型性能上限。以下是结构化拆解:


一、核心目标与价值
  • 目标:构造高信息量、低冗余、适配模型的特征。
  • 价值
    • 提升模型准确率(如添加用户历史行为统计特征)
    • 降低计算成本(通过降维/特征选择)
    • 增强可解释性(如分箱后的年龄组代替原始值)

二、特征构造:从原始数据中“挖掘金子”
  1. 时间特征

    • 基础字段:年、月、日、小时、星期几、是否节假日
    • 衍生特征:时间间隔(如上次购买距今的天数)、滑动窗口统计(过去7天均值)
    df['purchase_hour'] = df['timestamp'].dt.hour
    df['days_since_last_purchase'] = (current_date - df['last_purchase_date']).dt.days
    
  2. 交互特征(组合特征)

    • 数值交互:加减乘除(如“单价×数量=总价”)
    • 类别交叉:笛卡尔积(如“地区×产品类型”生成组合标签)
    df['price_per_sqmeter'] = df['total_price'] / df['area']
    
  3. 统计聚合特征

    • 单维度统计:用户历史购买金额的均值、最大值、方差
    • 跨表关联:订单表按用户ID聚合的订单数、退货率
    user_stats = orders.groupby('user_id')['amount'].agg(['mean', 'max'])
    
  4. 文本/图像特征

    • 文本:TF-IDF关键词权重、BERT句向量、情感分析得分
    • 图像:边缘特征、颜色直方图、预训练CNN提取的特征图

三、特征变换:提升模型适配性
  1. 分箱(Binning)

    • 等宽分箱:固定区间宽度(如年龄每10年一档)
    • 等频分箱:保证每箱样本量均衡
    • 模型分箱:使用决策树寻找最优分割点
    df['age_bin'] = pd.cut(df['age'], bins=[0,18,35,60,100], labels=['child', 'young', 'adult', 'senior'])
    
  2. 非线性变换

    • 对数变换:处理右偏分布(np.log1p避免零值)
    • Box-Cox变换:自动优化正态性(仅适用于正值)
    • 分位数变换:强制服从指定分布(如正态、均匀)
  3. 高基数类别处理

    • 目标编码(Target Encoding):用目标变量的统计量(如均值)代替类别
    • 频率编码:使用类别出现频率作为特征值
    • 嵌入编码(Embedding):通过神经网络学习低维表示(如Word2Vec)

四、特征选择:剔除噪声与冗余
方法原理适用场景
过滤法基于统计指标(如方差、卡方检验)快速初筛,计算成本低
包裹法通过模型性能迭代选择特征子集精确但计算代价高(递归特征消除)
嵌入法模型训练中自动选择(如L1正则化)与模型耦合,高效

实用技巧

  • 对树模型,直接使用feature_importances_筛选重要性>阈值特征
  • 对线性模型,结合Lasso回归的系数稀疏性做特征剔除

五、自动化特征工程工具
  1. FeatureTools:自动生成跨表聚合特征(如“用户最近3次登录时间标准差”)
  2. TSFresh:针对时间序列自动提取数百种统计特征(如自相关性、傅里叶变换系数)
  3. AutoFeat:自动构造多项式特征并进行显著性筛选
# FeatureTools示例
import featuretools as ft
es = ft.EntitySet()
es = es.entity_from_dataframe(entity_id='users', dataframe=users_df, index='user_id')
features, feature_defs = ft.dfs(entityset=es, target_entity='users')

六、避坑指南与最佳实践
  1. 避免数据泄露

    • 所有统计量(如Target Encoding的均值)必须仅从训练集计算!
    • 使用Pipeline封装预处理与模型训练:
      from sklearn.pipeline import Pipeline
      pipe = Pipeline([('encoder', TargetEncoder()), ('model', RandomForest())])
      
  2. 领域知识驱动

    • 在电商场景中,构造“商品价格与类目平均价格的比值”可能比单纯价格更有效
    • 在风控场景中,组合“申请时间与工作时段的重叠度”作为特征
  3. 迭代验证

    • 通过AB测试对比不同特征组合的模型性能
    • 监控特征稳定性(如PSI指标)防止线上数据分布偏移

七、终极心法
  • “Less is More”:优先构造10个强特征,而非100个弱特征。
  • “Think Like a Model”:理解模型如何利用特征(如线性模型依赖线性可分性,NN偏好稠密低维输入)。
  • “Data First, Algorithm Second”:特征工程提升的上限远高于调参!

总结:特征工程是融合领域知识、数据直觉与工程技巧的艺术。掌握核心方法后,需在业务场景中反复迭代,才能炼出“模型友好”的金牌特征。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/961523.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[免费]基于Python的Django博客系统【论文+源码+SQL脚本】

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的基于Python的Django博客系统&#xff0c;分享下哈。 项目视频演示 【免费】基于Python的Django博客系统 Python毕业设计_哔哩哔哩_bilibili 项目介绍 随着互联网技术的飞速发展&#xff0c;信息的传播与…

乐优商城项目总结

文章目录 项目简介微服务集群1.enreka注册中心2. zuul网关3. 公共工具类4. 商品微服务5. 文件上传微服务6. 搜索微服务7. 页面静态化微服务8. 用户微服务9. 短信微服务10. 认证微服务11. 购物车微服务12. 订单微服务项目最大的收获项目遇到的问题 项目简介 乐优商城是一个全品…

基于django的智能停车场车辆管理深度学习车牌识别系统

完整源码项目包获取→点击文章末尾名片&#xff01;

【开源免费】基于Vue和SpringBoot的在线文档管理系统(附论文)

本文项目编号 T 038 &#xff0c;文末自助获取源码 \color{red}{T038&#xff0c;文末自助获取源码} T038&#xff0c;文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

双层Git管理项目,github托管显示正常

双层Git管理项目&#xff0c;github托管显示正常 背景 在写React项目时&#xff0c;使用Next.js,该项目默认由git托管。但是我有在项目代码外层记笔记的习惯&#xff0c;我就在外层使用了git托管。 目录如下 code 层内也有.git 文件&#xff0c;对其托管。 我没太在意&…

54.数字翻译成字符串的可能性|Marscode AI刷题

1.题目 问题描述 小M获得了一个任务&#xff0c;需要将数字翻译成字符串。翻译规则是&#xff1a;0对应"a"&#xff0c;1对应"b"&#xff0c;依此类推直到25对应"z"。一个数字可能有多种翻译方法。小M需要一个程序来计算一个数字有多少种不同的…

基于Langchain-Chatchat + ChatGLM 本地部署知识库

一、相关环境 参考链接: Github:https://github.com/chatchat-space/Langchain-Chatchat Langchain-chatchat版本&#xff1a;v0.3.1 安装环境&#xff1a;Ubuntu&#xff1a;22.04&#xff0c;CUDA&#xff1a;12.1 二、搭建过程 2.1 环境配置 2.1.1 创建chatchat虚拟环…

Hive:日志,hql运行方式,Array,行列转换

日志 可以在终端通过 find / | grep hive-log4j2 命令查找Hive的日志配置文件 这些文件用于配置Hive的日志系统。它们不属于系统日志也不属于Job日志&#xff0c;而是用于配置Hive如何记录系统日志和Job日志, 可以通过hive-log4j2 查找日志的位置 HQL的3种运行方式 第1种就是l…

护眼好帮手:Windows显示器调节工具

在长时间使用电脑的过程中&#xff0c;显示器的亮度和色温对眼睛的舒适度有着重要影响。传统的显示器调节方式不仅操作繁琐&#xff0c;而且在低亮度下容易导致色彩失真。因此&#xff0c;今天我想为大家介绍一款适用于Windows系统的护眼工具&#xff0c;它可以帮助你轻松调节显…

简要介绍C语言和c++的共有变量,以及c++特有的变量

在C语言和C中&#xff0c;变量是用来存储数据的内存位置&#xff0c;它们的使用方式和特性在两种语言中既有相似之处&#xff0c;也有不同之处。以下分别介绍C语言和C的共有变量以及C特有的变量。 C语言和C的共有变量 C语言和C都支持以下类型的变量&#xff0c;它们在语法和基…

Python爬虫学习第三弹 —— Xpath 页面解析 实现无广百·度

早上好啊&#xff0c;大佬们。上回使用 Beautiful Soup 进行页面解析的内容是不是已经理解得十分透彻了~ 这回我们再来尝试使用另外一种页面解析&#xff0c;来重构上一期里写的那些代码。 讲完Xpath之后&#xff0c;小白兔会带大家解决上期里百度搜索的代码编写&#xff0c;保…

消息队列篇--通信协议篇--应用层协议和传输层协议理解

在网络通信中&#xff0c;传输层协议和应用层协议是OSI模型中的两个不同层次的协议&#xff0c;它们各自承担着不同的职责。 下文中&#xff0c;我们以TCP/UDP&#xff08;传输层协议&#xff09;和HTTP/SMTP&#xff08;应用层协议&#xff09;为例进行详细解释。 1、传输层协…

Maui学习笔记- SQLite简单使用案例02添加详情页

我们继续上一个案例&#xff0c;实现一个可以修改当前用户信息功能。 当用户点击某个信息时&#xff0c;跳转到信息详情页&#xff0c;然后可以点击编辑按钮导航到编辑页面。 创建项目 我们首先在ViewModels目录下创建UserDetailViewModel。 实现从详情信息页面导航到编辑页面…

arkui-x跨平台与android java联合开发

华为鸿蒙系统采用的是arkts&#xff0c;支持跨平台crossplatform 即前端为arkts&#xff0c;arkui-x框架&#xff0c;后端为其他的语言框架。 本篇示例后端采用的是java&#xff0c;android studio工程。 主要方式是前端鸿蒙完成界面元素、布局等效果&#xff0c;后面androi…

Unity敌人逻辑笔记

写ai逻辑基本上都需要状态机。因为懒得手搓状态机&#xff0c;所以选择直接用动画状态机当逻辑状态机用。 架构设计 因为敌人的根节点已经有一个animator控制动画&#xff0c;只能增加一个子节点AI&#xff0c;给它加一个animator指向逻辑“动画”状态机。还有一个脚本&#…

ts 基础核心

吴悠讲编程 : 20分钟学会TypeScript 无废话速成TS https://www.bilibili.com/video/BV1gX4y177Kf

BGP分解实验·11——路由聚合与条件性通告(3)

续接上&#xff08;2&#xff09;的实验。其拓扑如下&#xff1a; 路由聚合的负向也就是拆分&#xff0c;在有双出口的情况下&#xff0c;在多出口做流量分担是优选方法之一。 BGP可以根据指定来源而聚合路由&#xff0c;在产生该聚合路由的范围内的条目注入到本地BGP表后再向…

【leetcode】T1599

解题心得&#xff1a; 题目长且绕&#xff0c;直接看测试样例的解析有助于更快把握题目核心需求&#xff08;即关注样例的输入、运算逻辑、输出&#xff09; 题面 原题链接1599. 经营摩天轮的最大利润 - 力扣&#xff08;LeetCode&#xff09; AC代码 class Solution { pub…

Ansible自动化运维实战--通过role远程部署nginx并配置(8/8)

文章目录 1、准备工作2、创建角色结构3、编写任务4、准备配置文件&#xff08;金甲模板&#xff09;5、编写变量6、编写处理程序7、编写剧本8、执行剧本Playbook9、验证-游览器访问每台主机的nginx页面 在 Ansible 中&#xff0c;使用角色&#xff08;Role&#xff09;来远程部…

关于opencv环境搭建问题:由于找不到opencv_worldXXX.dll,无法执行代码,重新安装程序可能会解决此问题

方法一&#xff1a;利用复制黏贴方法 打开opencv文件夹目录找到\opencv\build\x64\vc15\bin 复制该目录下所有文件&#xff0c;找到C:\Windows\System32文件夹&#xff08;注意一定是C盘&#xff09;黏贴至该文件夹重新打开VS。 方法二&#xff1a;直接配置环境 打开opencv文…