数据处理之数据规约
1. 数据规约概述
数据规约是数据处理中的重要方法,旨在让数据处理更简便、高效,以满足业务需求。当从数据仓库获取的数据量庞大时,直接在海量数据上进行分析和挖掘成本颇高。数据规约可得到数据集的归约表示,在减小数据规模的同时,尽可能保持原数据的完整性,使得在归约后的数据集上进行挖掘能获得与使用原数据集近乎相同的分析结果。
2. 经典数据规约策略
- 属性规约:想办法减少分析时需考虑的变量或属性。常用方法如小波变换,它能将复杂数据简化到更小、更简单的空间;主成分分析利用降维思想,把多个指标压缩成几个重要且互不重复、能抓住大部分原始信息的指标;还有挑选属性子集,即去除不重要、重复、不相关或冗余的属性维度,找到最小属性集合,让数据分布与使用所有属性时的分布尽量相似。例如分析顾客是否愿意购买新的流行歌单时,可删掉电话号码、住址等无关信息,保留顾客分类、年龄、喜好的音乐类型等重要信息。
- 数量规约:通过较小的数据集替代原始数据集来简化处理过程。其常用方法分为参数的和非参数的。
- 参数方法:利用如回归模型、对数线性模型等数学模型拟合数据,只需存储模型的参数而非整个数据集,借助模型的概括能力实现数据压缩和表示。
- 非参数方法:不依赖特定数学模型,例如使用直方图近似数据分布,通过聚类将数据分组并用簇的代表性数据点替代原始数据,或者运用抽样技术从原始数据集中选取部分数据作为代表,以及数据立方体聚集,它通过对数据进行多维度的汇总和聚合来减少数据量并保留关键信息。
- 直方图:这是一种利用分箱法近似数据分布的数据规约方法,把数据分成不同区间(格子),格子宽度代表范围大小,高度显示该范围内的数据点数量,常用于统计数据的可视化,便于理解数据分布情况,还可根据等宽原则或等平原则来确定区间划分。
- 聚类:将数据集的数据对象分组,使相似对象归为同一组,不相似对象分到不同组,分组结果称为簇或群。相似性通常基于距离度量(如欧几里得距离、曼哈顿距离等)来判定,距离越小相似度越高,距离越大差异性越大。聚类技术在市场细分、图像处理、社交网络等诸多领域都有重要作用,簇的直径和簇心距离是评估聚类质量的关键指标,常用的聚类算法包括基于划分(如 k means 算法)、基于层次、基于密度、基于网格和基于模型的方法等。
- 抽样:通过从大型数据集提取小的随机样本子集来代表整个数据集,能显著降低处理和分析的计算成本,同时保留数据代表性。常见抽样方法有无放回简单随机抽样(确保样本独立性和随机性,每个数据点只能被选一次)、有放回简单随机抽样(所选数据点抽样后会放回,可多次选择,适用于需重复抽样情况)、簇抽样(适合数据集自然分组情况,将数据集划分成簇后随机选簇抽样)以及分层抽样(适用于数据集有明显分层特征情况,将数据集划分为不同层后从各层随机抽取样本)。
二、数据处理之数据变换
1. 数据变换的意义
数据变换是数据挖掘过程中的关键环节,核心任务是把各种原始数据转化为适合分析和挖掘的格式,以提高挖掘的准确性,帮助提取更有价值的信息。
2. 常见的数据变换策略
- 光滑数据:犹如去除画布上的杂点般去掉数据中的噪声,常用技术包括分箱、回归和聚类等,使数据更纯净。
- 数据聚类:对数据进行汇总或聚集,比如将日销售数据聚合计算出月或年销售总量,有助于发现数据模式,还能构建数据立方体以从多维度观察数据。
- 属性构造(特征构造):依据已有的属性构造出新属性并添加到属性集中,能加速挖掘过程,更快找到有价值信息。
- 数据规范化:类似调整乐器音调,按比例缩放数据的属性,使其落入特定区间,避免某些属性对结果产生过大影响,常见算法有最小最大规范化(将数据最小值拉伸到 0,最大值压缩到 1,使中间数值线性映射到该区间)、零均值规范化(将数据均值变成 0,并根据标准差缩放,确保数据分布均匀,消除偏移,不受极端值干扰)、小数定规范化(将所有数据值转换为相对于总和的比例,直观体现各部分对整体的贡献)。
- 数据离散化:把原始值替换为区间标签或概念标签,让数据更简洁明了,便于理解和分析。
- 数据泛化:进行概念分层,用高层概念替换低层或原始数据,像把街道泛化为城市、国家等,许多属性的概念分层可在数据库模式中自动定义。
查看更多