写在前面:
首先感谢兄弟们的订阅,让我有创作的动力,在创作过程我会尽最大能力,保证作品的质量,如果有问题,可以私信我,让我们携手共进,共创辉煌。
路虽远,行则将至;事虽难,做则必成。只要有愚公移山的志气、滴水穿石的毅力,脚踏实地,埋头苦干,积跬步以至千里,就一定能够把宏伟目标变为美好现实。
今天在项目中遇到需要对数据中的异常数据进行处理,现将相关知识总结成文,首先感谢其他优秀作者在网上分享的资料,为撰写本文提供了大量的素材。文章有的部分存在冗余,还请各位看官见谅。
1、概览
四分位数(Quartile)是统计学中分位数的一种形式,它将一组数据由小到大排列后分成四个等份,其中每个等份包含25%的数据。具体来说,四分位数包括三个关键点:
第一四分位数(Q1),也称为较小四分位数,是数据集中第25%的数值。
第二四分位数(Q2),即中位数,是数据集中第50%的数值,也就是数据的中间值。
第三四分位数(Q3),也称为较大四分位数,是数据集中第75%的数值。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
四分位数的计算方法涉及将数据从小到大排序后,根据数据的数量(n)来确定四分位数所在的位置。如果(n+1)能被4整除,则四分位数位于的位置是整数;如果不能整除,则根据具体情况可能需要进行插值或取最接近的整数。
四分位数的应用非常广泛,特别是在统计学中用于描述数据分布的形状和离散程度。例如,在绘制箱线图时,四分位数是非常重要的元素之一,用于展示数据的分布情况。此外,四分位数的计算也有助于识别数据中的异常值和潜在的不一致点。
四分位数在统计学中的箱线图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、中位数和两个四分位数。
2、进一步介绍
2.1、四分位距 (IQR)
四分位距 (IQR) 是统计离散度的度量,即数据的中间 50% 的分布。它计算为第三四分位数 (Q3) 和第一四分位数 (Q1) 之间的差值。计算公式:IQR = Q3 - Q1
2.2、四分位数
四分位数将按等级排序的数据集分成四个相等的部分。第一四分位数 (Q1) 是下半部分的中位数,第三四分位数 (Q3) 是上半部分的中位数。第二四分位数 (Q2) 是数据集的中位数。
2.3、异常值检测
可以使用 IQR 识别异常值。低于Q1 - 1.5×IQR或者高于Q3 + 1.5×IQR的数据点被视为异常值。
- 下限 = Q1 − 1.5 × IQR
- 上限 = Q3 + 1.5 × IQR
2.4、计算过程
给定数据集 X={x1,x2,…,xn},请执行以下步骤:
- 对数据进行排序:按升序排列数据。
- 计算Q1和Q3:Q1是前半部分的中位数,Q3是后半部分的中位数。
- 计算 IQR:IQR = Q3−Q1
- 确定异常值边界:
下限:Q1 − 1.5 × IQR
上限:Q3 + 1.5 × IQR - 识别异常值:边界之外的任何数据点都是异常值。
假设有一组数据:4、5、6、7、8、9、10、11、12、13。
首先,将数据从小到大排列:4、5、6、7、8、9、10、11、12、13。
计算四分位数位置:
Q1的位置 = (10+1) × 0.25 = 2.75,因此Q1是6(第2个和第3个数的平均值)。
Q2的位置 = (10+1) × 0.5 = 5.5,因此Q2是8(第5个和第6个数的平均值)。
Q3的位置 = (10+1) × 0.75 = 8.25,因此Q3是11(第8个和第9个数的平均值)。
IQR = 8.25-2.75= 5.5
3、代码
下面分享使用四分位数实现2中异常值的处理代码
- 异常值使用均值代替
- 直接将有异常值的删除
import numpy as np
"""
寻找异常值的方法很多,但是找到异常值后,处理方式只有2种:
1、使用其他数据(均值、中值、众数)填充
2、直接删除
"""
# Function to handle outliers, 异常值使用NaN填充
def handle_outliers_1(df, columns_name):
for column in columns_name: # df.column
print("column name:", column)
Q1 = df[column].quantile(q=0.25) # 下四分位
Q3 = df[column].quantile(q=0.75) # 上四分位
IQR = Q3 - Q1 # IQR
lower_bound = Q1 - 1.5 * IQR # 下边缘
upper_bound = Q3 + 1.5 * IQR # 上边缘
# 异常值使用nan填充
df[column] = np.where((df[column] < lower_bound) | (df[column] > upper_bound), np.nan, df[column])
return df
# Function to handle outliers, 异常值索引找到,直接删除该数据
def handle_outliers_2(df, columns_name):
out_index = []
for column in columns_name: # df.column
print("column name:", column)
Q1 = df[column].quantile(q=0.25) # 下四分位
Q3 = df[column].quantile(q=0.75) # 上四分位
IQR = Q3 - Q1 # IQR
lower_bound = Q1 - 1.5 * IQR # 下边缘
upper_bound = Q3 + 1.5 * IQR # 上边缘
# 寻找异常点, 获得异常点索引值, 删除索引值所在行数据
rule = (df[column] < lower_bound) | (df[column] > upper_bound)
out = df[column].index[rule]
print("异常索引:", out)
out_index += out.tolist()
df.drop(out_index, inplace=True)
return df
4、优缺点
四分位数处理异常值的优点和缺点可以归纳如下:
-
优点:
鲁棒性强:四分位数对数据中的异常值具有较强的鲁棒性。即使数据集中存在一部分的极大或极小异常值,也不会对四分位数的计算产生显著影响,因此不会影响对异常值的识别。
计算量小:相比其他统计方法,如计算样本方差或多次校验等,四分位数的计算量更小,异常识别的效率更高,特别适用于处理大量数据时的异常值识别。
直观易懂:四分位数作为一种统计指标,其原理简单直观,容易被大众理解和接受。通过四分位数,可以快速地了解数据的分布情况,包括中位数、数据的离散程度等。
敏感性高:四分位数对于数据的变化比较敏感,即使数据只有微小的变化,也可能会引起四分位数的较大变化。这使得四分位数能够更准确地反映数据的变化情况。
描述性强:四分位数可以简洁地描述一组数据的分布情况,尤其是对于偏态分布的数据,可以更好地反映数据的集中趋势和离散程度。 -
缺点:
对异常值敏感:虽然四分位数在处理异常值时具有一定的鲁棒性,但在某些情况下,它仍然可能受到异常值的影响。如果数据集中存在一些非常大的或非常小的异常值,可能会导致四分位数的值发生较大的变化。
不具备原始数据的精确信息:四分位数只能提供关于数据分布的粗略信息,而无法提供原始数据的具体数值和离散程度。因此,在某些需要精确分析数据的情况下,四分位数可能无法满足需求。
对数据分布的要求严格:四分位数需要数据满足一定的分布条件,如正态分布等。如果数据不满足这些条件,四分位数可能无法准确地反映数据的分布情况。
无法衡量波动大小:四分位数虽然可以描述数据的分布情况,但无法直接衡量数据的波动大小。如果需要了解数据的波动情况,可能需要结合其他统计指标进行分析。
总的来说,四分位数在处理异常值时具有其独特的优点和缺点。在实际应用中,需要根据具体情况和需求选择合适的统计方法进行分析。
5、总结
四分位数是一种描述数据分布的方法,通过将数据分成四个等份,可以更容易地理解数据的整体情况。同时,四分位数也可以用于识别和处理数据中的异常值。好了,今天的分享就到这里,让我们下期见。
参考资料
https://mp.weixin.qq.com/s/R_ZufPCTgsDiRSZKX4OINg
https://zhuanlan.zhihu.com/p/344502263
https://blog.csdn.net/qq_40676033/article/details/100928659
请扫码关注下方的公众号,让我们共同进步吧。