数据标准化与归一化
- 1. 数据的标准化(Standardization):
- 2. 数据的归一化(Normalization):
- 总结(数据标准化和数据归一化的不同之处和相同之处)
1. 数据的标准化(Standardization):
数据的标准化是将数据按照一定的数学规则进行转换
,使得数据满足特定的标准,通常是使数据满足正态分布或标准差为1的标准。
标准化的常见方法包括最小-最大标准化
和Z-score标准化
。最小-最大标准化将数据映射到[0,1
]的范围内,最小-最大标准化将数据映射到0-1区间,公式为(x-min)/(max-min)。而Z-score标准化则根据数据的均值和标准差进行转换。z-score标准化将数据映射到平均值为0、标准差为1的正态分布,公式为(x-μ)/σ
标准化主要用于消除不同变量之间的量纲和单位差异,使数据具有相同的规模和量纲,从而能够更好地进行比较和分析。标准化是线性变换,通过数学公式将原始数据转换为标准化的数据
。
2. 数据的归一化(Normalization):
数据的归一化是将数据缩放到一个较小的区间内
,通常是[0,1]或[-1,1]的区间
。归一化主要关注的是将数据的值压缩到一个较小的范围,以便于处理和分析。归一化通常用于消除数据的尺度或单位差异,使不同变量的数据能够进行比较和分析。
归一化可以通过简单的除法或减法实现,即将原始数据除以某个特定的值或减去某个特定的值,使得结果落入指定的区间内。与标准化不同,归一化不关注数据的分布特性
,只关注将数据的值压缩到一个较小的范围。
总结(数据标准化和数据归一化的不同之处和相同之处)
不同
之处:
-
目的
不同。数据标准化主要目的是消除量纲影响,数据归一化主要目的是加快模型收敛速度。 -
方法
不同。数据标准化常用最小-最大标准化或z-score标准化,数据归一化常用线性转换到固定区间。 -
影响
不同。数据标准化主要影响数据的比较,数据归一化主要影响模型训练效果。
相同
之处:
-
都是数据预处理技术
,目的是对原始数据进行转换。 -
都将数据映射到
固定范围内
,数据标准化
映射到平均值为0、标准差为1,数据归一化
映射到0-1或-1-1区间。 -
都可以
消除大数小数问题
,加强数据的可比性。 -
在机器学习模型训练前都常被作为标准步骤使用,目的是为后续模型训练提供
更好的数据分布
。 -
转换后的数据维度和数量级
与原始数据一致
,只是进行了线性转换,不会丢失原始数据信息
。