详解归一化、标准化、正则化以及batch normalization

文章目录

      • what(是什么)
      • where(用在哪)
      • How(如何用&&原理)
        • 归一化
          • 实现方式
          • 原理
          • 示例说明
        • 标准化
          • 实现方式
          • 原理
          • 示例说明
        • 正则化
          • 实现方式
          • 原理
          • 作用
        • Batch Normalization
          • pytorch中的batch normalization
          • 原理
          • BN的作用

归一化、标准化、正则化、以及深度学习种经常看到的Batch Normalization分别是什么?用在哪?怎么用,以及各自的原理分别是什么?本文针对这些问题,进行对比分析,整体解析。

what(是什么)

  • 归一化,是对数据进行归一处理,处理的结果,从数据上看,会使得数据全部落在[0,1]的范围;从应用角度看,能够消除量纲的影响,也就是说,归一化在不同的特征之间进行,但可能涉及到一些反归一化的操作。
  • 标准化,主要改变数据的分布,处理结果,从数据上看,会使得数据服从标准正态分布;从应用的角度看,这种标准的正态分布能够加速模型训练,主要用在同一特征的特征数据上。
  • 正则化,是在机器学习中的损失函数中添加惩罚项,从数据上看,这种惩罚项会减小模型权重,通过减小权重,在应用中,能够降低有效防止过拟合。
  • 而深度学习中常说的Batch Normalization层则是数据标准化的一个更高级的具体实现。具体地,在标准化的基础上,对数据进一步的进行一个缩放和拉伸,以达到学习数据真实分布的目的。从数据上看,经过Batch Normalization层的后的数据,会呈现正态分布;从应用角度,该分布可以有效加速模型模型、防止梯度消失、防止过拟合的作用。

where(用在哪)

  • 归一化,主要用在存在多个特征,且多个特征之间量纲不一致的情况下,需要对数据进行归一化,以消除量纲带来的影响,尤其,当特征的数值范围变化较大时,或者算法对输入数据的数值范围敏感时,可以考虑归一化。
  • 标准化,主要在模型训练阶段,尤其当特征的分布偏差大或者算法对数据的分布敏感时,可以考虑标准化。
  • 正则化,主要用在机器学习的损失函数上。通过在损失函数上施加惩罚项,来降低模型复杂度,特别是在数据量不足或者特征数目较多时。

How(如何用&&原理)

归一化
实现方式
  • 最大最小归一化
    将数据缩放到一个固定的范围,通常是[0, 1]或者[-1, 1]。
## 在 python 中实现最大最小归一化的操作

import numpy as np

def min_max_normalize(data):
    min_val = np.min(data)
    max_val = np.max(data)
    normalized_data = (data - min_val) / (max_val - min_val)
    return normalized_data
原理

公式为: x ′ = x − m i n ( x ) m a x ( x ) − m i n ( x ) x'=\frac{x-min(x)}{max(x)-min(x)} x=max(x)min(x)xmin(x), 其中, ( x ) (x) (x) 是原始数据, ( x ′ ) (x') (x) 是归一化后的数据, m i n ( x ) min(x) min(x) m a x ( x ) max(x) max(x) 分别是数据集 X X X 的最小值和最大值。

示例说明

在许多机器学习算法中,如支持向量机(SVM)、k近邻(k-NN)等,距离度量是一个重要的因素。如果特征未经过归一化,具有较大范围值的特征可能会主导距离计算,导致模型偏向于某些特征而忽略其他特征。通过归一化,可以避免这种情况,确保每个特征对模型的贡献相对平等。
例子:

假设我们有一个数据集,包含两个特征:身高(单位:厘米)和体重(单位:千克)。身高的范围可能在150到190厘米之间,而体重的范围可能在50到100千克之间。如果我们不对这些特征进行归一化,身高和体重的值范围差异很大,可能导致机器学习模型在训练过程中对于体重的变化更为敏感,而对身高的变化不敏感。

通过归一化,我们可以将身高和体重都映射到 [0, 1] 的范围内,使得这两个特征的尺度相似。这样模型在训练时能够更平衡地考虑身高和体重对输出(比如预测健康状况)的影响,而不会被特征尺度的差异所影响。

标准化
实现方式
  • Z-score方法
    调整数据分布,将数据拉到均值为0,方差为1的标准正态分布。
import numpy as np

def calculate_z_scores(data):
    """
    计算给定数据集的Z-Scores(标准化)。
    
    参数:
    data: numpy数组,包含要标准化的数据集。
    
    返回:
    Z-Scores的numpy数组,与输入数据形状相同。
    """
    mean_data = np.mean(data)
    std_data = np.std(data)
    z_scores = (data - mean_data) / std_data
    return z_scores

# 示例用法
X = np.array([1, 2, 3, 4, 5])
Z_scores = calculate_z_scores(X)
print("原始数据 X:", X)
print("Z-Scores:", Z_scores)
原理

公式为: x ′ = x − m e a n ( x ) s t d ( x ) x'=\frac{x-mean(x)}{std(x)} x=std(x)xmean(x),其中, x ′ x' x为处理后的数据, m e a n ( x ) mean(x) mean(x)为数据的均值, s t d ( x ) std(x) std(x)为数据方差。经过处理,数据服从标准正态分布。

示例说明

假设我们的数据集如下:

特征1特征2
10200
20800
30600
40400

标准化后的数据集如下(保留一位小数):

特征1特征2
-1.3-1.3
-0.51.3
0.50.5
1.3-0.5

通过这种标准化,我们可以看到原始数据的不同尺度被调整到了相似的范围内,这样在进一步的分析和建模中,特征的权重和贡献度更容易理解和比较

正则化
实现方式

在损失函数中添加正则项,其中L1正则添加 λ ∑ i = 1 n ∣ w i ∣ \lambda \sum_{i=1}^{n} |w_i| λi=1nwi,L2正则添加 λ ∑ i = 1 n w i 2 \lambda \sum_{i=1}^{n} w_i^2 λi=1nwi2

原理
  • L1正则化(Lasso正则化): 添加参数向量的L1范数作为惩罚项。它倾向于使得部分参数为零,从而实现特征选择的效果,减少不重要特征对模型的影响。
    Lossregularized = Lossoriginal + λ ∑ i = 1 n ∣ w i ∣ \text{Loss}{\text{regularized}} = \text{Loss}{\text{original}} + \lambda \sum_{i=1}^{n} |w_i| Lossregularized=Lossoriginal+λi=1nwi
    其中, ( λ ) ( \lambda ) (λ) 是正则化强度参数,控制正则化项对总损失的贡献程度。

  • L2正则化(Ridge正则化): 添加参数向量的L2范数平方作为惩罚项。它通过惩罚参数的大小来控制模型的复杂度,避免参数值过大。
    Lossregularized = Lossoriginal + λ ∑ i = 1 n w i 2 \text{Loss}{\text{regularized}} = \text{Loss}{\text{original}} + \lambda \sum_{i=1}^{n} w_i^2 Lossregularized=Lossoriginal+λi=1nwi2
    类似地, ( λ ) ( \lambda ) (λ) 是正则化强度参数。

作用

此处,引用大神深入理解L1、L2正则的博客中的图,进一步说明L1和L2正则。

  • L1正则
    在考虑二维特征的情况下,L1正则的图像应该为一个规则矩形,将正则项记为 J J J,若把正则项 J J J、原始损失函数 L o s s o r i g i n a l Lossoriginal Lossoriginal绘制在同一个坐标下,应该为:
    L1正则
    将带有正则的损失函数记为 L o s s r e g u l a r i z e d Lossregularized Lossregularized,那么 L o s s r e g u l a r i z e d Lossregularized Lossregularized在取到最小值时,应该在 L o s s o r i g i n a l Lossoriginal Lossoriginal J J J的交点处(原因以及具体推导,见大神的博客,主要是一个带约束的优化问题,使用KKT条件求解)。从图像直观理解,损失函数与正则项图像的交点,更容易落在坐标轴而非坐标平面上(高维特征空间会更加明显),在二维空间,就意味着有一维的特征数据为0,也就是说有一个维度的特征没有对损失函数起到作用。从而得出,L1正则具有使得模型更加稀疏的作用,也可以说,起到了一定的特征选择的作用。

  • L2正则
    同样的,将 L 2 L2 L2正则项 J J J以及原始损失函数 L o s s o r i g i n a l Lossoriginal Lossoriginal的等值线绘制在同一个坐标系下。
    在这里插入图片描述
    从图中可以看出,带正则的损失函数 L o s s r e g u l a r i z e d Lossregularized Lossregularized的最小值更多的出现在坐标平面中,因此L2正则是不具有使得模型更加稀疏的能力的。

Batch Normalization
pytorch中的batch normalization

BatchNorm层通常在激活函数之前应用。它会自动计算每个特征的均值和方差,并根据小批量数据的统计信息进行归一化处理,在使用时,需要注意训练与评估模式的切换,训练阶段,使用mini-batch的均值和方差,评估模式(推理模式)下,会默认使用整个批次的均值和方差

对于全连接层(线性层),可以使用 torch.nn.BatchNorm1d(num_features)
对于2维卷积层,可以使用 torch.nn.BatchNorm2d(num_features)
对于3维卷积层(如视频处理),可以使用 torch.nn.BatchNorm3d(num_features)

import torch
import torch.nn as nn

class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        self.fc1 = nn.Linear(784, 256)
        self.bn1 = nn.BatchNorm1d(256)  # BatchNorm1d应用于全连接层输出
        self.fc2 = nn.Linear(256, 10)

    def forward(self, x):
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = self.bn1(x)
        x = torch.relu(x)
        x = self.fc2(x)
        return x

原理

Batch Normalization由google在2015年提出,主要是为了解决深度神经网络训练过程中的内部协变量偏移(Internal Covariate Shift,在深度神经网络中,每一层的输入数据分布随着网络的训练而发生变化,这被称为内部协变量偏移。这种变化可能导致每层需要不断适应前一层输出的分布变化,使得网络训练过程变得复杂和缓慢)问题,同时有助于加速网络的收敛过程。

  • 算法步骤
    摘自于Batch Normalization论文
    在这里插入图片描述
    BN在减均值除方差后,将数据分布调整为标准的正态分布。此外,额外增加一个缩放和平移的操作,也即增加两个需要学习的参数,分别为 β \beta β γ \gamma γ。这两个参数的引入是为了恢复数据本身的表达能力,对规范化后的数据进行线性变换。
BN的作用

主要有三个作用,首先,通过将特征数据的分布调整到标准正态分布,而在这分布下,激活函数的梯度比较大,能够完美解决梯度消失的问题;其次,由于存在较大的梯度,能够加速模型的训练;最后,由于数据被调整为比较标准的正态分布,模型能够学习到比较通用化的特征,屏蔽了距离正态分布中心较远的特征,避免了对离群特征点的使用,能够在一定程度上减弱过拟合。

附上对BN非常详细的一个解读,有需要的同学可以仔细研读。BN论文的详细解读,该文章通过作图,详细的说明了,在标准正态分布中,激活函数的梯度变化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/766042.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

EXCEL怎么一模一样复制粘贴?

第一步 鼠标选中复制子表 右击建立副本 第二步 建立好副本表格 第三步 将选定工作表移动至新表格 第四步 成功完成移动

社区的用户分层运营如何做?

在社区运营中用户分层尤为关键,20%的高粘性用户带动80%的普通用户。我们主要围绕的是这20%的粘性用户,因为他们才是决定我们未来能不能最好做大最重要的人 分层运营策略 1️⃣对普通用户: 📚满意:搜索是内容多而全&…

数据结构 -AVL树

文章目录 AVL树左旋和右旋插入的四种情况(一)新数字插到了左子树,导致左子树比右子树高2;左孩子的左子树比其右子树高1(二)新数字插到了左子树,导致左子树比右子树高2;左孩子的右子树…

linux的Top学习

学习文档 https://www.cnblogs.com/liulianzhen99/articles/17638178.html TOP 问题 1:top 输出的利用率信息是如何计算出来的,它精确吗? top 命令访问 /proc/stat 获取各项 cpu 利用率使用值内核调用 stat_open 函数来处理对 /proc/sta…

蓝桥杯算法双周赛

四、赛后真题解析 比赛赛后将提供免费直播讲解,主讲人:待定。时间:07 月 13 日(比赛当日)晚 21 时。观看直播地址:第3场蓝桥算法季度赛赛后题解直播 - 蓝桥云课 - 哔哩哔哩直播,二次元弹幕直播…

ShareSDK HarmonyOS NEXT集成指南

集成前准备 注册账号 使用MobSDK之前,需要先在MobTech官网注册开发者账号,并获取MobTech提供的AppKey和AppSecret,详情可以点击查看注册流程 ShareSDK流程图 集成配置 添加依赖 在Terminal窗口中,执行如下命令进行安装 ohpm …

彻底搞懂Webpack插件

前言 首先我们先回忆一下Webpack插件是如何使用的?下面是一份基础的Webpack配置文件: let htmlWebpackPlugin require(html-webpack-plugin);module.exports {mode: development,entry: {main: path.join(__dirname, src/index.js)},output: {path: …

认识软件测试

认识软件测试 软件测试能力要求一、软件测试的步骤1.需求2.测试点3.测试用例4.执行测试用例5.缺陷管理6.测试报告 一、测试用例(test case)**用例编写要素**: 测试用例设计方法1.等价类2.边界值3.判定表法4.场景法 软件测试能力要求 软件测试…

张颂文百花提名,男配界笑出“颂”彩

在这个星光熠熠的百花奖舞台上, 张颂文老师犹如一坛陈年老酒,越品越有味, 竟不声不响地提名了最佳男配角!这下可好, 男配界仿佛一夜之间被“颂”风吹得花枝乱颤,笑料百出。你说张颂文老师这演技&#xf…

嵌套组合请求对象的校验与全局捕捉

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

怎么压缩图片大小?6种无需牺牲质量的图片压缩方法

经常处理图片的小伙伴都知道,高质量的图片往往会占据电脑大量的存储空间,导致图片传输及存储的不便。因此,掌握如何压缩图片大小变得尤为重要。本文将详细介绍图片压缩的几种方法,帮助你高效地减小图片文件大小,让你的…

【ACM出版,马来西亚-吉隆坡举行】第四届互联网技术与教育信息化国际会议 (ITEI 2024)

作为全球科技创新大趋势的引领者,中国不断营造更加开放的科技创新环境,不断提升学术合作的深度和广度,构建惠及各方的创新共同体。这是对全球化的新贡献,是构建人类命运共同体的新贡献。 第四届互联网技术与教育信息化国际学术会议…

秒懂设计模式--学习笔记(5)【创建篇-抽象工厂】

目录 4、抽象工厂4.1 介绍4.2 品牌与系列(针对工厂泛滥)(**分类**)4.3 产品规划(**数据模型**)4.4 生产线规划(**工厂类**)4.5 分而治之4.6 抽象工厂模式的各角色定义如下4.7 基于此抽象工厂模式以品牌与系…

本地文本向量模型的部署提供兼容openai的接口

前言 之前部署了fastgpt官方文档的一个,提供的一个m3e-large的向量模型打包的docker镜像,虽然使用起来整体效果还可以,但是有些文本向量相似度匹配的结果还是不太满意的,目前,网络上层出不穷的带推理文本向量,想体验一下,于是我基于modelscope库封装了一个兼容open ai的…

有哪些Python书籍是程序员强烈推荐?

有一本升级版的经典Python项目编程书一定要推荐一下。 Python极客项目编程(第2版) 第一版累计销售19万册,豆瓣评分8.4。每个项目都按照【讲解原理-分析需求-代码精讲-知识小结-扩展练习-完整代码】的方式进行讲解,并提供可下载运…

【文档+源码+调试讲解】科研经费管理系统

目 录 目 录 摘 要 ABSTRACT 1 绪论 1.1 课题背景 1.2 研究现状 1.3 研究内容 2 系统开发环境 2.1 vue技术 2.2 JAVA技术 2.3 MYSQL数据库 2.4 B/S结构 2.5 SSM框架技术 3 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 操作可行性 3.1.3 经济可行性 3.1…

实习总结 --- 内部平台使用

常用术语 CR CR–标准问题分类管理平台:由业务类型-角色-国家-品类-Page定义。 FAQSOP FAQ是端上用户自助的第一道关口,在引导用户进行自助解决上起关键作用 SOP是指标准作业程序,客服SOP是针对用户遇到的具体问题场景,给客服…

论文阅读【时间序列】DSformer

论文阅读【时间序列】DSformer arxive: DSformer: A Double Sampling Transformer for Multivariate Time Series Long-term Prediction github: MTST 分类:多变量时间序列(Multivariate time series) 核心观点 多变量时间序列3个维度信息 …

从零开始实现大语言模型(一):概述

1. 前言 大家好,我是何睿智。我现在在做大语言模型相关工作,我用业余时间写一个专栏,给大家讲讲如何从零开始实现大语言模型。 从零开始实现大语言模型是了解其原理及领域大语言模型实现路径的最好方法,没有之一。已有研究证明&…

ArcGIS中将测绘数据投影坐标(平面坐标)转地理坐标(球面经纬度坐标)

目录 前言1.测绘数据预览1.1 确定带号1.2 为什么是对Y轴分带,而不是对X轴分带? 2 测绘数据转shp2.1 添加数据2.2 显示XY数据2.3 添加经纬度字段2.4 计算经纬度 3.shp数据重投影4.总结 前言 最近在刚好在做一个小功能,将测绘数据转为经纬度坐标…