正则化与正则剪枝

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除!


文章目录

  • 引言
  • 正则化
    • 为什么会过拟合
    • 拉格朗日与正则化
    • 梯度衰减与正则化
  • 应用
    • 解决过拟合
    • 网络剪枝
  • 总结
  • 致谢
  • 参考


引言

在深度学习中,模型的复杂度通常是由模型参数的数量和取值范围来决定的。当模型太过复杂时,容易过拟合,即训练集上表现很好,测试集上表现较差,原因在于模型过于适应训练集数据或训练数据过少,从而导致泛化能力不足,如下图。

在这里插入图片描述

训练模型本质上是从子集推广到全集,不论是子集太少不足以近似描述全集的性质,还是过分信任子集,即把子集当作全集,在测试全集中的数据表现都不佳。

减少过拟合的方法和技术有很多,下面列举了一些常用的方法:

  • 数据增强(Data Augmentation): 通过对训练集中的数据进行随机变换、旋转、缩放等操作,生成更多的样本以拟合训练全集的数据分布,帮助模型更好地泛化。
  • 正则化(Regularization): 通过在损失函数中引入正则化项,控制模型的复杂度,防止模型过度拟合,常见的正则化方法有L1正则化和L2正则化。
  • Early Stopping: 在训练过程中,监控模型在验证集上的性能指标。当模型在验证集上的性能不再提升时,停止训练,以避免过拟合。
  • Dropout/DropBlock: 在训练过程中,随机丢弃一部分神经元的输出,以减少神经网络中神经元之间的依赖关系,从而降低过拟合风险。
  • 权重衰减(Weight Decay): 在优化算法中,对模型的权重进行衰减(即乘以一个小于1的因子),以限制权重的增长,减少模型的复杂度。
  • 简化模型结构: 减少模型的参数量和复杂度,例如减少隐藏层的数量、减少神经元的数量,以降低过拟合的可能性。

以上方法基本上是通过扩大训练的子集、或使网络稀疏降低网络的拟合能力、约束网络参数,以提高网络泛化能力。正则化的意义不仅仅在于提高模型的泛化能力,使其在面对新数据时能够更好地表现,同时正则化在网络剪枝方面也有应用。

正则化

为什么会过拟合

对于卷积或者全连接之类的线性操作,可以简单表示为 y = x × W + b y = x \times W + b y=x×W+b,w是权重,b是偏置。对于多层线性操作 y = f ( . . . f ( x ) ) y = f(...f(x)) y=f(...f(x)) f ( x i ) = x i × W i + b i f(x_i) = x_i \times W_i + b_i f(xi)=xi×Wi+bi,不妨考虑极端情况所有偏置为0,多层线性操作 y = f ( . . . f ( x ) ) = x × W 1 × W 2 × . . . × W n y = f(...f(x)) = x \times W_1\times W_2\times...\times W_n y=f(...f(x))=x×W1×W2×...×Wn,对于一个特定的输出y,其参数的可能组合有无数种,更何况还有偏置以及非线性的激活函数,网络的拟合能力就更强。

因此对于有限的训练集,网络完全可以记住所有样本的对应的结果导致泛化性差。不难想到降低权重和偏置数量不就可以降低网络的拟合能力,确实是这样。简化网络结构或者使用drop操作,可以减少网络参数或者降低有效的参数的数量达到减少过拟合的情况。此外网络参数的数据类型多是float32,在不加约束的情况下,网络参数不仅组合多并且可能会很大,参数过大会放大输入中的噪声和错误信息进而导致错误结果,约束后可以减少输入的中一些干扰,确保泛化性。

拉格朗日与正则化

正则化就是约束网络参数的一种经典方法,通过在模型训练过程中引入惩罚项来控制模型的复杂度,从而避免过拟合现象。在正则化中,常见的惩罚项有L1正则化和L2正则化。L1正则化将模型参数的绝对值之和作为惩罚项,促使模型参数中的某些维度变为0,从而实现特征选择的效果;L2正则化将模型参数的平方和作为惩罚项,促使参数的值尽可能小,从而防止模型过于复杂,这里主要是指对参数W的正则化,过拟合的来源主要也是W,不考虑偏置是因为偏置只是平移的功能。

L1、L2正则化中的正则项主要利用L1、L2范数,其实是计算该位置和原点的位置,把勾股定理推理到高维即可。如下,计算高维参数和原点的曼哈顿距离和欧氏距离,相同的范数的点连接起来就是一个正方形和圆,在 p p p 大于等于1 时,此时的可行域是凸集。
在这里插入图片描述

不妨假设损失函数为 L o s s = J ( W , b ) Loss = J(W,b) Loss=J(W,b),上文说过b可不进一步约束,因此 L o s s = J ( W ) Loss = J(W) Loss=J(W)。对于损失函数,不妨规定可行域,即 ∣ ∣ W ∣ ∣ 1 − C ≤ 0 ||W||_1 - C \leq 0 ∣∣W1C0,C是约束条件,让W都在该较小的范围内,进而损失函数的拉格朗日表达式可变为 L o s s ( W , λ ) = J ( W ) + λ ( ∣ ∣ W ∣ ∣ 1 − C ) Loss(W,\lambda) = J(W)+\lambda(||W||_1 - C) Loss(W,λ)=J(W)+λ(∣∣W1C),其中 λ ≥ 0 \lambda\geq0 λ0。同理当可行域为 ∣ ∣ W ∣ ∣ 2 − C ≤ 0 ||W||_2 - C \leq 0 ∣∣W2C0,进而损失函数可变为 L o s s ( W , λ ) = J ( W ) + λ ( ∣ ∣ W ∣ ∣ 2 − C ) Loss(W,\lambda) = J(W)+\lambda(||W||_2 - C) Loss(W,λ)=J(W)+λ(∣∣W2C),图像的表达形式如下:
在这里插入图片描述
以二维示例或理解为高维空间在二维上的投影,越靠近等高线的中心,损失越小,其中在交点处就是所求的最值点,因为对于优化问题而言(因为 ∣ ∣ W ∣ ∣ 1 ∣ ||W||_1| ∣∣W1 ∣ ∣ W ∣ ∣ 2 ∣ ||W||_2| ∣∣W2的可行域是凸集( p ≥ 1 p\geq1 p1)不改变求解问题的凹凸性),最值点需要满足导数或梯度为0,因此只有在 ∣ ∣ W ∣ ∣ 1 ∣ ||W||_1| ∣∣W1的顶点与 ∣ W ∣ ∣ 2 |W||_2 W2切点处,才能满足梯度为零的条件,如下图。
在这里插入图片描述

在这里插入图片描述

对于不同的C值,具有不同的可行域。可以看到, ∣ ∣ W ∣ ∣ 1 ||W||_1 ∣∣W1正则化取极值的点有些在坐标轴上,因此会使得网络部分参数是0,进而达到稀疏网络或者说特征选择的作用。相反 ∣ ∣ W ∣ ∣ 2 ||W||_2 ∣∣W2一般不会在坐标轴上,不具备稀疏网络的作用。举个不恰当的例子, ∣ W ∣ |W| W求导之后是+1或者-1,因此无论W在那个位置,梯度下降的速度是比较快的,因此总会有些W为0。 W 2 W^2 W2求导之后是2W,W越接近0,梯度越来越小,越来越走不动。因此W只会密集的接近0而不会是0,因此没有稀疏作用。
在这里插入图片描述

梯度衰减与正则化

从求解过程来说,只要保证梯度为0即可,因此可去除常数C,会导致极值不一样,但是取得极值的w是一样的,即 L o s s ( W , λ ) = J ( W ) + λ ⋅ ∣ ∣ W ∣ ∣ 1 Loss(W,\lambda) = J(W)+\lambda\cdot||W||_1 Loss(W,λ)=J(W)+λ∣∣W1或者 L o s s ( W , λ ) = J ( W ) + λ ⋅ ∣ ∣ W ∣ ∣ 2 Loss(W,\lambda) = J(W)+\lambda\cdot||W||_2 Loss(W,λ)=J(W)+λ∣∣W2,这就是常见的对损失函数的约束, λ \lambda λ通常是保证在极值处梯度总和为0,因此定下来 λ \lambda λ 就等于确定了极值点的位置。

再次的给出损失 L = J ( W ) L = J(W) L=J(W),权重更新的方式: W = W − η ⋅ ∇ w ⋅ J ( W ) W= W-\eta\cdot\nabla_w\cdot J(W) W=WηwJ(W) η \eta η 为学习率;
正则化后 L = J ( W ) + λ ⋅ ∣ ∣ W ∣ ∣ 2 L = J(W) + \lambda \cdot ||W||_2 L=J(W)+λ∣∣W2,对于实际的 ∣ ∣ W ∣ ∣ 2 ||W||_2 ∣∣W2计算,对于高维向量各项的平方和可表示为 W T W W^TW WTW 并且开方运算计算量较大,开方运算不影响函数的单调性,因此使用 W T W W^TW WTW来等价 ∣ ∣ W ∣ ∣ 2 ||W||_2 ∣∣W2即可。因此可 L ^ = J ( W ) + α 2 ⋅ W T W \hat{L }= J(W) + \frac {\alpha} {2} \cdot W^TW L^=J(W)+2αWTW,分母2为了抵消平方的求导的系数。

权重更新需要加上正则化项: W = W − η ⋅ ∇ w ⋅ J ( W ) − η ⋅ α ⋅ W W= W-\eta \cdot \nabla_w \cdot J(W)-\eta \cdot \alpha \cdot W W=WηwJ(W)ηαW = ( 1 − η ⋅ α ) W − η ⋅ ∇ w ⋅ J ( W ) (1-\eta \cdot \alpha) W -\eta \cdot \nabla_w \cdot J(W) (1ηα)WηwJ(W),在 ( 1 − η ⋅ α ) (1-\eta \cdot \alpha) (1ηα)在[0,1]之间时候,W在每次更新的时候都会衰减,这也是为什么L2正则化也叫做权重衰减,随着更新次数增多,W可改变的范围越来越小,也就是上文所提到的不恰当的例子中越来越走不动的原因。

不妨假设神经网络的函数为 f ( x ) f(x) f(x),过拟合即是 f ( x ) f(x) f(x)可产生区分每个训练样本的分界线,分界线会多次转折或弯曲去区分,可参考第一个图中的黑色线。通过将 f ( x ) f(x) f(x)展开为泰勒公式则有: f ( x ) = f ( a ) + f ′ ( a 0 ) ( x − a 0 ) + 1 2 f ′ ′ ( a 0 ) ( x − a 0 ) 2 + ⋅ ⋅ ⋅ + 1 2 f ( n ) ( a 0 ) ( x − a 0 ) n f(x) = f(a) + f'(a_0)(x-a_0) + \frac {1} {2}f''(a_0)(x-a_0)^2 + \cdot \cdot\cdot + \frac {1} {2}f^{(n)}(a_0)(x-a_0)^n f(x)=f(a)+f(a0)(xa0)+21f′′(a0)(xa0)2++21f(n)(a0)(xa0)n ,通过控制高次项的系数趋于0,就可降低 f ( x ) f(x) f(x) 拟合能力(减少分界线的转折次数或程度),即控制W趋于0, f ( n ) ( a 0 ) f^{(n)}(a_0) f(n)(a0)也得趋于0,在 f ( n ) ( a 0 ) f^{(n)}(a_0) f(n)(a0)趋于0时,只惩罚大于1的高次项。

此外正则化去除常数C,会导致极值不一样,但是这个极值的误差到底有多大,这是需要关注的,在此不妨假设 J ( W ∗ ) J(W^*) J(W), J ( W ^ ) J(\hat{W}) J(W^) 分别是正则化前后的极值, W ∗ W^* W, W ^ \hat{W} W^是其取得极值的权重,在这里直接截取了L1和L2正则化”直观理解(之二)的内容,对于L1一般Hessian矩阵无法得到清晰的表达式,此处略过,近似的方法参考该视频第24:00分钟的内容。

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

本质上,L1正则化、L2正则化就是在不同的 α \alpha α下对权重进行缩放,L1正则化的结果如下:
在这里插入图片描述

应用

解决过拟合

上文已经叙述了L1正则化,L2正则化对网络权重的约束,包括稀疏和权重衰减,此处简单示例如何使用L1正则化,L2正则化

import torch
import torch.nn as nn

# 定义模型
model = nn.Linear(10, 1)  # 以一个简单的线性模型为例

# 创建一些随机输入
input = torch.randn(5, 10)

# 获取模型的权重参数
parameters = model.parameters()
weights = [param for name, param in parameters]

# 计算L1正则化
l1_regularization = torch.tensor(0.)
for weight in weights:
    l1_regularization += torch.sum(torch.abs(weight))

# 计算L2正则化
l2_regularization = torch.tensor(0.)
for weight in weights:
    l2_regularization += torch.sum(weight**2)

# 设置正则化系数
l1_lambda = 0.01
l2_lambda = 0.01

# 将正则化项添加到损失函数中
criterion = nn.MSELoss()  # 以均方误差作为损失函数为例
loss = criterion(model(input), torch.randn(5, 1))
loss += l1_lambda * l1_regularization
# 或者
# loss += l2_lambda * l2_regularization

# 进行反向传播等其他训练步骤...

网络剪枝

除了对网络的参数进行正则化,其实也有一些应用在剪枝,其目的就是通过正则化后的权重来评估通道的贡献度,贡献度很小的通道(小的W就可以省略进行剪枝)。
在这里插入图片描述

Slimming: Learning Efficient Convolutional Networks through Network Slimming
论文速递: 点击转跳

利用BN层的比例因子: 为每个通道引入一个缩放因子γ,乘以该通道的输出。然后联合训练网络权值和这些比例因子,并对后者进行稀疏正则化。最后对这些小因子频道进行修剪,并对修剪后的网络进行微调。通常卷积和BN会一起使用,结合BN标准化激活的方式设计有效的方法来结合通道尺度因子。BN层使用小批量统计对内部激活进行规范化。设 z i n 和 z o u t z_{in}和z_{out} zinzout分别为BN层的输入和输出,B表示当前的mini-batch, BN层进行如下变换:
在这里插入图片描述
其中 µ B , σ B µ_B,σ_B µB,σB是B上输入激活的平均值和标准差值,γ和β是可训练的仿射变换参数(尺度和位移)。

具体来说,训练目标由损失函数和正则化项组成。
在这里插入图片描述
其中(x, y)表示训练输入和目标,W表示可训练权值,第一个求和项对应于网络的正常训练损失,g(·)是缩放因子上的稀疏性惩罚,λ平衡这两项。常见的使用L1/L2正则化,使得其中的缩放因子趋于0.

由于修剪通道本质上相当于删除该通道的所有传入和传出连接,比例因子作为渠道选择的代理。与网络权值共同优化,自动识别不重要的信道,可以在不影响泛化性能的情况下安全地去除不重要的信道。通过去除所有的进出连接和相应的权值来修剪比例因子接近于零的信道来更紧凑的网络,具有更少的参数和运行时内存,以及更少的计算操作。

当剪枝比较高时,剪枝可能会暂时导致一些精度损失。在很大程度上可以通过在修剪后的网络上进行随后的微调过程来补偿,如下图的虚线。

在这里插入图片描述

通过对批归一化层的比例因子施加稀疏性诱导的正则化,在训练过程中自动识别不重要的通道并进行修剪,能够显着降低最先进网络的计算成本(高达20倍),而没有准确性损失。该方法同时减少了模型大小、运行时内存和计算操作,同时在训练过程中引入了最小的开销,并且所得到的模型不需要特殊的库/硬件来进行有效的推理。

总结

正则化是一种在机器学习中用于控制模型复杂度的技术,它通过在损失函数中添加一个额外项来对参数进行约束,从而避免过拟合。其中,L1正则化通过对参数的绝对值求和来实现,能够产生稀疏权重;L2正则化通过对参数的平方和求根号来实现,能够产生较为平滑的权重;实际上可以结合两者来共同约束参数。

在实际应用中,正则化可以帮助模型更好地泛化数据,提高模型的鲁棒性和可靠性。同时,正则化也需要根据具体问题进行调整,不同的正则化方法和系数可能会产生不同的效果。正则化的意义不仅仅在于提高模型的泛化能力,使其在面对新数据时能够更好地表现,同时正则化在网络剪枝方面也有应用。

致谢

欲尽善本文,因所视短浅,怎奈所书皆是瞽言蒭议。行文至此,诚向予助与余者致以谢意。


参考

[1]. L1和L2正则化”直观理解(之二)
[2]. Liu Z, Li J, Shen Z, et al. Learning efficient convolutional networks through network slimming[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2736-2744.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/191166.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Amazon】在Amazon EKS集群中安装部署最小化KubeSphere容器平台

文章目录 一、准备工作二、部署 KubeSphere三、访问 KubeSphere 控制台四、安装Amazon EBS CSI 驱动程序4.1 集群IAM角色建立并赋予权限4.2 安装 Helm Kubernetes 包管理器4.3 安装Amazon EBS CSI 驱动程序 五、常见问题六、参考链接 一、准备工作 Kubernetes 版本必须为&…

Jmeter性能综合实战——签到及批量签到

提取性能测试的三个方面:核心、高频、基础功能 签 到 请 求 步 骤 1、准备工作: 签到线程组 n HTTP请求默认值 n HTTP cookie 管理器 n 首页访问请求 n 登录请求 n 查看结果树 n 调试取样器 l HTTP代理服务器 (1)创建线…

VMware安装部署kail镜像服务器【详细包含百度云盘镜像】

VMware安装部署kail镜像服务器【详细包含百度云盘镜像】 kail是一个很好玩的操作系统,不多说了哈 下载kail镜像 kail官网:https://www.kali.org/get-kali/#kali-platforms 百度云盘下载: 链接:https://pan.baidu.com/s/1PRjoP_1v8DEZ7-dA_…

JVM基础篇:垃圾回收

1.前言 1.1C/C的内存管理 在C/C这类没有自动垃圾回收机制的语言中,一个对象如果不再使用,需要手动释放,否则就会出现内存泄漏。我们称这种释放对象的过程为垃圾回收,而需要程序员编写代码进行回收的方式为手动回收。内存泄漏指的…

【计网 可靠数据传输RDT】 中科大笔记 (十 一)

目录 0 引言1 RDT的原理RDT的原理: 2 RDT的机制与作用2.1 重要协议停等协议(Stop-and-Wait):连续ARQ协议: 2.2 机制与作用实现机制:RDT的作用: 🙋‍♂️ 作者:海码007📜 专栏&#x…

Git远程仓库常用开发命令和理解

远程仓库 创建与合并分支 每次提交,Git都把它们串成一条时间线,这条时间线就是一个分支。截止到目前,只有一条时间线,在Git里,这个分支叫主分支,即master分支。 HEAD严格来说不是指向提交,而…

基于springboot学籍管理系统

一、设计目的 1. 复习、巩固Java语言的基础知识,进一步加深对Java语言的理解和掌握; 2. 课程设计为学生提供了一个既动手又动脑,独立实践的机会,将课本上的理论知识和实际有机的结合起来,锻炼学生的分析解决实际问题…

系列十八、Spring bean线程安全问题

一、概述 我们知道Spring中的bean,默认情况下是单例的,那么Spring中的bean是线程安全的吗?这个需要分情况考虑,bean中是否存在成员变量?bean中的成员变量是怎么处理的?...,针对bean的状态会有不…

OpenGL的学习之路 -5

1.视景体 正交投影 人眼看世界,有一个可见范围。范围内可见,范围外不可见。视景体就是这么一个概念。 (上图仅学习记录用) 在OGL中,有两种投影方式,对应两种视景体。第一种,正交投影&#xf…

Flask学习二:项目拆分、请求与响应、cookie

教程 教程地址: 千锋教育Flask2框架从入门到精通,Python全栈开发必备教程 老师讲的很好,可以看一下。 项目拆分 项目结构 在项目根目录下,创建一个App目录,这是项目下的一个应用,应该类似于后端的微服…

案例029:基于微信小程序的阅读网站设计与实现

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…

为什么PCB板大多数都是绿色的?

什么时候开始接触到PCB板的呢?也许是是把家里的电视遥控器拆开的时候,也许是你的小霸王学习机游戏手柄给按坏拆开的时候,也许那时候你还不知道这叫PCB电路板。然后就是大学里使用嘉立创免费打板的时候,有一个选项绿色板还是黑色板…

自建CA实战之 《0x01 Nginx 配置 https单向认证》

自建私有化证书颁发机构(Certificate Authority,CA)实战之 《0x01 Nginx 配置 https单向认证》 上一篇文章我们介绍了如何自建私有化证书颁发机构(Certificate Authority,CA),本篇文章我们将介…

单细胞seurat入门—— 从原始数据到表达矩阵

根据所使用的建库方法,单细胞的RNA序列(也称为读取(reads)或标签(tags))将从转录本的3端(或5端)(10X Genomics,CEL-seq2,Drop-seq&…

Java 文件常用操作与流转换

🚀 作者主页: 有来技术 🔥 开源项目: youlai-mall 🍃 vue3-element-admin 🍃 youlai-boot 🌺 仓库主页: Gitee 💫 Github 💫 GitCode 💖 欢迎点赞…

SATA信息传输FIS结构总结通过实例代码(快速)掌握(二)

目录 一、简介二、总体介绍2.1 详细FIS传输过程2.2 FIS内容详解 三、FIS实例3.1 构造一个write FIS3.1.1 WRITE FIS内容3.1.2 协议分析仪trace分析3.1.3 write过程总trace 3.2 构造一个read FIS3.2.1 READ FIS内容3.2.2 协议分析仪 read trace3.2.3 read过程总trace 3.3 FIS和C…

Linux系统管理:WinSCP 安装与使用

目录 一、实验 1.下载WinSCP 2.安装WinSCP 3.使用WinSCP 一、实验 1.下载WinSCP (1)地址 Downloading WinSCP-6.1.2-Setup.exe :: WinSCP 2.安装WinSCP (1)选择安装程序模式 (2)点击 (3…

C++初识类和对象

前言 上一期我们介绍了一些C入门的基础知识,本期我们来介绍面向对象。初步认识一下面向对象和面向过程、类、以及封装! 本期内容介绍 面向过程和面向对象 类的引入 类的定义 类的访问限定符和封装 类的作用域 类的实例化 类对象模型 this指针 一、面向…

name 属性:提高 Vue 应用可维护性的关键

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…

Linux加强篇006-存储结构与管理硬盘

目录 前言 1. 从“/”开始 2. 物理设备命名规则 3. 文件系统与数据资料 4. 挂载硬件设备 5. 添加硬盘设备 6. 添加交换分区 7. 磁盘容量配额 8. VDO虚拟数据优化 9. 软硬方式链接 前言 悟已往之不谏,知来者之可追。实迷途其未远,觉今是而昨非…