神经网络之防止过拟合

今天我们来看一下神经网络中防止模型过拟合的方法 

在机器学习和深度学习中,过拟合是指模型在训练数据上表现得非常好,但在新的、未见过的数据上表现不佳的现象。这是因为模型过于复杂,以至于它学习了训练数据中的噪声和细节,而不是数据的潜在分布。为了解决这个问题,正则化技术被引入,它通过在损失函数中添加一个惩罚项来对模型的复杂度进行限制。

正则化

之前我们在机器学习中介绍过:

  • 过拟合:一个假设 在训练数据上能够获得比其他假设更好的拟合, 但是在测试数据集上却不能很好地拟合数据 (体现在准确率下降),此时认为这个假设出现了过拟合的现象。(模型过于复杂)
  • 欠拟合:一个假设 在训练数据上不能获得更好的拟合,并且在测试数据集上也不能很好地拟合数据 ,此时认为这个假设出现了欠拟合的现象。

我们当时的解决办法是重新清洗数据,导致过拟合的一个原因有可能是数据不纯,如果出现了过拟合就需要重新清洗数据;第二:增大数据的训练量,还有一个原因就是我们用于训练的数据量太小导致的,训练数据占总数据的比例过小;第三是正则化;第四个办法是减少特征维度。 

from sklearn.linear_model import Lasso  # L1正则
from sklearn.linear_model import Ridge  # 岭回归 L2正则 

X10 = np.hstack([X2,X**3,X**4,X**5,X**6,X**7,X**8,X**9,X**10]) 
estimator_l1 = Lasso(alpha=0.005,normalize=True) # 调整alpha 正则化强度 查看正则化效果
estimator_l1.fit(X10,y) 
y_predict_l1 = estimator_l1.predict(X10) 

plt.scatter(x,y) 
plt.plot(np.sort(x),y_predict_l1[np.argsort(x)],color = 'r') 
plt.show()

estimator_l1.coef_  # Lasso 回归  L1正则 会将高次方项系数变为0

我们总结一下线性回归中正则化的API:

  • L1正则化:可以将某些特征的回归系数变为0

  • L1正则化API:Lasso回归

from sklearn.linear_model import Lasso 

  • L2正则化:每次梯度下降迭代都减小特征前面的系数
  • L2正则化API:岭回归

from sklearn.linear_model import Ridge

  • alpha:控制正则化的强度,即惩罚项系数的大小。较小的值表示更强的正则化,较大的值表示较弱的正则化。
  • normalize:是否对数据进行标准化处理。如果设置为True,则在训练之前会对输入数据进行标准化处理,即将每个特征的均值变为0,标准差变为1。这有助于提高模型的性能和稳定性。

 所以正则化的常用方法包括:

  • L1正则化:也称为Lasso回归,它通过惩罚模型参数的绝对值之和来鼓励稀疏性,有助于特征选择。
  • L2正则化:也称为岭回归,它通过惩罚模型参数的平方和的平方根(即权重的平方和)来鼓励模型参数接近于0但不等于0。
  • Dropout:这是一种在训练过程中随机丢弃一部分神经元的方法,强迫网络不过分依赖于任何一个特定的神经元,从而提高了模型的鲁棒性。
  • 早停法(Early Stopping):在训练过程中监控验证集的性能,一旦发现性能不再提升或开始下降,就停止训练,以防止过拟合。
  • 数据增强:通过对训练数据进行扩充,如旋转、缩放等变换,可以有效地增加数据的多样性,减少过拟合的风险。

对于决策树和支持向量机等模型,可以使用集成学习方法进行正则化。集成学习方法通过组合多个不同的模型来提高泛化能力。其中,常见的集成学习方法包括bagging和boosting。Bagging通过对训练数据进行随机抽样生成多个子集,然后分别训练多个模型,最后将这些模型的结果进行平均或投票得到最终结果。Boosting则是通过迭代地训练一系列弱分类器,并将它们的结果加权求和得到最终结果。 

对于神经网络,可以使用Dropout方法进行正则化。Dropout是一种随机丢弃神经元的方法,可以有效地减少模型的复杂度,并提高模型的泛化能力。在训练过程中,每个神经元都有一定的概率被随机丢弃,从而迫使网络不过分依赖于任何一个特定的神经元。

Dropout

import torch
import torch.nn as nn


def func():

    
    dropout = nn.Dropout(p=0.8)
    
    inputs = torch.randint(0, 10, size=[5, 8]).float()
    print(inputs)
    print('-' * 50)

    outputs = dropout(inputs)
    print(outputs)


if __name__ == '__main__':
    func()


tensor([[1., 0., 3., 6., 7., 7., 5., 7.],
        [6., 8., 4., 6., 2., 0., 4., 1.],
        [1., 4., 6., 9., 3., 1., 2., 1.],
        [0., 6., 3., 7., 1., 7., 8., 9.],
        [5., 6., 8., 4., 1., 7., 5., 5.]])
--------------------------------------------------
tensor([[ 0.,  0., 15.,  0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0., 10.,  0.,  0.,  0.],
        [ 0.,  0.,  0., 45.,  0.,  0.,  0.,  0.],
        [ 0.,  0., 15.,  0.,  0.,  0.,  0.,  0.],
        [25.,  0.,  0.,  0.,  0.,  0.,  0., 25.]])

我们将 Dropout 层的概率 p 设置为 0.8,此时经过 Dropout 层计算的张量中就出现了很多 0 , 概率 p 设置值越大,则张量中出现的 0 就越多。上面结果的计算过程如下:

  1. 先按照 p 设置的概率,随机将部分的张量元素设置为 0
  2. 为了校正张量元素被设置为 0 带来的影响,需要对非 0 的元素进行缩放,其缩放因子为: 1/(1-p),上面代码中 p 的值为 0.8, 根据公式缩放因子为:1/(1-0.8) = 5
  3. 比如:第 3 个元素,原来是 5,乘以缩放因子之后变成 25。

丢弃概率 p 的值越大,缩放因子的值就越大,相对其他未被设置的元素就要更多的变大。丢弃概率 P 的值越小,则缩放因子的值就越小,相对应其他未被置为 0 的元素就要有较小的变大。通常Dropout的概率p设置为0.5。

import torch
import torch.nn as nn


# 设置随机数种子
torch.manual_seed(0)


def caculate_gradient(x, w):

    y = x @ w
    y = y.sum()
    y.backward()
    print('Gradient:', w.grad.reshape(1, -1).squeeze().numpy())


def func01():


    # 初始化权重
    w = torch.randn(15, 1, requires_grad=True)
    # 初始化输入数据
    x = torch.randint(0, 10, size=[5, 15]).float()
    # 计算梯度
    caculate_gradient(x, w)


def func02():

    # 初始化权重
    w = torch.randn(15, 1, requires_grad=True)
    # 初始化输入数据
    x = torch.randint(0, 10, size=[5, 15]).float()
    # 初始化丢弃层
    dropout = nn.Dropout(p=0.8)
    x = dropout(x)
    # 计算梯度
    caculate_gradient(x, w)


if __name__ == '__main__':
    func01()
    print('-' * 60)
    func02()

Gradient: [19. 15. 16. 13. 34. 23. 20. 22. 23. 26. 21. 29. 28. 22. 29.]
----------------------------------------------------------------------
Gradient: [ 5.  0. 35.  0.  0. 45. 40. 40.  0. 20. 25. 45. 55.  0. 10.]

我们可以总结出,Dropout会影响神经网络中每个神经元的梯度计算,由于每次迭代都有不同的神经元被随机“丢弃”,这相当于在训练多个不同的网络结构。因此,每个神经元的权重更新会变得更加稳健,因为它们必须在不同的网络配置中都能表现良好。通过随机丢弃神经元,Dropout减少了模型对特定训练样本的依赖,从而降低了过拟合的风险。这种正则化效果使得模型能够更好地泛化到新的数据上。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/593994.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

保研面试408复习 2——操作系统、计网

文章目录 1、操作系统一、进程、线程的概念以及区别?二、进程间的通信方式? 2、计算机网络一、香农准则二、协议的三要素1. 语法2. 语义3. 时序 标记文字记忆,加粗文字注意,普通文字理解。 1、操作系统 一、进程、线程的概念以及…

揭秘大模型应用如何成为当红顶流?

Kimi广告神话背后的关键词战略 如果你生活在中国,你可能不认识ChatGPT,但你一定知道Kimi。无论是学生党还是打工人,都无法避开Kimi的广告。 刘同学在B站上搜教学视频时,弹出了一则软广,上面写着:“作业有…

python学习笔记B-16:序列结构之字典--字典的遍历与访问

下面是字典的访问和遍历方法: d {10:"hello",20:"python",30:"world"} print(d[10],"--",d[20],"--",d[30]) print(d.get(10)) print("以上两种访问方式的区别是,d[key]若键是空值&#xff0c…

代码随想录算法训练营Day12 | 239.滑动窗口最大值、347.前K个高频元素

239.滑动窗口最大值 题目:给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1: 输入&#xff1…

创造价值与回报:创业者的思维格局与商业智慧

在纷繁复杂的商业世界中,有一种信念始终贯穿于无数创业者的心中——那就是创造价值。张磊的这句“只要不断地创造价值,迟早会有回报”道出了创业者的核心思维格局和商业智慧。本文将从创业者的角度,探讨创造价值的重要性,以及如何…

动态炫酷的新年烟花网页代码

烟花效果的实现可以采用前端技术,如HTML、CSS和JavaScript。通过结合动画、粒子效果等技术手段,可以创建出独特而炫目的烟花效果。同时,考虑到性能和兼容性,需要确保效果在各种设备上都能够良好运行。 效果显示http://www.bokequ.…

【分布式系统的金线】——Base理论深度解析与实战指南

关注微信公众号 “程序员小胖” 每日技术干货,第一时间送达! 引言 在当今这个数据密集、服务分布的数字时代,设计高效且可靠的分布式系统成为了技术领域的核心挑战之一。提及分布式系统设计的理论基石,CAP理论——即一致性(Cons…

[HNOI2003]激光炸弹

原题链接:登录—专业IT笔试面试备考平台_牛客网 目录 1. 题目描述 2. 思路分析 3. 代码实现 1. 题目描述 2. 思路分析 二维前缀和板题。 注意从(1,1)开始存即可,所以每次输入x,y之后,要x,y。 因为m的范围最大为…

uniapp+vue基于移动端的药品进销存系统r275i

最后我们通过需求分析、测试调整,与药品进销存管理系统管理系统的实际需求相结合,设计实现了药品进销存管理系统管理系统。 系统功能需求包含业务需求、功能需求用户需求,系统功能需求分析是在了解用户习惯、开发人员技术和实力等各个因素的前…

美易官方:2024美联储降息,该如何布局

2024美联储降息,该如何布局 #热点引擎计划# 随着2024年美联储降息预期的逐渐升温,全球投资者开始重新考虑其资产配置策略。中金公司认为,面对这一重要的经济事件,投资者需要密切关注市场动态,灵活调整投资策略&#xf…

线性数据结构-手写队列-哈希(散列)Hash

什么是hash散列? 哈希表的存在是为了解决能通过O(1)时间复杂度直接索引到指定元素。这是什么意思呢?通过我们使用数组存放元素,都是按照顺序存放的,当需要获取某个元素的时候,则需要对数组进行遍历,获取到指…

SWMM排水管网水力、水质建模及在海绵与水环境中的应用

随着计算机的广泛应用和各类模型软件的发展,将排水系统模型作为城市洪灾评价与防治的技术手段已经成为防洪防灾的重要技术途径。美国环保局的雨水管理模型(SWMM),是当今世界最为著名的排水系统模型。SWMM能模拟降雨和污染物质经过…

触动精灵纯本地离线文字识别插件

目的 触动精灵是一款可以模拟鼠标和键盘操作的自动化工具。它可以帮助用户自动完成一些重复的、繁琐的任务,节省大量人工操作的时间。但触动精灵的图色功能比较单一,无法识别屏幕上的图像,根据图像的变化自动执行相应的操作。本篇文章主要讲解…

利用大语言模型(KIMI)构建智能产品的信息模型

数字化的核心是数字化建模,为一个事物构建数字模型是一件非常繁杂和耗费人工的事情。利用大语言模型,能够轻松地生成设备的信息模型,我们的初步实验表明,只要提供足够的模板,就能够准确地生成设备的数字化模型。 我们尝…

python数据分析——在数据分析中有关概率论的知识

参数和统计量 前言一、总体二、样本三、统计抽样四、随机抽样4.1. 抽签法4.2. 随机数法 五、分层抽样六、整群抽样七、系统抽样八、统计参数九、样本统计量十、样本均值和样本方差十一、描述样本集中位置的统计量11.1. 样本均值11.2. 样本中位数11.3. 样本众数 十二、描述样本分…

电脑怎样才能每天定时自动打开指定文件?定时打开指定文件的方法

要实现电脑每天定时自动打开指定文件,你可以采用多种方法,其中最常见和可靠 的是使用汇帮定时精灵和操作系统的任务计划程序。下面我将为你详细介绍这两种方 法。 方法一,使用汇帮定时精灵【汇帮定时精灵】提供了更多的选项和功能&#xff0c…

Git常用(持续更新)

常用场景: 初始化: git config --global user.name "codelabs" git config --global user.email mycodelabs.com git init git remote add origin https://github.com/username/repository.git git pull origin master 提交: gi…

开源版本管理系统的搭建二:SVN部署及使用

作者:私语茶馆 1. Visual SVN Server部署 SVN Server部署包括: 创建版本仓库创建用户 这些部署是通过VisualSVN Server Manager实现的,如下图: VisualSVN Server Manager(安装后自带) 1.1.SVN 初始化配…

Fourier 测试时间自适应与多级一致性用于鲁棒分类

文章目录 Fourier Test-Time Adaptation with Multi-level Consistency for Robust Classification摘要方法实验结果 Fourier Test-Time Adaptation with Multi-level Consistency for Robust Classification 摘要 该研究提出了一种名为 Fourier 测试时间适应(FTT…

windows驱动开发-内核调度(一)

驱动层面的调度和同步一向是内核中比较困难的部分,和应用层不一样,内核位于系统进程下,所以它的调度和同步一旦出现纰漏,那会影响所有的程序,而内核并不具备对于这种情况下的纠错能力,没有异常手段能够让挂…