神经网络与深度学习——第7章 网络优化与正则化

本文讨论的内容参考自《神经网络与深度学习》https://nndl.github.io/ 第7章 网络优化与正则化

网络优化与正则化

在这里插入图片描述

网络优化

在这里插入图片描述
在这里插入图片描述

网络结构多样性

在这里插入图片描述

高维变量的非凸优化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

神经网络优化的改善方法

在这里插入图片描述

优化算法

在这里插入图片描述

小批量梯度下降

在这里插入图片描述
在这里插入图片描述

批量大小选择

在这里插入图片描述
在这里插入图片描述

学习率调整

在这里插入图片描述

学习率衰减

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

学习率预热

在这里插入图片描述
在这里插入图片描述

周期性学习率调整

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

AdaGrad算法

在这里插入图片描述
在这里插入图片描述

RMSprop算法

在这里插入图片描述

AdaDelta算法

在这里插入图片描述
在这里插入图片描述

梯度估计修正

在这里插入图片描述

动量法

在这里插入图片描述在这里插入图片描述

Nesterov加速梯度

在这里插入图片描述

Adam算法

在这里插入图片描述
在这里插入图片描述

梯度截断

在这里插入图片描述
在这里插入图片描述

优化算法小结

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参数初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

基于固定方差的参数初始化

在这里插入图片描述
在这里插入图片描述

基于方差缩放的参数初始化

在这里插入图片描述

Xavier初始化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

He初始化

在这里插入图片描述

正交初始化

在这里插入图片描述
在这里插入图片描述

数据预处理

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

逐层归一化

在这里插入图片描述
在这里插入图片描述

批量归一化

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

层归一化

在这里插入图片描述
在这里插入图片描述

权重归一化

在这里插入图片描述

局部相应归一化

在这里插入图片描述

超参数优化

在这里插入图片描述

网格搜索

在这里插入图片描述

随机搜索

在这里插入图片描述

贝叶斯优化

在这里插入图片描述
在这里插入图片描述

动态资源分配

在这里插入图片描述
在这里插入图片描述

神经架构搜索

在这里插入图片描述

网络正则化

在这里插入图片描述
在这里插入图片描述

l 1 l_1 l1 l 2 l_2 l2正则化

在这里插入图片描述
在这里插入图片描述

权重衰减

在这里插入图片描述

提前停止

在这里插入图片描述

丢弃法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

循环神经网络上的丢弃法

在这里插入图片描述
在这里插入图片描述

数据增强

在这里插入图片描述

标签平滑

在这里插入图片描述
在这里插入图片描述

总结和深入阅读

在这里插入图片描述
在这里插入图片描述

习题

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
代入可知,KaTeX parse error: Undefined control sequence: \K at position 15: \frac{\alpha}{\̲K̲}可以看作是真正的学习率,如果不成正比,那么会出现过大或者过小的情况,使参数更新不稳定或者过慢。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
可以看出,如果 β 1 \beta_1 β1 β 2 \beta_2 β2都接近1, M ^ t \hat M_t M^t接近 M t M_t Mt G ^ t \hat G_t G^t接近 G t G_t Gt,当 M 0 = 0 , G 0 = 0 M_0=0, G_0=0 M0=0,G0=0,初期的均值和未减去均值的方差都很大,因为 t t t较小时,由于从0开始增长的很慢,所以基本都趋于0,所以和真实值差距很大,因此需要进行修正, β 1 t \beta^t_1 β1t t t t变大的时候越来越趋于0,这样就会使初期的 M t M_t Mt G t G_t Gt更新较大,后期更新较小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
AdaDelta算法的 G t G_t Gt计算和RMSprop算法一样,是参数更新差值不同:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
其实就是为了让激活函数 f ( ⋅ ) f(\cdot) f()的净输入适合激活函数,如果在仿射变换之前进行归一化,那经过了仿射变换以后分布还是变了,可能不适合激活函数的定义域。当用Logistic函数时,如果归一化到[0,1],仿射变换可能让数值大于1,那么梯度就消失了,如果用ReLU函数, x > 0 x > 0 x>0时都是它本身,那么在仿射变换之后可能小于0了,梯度也消失了。
在这里插入图片描述
在这里插入图片描述
γ \gamma γ β \beta β表示缩放和平移的参数向量,通过这两个参数,可以调整输入分布,防止ReLU死亡问题,然后有了 β \beta β的存在,仿射变换就不需要偏置参数。
在这里插入图片描述
RNN的梯度随时间反向计算,有一个累积的过程,如果重复进行归一化,会导致梯度爆炸。而且批量归一化是使用小批量的均值和方差来近似整个序列的均值和方差,RNN的序列长度不同,批量均值和方差可能无法反映整个序列的统计特性。批量归一化通常假设批量中的样本是独立同分布的,这和RNN的每一层内不同,RNN的每一层是有时间步的关系。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
很明显,对每个时刻的隐藏状态进行随机丢弃,会损坏网络的时间维度上的记忆能力。
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/671021.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

装甲车启动电源的安全性能分析

装甲车辆启动电源是一种为装甲车辆提供启动动力的专业设备。它通常被用于 火箭兵 、步兵战车、装甲运兵车等JS车辆,这些车辆通常需要较高的启动功率来启动其发动机,尤其是装甲车的发动机,由于其功率大,启动对电力要求很高。在现代…

3DMAX一键虚线图形插件DashedShape使用方法

3DMAX一键虚线图形插件使用方法 3dMax一键虚线图形插件,允许从场景中拾取的样条线创建虚线形状。该工具使你能够创建完全自定义的填充图案,为线段设置不同的材质ID,并在视口中进行方便的预览。 【版本要求】 3dMax 2012 – 2025(…

HarmonyOS应用开发学习历程(1)初识DevEco Studio

1.create project Bundle name:包名,标识应用程序,默认应用ID也使用该名 Compile SDK:编译时API版本 2.工程目录 AppScope:应用全局所需资源 entry:应用的主模块,含代码、资源 hvigor&#…

Java多线程问题

线程 何为线程:线程是一个比进程更小的执行单位。一个进程在其执行的过程中可以产生多个线程。与进程不同的是同类的多个线程共享进程的堆和方法区资源,但每个线程有自己的程序计数器、虚拟机栈和本地方法栈,所以系统在产生一个线程&#xf…

OSEK错误处理及跟踪调试

1 前言 如表1所示,OSEK提供了一些特殊的钩子例程(Hook routines),应用层可以在钩子函数中自定义操作,以参与到操作系统的内部处理中。 表1 钩子函数类型 钩子函数例程功能用途ErrorHook用于错误处理StartupHook在系统启…

【论文复现|智能算法改进】基于多策略麻雀搜索算法的机器人路径规划

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】麻雀搜索算法(SSA)原理及实现 2.改进点 改进的无限折叠迭代混沌映射 无限折叠迭代映射(ICMIC) 常用于图像加密方向的研究, 基本思想是首先生成[0,1]之间的混沌序列, …

【Qt秘籍】[008]-Qt中的connect函数

在Qt框架中,connect函数是一个非常核心的函数,用于实现信号(Signals)和槽(Slots)之间的连接,它是Qt信号槽机制的关键所在。信号槽机制是一种高级的通信方式,允许对象在状态改变时通知…

掘金AI 商战宝典-系统班:2024掘金AIGC课程(30节视频课)

课程目录 1-第一讲学会向Al提问:万能提问公式_1.mp4 2-第二讲用AI写视频脚本_1.mp4 3-第三讲用AI写视频口播文案_1.mp4 4-第四讲用AI自动做视频(上)_1.mp4 5-第五讲用AI自动做视频(中)_1.mp4 6-第六讲用AI自动做视…

1. Mybatis基础操作

目录 1.1 需求 1.2 准备 1.3 删除 1.3.1 功能实现 1.3.2 日志输入 1.3.3 预编译SQL 1.3.3.1 介绍 1.3.3.2 SQL注入 1.3.3.3 参数占位符 1.4 新增 1.4.1 基本新增 1.4.2 主键返回 1.5 更新 1.6 查询 1.6.1 根据ID查询 1.6.2 数据封装 1.6.3 条件查询 1.6.4 参…

Tree——输出项目的文件结构(Linux)

输出项目中的文件结构可以使用tree命令。tree是一个用于以树状结构显示目录内容的命令行工具。它非常适合快速查看项目的文件结构。安装: sudo apt-get install tree 使用: 在命令行中导航到项目的根目录,输出文件结构。 tree 也可以将结构输…

NXP RT1060学习总结 - CANFD功能

1、RT1060-CAN FD功能简介 这里使用RT1060系列的1064芯片进行开发,测试板是官方提供的开发板;RT1060系列支持3路CAN功能,CAN1和CAN2只能最为普通的CAN外设,支持CAN2.0,而CAN3支持CAN-FD功能;CAN-FD功能这里…

数据库概念

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人能接…

Java学习Lambda表达式

Lambda表达式 有且只有一个未实现的方法叫做Lambda表达式,可以实现函数式编程 // 这个注解是用来检查你写的函数是否是函数式接口 FunctionalInterfaceinterface Myinterface {int sum(int a, int b);default String priteTitle(String name, int age, String sex)…

<Rust><iced>基于rust使用iced库构建GUI实例:动态改变主题色

前言 本专栏是Rust实例应用。 环境配置 平台:windows 软件:vscode 语言:rust 库:iced、iced_aw 概述 本篇构建了这样的一个实例,可以动态修改UI的主题,通过菜单栏来选择预设的自定义主题和官方主题&#…

1+X Web应用软件测试(中级) 考试失利教训

考证考试结束的第二天复盘 复盘时间:2024/6/2 9:45-10:00 考试名称:1X Web应用软件测试(中级) 电子书:Web应用软件测试(中级) 他人备考技巧 改进: [考前策略]自动化40性能40功能2个20 1.可以2人分工合作,完成一整套功能测试题目 2.制定阶段时间的学…

使用PyCharm 开发工具创建工程

一. 简介 前面学习了 安装 python解释器。如何安装python的一种开发工具 PyCharm。 本文来简单学习一下,如何使用 PyCharm 开发工具创建一个简单的 python工程。 二. PyCharm 开发工具创建一个工程 1. 首先,首先打开PyCharm 开发工具。选择 创建一…

社交媒体数据恢复:淘宝旺信

根据搜索结果,阿里旺旺聊天记录的恢复方法如下: 运行阿里旺旺在旺旺面板底部点击小喇叭图标在打开的消息管理器窗口右上角点击"搜索"点击"高级搜索"设置所需查找的时间段---"搜索" 此外,在阿里旺旺的云存储中…

xdp、dpdk、rdma能在同一网卡上同时使用吗?

文心一言 XDP、DPDK和RDMA是三种不同的技术,它们各自在Linux网络性能优化中扮演了不同的角色。关于它们能否在同一网卡上同时使用,我们需要考虑以下几个方面: XDP(eXpress Data Path): XDP是Linux内核提供…

搭建大型分布式服务(三十八)SpringBoot 整合多个kafka数据源-支持protobuf

系列文章目录 文章目录 系列文章目录前言一、本文要点二、开发环境三、原项目四、修改项目五、测试一下五、小结 前言 本插件稳定运行上百个kafka项目&#xff0c;每天处理上亿级的数据的精简小插件&#xff0c;快速上手。 <dependency><groupId>io.github.vipjo…

通过DLL方式链接glfw3.dll

主要是CMakeLists.txt文件变化 cmake_minimum_required(VERSION 3.10) project(glfwTest) set(CMAKE_CXX_STANDARD 11) aux_source_directory(. SRC_SOURCES) add_executable(glfwTest ${SRC_SOURCES}) target_link_libraries(glfwTest opengl32) # 链接库文件 target_inclu…