深度学习中自适应学习率调度器

传统观点认为,太大的学习率不利于优化深度神经网络,而相比固定的学习率而言,变化的学习率更能提供快速的收敛。基于此,本文作者基于理论基础提出了一个计算深度神经网络学习率的新方法。实验结果证明了该方法的有效性。

训练神经网络受到几个问题的困扰。这些问题包括梯度消失、梯度爆炸 [7,3] 和过拟合。包括不同激活函数 [14,17]、批归一化 [12]、新颖的初始化方案 [9] 以及 Dropout[26] 在内的多种进展都为这些问题提供了解决方案。

但是,一个更基本的问题是为不同的超参数寻找最优值,而对这个问题而言学习率可以说是最重要的。众所周知,学习率太小会导致收敛变慢,但是太大的学习率又会导致发散 [2]。近期的研究一致认为,与固定的学习率相比,变化的学习率调度系统能够提供更快的收敛 [20,23]。而觉得不应使用较大学习率的传统经验也被认为有问题,可能导致「超收敛」和规则效应(regularizing effect)[25]。本文的实验结果和这个说法是一致的;但是作者没有使用循环的学习率,而是提出了一种基于理论基础来计算自适应学习率的新方法。

据作者所知,这是首次提出具有理论基础的自适应学习率调度器并且在标准数据集和网络架构上进行实证研究。所以,本文的贡献是双重的。首先,作者基于损失函数的利普希茨常数(Lipschitz),提出了一个用于在深度神经网络的随机梯度下降中计算最优学习率的新理论框架。其工作表明,在激活函数的特定选择方面,仅最后两层的激活函数是计算学习率时所需要的。其次,作者为几个常用的损失函数计算了理想的学习率,并用这些公式实验性地证明了其方法的有效性。

本文方法利用了损失函数的函数属性,仅对损失函数做了两个最小限度的假设:它必须是利普希茨连续的 [19], 且至少是一阶可微的。常用的损失函数都满足这两个条件。

论文:A novel adaptive learning rate scheduler for deep neural networks

在这里插入图片描述

论文地址:https://arxiv.org/abs/1902.07399

摘要:

优化深度神经网络在很大程度上被认为是一个经验过程,它需要手动调节几个参数,例如学习率、权重衰减以及随机失活率(dropout rate)。可以说,学习率是这些需要调节的参数中最重要的一个,它在最近的工作中也得到了更多的关注。在本文中,我们提出了一个计算深度神经网络学习率的新方法。我们推导了动态计算学习率的理论框架,然后展示了在标准数据集和模型架构上的实验结果来证明该方法的有效性。

理论框架

对一个使用 Sigmoid、ReLU 或者 softmax 激活函数的神经网络来说,很容易表现出这样的现象:反向传播时朝着浅层的方向梯度会越来越小。因此,最后一层的梯度是反向传播过程中计算出的梯度中最大的一个。如果

是第 l 层节点 i 到节点 j 的权重,并且 L 是总的层数,那么:
在这里插入图片描述
本质上,公式 (1) 表示误差对最后一层权重的最大梯度比误差对网络中任何权重的梯度都要大。显然这也可以扩展到偏置(bias)。换句话说,找到最后一层的最大梯度就确定了误差的利普希茨常数的上确界,这里的梯度都是根据每一层的权重参数来取的。

我们现在分析得出了不同类型问题的理论上确界。这些数值的倒数可以用作梯度下降的学习率。在任何一层中,我们都会有这种计算:
在这里插入图片描述
因此,最后一层中任何权重的梯度都是通过下面的链式法则来计算的:
在这里插入图片描述
第三部分是不能解析计算的;我们将它记作 K_z。现在看一下不同类型的问题,并计算这些组成部分。

实验

下面我们展示了在一些公开数据集上的实验结果和细节。虽然我们的结果不是最先进的,但我们的重点是凭经验证明随机梯度下降是可以通过更大的学习率来进行的,而不是像通常理解的那样只能用小一些的学习率。我们所有的实验都是在特斯拉 P100 GPU 上运行的,如果没有特殊说明,模型也是使用(没有动量或者权重衰减的)随机梯度下降优化器进行优化的。在 CIFAR 数据集上,我们和 [10] 一样仅使用了翻转和平移增强方案。在所有实验中,原始图像的像素数值都除以 255。

在 MNIST 上的实验只使用了一个自适应学习率,而因为利普希茨常数,学习率在每个 epoch 中都会被重新计算。

图 1 展示了训练集和验证集上准确率和损失函数随着 epoch 的变化而变化。图 2 展示了在各个 epoch 计算的学习率。请注意,与 CIFAR-10(图 5)和 CIFAR-100(图 6)中计算的自适应学习率不同,MNIST 的学习率从高得多的值开始。

在这里插入图片描述
图 5 展示了不同时间的学习率随。正如相关文献所表明的,自适应方案会自动选择一个衰减的学习率。
在这里插入图片描述
图 6 展示了在各个 epoch 的学习率。与 CIFAR-10 一样,前两个 epoch 会以很小的学习率开始(10^(-8)),但是模型会快速适应不断变化的权重。
在这里插入图片描述

图 6: CIFAR-100 上随着时间变化的自适应学习率。

见博客 https://www.163.com/dy/article/E945E6DP0511AQHO.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/938769.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

文献研读|基于像素语义层面图像重建的AI生成图像检测

前言:本篇文章主要对基于重建的AI生成图像检测的四篇相关工作进行介绍,分别为基于像素层面重建的检测方法 DIRE 和 Aeroblade,以及基于语义层面重建的检测方法 SimGIR 和 Zerofake;并对相应方法进行比较。 相关文章:论…

ElasticSearch06-分片节点分配

零、文章目录 ElasticSearch06-分片节点分配 1、单节点多分片多副本 (1)启动一个空节点 节点的配置如下 cluster.name: mycluster node.name: node-01 node.master: true node.data: true network.host: 127.0.0.1 http.port: 9201 transport.tcp.p…

信息学奥赛一本通 1438:灯泡 | 洛谷 P5931 [清华集训2015] 灯泡

【题目链接】 ybt 1438:灯泡 洛谷 P5931 [清华集训2015] 灯泡 【题目考点】 1. 三分 求函数极值 2. 相似三角形 3. 对钩函数 【解题思路】 首先考虑影子还没有到达对面墙壁的情况 记BM长度为x,影子为AM,长度为L。三角形ABC相似于三角…

揭开 Choerodon UI 拖拽功能的神秘面纱

01 引言 系统的交互方式主要由点击、选择等组成。为了提升 HZERO 系统的用户体验、减少部分操作步骤,组件库集成了卓越的拖拽功能,让用户可以更高效流畅的操作系统。 例如:表格支持多行拖拽排序、跨表数据调整、个性化调整列顺序&#xff1…

【物联网技术与应用】实验4:继电器实验

实验4 继电器实验 【实验介绍】 继电器是一种用于响应施加的输入信号而在两个或多个点或设备之间提供连接的设备。换句话说,继电器提供了控制器和设备之间的隔离,因为设备可以在AC和DC上工作。但是,他们从微控制器接收信号,因此…

fpga系列 HDL:Quartus II 时序约束 静态时序分析 (STA) test.out.sdc的文件结构

test.out.sdc的文件结构 ## Generated SDC file "test.out.sdc"## Copyright (C) 1991-2013 Altera Corporation ## Your use of Altera Corporations design tools, logic functions ## and other software and tools, and its AMPP partner logic ## functions,…

Windows安全中心(病毒和威胁防护)的注册

文章目录 Windows安全中心(病毒和威胁防护)的注册1. 简介2. WSC注册初探3. WSC注册原理分析4. 关于AMPPL5. 参考 Windows安全中心(病毒和威胁防护)的注册 本文我们来分析一下Windows安全中心(Windows Security Center…

HTML中的Vue3解析!

#Vue 3 是一个用于构建用户界面的渐进式 JavaScript 框架。它在 HTML 中发挥着重要的作用,可以让开发者轻松地创建交互式的网页应用。与 HTML 结合时,Vue 3 通过自定义指令、组件等方式增强了 HTML 的功能。# 一、vue的概述 Vue 采用了双向数据绑定机制…

ARM嵌入式学习--第八天(PWM)

PWM -PWM介绍 PWM(pulse Width Modulation)简称脉宽调制,是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效的技术,广泛应用在测量,通信,工控等方面 PWM的频率 是指在1秒钟内,信号从…

TongESB7.1.0.0安装参考指引+测试参考(by lqw)

文章目录 安装安装准备配置jdk安装管理中心(manager)安装运行时(server)安装mysql并配置manager(新装阶段考虑)放入授权启动内置redis启动内置redis启动manager和server停止manager和server访问控制台如何在控制台上重置密码 测试…

【现代C++开发】使用现代的C++快速开发一款串口读写软件

文章目录 前言一、必要条件二、实现步骤1.创建项目2.配置代码提示3.安装依赖3.编译程序4. 编写实现代码 前言 最近关于C闹出来的动静态势挺大的,主要是由于爱美丽卡开始抵制C,最近有不少文章都报道了这件事,比如 即使C到了这个时候&#xf…

linux上qt打包(二)

sudo apt install git 新建一个文件夹 名为xiazai, chmod -R 777 xiazai cd xiazai 并进入这个文件夹,然后clone git clone https://github.com/probonopd/linuxdeployqt.git 此处可能要fanQiang才能下 cd linuxdeployqt文件夹 下载平台需要的…

电脑开机提示error loading operating system怎么修复?

前一天电脑还能正常运行,但今天启动时却显示“Error loading operating system”(加载操作系统错误)。我已经仔细检查了硬盘、接线、内存、CPU和电源,确认这些硬件都没有问题。硬盘在其他电脑上可以正常使用,说明不是硬…

Nginx 在不同操作系统下的安装指南

Nginx 在不同操作系统下的安装指南 一、Linux 系统下 Nginx 的安装 (一)基于 Ubuntu 系统 更新软件包列表 打开终端,首先执行sudo apt-get update命令。这一步是为了确保系统的软件包列表是最新的,能够获取到最新版本的 Nginx 及…

NTLMv2 离线爆破

攻击者(kali):192.168.72.162 受害者(administrator):192.168.72.163 因为 NTLM 身份验证是通过计算正确的挑战值得出的,所以如果我们能获取域用户的 NTLM 认证某一服务的 Net-NTLM v2 Hash …

“TA”说|表数据备份还原:SQLark 百灵连接助力项目部署验收

💬 南飞雁|应用开发工程师 有些重要项目的部署验收,会在生产环境完成,验收完成后,又需要把这部分数据清空。这时就需要对数据表进行备份和还原,虽然可以通过命令直接实现,但是有一些操作门槛&am…

C++动态规划解决最长公共子序列

动规非常经典的一道题目,由于需要用到二维数组——姑且算为中等难度的题目,其实和01背包有着极高的相似度,无论是实现还是理论。 今天这篇博客不讲过多的DP理论,重在讲解题目本身。其实有一定经验的同志都清楚,DP的难点…

Meta升级Ray-Ban智能眼镜:新增实时AI对话与翻译功能

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

visual studio添加滚动条预览

如何在vs中添加如图的滚动条呢? 打开VS 工具栏 选项 - 文本编辑器 - C/C - 滚动条 行为-使用缩略图 -- 确定

VUE利用一句话复刻实现变声功能

实现思路&#xff1a;利用语音听写实现语音输入---拿到文字后自动调用一句话复刻实现声音输出。最终效果是A输入语音能够转换成B的语音输出。 <template><div class"One-container"><div><hr/><!--发音音色列表展示--><el-row :gut…