吴恩达深度学习——优化神经网络

本文来自https://www.bilibili.com/video/BV1FT4y1E74V,仅为本人学习所用。

文章目录

  • 优化样本大小
    • mini-batch
  • 优化梯度下降法
    • 动量梯度下降法
      • 指数加权平均
        • 概念
        • 偏差纠正
      • 动量梯度下降法
    • RMSprop
    • Adam优化算法
  • 优化学习率
  • 局部最优问题(了解)

优化样本大小

mini-batch

假设训练集有百万的数据,为了加快训练的速度,将百万数据的样本分割成小批(Mini - batch)的样本来计算梯度,减少了计算梯度的时间和内存开销。
在这里插入图片描述
使用符号 x ( i ) x^{(i)} x(i)表示第 i i i个样本,使用符号使用符号 z [ l ] z^{[l]} z[l]表示第 l l l层神经网络,使用符号 X { t } X^{\{t\}} X{t}表示第 t t t个不同的mini-batch。

损失函数变化如下,左图是批量梯度下降计算损失函数,右图使用mini-batch计算损失函数。mini-batch梯度下降每次使用一个小批量数据计算梯度,不同小批量中的样本存在差异,每次计算的梯度方向和大小会有波动。比如某个小批量数据可能恰好包含一些特征明显的样本,使得计算出的梯度导致损失下降较多;而另一个小批量可能包含一些异常样本,使梯度计算出现偏差,导致损失短暂上升。但整体上应该是下降的。

在这里插入图片描述

设整个样本大小为 m m m。如果mini-batch的大小设置为 m m m,相当于没有划分,是经典的批量梯度下降法(图中蓝色部分);如果mini-batch的大小设置为 1 1 1,相当于每一个样本是一个mini-batch,随机梯度下降过程中会受到噪音的影响,在最小值周围波动(图中紫色部分);如果mini-batch的大小合适,mini-batch梯度下降法就可以得到大量的向量化的同时,不需要等待整个样本被处理完就可以后续的工作,相比于随机梯度下降效果更好(图中绿色部分)。但是仍有可能导致在最小值周围徘徊,这时候需要减少学习率。

在这里插入图片描述

优化梯度下降法

动量梯度下降法

指数加权平均

概念

指数加权平均(指数移动平均)是在机器学习等领域广泛应用的统计方法,用于平滑数据、估计趋势和减少噪声的影响。通过对历史数据赋予不同的权重来计算平均值,越近的数据被赋予的权重越大,越远的数据被赋予的权重呈指数级衰减。能够快速反映数据的最新变化,同时又能保留历史数据的信息,使得计算得到的平均值能够较好地跟踪数据的趋势。

举例:一些温度情况如下,需要计算其温度的局部平均值。设计算公式为 { v t = β v t − 1 + ( 1 − β ) θ t v 0 = 0 \begin{cases} v_t=\beta v_{t-1}+(1-\beta)\theta_t \\ v_0=0 \end{cases} {vt=βvt1+(1β)θtv0=0这里取 β = 0.9 \beta=0.9 β=0.9。使用 1 1 − β \frac{1}{1 - \beta} 1β1近似计算 β \beta β与天数的关系。当 β = 0.9 \beta = 0.9 β=0.9时,大约是过去10天(包含当日)的温度的平均值(红线);当 β = 0.98 \beta = 0.98 β=0.98时,是过去 1 1 − 0.98 = 50 \frac{1}{1 - 0.98}=50 10.981=50天的温度的平均值(绿线)。
在这里插入图片描述

偏差纠正

在这里插入图片描述
实际上,该计算方法在前期的时候明显偏低(紫线),因此需要修正 v t = β v t − 1 + ( 1 − β ) θ t v_t=\beta v_{t - 1}+(1 - \beta)\theta_t vt=βvt1+(1β)θt更新 v t v_t vt v t : = v t 1 − β t v_t:=\frac{v_t}{1 - \beta^t} vt:=1βtvt

动量梯度下降法

在这里插入图片描述
之前的梯度下降法如批量梯度下降和mini-batch梯度下降存在的问题是每次梯度下降过程中需要计算很多次步骤(蓝线),若学习率太大,梯度下降就会超过函数的作用域(紫线)。使用指数加权平均可以减少计算步骤,更快地达到最小值(红线)。

梯度下降计算更新为在这里插入图片描述

RMSprop

和动量梯度下降法类似,RMSprop(绿线)也是减少梯度下降计算过程中的步骤。

在这里插入图片描述

在第 t t t 次迭代中,针对当前小批量(mini - batch)数据计算权重的梯度 d w dw dw 和偏置的梯度 d b db db
S d w = β 2 S d w + ( 1 − β 2 ) d w 2 S_{dw}=\beta_2 S_{dw}+(1 - \beta_2)dw^2 Sdw=β2Sdw+(1β2)dw2 S d b = β 2 S d b + ( 1 − β 2 ) d b 2 S_{db}=\beta_2 S_{db}+(1 - \beta_2)db^2 Sdb=β2Sdb+(1β2)db2 β 2 \beta_2 β2 是平滑系数,控制着历史梯度平方信息的衰减。
w = w − α d w S d w + ϵ w = w-\alpha\frac{dw}{\sqrt{S_{dw}}+\epsilon} w=wαSdw +ϵdw b = b − α d b S d b + ϵ b = b-\alpha\frac{db}{\sqrt{S_{db}}+\epsilon} b=bαSdb +ϵdb其中 α \alpha α 是学习率, ϵ \epsilon ϵ是一个很小的正数,防止分母为0 。

Adam优化算法

结合了动量和RMSProp算法,计算过程如下

初始化: V d w V_{dw} Vdw=0、 S d w S_{dw} Sdw=0, V d b V_{db} Vdb=0、 S d b S_{db} Sdb=0
计算梯度:在第 t t t次迭代中,对mini - batch数据计算权重的梯度 d w dw dw和偏置的梯度 d b db db。有 V d w = β 1 V d w + ( 1 − β 1 ) d w   V d b = β 1 V d b + ( 1 − β 1 ) d b V_{dw}=\beta_1V_{dw}+(1 - \beta_1)dw\ V_{db}=\beta_1V_{db}+(1 - \beta_1)db Vdw=β1Vdw+(1β1)dw Vdb=β1Vdb+(1β1)db S d w = β 2 S d w + ( 1 − β 2 ) d w 2   S d b = β 2 S d b + ( 1 − β 2 ) d b 2 S_{dw}=\beta_2S_{dw}+(1 - \beta_2)dw^2\ S_{db}=\beta_2S_{db}+(1 - \beta_2)db^2 Sdw=β2Sdw+(1β2)dw2 Sdb=β2Sdb+(1β2)db2
偏差校正:
V d w c o r r e c t e d = V d w 1 − β 1 t   V d b c o r r e c t e d = V d b 1 − β 1 t V_{dw}^{corrected}=\frac{V_{dw}}{1 - \beta_1^t}\ V_{db}^{corrected}=\frac{V_{db}}{1 - \beta_1^t} Vdwcorrected=1β1tVdw Vdbcorrected=1β1tVdb S d w c o r r e c t e d = S d w 1 − β 2 t   S d b c o r r e c t e d = S d b 1 − β 2 t S_{dw}^{corrected}=\frac{S_{dw}}{1 - \beta_2^t}\ S_{db}^{corrected}=\frac{S_{db}}{1 - \beta_2^t} Sdwcorrected=1β2tSdw Sdbcorrected=1β2tSdb
更新参数:
w = w − α V d w c o r r e c t e d S d w c o r r e c t e d + ϵ   b = b − α V d b c o r r e c t e d S d b c o r r e c t e d + ϵ w = w-\alpha\frac{V_{dw}^{corrected}}{\sqrt{S_{dw}^{corrected}}+\epsilon}\ b = b-\alpha\frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}}+\epsilon} w=wαSdwcorrected +ϵVdwcorrected b=bαSdbcorrected +ϵVdbcorrected
β 1 \beta_1 β1的值默认为0.9, β 2 \beta_2 β2的值默认为0.999,学习率 α \alpha α需要尝试哪一个合适, ϵ \epsilon ϵ默认为 1 0 − 8 10^{-8} 108。这些参数一般使用默认值即可。

优化学习率

学习率衰减是随着训练的进行,按照一定的规则逐渐减小学习率的值。在训练初期,参数离最优解较远,较大的学习率能让参数快速移动,加快收敛速度,迅速接近最优解所在区域。随着训练推进,参数逐渐接近最优解,此时较大的学习率可能导致参数在最优解附近来回震荡,无法精确收敛,甚至可能越过最优解,需要减小学习率,使参数更新更加精确。

比如 α = 1 1 + d e c a y _ r a t e × e p o c h _ n u m α 0 \alpha=\frac{1}{1+decay\_rate\times epoch\_num}\alpha_0 α=1+decay_rate×epoch_num1α0其中,decay_rate是衰减率,一个超参数,epoch_num是训练轮数, α 0 \alpha_0 α0是初始学习率。该公式是一个逆时间衰减。还有其他的方式如步长衰减、指数衰减、自适应衰减。

局部最优问题(了解)

在这里插入图片描述
在使用梯度下降等优化算法训练神经网络时,算法沿着梯度方向更新参数以最小化损失函数。当抵达局部最优解时,该点处梯度为 0,算法会认为找到了最优值而停止更新,但这不一定是全局最优解。从图像上看,损失函数曲面在局部最优解处形成 “谷底”,在其周围小区域内函数值都比它大。

早期认为深度学习训练易陷入局部最优,影响模型性能。但研究发现,实际神经网络尤其是大模型,参数众多,损失函数在高维空间复杂,遇到梯度为 0 的点大概率不是局部最优点,而是鞍点(部分维度为凸函数,部分维度为凹函数的点,梯度也为 0 )。在高维空间中,要达到局部最优需所有维度都是凹函数,概率极低。

因此,使用更好的算法如Adam算法更快地走出鞍点和局部最优附近的平稳段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962902.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Google Chrome-便携增强版[解压即用]

Google Chrome-便携增强版 链接:https://pan.xunlei.com/s/VOI0OyrhUx3biEbFgJyLl-Z8A1?pwdf5qa# a 特点描述 √ 无升级、便携式、绿色免安装,即可以覆盖更新又能解压使用! √ 此增强版,支持右键解压使用 √ 加入Chrome增强…

Java篇之继承

目录 一. 继承 1. 为什么需要继承 2. 继承的概念 3. 继承的语法 4. 访问父类成员 4.1 子类中访问父类的成员变量 4.2 子类中访问父类的成员方法 5. super关键字 6. super和this关键字 7. 子类构造方法 8. 代码块的执行顺序 9. protected访问修饰限定符 10. 继承方式…

sobel边缘检测算法

人工智能例子汇总:AI常见的算法和例子-CSDN博客 Sobel边缘检测算法是一种用于图像处理中的边缘检测方法,它能够突出图像中灰度变化剧烈的地方,也就是边缘。该算法通过计算图像在水平方向和垂直方向上的梯度来检测边缘,梯度值越大…

MySQL为什么默认引擎是InnoDB ?

大家好,我是锋哥。今天分享关于【MySQL为什么默认引擎是InnoDB ?】面试题。希望对大家有帮助; MySQL为什么默认引擎是InnoDB ? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 MySQL 默认引擎是 InnoDB,主要…

【Pytorch和Keras】使用transformer库进行图像分类

目录 一、环境准备二、基于Pytorch的预训练模型1、准备数据集2、加载预训练模型3、 使用pytorch进行模型构建 三、基于keras的预训练模型四、模型测试五、参考 现在大多数的模型都会上传到huggface平台进行统一的管理,transformer库能关联到huggface中对应的模型&am…

c语言进阶(简单的函数 数组 指针 预处理 文件 结构体)

c语言补充 格式 void函数头 {} 中的是函数体 sum函数名 &#xff08;&#xff09; 参数表 #include <stdio.h>void sum(int begin, int end) {int i;int sum 0;for (i begin ; i < end ; i) {sum i;}printf("%d到%d的和是%d\n", begin, end, sum); …

比较器使用

1 比较器是什么 2 使用比较器的注意事项 输出是否要接上拉电阻 2.1 推挽结构&#xff08;可以不用加上拉电阻&#xff09; 2.2 开漏结构&#xff08;OD,OC&#xff09;需要加上拉电阻 2.3 LM393 2.4 推挽和开漏 3 比较器的注意事项 输出是否要接上拉电阻 3.1 比较器内部有吸…

爬虫基础(三)Session和Cookie讲解

目录 一、前备知识点 &#xff08;1&#xff09;静态网页 &#xff08;2&#xff09;动态网页 &#xff08;3&#xff09;无状态HTTP 二、Session和Cookie 三、Session 四、Cookie &#xff08;1&#xff09;维持过程 &#xff08;2&#xff09;结构 正式开始说 Sessi…

项目升级Sass版本或升级Element Plus版本遇到的问题

项目升级Sass版本或升级Element Plus版本遇到的问题 如果项目有需求需要用到高版本的Element Plus组件&#xff0c;则需要升级相对应的sass版本&#xff0c;Element 文档中有提示&#xff0c;2.8.5及以后得版本&#xff0c;sass最低支持的版本为1.79.0&#xff0c;所升级sass、…

数据结构-Stack和栈

1.栈 1.1什么是栈 栈是一种特殊的线性表&#xff0c;只允许在固定的一段进行插入和删除操作&#xff0c;进行插入和删除操作的一段称为栈顶&#xff0c;另一端称为栈底。 栈中的数据元素遵顼后进先出LIFO&#xff08;Last In First Out&#xff09;的原则&#xff0c;就像一…

stm32硬件实现与w25qxx通信

使用的型号为stm32f103c8t6与w25q64。 STM32CubeMX配置与引脚衔接 根据stm32f103c8t6引脚手册&#xff0c;采用B12-B15四个引脚与W25Q64连接&#xff0c;实现SPI通信。 W25Q64SCK&#xff08;CLK&#xff09;PB13MOSI&#xff08;DI&#xff09;PB15MISO(DO)PB14CS&#xff08…

04树 + 堆 + 优先队列 + 图(D1_树(D8_B*树(B*)))

目录 一、基本介绍 二、相同思想和策略 三、不同的方式的磁盘空间利用 四、知识小结 一、基本介绍 B*树是Btree的变体&#xff0c;在B树的基础上(所有的叶子结点中包含了全部关键字的信息&#xff0c;及指向含有 这些关键字记录的指针)&#xff0c; B*树中非根和非叶子结…

Hot100之哈希

1两数之和 题目 思路解析 解法1--两次循环 解法2--哈希表一次循环 代码 解法1--两次循环 class Solution {public int[] twoSum(int[] nums, int target) {int nums1[] new int[2];int length nums.length;for (int i 0; i < length; i) {for (int j i 1; j < …

Autosar-以太网是怎么运行的?(原理部分)

写在前面&#xff1a; 入行一段时间了&#xff0c;基于个人理解整理一些东西&#xff0c;如有错误&#xff0c;欢迎各位大佬评论区指正&#xff01;&#xff01;&#xff01; 1.TCP/IP协议详解 TCP/IP协议包含了一系列的协议&#xff0c;也叫TCP/IP协议族&#xff08;TCP/IP P…

2025年大数据毕业设计选题推荐:数据分析与可视化 数据挖掘

目录 前言 毕设选题 开题指导建议 更多精选选题 选题帮助 最后 前言 大家好,这里是海浪学长毕设专题! 大四是整个大学期间最忙碌的时光&#xff0c;一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理…

如何在vs2022中处理python下无法输出中文问题

1.如何在vs2022中处理python下无法输出中文问题 进入vs界面时---工具菜单---自定义----在自定义窗口下选中”命令”页面----在菜单栏内----选择文件----再点击添加命令----左侧栏下滑找到文件-----在右侧往下拉找到并点击高级保存选项----再点击确定。 此时VS工程页面上会出现…

SSRF 漏洞利用 Redis 实战全解析:原理、攻击与防范

目录 前言 SSRF 漏洞深度剖析 Redis&#xff1a;强大的内存数据库 Redis 产生漏洞的原因 SSRF 漏洞利用 Redis 实战步骤 准备环境 下载安装 Redis 配置漏洞环境 启动 Redis 攻击机远程连接 Redis 利用 Redis 写 Webshell 防范措施 前言 在网络安全领域&#xff0…

UniApp开发的微信小程序主包过大问题及解决方案 编译小程序时Node-modules被打入主包

欢迎关注 『开发必备』 专栏,专注于解决你在开发过程中遇到的各种问题,帮你快速找到解决方案,节省大量调试时间。内容持续更新中,保证每篇都值得收藏! UniApp开发的微信小程序主包过大问题及解决方案 在使用UniApp开发微信小程序时,很多开发者都会遇到一个问题:打包后,…

Diffusion--人工智能领域的革命性技术

在人工智能领域&#xff0c;“diffusion”一词通常指的是“扩散模型”&#xff08;Diffusion Models&#xff09;&#xff0c;其全称为“Denoising Diffusion Probabilistic Models”&#xff08;DDPMs&#xff09;。扩散模型是一类生成式模型&#xff0c;它通过逐步去噪的方式…

升级到Mac15.1后pod install报错

升级Mac后&#xff0c;Flutter项目里的ios项目运行 pod install报错&#xff0c; 遇到这种问题&#xff0c;不要着急去百度&#xff0c;大概看一下报错信息&#xff0c;每个人遇到的问题都不一样。 别人的解决方法并不一定适合你&#xff1b; 下面是报错信息&#xff1a; #…