【Python】深度学习基础知识——梯度下降详解和示例

尽管梯度下降(gradient descent)很少直接用于深度学习,但它是随机梯度下降算法的基础,也是很多问题的来源,如由于学习率过大,优化问题可能会发散,这种现象早已在梯度下降中出现。本文通过原理和示例对一维梯度下降和多元梯度下降进行详细讲解,以帮助大家理解和使用。

    • 一维梯度下降
    • 理论
    • 示例
    • 学习率
      • 设置过小示例
      • 设置过大示例
    • 局部最小值
  • 多元梯度下降
    • 理论
    • 示例
  • 总结

一维梯度下降

理论

在这里插入图片描述
从公式推导变化中,可以看出,目标函数确定之后,便是一直迭代展开,如果导数不为0则继续展开,直到满足停止条件。也可以帮助理解为什么要防止梯度为0的现象出现
此外,也可以看到初始值和步长也影响最后的结果,在深度学习中就是我们设置的初始权重和学习率。

示例

下面我们来展示如何实现梯度下降。为了简单起见,我们选用目标函数f(x)=x**2。 尽管我们知道x=0时,目标函数取得最小值。但我们仍然使用这个简单的函数来观察
x的变化。

import torch
import numpy as np
def f(x):  # 目标函数
    return x ** 2

def f_grad(x):  # 目标函数的梯度(导数)
    return 2 * x

def gd(eta, f_grad):
    x = 20.0
    results = [x]
    for i in range(20):
        x -= eta * f_grad(x)
        results.append(float(x))
    print(f'epoch 20, x: {x:f}')
    return results

results = gd(0.2, f_grad)

在示例中,我们使用x=20作为初始值,设置步长为0.2,。使用梯度下降法迭代x=20次。得到结果为:

epoch 20, x: 0.000731

可以看到,结果0.000731很接近真实结果0。

对于x的优化过程进行可视化,如下图所示。

import matplotlib.pyplot as plt

def show_trace(results, f):
    n = max(abs(min(results)), abs(max(results)))
    f_line = torch.arange(-n, n, 0.01)
    
    # 设置图形大小
    plt.figure(figsize=(6, 3))
    
    # 绘制 f_line 的函数图像
    plt.plot(f_line.numpy(), [f(x) for x in f_line.numpy()], '-')
    
    # 绘制 results 的散点图
    plt.scatter(results, [f(x)  for x in results], marker='o')
    
    # 设置 x 轴和 y 轴的标签
    plt.xlabel('x')
    plt.ylabel('f(x)')
    
    # 显示图形
    plt.show()


show_trace(results, f)

在这里插入图片描述

学习率

学习率的大小对结果的影响也很大,如果设置过小,很慢才能到达最优解,如果设置过大,可能会跳过最优解。

设置过小示例

当设置为0.02时。

def f(x):  # 目标函数
    return x ** 2

def f_grad(x):  # 目标函数的梯度(导数)
    return 2 * x

def gd(eta, f_grad):
    x = 20.0
    results = [x]
    for i in range(20):
        x -= eta * f_grad(x)
        results.append(float(x))
    print(f'epoch 20, x: {x:f}')
    return results

results = gd(0.02, f_grad)
epoch 20, x: 8.840049

可以看出,经过20次迭代,值为 8.840049,与我们可知的真实值0相差很远。
过程可视化:

import matplotlib.pyplot as plt

def show_trace(results, f):
    n = max(abs(min(results)), abs(max(results)))
    f_line = torch.arange(-n, n, 0.01)
    
    # 设置图形大小
    plt.figure(figsize=(6, 3))
    
    # 绘制 f_line 的函数图像
    plt.plot(f_line.numpy(), [f(x) for x in f_line.numpy()], '-')
    
    # 绘制 results 的散点图
    plt.scatter(results, [f(x)  for x in results], marker='o')
    
    # 设置 x 轴和 y 轴的标签
    plt.xlabel('x')
    plt.ylabel('f(x)')
    
    # 显示图形
    plt.show()


show_trace(results, f)

在这里插入图片描述
距离最小值点还有较大距离。

设置过大示例

当设置为0.9时:

def f(x):  # 目标函数
    return x ** 2

def f_grad(x):  # 目标函数的梯度(导数)
    return 2 * x

def gd(eta, f_grad):
    x = 20.0
    results = [x]
    for i in range(20):
        x -= eta * f_grad(x)
        results.append(float(x))
    print(f'epoch 20, x: {x:f}')
    return results

results = gd(0.9, f_grad)

输出结果:

epoch 20, x: 0.230584

经过20轮迭代,数值为0.230584,与我们可知的0也有一定差距,现在不确定是过拟合还是欠拟合,通过迭代过程可视化,可以看到优化过程为:
在这里插入图片描述
可知,在某一次迭代时已经达到最优,但没有停止,在迭代20次时,过拟合了,偏离了最优解。

局部最小值

为了演示非凸函数的梯度下降,考虑函数f(x)=x*cos(cx),其中c为常数。 这个函数有无穷多个局部最小值。 根据我们选择的学习率,我们最终可能只会得到许多解的一个。 下面的例子说明了(不切实际的)高学习率如何导致较差的局部最小值。

c = torch.tensor(0.15 * np.pi)

def f(x):  # 目标函数
    return x * torch.cos(c * x)

def f_grad(x):  # 目标函数的梯度
    return torch.cos(c * x) - c * x * torch.sin(c * x)



def show_trace(results, f):
    n = max(abs(min(results)), abs(max(results)))
    f_line = torch.arange(-n, n, 0.01)
    
    # 设置图形大小
    plt.figure(figsize=(6, 3))
    
    # 绘制 f_line 的函数图像
    plt.plot(f_line.numpy(), [f(x) for x in f_line.numpy()], '-')
    
    # 绘制 results 的散点图
    plt.scatter(results, [f(x)  for x in results], marker='o')
    
    # 设置 x 轴和 y 轴的标签
    plt.xlabel('x')
    plt.ylabel('f(x)')
    
    # 显示图形
    plt.show()
    
def gd(eta, f_grad):
    x = 20.0
    results = [x]
    for i in range(20):
        x -= eta * f_grad(x)
        results.append(float(x))
        print(f'epoch i: {i:f}, x: {x:f}')
    return results

show_trace(gd(2, f_grad), f)

输出:

epoch i: 0.000000, x: 22.000000
epoch i: 1.000000, x: 6.400991
epoch i: 2.000000, x: 9.138650
epoch i: 3.000000, x: 2.015201
epoch i: 4.000000, x: 2.395759
epoch i: 5.000000, x: 3.581714
epoch i: 6.000000, x: 7.167863
epoch i: 7.000000, x: 7.531582
epoch i: 8.000000, x: 6.554027
epoch i: 9.000000, x: 8.878934
epoch i: 10.000000, x: 2.659682
epoch i: 11.000000, x: 4.416834
epoch i: 12.000000, x: 9.026052
epoch i: 13.000000, x: 2.285584
epoch i: 14.000000, x: 3.234577
epoch i: 15.000000, x: 6.186752
epoch i: 16.000000, x: 9.443290
epoch i: 17.000000, x: 1.366405
epoch i: 18.000000, x: 0.539987
epoch i: 19.000000, x: -1.267501

可知,迭代过程中,经过了多个局部最小点,最后也错过了全局最小点。
在这里插入图片描述

多元梯度下降

理论

在这里插入图片描述

示例

import torch
import matplotlib.pyplot as plt
def train_2d(trainer, steps=20, f_grad=None):  #@save
    """用定制的训练机优化2D目标函数"""
    # s1和s2是稍后将使用的内部状态变量
    x1, x2, s1, s2 = -5, -2, 0, 0
    results = [(x1, x2)]
    for i in range(steps):
        if f_grad:
            x1, x2, s1, s2 = trainer(x1, x2, s1, s2, f_grad)
        else:
            x1, x2, s1, s2 = trainer(x1, x2, s1, s2)
        results.append((x1, x2))
    print(f'epoch {i + 1}, x1: {float(x1):f}, x2: {float(x2):f}')
    return results

def show_trace_2d(f, results):  #@save
    """显示优化过程中2D变量的轨迹"""
    plt.figure(figsize=(6, 3))
    plt.plot(*zip(*results), '-o', color='#ff7f0e')
    x1, x2 = torch.meshgrid(torch.arange(-5.5, 1.0, 0.1),
                          torch.arange(-3.0, 1.0, 0.1), indexing='ij')
    plt.contour(x1, x2, f(x1, x2), colors='#1f77b4')
    plt.xlabel('x1')
    plt.ylabel('x2')

def f_2d(x1, x2):  # 目标函数
    return x1 ** 2 + 2 * x2 ** 2

def f_2d_grad(x1, x2):  # 目标函数的梯度
    return (2 * x1, 4 * x2)

def gd_2d(x1, x2, s1, s2, f_grad):
    g1, g2 = f_grad(x1, x2)
    return (x1 - eta * g1, x2 - eta * g2, 0, 0)

eta = 0.1
show_trace_2d(f_2d, train_2d(gd_2d, f_grad=f_2d_grad))

在示例中,我们将学习率设置为0.1,优化变量x的轨迹如下图所示。值接近其位于[0,0]的最小值。 虽然进展相当顺利,但相当缓慢。初始值为[-2,-5]
在这里插入图片描述

总结

如何更好更高效的选择学习率,是一件重要的事情,如果我们把它选得太小,就没有什么进展;如果太大,得到的解就会振荡,甚至可能发散。
同时,初始值的选择也会影响最终的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/432184.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【控制台警告】npm WARN EBADENGINE Unsupported engine

今天用webpack下载几个loader依赖,爆出了三个警告,大概的意思就是本地安装的node和npm的版本不是很匹配? 我的解决思路是: 先检查node和npm版本 然后去官网查找版本的对应 靠,官网404 Node.js (nodejs.org) 就找到…

第十二篇:学习python数据清洗

文章目录 一、啥是数据清洗二、将表格数据导入pandas中1. 准备工作2. 引入csv文件2.1 引入pandas库2.2 读取文件/修改名称3.2 快速浏览数据2.4 修改名字2.5 查找缺失值2.6 删除缺失值 3. 引入Excel文件3.1 引入pandas库3.2 读取Excel文件的人均GDP数据3.3 查看数据类型和non-nu…

【鸿蒙 HarmonyOS 4.0】弹性布局(Flex)

一、介绍 弹性布局(Flex)提供更加有效的方式对容器中的子元素进行排列、对齐和分配剩余空间。容器默认存在主轴与交叉轴,子元素默认沿主轴排列,子元素在主轴方向的尺寸称为主轴尺寸,在交叉轴方向的尺寸称为交叉轴尺寸…

六、软考-系统架构设计师笔记-软件工程基础知识

1、软件工程 软件工程是将系统化的、严格约束的、可量化的方法应用于软件的开发、运行和维护,即将工程化应用于软件并对上述方法的研究。 软件要经历从需求分析、软件设计、软件开发、运行维护,直至被淘汰这样的全过程,这个过程称为软件的生…

什么是聚簇索引与非聚集索引和区别?

什么是聚簇索引与非聚集索引和区别? 按物理存储分类:InnoDB的存储方式是聚集索引,MVISAM的存储方式是非聚集索引 test innodb.frm 测试 innodb.ibd Frame表结构 数据表索引数据 test myisam.frm ---->Frame表结构test myisam.MYD_---数据表数据test_myisam.MYl-…

HTML实体字符列表,必看

HTML、CSS、JS三大部分都起什么作用? HTML内容层,它的作用是表示一个HTML标签在页面里是个什么角色;CSS样式层,它的作用是表示一块内容以什么样的样式(字体、大小、颜色、宽高等)显示;JS行为层…

【论文笔记】Language Models are Unsupervised Multitask Learners

Language Models are Unsupervised Multitask Learners 回顾一下第一代 GPT-1 : 设计思路是 “海量无标记文本进行无监督预训练少量有标签文本有监督微调” 范式;模型架构是基于 Transformer 的叠加解码器(掩码自注意力机制、残差、Layernorm…

【Unity】ABB CRB 15000 外部引导运动

一、RobotStudio控制器的文件系统和配置参数 HOME:控制器文件系统的根目录或起始点。配置:机器人控制器的配置设置和参数。外件信息:连接到机器人的外部组件的信息。I/O 系统:输入/输出系统,管理机器人和外部设备之间的…

.[[backup@waifu.club]].wis最近多发,数据库被加密了能恢复吗?

Wis勒索病毒是怎样加密文件的? WIS勒索病毒加密文件的过程主要依赖于强大的加密算法,通常是RSA或AES等对称或非对称加密算法。这些算法可以非常快速地将用户的文件加密,使得文件在没有正确密钥的情况下无法被正常读取或打开。技术服务号&…

C#与欧姆龙PLC实现CIP通讯

参考文档: 欧姆龙PLC使用-CSDN博客 CIP通讯介绍(欧姆龙PLC)-CSDN博客 使用NuGet添加引用:CIPCompolet 基础参考我的CIP协议介绍,默认TCP端口为:44818 类NXCompolet 类的功能可以在安装PLC开发软件后帮…

Mol2文件处理-拆分、合并、提取名称、计数与格式转换

欢迎浏览我的CSND博客! Blockbuater_drug …点击进入 文章目录 前言一、Mol2文件合并二、Mol2文件拆分为含有单个分子的文件三、Mol2文件分子名称修改与提取3.1 分子名称修改去除空格3.2 文件名称提取 四、Mol2文件包含分子计数4.1 Mol2文件中分子计数4.2 分子计数传…

Pytorch学习 day03(Tensorboard、Transforms)

Tensorboard Tensorboard能够可视化loss的变化过程,便于我们查看模型的训练状态,也能查看模型当前的输入和输出结果 在Pycharm中,可以通过按住ctrl,并左键点击某个库来进入源文件查看该库的使用方法SummaryWriter是用来向log_dir…

工具函数模板题(蓝桥杯 C++ 代码 注解)

目录 一、Vector容器: 二、Queue队列 三、Map映射 四、题目(快递分拣 vector): 代码: 五、题目(CLZ银行问题 queue): 代码: 六、题目(费里的语言 map&…

通过 JS 获取和修改表单元素属性和样式属性

JS 获取和修改表单元素属性 表单(主要是指 input 标签)的以下属性都可以通过 DOM API来修改 value: input 的值checked: 复选框会使用selected: 下拉框会使用disabled: 禁用type: input 的类型(文本, 密码, 按钮, 文件等) 修改 input 的值 > value 示例1: 点击切换状态的…

【CSP试题回顾】202212-2-训练计划

CSP-202212-2-训练计划 解题思路 输入和初始化: 首先,代码从输入中获取项目的截止日期和项目数量。然后,它初始化一个项目列表,每个项目都有其依赖项、被依赖的项目集合、完成时间、总完成时间(包括依赖链&#xff09…

深度学习模型部署(番外3)神经网络不同层的量化方法

神经网络层量化 批归一化层Batch Normalization(BN层) 关于归一化的原理可以看之前的这篇blog:BatchNorm原理与应用 批归一化在推理过程中会被融合到上一层或者下一层中,这种处理方式被称为批归一化折叠。这样可以减少量化,也可以减少属于的…

EPSON RA8000CE (RTC模块)压电侠

RA8000CE是一个集成了32.768 kHz数字温度补偿晶体振荡器(DTCXO)的RTC模块。它包括各种功能,如具有闰年校正的秒到年时钟/日历,时间警报,唤醒计时器,时间更新中断,时钟输出和时间戳功能,可以在外部或内部事件…

python 蓝桥杯填空题

文章目录 字母数判断列名(进制问题)特殊日期 字母数 由于是填空题,那么寻找的话,就直接让每一个位置都是A,通过计算看看是不是结果大于2022即可 判断列名(进制问题) 这道题目,我们可以往数字进制…

基于“xxx” Androidx平台的驱动及系统开发 之 触摸板篇

目录 一、基于全志 A133 Android10平台,适配1366x768 - ilitek2511触摸1、原理图分析2、驱动移植与适配3、补丁和资源文件 二、基于瑞芯微 RK3566 Android11平台,适配GT9XX触摸1、原理图分析2、补丁及资源文件 三、遇到的问题与解决1、基于amlogic Andro…

Pytorch学习07_torchvision中数据集的使用

torchvision torchvision 是 PyTorch 生态系统中的一个用于计算机视觉任务的包,它提供了一系列用于图像和视频处理的工具和数据集。torchvision 可以帮助你加载、预处理、增强和可视化图像数据,并提供了一些经典的计算机视觉模型和预训练权重&#xff0…