【机器学习】039_合理初始化

一、稳定训练

目标:使梯度值在更合理的范围内

常见方法如下:

· 将乘法变为加法

        · ResNet:当层数较多时,会加入一些加法进去

        · LSTM:如果时序序列较长时,把一些对时序的乘法做加法

· 归一化

        · 梯度归一化:把梯度转化为一个均值0、方差1这样的数,从而避免梯度的数值过大或过小

        · 梯度裁剪:如果梯度大于一个阈值,就强行拉回来减到一个范围里

· 合理的权重初始化、选取合理的激活函数

二、合理初始化操作

目标:让每层的方差都为一个常数

· 让每层的输出和梯度都看作“随机变量”

· 让输出和梯度的均值和方差都保持一致,那么就可以在每层的传递之间保持,不会出现问题

权重初始化

目标:将参数和权重初始化在一个合理的区间值里,防止参数变化过大或过小导致出现问题

· 当训练开始时,数值更易出现不稳定的问题

        · 随机初始的参数可能离最优解很远,更新幅度较陡,损失函数会很大,从而导致梯度较大

        · 最优解附近一般较缓,更新幅度会较小

· 假设不定义初始化方法,框架将使用默认初始化,即采用正态分布初始化权重值

        · 这种初始化方法对小型神经网络较为有效,但当网络较深时,这种初始化方法往往表现较差

· Xavier初始化:

        某些没有非线性的全连接层输出(例如,隐藏变量)o_i 的尺度分布:

        · 对于某一层 n_{in} 输入 x_j 以及其相关权重 w_{ij},输出由下式给出:

        权重 w_{ij} 都是从同一分布中独立抽取的

        · 假设该分布具有均值 0 和方差 \sigma ^2(不一定是标准正态分布,只需均值方差存在)

        · 假设层 x_j 的输入也具有均值 0 和方差 \gamma ^2,且独立于 w_{ij} 并彼此独立

        可以按下列方式计算 o_i 的均值与方差:

        为了保障 o_i 的方差不变化,可设置 n_{in}\sigma ^2 = 1

        现在考虑反向传播过程,我们面临着类似的问题,尽管梯度是从更靠近输出的层传播的。

        使用与前向传播相同的推断,我们可以看到:

        · 除非 n_{out}\sigma ^2=1,否则梯度的方差可能会增大。其中 n_{out} 是该层输出的数量。

        · 然而,我们不可能同时满足 n_{in}\sigma ^2 = 1 和 n_{out}\sigma ^2=1 这两个条件。

        但我们只需满足:

        即可达到要求,这便是Xavier初始化的基础。

        通常,Xavier初始化从均值为 0,方差 \sigma ^2=\frac{2}{n_{in}+n_{out}} 的高斯分布中采样权重。

        Xavier初始化表明:

        · 对于每一层,输出的方差不受输入数量的影响;

        · 任何梯度的方差不受输出数量的影响。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/172836.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

全链路压测的步骤及重要性

全链路压测是一种系统性的性能测试方法,旨在模拟真实用户场景下的完整操作流程,全面评估软件系统在不同压力下的性能表现。这种测试方法对于保证应用程序的高可用性、稳定性和可扩展性至关重要。 1. 全链路压测概述 全链路压测是在模拟实际用户使用场景的…

SMU可以供电的同时测量电流和电压

SMU可以供电的同时测量电流和电压 SMU本身能够提供电流或电压,同时测量负载或被测设备(DUT:Device Under Test)上的电流和电压。这是与传统电源相比使用SMU的优势之一。 SMU测量的电流和电压值将反映在NI-DCPower软面板中&#…

(swjtu西南交大)数据库实验(数据库需求分析):音乐软件数据管理系统

实验内容: 数据库需求分析:各用户组需求描述,绘出数据流图(详细案例参见教材p333~p337,陶宏才,数据库原理及设计,第三版); 一、选题背景 近年来,“听歌”逐…

【docker】虚拟化和docker容器概念

基础了解 IAAS: 基础设施服务,(只提供基础设施,没有系统) **SAAS: ** 软件即服务,(提供基础设施和系统) PAAS: 平台即服务,(提供基…

【Docker】从零开始:1.Docker概述

【Docker】从零开始:1.Docker概述 1.什么是Docker2.为什么要使用Docker3.传统虚拟机技术与Linux容器技术的区别(1).传统虚拟机技术(2).Linux容器 4.Docker的特点一次构建、随处运行a.更快速的应用交付和部署b.更便捷的升级和扩缩容:c.更简单的系统运维d.…

三字经||无聊数了下三字经的字数

三字经总字数去除标点后1416个 该文章无技术含量,仅三字经原文,学技术的同学可以止步了 三字经(原文) 【作者】王应麟 【朝代】南宋 人之初,性本善。性相近,习相远。 苟不教,性乃迁。教之道&a…

视频接入网关的用法

视频接入网关是一种多功能的视频网关设备,可以解决各种视频接入,视频输出,视频转码,视频融合的问题。可以应用在应急指挥,智慧融合等项目中,与各种系统进行对接,解决视频能力跨系统集成的难题。…

matlab-BP神经网络的训练参数大全

本文部分图文来自《老饼讲解-BP神经网络》bp.bbbdata.com 本文列兴趣MATLAB神经网络工具箱中,训练参数trainParam的各个参数与意义 以方便在使用matlab工具箱时,用于查阅 一、matlab神经网络工具箱trainParam的参数列表 trainParam中的各个具体参数如下…

【数据结构(三)】单链表(1)

文章目录 1. 链表介绍2. 单链表应用实例2.1. 顺序添加方式2.1.1. 思路分析2.1.2. 代码实现 2.2. 按照编号顺序添加方式2.2.1. 思路分析2.2.2. 代码实现 3. 单链表节点的修改3.1. 思路分析3.2. 代码实现 4. 单链表节点的删除4.1. 思路分析4.2. 代码实现 5. 单链表常见面试题5.1.…

代码随想录算法训练营|五十九~六十天

下一个更大元素|| 503. 下一个更大元素 II - 力扣(LeetCode) 和每日温度一样的套路,就是这里可以循环数组,两个数组拼接,然后循环两遍就行。 public class Solution {public int[] NextGreaterElements(int[] nums)…

Python如何实现模板方法设计模式?什么是模板方法设计模式?Python 模板方法设计模式示例代码

什么是模板方法(Template Method)设计模式? 模板方法(Template Method)是一种行为型设计模式,它定义了一个算法的骨架,将一些步骤延迟到子类中实现。这种模式允许子类为一个算法的特定步骤提供…

DeepStream--测试lpdnet车牌检测模型

模型地址:https://catalog.ngc.nvidia.com/orgs/nvidia/teams/tao/models/lpdnet/version 模型格式已经从加密的etlt格式变为onnx格式。这个模型用于从汽车图片上检测出车牌位置,模型有两个,一个用于美国车,一个用于中国车。 Nv…

Mysql之聚合函数

Mysql之聚合函数 什么是聚合函数常见的聚合函数GROUP BYWITH ROLLUPHAVINGHAVING与WHERE的对比 总结SQL底层原理 什么是聚合函数 对一组数据进行汇总的函数,但是还是返回一个结果 聚合函数也叫聚集,分组函数 常见的聚合函数 1.AVG(): 求平均值 2.SUM() :…

HarmonyOS基础组件之Button三种类型的使用

简介 HarmonyOS在明年将正式不再兼容Android原生功能,这意味着对于客户端的小伙伴不得不开始学习HarmonyOS开发语言。本篇文章主要介绍鸿蒙中的Button使用。 HarmonyOS中的Button相较于Android原生来说,功能比较丰富,扩展性高,减…

OpenShift 4 - 部署 RHODS 环境,运行 AI/ML 应用(视频)

《OpenShift / RHEL / DevSecOps 汇总目录》 说明:本文已经在 OpenShift 4.14 RHODS 1.33 的环境中验证 文章目录 RHODS 简介安装 RHODS 环境运行环境说明用 RHODS Operator 安装环境创建 Jupyter Notebook 运行环境 开发调式 AI/ML 应用部署运行 AI/ML 应用视频参…

国产压力测试工具的主要作用

国产压力测试工具可以帮助软件开发和维护团队对系统进行全面的性能测试,以评估系统在高负载下的性能表现。以下是国产压力测试工具的主要作用: 性能评估:国产压力测试工具可以模拟多用户同时对系统进行访问和操作,通过对系统的响应…

SpringBoot 自动装配原理 - 支付宝支付封装starter

SpringBoot 自动装配 SpringBoot 自动装配原理详细介绍自定义 Spring Boot Starter1.读取配置文件2.注册 AlipayClient bean3.核心代码编写4.注册 AlipayAPI bean5.编写 META-INF/spring.factories 文件6.项目结构测试1.创建一个测试项目,引入自定义 starter 依赖2.…

golang学习笔记——接口和继承比较1

继承 Go 语言的设计之初,就不打算支持面向对象的编程特性,因此 Go 不支持面向对象的三大特性之一——继承。但是 Go 可以通过组合的思想去实现 “继承”。继承是面向对象的三大特性之一,继承是从已有的类中派生出新的类,新的类能…

基数排序详解(LSD方法+MSD方法+思路+图解+代码)

文章目录 基数排序一、基数排序概念1.LSD排序法(最低位优先法)2.MSD排序法(最高位优先法) 基数排序 一、基数排序 概念 基数排序是一种非比较型整数排序算法 将整数按位数切割成不同的数字,然后按每个位数分别比较 …

函数有返回类型,但函数体未返回类型,程序崩溃问题记录

问题 使用类指针调用函数时&#xff0c;程序崩溃。 问题定位&#xff1a; name new nameSetting;name->setName("helloworld");qDebug().noquote() << name->getName();原因 class nameSetting { public:nameSetting();QString setName(const QStri…