【ML】类神经网络训练不起来怎么办 5

【ML】类神经网络训练不起来怎么办 5

    • 1. Saddle Point V.S. Local Minima(局部最小值 与 鞍点)
    • 2. Tips for training: Batch and Momentum(批次与 动量)
      • 2.1 Tips for training: Batch and Momentum
      • 2.2 参考文献:
      • 2.3 Gradient Descent
      • 2.4 Concluding Remarks(前面三讲)
    • 3. Tips for training: Adaptive Learning Rate ,Error surface is rugged ...
      • 3.1 凸优化 使用 同意的learning rate 可能出现的问题
      • 3.1.2 Warm Up
      • 3.2 Different parameters needs different learning rate(客制化 learning rate)
      • 3.3 RMSProp 是一种自适应学习率优化算法,它可以根据梯度的均方根来调整每个参数的学习率。
      • 3.4 Adam: RMSProp + Momentum
      • 3.5 Summary of Optimization
    • 4. Loss 影响

1. Saddle Point V.S. Local Minima(局部最小值 与 鞍点)

Optimzation Fails,Why?
gradient is close to zero , 2 situation : local minima or saddle point ,we call this critical point.

在这里插入图片描述
如何判断 是 local minima or saddle point中的哪一种情况呢?
我们采用Taylor的展开来求解:
在这里插入图片描述
求零点附近的Hessian矩阵,根据Hessian矩阵判断是哪一种情况

在这里插入图片描述
实现步骤如下:
在这里插入图片描述在这里插入图片描述

举例说明:
在这里插入图片描述
在这里插入图片描述
saddle point 在训练过程中出现该怎么处理 hessian matrix 处理Saddle Point 逃离
在这里插入图片描述

站在更高的维度去处理解决问题:
在这里插入图片描述
在这里插入图片描述

2. Tips for training: Batch and Momentum(批次与 动量)

2.1 Tips for training: Batch and Momentum

同一个数据集合 :做batch 然后shuffle这些batch
在这里插入图片描述
Small Batch v.s. Large Batch 优缺点对比
在这里插入图片描述

在这里插入图片描述
不考虑 并且运算的情况下 Epoch 大的跑的快
在这里插入图片描述
在这里插入图片描述
大的batch 结果好的原因是什么?
在这里插入图片描述
上面这个问题下面给出答案:

Small Batch v.s. Large Batch
Smaller batch size has better performance
“Noisy” update is better for training.

在这里插入图片描述

Small batch is better on testing data!

在这里插入图片描述
在这里插入图片描述
Small Batch v.s. Large Batch: 详细的优势掠食 对比,在并行情况下,速度持平,除非,大的batch特别大
但是大的batch在update的时候比较快(优势);小的batch 的优化洁后果和泛化性能更好;

Batch size is a hyperparameter you have to decide.
在这里插入图片描述

2.2 参考文献:

Have both fish and bear’s paws?

  1. Large Batch Optimization for Deep Learning: Training BERT in 76 minutes (https://arxiv.org/abs/1904.00962)
  2. Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes (https://arxiv.org/abs/1711.04325)
  3. Stochastic Weight Averaging in Parallel: Large-Batch Training That Generalizes Well (https://arxiv.org/abs/2001.02312)
  4. Large Batch Training of Convolutional Networks
    (https://arxiv.org/abs/1708.03888)
  5. Accurate, large minibatch sgd: Training imagenet in 1 hour
    (https://arxiv.org/abs/1706.02677)

2.3 Gradient Descent

在这里插入图片描述
在这里插入图片描述
考虑过去 Gradient 过去的总和:
在这里插入图片描述
Gradient Descent + Momentum 一大好处就是Gradient Descent退化时候,依然可以继续优化步骤,而不是导致优化停止。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/495911.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年AI威胁场景报告:揭示现今最大的AI安全挑战

AI正彻底改变每一个数据驱动的机会,有可能带来一个繁荣的新时代,让人类的生活质量达到难以想象的高度。但就像任何突破性的新技术一样,伟大的潜力往往蕴含着巨大的风险。 AI在很大程度上是有史以来部署在生产系统中的最脆弱的技术。它在代码…

寒冬继续!飞书发全员信 “适当精简团队规模”

多精彩内容在公众号。 3月26日飞书CEO谢欣发布全员信,宣布进行组织调整,同时为受到影响的“同学”提供补偿方案和转岗机会。 在致员工的一封信中,谢欣坦诚地指出,尽管飞书的团队人数众多,但组织结构的不够紧凑导致了工…

使用HarmonyOS实现图片编辑,裁剪、旋转、亮度、透明度

介绍 本篇Codelab是基于ArkTS的声明式开发范式的样例,主要介绍了图片编辑实现过程。样例主要包含以下功能: 图片的解码。使用PixelMap进行图片编辑,如裁剪、旋转、亮度、透明度、饱和度等。图片的编码。 相关概念 图片解码:读取…

经典机器学习模型(九)EM算法的推导

经典机器学习模型(九)EM算法的推导 1 相关数据基础 1.1 数学期望 1.1.1 数学期望的定义 根据定义,我们可以求得掷骰子对应的期望: E ( X ) X 1 ∗ p ( X 1 ) X 2 ∗ p ( X 2 ) . . . X 6 ∗ p ( X 6 ) 1 ∗ 1 6 2 ∗ 1 6 1 ∗ 1 6 3 ∗ 1 6 …

【考研数学】跟武忠祥,如何搭配汤家凤《1800》?

可以但不建议!正所谓原汤化原食,你做1800,当然是听汤神的更合适! 汤家凤与武忠祥的讲课风格真的大不相同!汤老师特别注重基础和题量,让你在数理思维上打下扎实的根基。而武老师则更偏向于深厚的理论&#…

天地图如何获取多边形面积

目录 一、初始化地图 二、创建polygonTool 三、多边形获取面积 ​四、完整代码(包括添加点、添加面、编辑面、获取面积) 项目中提出在地图上绘制面并获取面积,如何实现? 在天地图官网的JavaScript API 中,链接如下…

午马传动已确定加入2024第13届生物发酵展

参展企业介绍 浙江午马传动有限公司,办公室地址位于中国长寿之乡、中国椪柑之乡、中国竹炭之乡丽水,浙江省丽水市青田县东源镇项村村前路99号四楼1号,我公司主要提供:齿轮及齿轮减、变速箱制造;机械设备销售&#xff1…

MySQL 8 索引原理详细分析

千山万水总是情, 问问索引行不行? 轻舟已过万重山, 有种尽管来发难。 索引是在数据库优化时的重要手段之一,今天 V 哥从索引的角度展开讲一讲索引的各个要点,希望可以通过这篇文章,帮助大家彻底搞透索引的关键点。 1.索引的定义与作用2.索引的类型3.索引原理4.二分查…

C#学生信息成绩管理系统

一、系统功能描述 本系统包括两类用户:学生、管理员。管理员可以通过系统来添加管理员信息、修改管理员信息、添加学生信息、修改学生信息;开设课程、查询课程、录入成绩、统计成绩、修改成绩、修改个人密码等,而学生则可以通过系统来选择课…

实现DevOps需要什么?

实现DevOps需要什么? 硬性要求:工具上的准备 上文提到了工具链的打通,那么工具自然就需要做好准备。现将工具类型及对应的不完全列举整理如下: 代码管理(SCM):GitHub、GitLab、BitBucket、SubV…

智过网:考一级建造师证有什么用?可以从事哪些工作?

随着国家基础设施建设的不断推进,建筑行业在中国经济中占据了举足轻重的地位。在这样的背景下,一级建造师证成为了众多建筑从业者的追求目标。那么,考取一级建造师证究竟有哪些用处?又能从事哪些工作呢?本文将对此进行…

什么是通配符SSL证书?

在当前互联网环境中,数据传输安全至关重要,而通配符SSL证书作为保护多个子域名的理想工具,因其灵活、经济高效的特性而备受瞩目。本文将详细介绍通配符SSL证书的定义、主要特性及其价格区间。 通配符SSL证书的核心特性概述如下: …

rtthread studio 基于bsp生成代码stm32l475正点原子潘多拉,以及硬件配置

1、基于bsp生成代码 rtthread studio 很强大的一个功能就是可以根据芯片或者bsp 生成驱动代码,而且rtthread内核 已经集成到了代码中!!只需要关注于如何使用硬件和设备完成我们想要的功能就可以; 它的官网文档也特别详细&#x…

【3D目标检测】Det3d—SE-SSD模型训练(前篇):KITTI数据集训练

SE-SSD模型训练 1 基于Det3d搭建SE-SSD环境2 自定义数据准备2.1 自定义数据集标注2.2 训练数据生成2.3 数据集分割 3 训练KITTI数据集3.1 数据准备3.2 配置修改3.3 模型训练 1 基于Det3d搭建SE-SSD环境 Det3D环境搭建参考:【3D目标检测】环境搭建(OpenP…

伴随供应链数字化转型的B2B电商

制造业的数字化浪潮正迅猛地席卷全球,新冠病毒大流行和地缘政治格局的改变促进了不同国家和地区企业对供应链数字化转型的的步伐。除了企业内部的加快数字化之外。企业的营销也加快电商化步伐。 企业内部管理的数字化转型会给电商带来怎样的转变?电商如何…

CMOS逻辑门电路

按照制造门电路的三极管不同,分为MOS型、双极性和混合型。MOS型集成逻辑门有CMOS、NMOS、PMOS;双极型逻辑门有TTL;混合型有BiCMOS。 CMOS门电路是目前使用最为广泛、占主导地位的集成电路。早期CMOS电路速度慢、功耗低,后来随着制…

基于springboot+vue+Mysql的就业信息管理系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

2024最值得推荐的10款开源免费文档管理软件

本文将为大家分享9款开源文档管理系统:Bitrix24、Kimios、OpenDocMan、Papermerge、Nuxeo、OpenKM、Teedy、FileRun、SeedDMS。 在现今充满数字化的世界里,不论大小,各种组织都会产出很多文件、图片等数字化内容。好好管理这些信息对于组织的…

信创实力进阶,Smartbi再获华为云鲲鹏技术认证

日前,经华为技术有限公司评测,思迈特商业智能与数据分析软件Smartbi Insight V11与华为技术有限公司Kunpeng 920 Taishan 200完成并通过相互兼容性测试认证,成功再获华为云鲲鹏技术认证书,标志着Smartbi与华为云鲲鹏产业生态合作更…

Linux系统使用Docker搭建Traefik结合内网穿透实现公网访问管理界面

文章目录 一、Zotero安装教程二、群晖NAS WebDAV设置三、Zotero设置四、使用公网地址同步Zotero文献库五、使用永久固定公网地址同步Zotero文献库 Zotero 是一款全能型 文献管理器,可以 存储、管理和引用文献,不但免费,功能还很强大实用。 ​ Zotero 支…