每天3分钟，彻底弄懂神经网络的优化器（十）Nadam

每天3分钟，彻底弄懂神经网络的优化器（十）Nadam

article2024/12/23 16:41:12/文章来源:https://blog.csdn.net/qq_25295605/article/details/142908818

1. Nadam算法的提出

Nadam（Nesterov-accelerated Adaptive Moment Estimation）算法是由Tim Salimans et al. 在2016年提出的。这一算法结合了Adam算法和Nesterov Accelerated Gradient（NAG）算法的优点，旨在提高优化算法的性能。Nadam算法的详细描述和原理可以在论文《Incorporating Nesterov Momentum into Adam》1中找到，该论文最初在2016年提交到arXiv，并且后来在2017年的ICLR会议上发表。

2. Nadam算法的原理

Nadam（Nesterov-accelerated Adaptive Moment Estimation）是一种结合了Nesterov动量（NAG）和Adam优化算法的优化器。它旨在提高优化过程的性能，特别是在深度学习中。

Nadam的更新规则如下：

初始化一阶矩估计（动量） $m_0$ 和二阶矩估计（梯度平方的移动平均） $v_0$ 为0，以及时间步长 $t = 1$ ;
在每次迭代中，计算梯度 $g_t$ ;
更新一阶矩估计 $m_t$ 和二阶矩估计 $v_t$ ：

$m_t = \beta_1 \cdot m_{t-1} + (1 - \beta_1) \cdot g_t$

$v_t = \beta_2 \cdot v_{t-1} + (1 - \beta_2) \cdot g_t^2$
计算偏差修正的一阶矩估计 $\hat{m}_t$ 和二阶矩估计 $\hat{v}_t$ ：

$\hat{m}_t = \frac{m_t}{1 - \beta_1^t}$

$\hat{v}_t = \frac{v_t}{1 - \beta_2^t}$
计算Nadam特有的修正动量 $\hat{m}_t^{'}$ ：

$\hat{m}_t^{'} = \beta_1 \cdot m_{t-1} +\frac{(1 - \beta_1) \cdot g_t}{1 - \beta_1^t}$
更新参数 $\theta$ ：

$\theta_t = \theta_{t-1} - \eta \cdot \frac{\hat{m}_t^{'}}{\sqrt{\hat{v}_t} + \epsilon}$

在Nadam的更新公式中， $\hat{m}_t^{'}$ 是结合了Nesterov动量的修正动量，它在计算更新时考虑了前一步的速度。这种结合Nesterov动量的特性是Nadam与Adam的主要区别。

3. Nadam算法的主要特点

Nadam算法的优点包括：

结合了Nesterov动量和Adam算法的优点，既有自适应学习率，又有Nesterov动量，可以更快地收敛。
对于深度学习模型的优化效果较好。

Nadam算法的缺点可能包括：

需要人工设置初始学习率和两个衰减系数，调参较为复杂。
可能会导致训练过程中的震荡，尤其是在学习率较高的情况下。
结合了Adam和Nesterov动量，所以其可能会导致优化过程过于复杂，从而增加了计算负担。

在实际应用中，Nadam通常被用于深度学习模型的训练，尤其是在需要快速收敛和对稀疏数据集进行优化时。它在许多情况下都能提供良好的性能，但使用时需要注意调整超参数以达到最佳效果。

请添加图片描述

参考

[1] Incorporating Nesterov Momentum into Adam

欢迎关注我的GitHub和微信公众号，来不及解释了，快上船！

GitHub: LLMForEverybody

仓库上有原始的Markdown文件，完全开源，欢迎大家Star和Fork！

请添加图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/890679.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

[运维]6.github 本地powershell登录及设置ssh连接

[运维]6.github 本地powershell登录及设置ssh连接

当我在本地的git hub 进行修改后，需要推送到远程github仓库。当我运行了git add . git commit -m "ingress-controller image" 以后，运行git push origin main，发现由于网络原因无法连接到远程github仓库。此时开始设置ssh连…

阅读更多...

MySQL中表的约束

MySQL中表的约束

1，概念表中一定要有各种约束，通过约束，让我们来插入数据库中的数据是符合预期的。约束本质是通过技术手段，倒逼程序员插入正确的数据；反过来，站在MySQL的角度来单，内部已经插进来的数据&…

阅读更多...

即插即用hilo注意力机制，捕获低频高频特征

即插即用hilo注意力机制，捕获低频高频特征

题目：Fast Vision Transformers with HiLo Attention 论文地址: https://arxiv.org/abs/2205.13213 创新点 HiLo自注意力机制：作者提出了一种新的自注意力机制，称为HiLo注意力，旨在同时捕捉图像中的高频和低频信息。该方法通过…

阅读更多...

通信工程学习：什么是SPI串行外设接口

通信工程学习：什么是SPI串行外设接口

SPI：串行外设接口 SPI，即串行外设接口（Serial Peripheral Interface），是一种由Motorola公司首先在其MC68HCXX系列处理器上定义的同步串行接口技术。SPI接口主要用于微控制器（MCU）与外部设备之间…

阅读更多...

1. 到底什么是架构

1. 到底什么是架构

1. 什么是架构定义：架构，又名软件架构，是有关软件整体结构与组件的抽象描述，用于指导大型软件系统各个方面的设计优秀架构的特点：优秀的性能、超强的TPS/QPS的承载能力、高可用决定了你能够支撑多少PV的流量 2. 什么…

阅读更多...

【Linux修炼进程之权限篇】探讨Linux权限问题

【Linux修炼进程之权限篇】探讨Linux权限问题

【Linux修炼】——权限问题目录一：认识Linux下用户的分类 1.1：如何添加新用户【使用root用户创建添加】 1.2：su指令用法二：Linux下权限是什么？ 2.1：权限所认证的是身份(人身份角色) 2.2&#xff…

阅读更多...

【WPF】04 Http消息处理类

【WPF】04 Http消息处理类

这里引入微软官方提供的HttpClient类来实现我们的目的。首先，介绍一下官方HttpClient类的内容。 HttpClient 类定义命名空间: System.Net.Http 程序集: System.Net.Http.dll Source: HttpClient.cs 提供一个类，用于从 URI 标识的资源发送 HTTP 请…

阅读更多...

dbt doc 生成文档命令示例应用

dbt doc 生成文档命令示例应用

DBT提供了强大的命令行工具，它使数据分析师和工程师能够更有效地转换仓库中的数据。dbt的一个关键特性是能够为数据模型生成文档，这就是dbt docs命令发挥作用的地方。本教程将指导您完成使用dbt生成和提供项目文档的过程。 dbt doc 命令 dbt docs命令有…

阅读更多...

Gitxray：一款基于GitHub REST API的网络安全工具

Gitxray：一款基于GitHub REST API的网络安全工具

关于Gitxray Gitxray是一款基于GitHub REST API的网络安全工具，支持利用公共 GitHub REST API 进行OSINT、信息安全取证和安全检测等任务。 Gitxray（Git X-Ray 的缩写）是一款多功能安全工具，专为 GitHub 存储库而设计。它可以用于…

阅读更多...

STM32CUBEIDE的使用【三】RTC

STM32CUBEIDE的使用【三】RTC

于正点原子潘多拉开发板，使用stm32官方免费软件进行开发 CubeMx 配置使用CubeMx 配置RTC 勾选RTC 设置日期和时间配置LCD的引脚用来显示 STM32CUBEIDE 在usbd_cdc_if.c中重定向printf函数用于打印 #include <stdarg.h>void usb_printf(const char *f…

阅读更多...

第十六章 RabbitMQ延迟消息之延迟插件优化

第十六章 RabbitMQ延迟消息之延迟插件优化

目录一、引言二、优化方案三、核心代码实现 3.1. 生产者代码 3.2. 消息处理器 3.3. 自定义多延迟消息封装类 3.4. 订单实体类 3.5. 消费者代码四、运行效果一、引言上一章节我们提到，直接使用延迟插件，创建一个延迟指定时间的消息&…

阅读更多...

【C++算法】双指针

【C++算法】双指针

目录一、快乐数： 二、有效三角形的个数： 三、盛最多水的容器： 四、复写0： 五、三数之和： 总结： 一、快乐数： 题目出处： 202. 快乐数 - 力扣（LeetCode&#xff09…

阅读更多...

ROS2 通信三大件之动作 -- Action

ROS2 通信三大件之动作 -- Action

通信最后一个，也是不太容易理解的方式action，复杂且重要 1、创建action数据结构创建工作空间和模块就不多说了在模块 src/action_moudle/action/Counter.action 下创建文件 Counter.action int32 target # Goal: 目标 --- int32 current_value…

阅读更多...

智能健康顾问：基于SpringBoot的系统

智能健康顾问：基于SpringBoot的系统

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。是基于SQL的客户/服务器模式的关系数据库管理系统，它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等，非常…

阅读更多...

Qt：图片文字转base64程序

Qt：图片文字转base64程序

目录一.Base64 1.编码原理 2.应用场景 3.优点 4.限制 5.变种二.文字与Base64互转 1.ui设计 2.文字转Base64 3.Base64转文字三.图片与Base64互转 1.ui设计 2.选择图片与图片路径 3.图片转Base64 4.Base64转图片四.清空设置五.效果六.代码 base64conver…

阅读更多...

PDF编辑不求人！4款高效工具，内容修改从此变得简单又快捷

PDF编辑不求人！4款高效工具，内容修改从此变得简单又快捷

咱们现在生活在一个数字时代，PDF文件可不就是工作、学习还有日常生活中经常要用的东西嘛。但遇到那些需要改动的PDF文件，是不是就觉得有点头疼啊？ 因为传统的PDF文件真的不好编辑，这确实挺烦人的。不过呢，我今天要给你…

阅读更多...

【北京迅为】《STM32MP157开发板嵌入式开发指南》- 第三十九章 Linux Misc驱动

【北京迅为】《STM32MP157开发板嵌入式开发指南》- 第三十九章 Linux Misc驱动

iTOP-STM32MP157开发板采用ST推出的双核cortex-A7单核cortex-M4异构处理器，既可用Linux、又可以用于STM32单片机开发。开发板采用核心板底板结构，主频650M、1G内存、8G存储，核心板采用工业级板对板连接器，高可靠，牢固耐…

阅读更多...

SpringBoot下的智能健康推荐引擎

SpringBoot下的智能健康推荐引擎

3系统分析 3.1可行性分析通过对本基于智能推荐的卫生健康系统实行的目的初步调查和分析，提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性本基于智能推荐的卫生健康系统采用SSM框架&#…

阅读更多...

24秋面试笔记

24秋面试笔记

文章目录一、专业技能1.1 具备扎实的Java基础，熟练掌握面向对象编码规范、集合、反射以及Java8特性等。1.1.1 Java基础1.1.2 集合1.1.3 Java8新特性 1.2 熟悉常用的数据结构(链表、栈、队列、二叉树等)，熟练使用排序、动态规划、DPS等算法。1.2.1 数据结…

阅读更多...

CountUp.js 实现数字增长动画 Vue

CountUp.js 实现数字增长动画 Vue

效果： 官网介绍 1. 安装 npm install --save countup.js2. 基本使用 // template <span ref"number1Ref"></span>// script const number1Ref ref<HTMLElement>() onMounted(() > {new CountUp(number1Ref.value!, 9999999).sta…

阅读更多...

最新文章