人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络

人工智能_大模型044_模型微调004_随机梯度下降优化_常见损失计算算法_手写简单神经网络_实现手写体识别---人工智能工作笔记0179

然后对于,梯度下降,为了让训练的速度更好,更快的下降,又做了很多算法,可以看到

这里要知道Transformer中最常用的Adam 和 AdamW这两种算法.

当然，这些算法都是用于优化神经网络中的参数，以最小化损失函数。下面我会尽量以通俗易懂的方式解释它们的原理和适用场景。
1. **L-BFGS（Limited-memory BFGS）**：
   - **原理**：L-BFGS是一种拟牛顿方法，用于解决大规模的优化问题。
它使用历史梯度来近似Hessian矩阵（即目标函数的二阶导数矩阵），以此来更新参数。
   - **适用场景**：当数据集不是特别大时，L-BFGS表现很好，因为它需要存储过去的
一些梯度信息。但对于特别大的数据集或网络，其内存需求可能会变得太大。
2. **Rprop（Resilient Propagation）**：
   - **原理**：Rprop是一种基于梯度的优化算法，但与其它算法不同的是，它不使用
学习率。它通过自适应调整每个参数的学习步长来优化网络。
   - **适用场景**：Rprop特别适用于训练神经网络，尤其是当网络包含多个局部最
小值时。但由于其不使用全局学习率，它可能不如其它算法那样易于实现或调整。
3. **RMSprop**：
   - **原理**：RMSprop是Geoff Hinton提出的一种自适应学习率方法。它通过计算梯度
平方的移动平均来调整每个参数的学习率。
   - **适用场景**：RMSprop在处理非平稳

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/584018.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！