LSTM的介绍

网上一些描述LSTM文章看的云里雾里,只是介绍LSTM 的结构,并没有说明原理。我这里用通俗易懂的话来描述一下。

我们先来复习一些RNN的核心公式:
h t = t a n h ( W h h t − 1 + W x x t + b h ) h_t = tanh(W_h h_{t-1} + W_x x_t + b_h) ht=tanh(Whht1+Wxxt+bh)
y t = W y h t + b y y_t = W_y h_t + b_y yt=Wyht+by

我们可以注意到 最终输出依赖于x(当前输入) 和 之前的状态 H t H_t Ht, H t H_t Ht是上一个轮隐藏状态,包含了之前输入计算得到的信息, 作为记忆力给下一轮输出使用,这就造成了一个问题, 随着序列的增长, H t H_t Ht 包含的更早之前的信息就会越来越少,所以可以称 H t H_t Ht 为短期记忆。 LSTM 就是在rnn的基础上,结合短期记忆增加了长期记忆,所以叫长短期记忆。

我们来看LSTM 的结构图
!
[LSTM](htps://img-home.csdnimg.cn/images/20230724024159.png?origin_url=https%3A%2F%5D(https%3A%2F%2Fi-blog.csdnimg.cn%2Fdirect%2Fcbedb56d2d1f431fb4fe23de8700db01.png&pos_id=img-AUU73Ri5-1731fb4fe23de570db01.png80)

这里我们依然可以看到 H t H_t Ht 结构,这里依然是短期记忆。$$C_t 则是长期记忆。
另外值得注意的是σ代表sigmod 函数,sigmod将结果映射到0-1 空间。用于遗忘一些不重要的输入(也就是权重比较低的x),我们来看一下长期记忆和短期记忆是如何形成的,

  1. 遗忘门(Forget Gate)

    • 作用:决定遗忘多少过去的信息
    • 公式: f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf[ht1,xt]+bf)
    • 其中 σ(sigmoid)被用于将输出压缩到 [0,1],从而控制信息的遗忘程度。
  2. 输入门(Input Gate)

    • 作用:决定当前时刻的新信息有多少被加入到细胞状态(Cell State)
    • 公式:
      • i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi[ht1,xt]+bi) (输入门权重)
      • C ~ t = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) C~t=tanh(WC[ht1,xt]+bC) (候选信息)
      • C t = f t ∗ C t − 1 + i t ∗ C ~ t C_t = f_t * C_{t-1} + i_t * \tilde{C}_t Ct=ftCt1+itC~t (更新长期记忆状态)
  3. 输出门(Output Gate)

    • 作用:决定 LSTM 该输出多少信息
    • 公式:
      • o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo[ht1,xt]+bo)
      • h t = o t ∗ tanh ⁡ ( C t ) h_t = o_t * \tanh(C_t) ht=ottanh(Ct) (更新短期记忆)

这里我们可以清晰的看到,长短期记忆模型的核心在于使用sigmod来实现遗忘一些信息,使得 C t C_t Ct能保存更长序列的核心内容,也就是长期记忆。 由于 H t H_t Ht 直接受输出门(Output Gate)控制,它的值可能会随着时间快速变化,因此它更偏向短期信息的存储。

总结:

  • H t H_t Ht 是 LSTM 每个时间步的输出,它会被传递到下一个时间步,也可以用于最终的预测。
  • 由于 H t H_t Ht 直接受输出门(Output Gate)控制,它的值可能会随着时间快速变化,因此它更偏向短期信息的存储。
  • 在某些情况下,( h_t ) 可能会丢失远程依赖信息,类似于 RNN 里的信息传递方式。

🔹 为什么 C t C_t Ct 代表长期记忆?

  • C t C_t Ct细胞状态(Cell State),它通过遗忘门(Forget Gate)输入门(Input Gate) 来更新信息。
  • 遗忘门可以选择保留一部分过去的信息,让 C t C_t Ct 可以跨多个时间步存储重要信息,而不会像 H t H_t Ht 那样频繁变化。
  • 这样,LSTM 解决了普通 RNN 梯度消失 的问题,使得模型可以记住更长时间的依赖关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/967362.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

推荐一款 免费的SSL,自动续期

支持自动续期 、泛域名 、可视化所有证书时效性 、可配置CDN 的一款工具。免费5个泛域名和1个自动更新。 链接 支持:nginx、通配符证书、七牛云、腾讯云、阿里云、CDN、OSS、LB(负载均衡) 执行自动部署脚本 提示系统过缺少crontab 安装cro…

RTD2775QT/RTD2795QT瑞昱显示器芯片方案

RTD2775QT与RTD2795QT:高性能4K显示驱动芯片 RTD2775QT与RTD2795QT是瑞昱半导体公司推出的两款高性能显示驱动芯片,专为满足现代显示设备对高清、高分辨率的需求而设计。这两款芯片不仅支持4K分辨率,还具备丰富的功能和卓越的性能&#xff0…

Windows逆向工程入门之汇编环境搭建

公开视频 -> 链接点击跳转公开课程博客首页 -> ​​​链接点击跳转博客主页 Visual Studio逆向工程配置 基础环境搭建 Visual Studio 官方下载地址安装配置选项(后期可随时通过VS调整) 使用C的桌面开发 拓展可选选项 MASM汇编框架 配置MASM汇编项目 创建新项目 选择空…

活动预告 |【Part1】Microsoft Azure 在线技术公开课:AI 基础知识

课程介绍 参加“Azure 在线技术公开课:AI 基础知识”活动,了解 AI 核心概念。参加我们举办的本次免费培训活动,了解组织如何使用 AI 技术克服实际挑战,以及如何借助 Azure AI 服务构建智能应用程序。本次培训适用于任何对 AI 解决…

小程序生命周期函数,wxs

1.扩展自定义编译模式 2.生命周期函数概念与分类 3.应用生命周期函数 4.页面生命周期函数 5.wxs的概念 6.wxs基本用法 6.1内嵌wxs脚本 6.2定义外联的wxs脚本 6.3使用外联的wxs脚本 7.wxs特点

StochSync:可在任意空间中生成360°全景图和3D网格纹理

StochSync方法可以用于在任意空间中生成图像,尤其是360全景图和3D网格纹理。该方法利用了预训练的图像扩散模型,以实现零-shot生成,消除了对新数据收集和单独训练生成模型的需求。StochSync 结合了 Diffusion Synchronization(DS&…

免费在腾讯云Cloud Studio部署DeepSeek-R1大模型

2024年2月2日,腾讯云宣布DeepSeek-R1大模型正式支持一键部署至腾讯云HAI(高性能应用服务)。开发者仅需3分钟即可完成部署并调用模型,大幅简化了传统部署流程中买卡、装驱动、配网络、配存储、装环境、装框架、下载模型等繁琐步骤。…

基于Flask搭建AI应用,本地私有化部署开源大语言模型

一、概述 随着人工智能技术的飞速发展,越来越多的企业和开发者希望在本地环境中部署和使用大语言模型,以确保数据隐私和安全性。本文将介绍如何基于Flask框架搭建一个AI应用,并在本地私有化部署开源的大语言模型。 二、背景 大语言模型&…

[小白入门]PostgreSQL too many clients already

场景 PostgreSQL 遇到too many clients already 连接 PostgreSQL 数据库时,突然遭遇到了一个报错:“FATAL: sorry, too many clients already”。这一错误提示表明数据库连接数已经达到上限,无法再创建新连接。 分析 可以通过以下几个SQL查…

WEB小项目--自动轮播图

目录 目的 代码 技术细节 1. HTML结构 基本结构 具体内容 内容布局 2. CSS样式 3. JavaScript功能 小结 目的 为了在用户浏览网页时制造更好的视觉效果和交互体验 代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"…

LabVIEW图像水印系统

图像水印技术在数字图像处理中起着重要作用&#xff0c;它能够保护图像的版权、确保图像的完整性&#xff0c;并提供额外的信息嵌入。本项目旨在利用LabVIEW开发一个图像水印系统&#xff0c;实现图像水印的嵌入和提取功能&#xff0c;为数字图像处理提供便捷的工具。 一、项目…

Mp4视频播放机无法播放视频-批量修改视频分辨率(帧宽、帧高)

背景 家人有一台夏新多功能 视频播放器(夏新多功能 视频播放器),用来播放广场舞。下载了一些广场舞视频, 只有部分视频可以播放,其他视频均无法播放,判断应该不是帧速率和数据速率的限制, 分析可能是播放器不支持帧高度大于720的视频。由于视频文件较多,需要借助视频编…

git rebase 和 git merge的区别

Rebase 可使提交树变得很干净, 所有的提交都在一条线上。 Merge 则是包含所有的调试记录&#xff0c;合并之后&#xff0c;父级的所有信息都会合并在一起 Rebase 修改了提交树的历史 比如, 提交 C1 可以被 rebase 到 C3 之后。这看起来 C1 中的工作是在 C3 之后进行的&#xf…

Day38-【13003】短文,二叉树,完全二叉树,二叉树的顺序存储,和链式存储

文章目录 第二节 二叉树二叉树的定义及重要性质n个结点&#xff0c;能组合成多少个不同的二叉树满二叉树、完全二叉树完全二叉树的性质二叉树的性质二叉树的结点数完全二叉树的高度 二叉树的存储顺序存储方式链式存储方式二叉链表的程序实现二叉链表空指针域计算 第二节 二叉树…

echarts 3d中国地图飞行线

一、3D中国地图 1. 一定要使用 echarts 5.0及以上的版本; 2. echarts 5.0没有内置中国地图了。点击下载 china.json&#xff1b; 3. 一共使用了四层地图。 &#xff08;1&#xff09;第一层是中国地图各省细边框和展示南海诸岛&#xff1b; &#xff08;2&#xff09;第二层是…

傅里叶公式推导(一)

文章目录 三角函数系正交证明图观法数学证明法计算当 n不等于m当 n等于m&#xff08;重点&#xff09; 其它同理 首先要了解的一点基础知识&#xff1a; 三角函数系 { sin ⁡ 0 , cos ⁡ 0 , sin ⁡ x , cos ⁡ x , sin ⁡ 2 x , cos ⁡ 2 x , … , sin ⁡ n x , cos ⁡ n x ,…

SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现

SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现 目录 SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来Matlab实现预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现SSA-TCN麻雀算法优化时间卷积神经网络时间序列预测未来&#xff08;优…

DeepSeek 助力 Vue 开发:打造丝滑的步骤条

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享一篇文章&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 目录 Deep…

利用二分法进行 SQL 盲注

什么是sql注入&#xff1f; SQL 注入&#xff08;SQL Injection&#xff09;是一种常见的 Web 安全漏洞&#xff0c;攻击者可以通过构造恶意 SQL 语句来访问数据库中的敏感信息。在某些情况下&#xff0c;服务器不会直接返回查询结果&#xff0c;而是通过布尔值&#xff08;Tr…

USB子系统学习(四)用户态下使用libusb读取鼠标数据

文章目录 1、声明2、HID协议2.1、描述符2.2、鼠标数据格式 3、应用程序4、编译应用程序5、测试6、其它 1、声明 本文是在学习韦东山《驱动大全》USB子系统时&#xff0c;为梳理知识点和自己回看而记录&#xff0c;全部内容高度复制粘贴。 韦老师的《驱动大全》&#xff1a;商…