LSTM理解

       

目录

一、LSTM的本质

二、LSTM的原理

三、LSTM的应用


 本文将从LSTM的本质、LSTM的原理、LSTM的应用三个方面,带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。

 

一、LSTM的本质

        RNN 面临问题:RNN(递归神经网络)在处理长序列时面临的主要问题:短时记忆和梯度消失/梯度爆炸。

梯度更新规则

  • 短时记忆
  • 问题描述:RNN在处理长序列时,由于信息的传递是通过隐藏状态进行的,随着时间的推移,较早时间步的信息可能会在传递到后面的时间步时逐渐消失或被覆盖。
  • 影响:这导致RNN难以捕捉和利用序列中的长期依赖关系,从而限制了其在处理复杂任务时的性能。
  • 梯度消失/梯度爆炸
  • 问题描述:在RNN的反向传播过程中,梯度会随着时间步的推移而逐渐消失(变得非常小)或爆炸(变得非常大)。
  • 影响:梯度消失使得RNN在训练时难以学习到长期依赖关系,因为较早时间步的梯度信息在反向传播到初始层时几乎为零。梯度爆炸则可能导致训练过程不稳定,权重更新过大,甚至导致数值溢出。

        LSTM解决问题:大脑和LSTM在处理信息时都选择性地保留重要信息,忽略不相关细节,并据此进行后续处理。这种机制使它们能够高效地处理和输出关键信息,解决了RNN(递归神经网络)在处理长序列时面临的问题。

 

大脑记忆机制

  • 大脑记忆机制:当浏览评论时,大脑倾向于记住重要的关键词。无关紧要的词汇和内容容易被忽略。回忆时,大脑提取并表达主要观点,忽略细节
  • LSTM门控机制:LSTM通过输入门、遗忘门和输出门选择性地保留或忘记信息,使用保留的相关信息来进行预测,类似于大脑提取并表达主要观点。

二、LSTM的原理

RNN 工作原理:第一个词被转换成了机器可读的向量,然后 RNN 逐个处理向量序列。

 

逐一处理矢量序列

  • 隐藏状态的传递
  • 过程描述:在处理序列数据时,RNN将前一时间步的隐藏状态传递给下一个时间步。
  • 作用:隐藏状态充当了神经网络的“记忆”,它包含了网络之前所见过的数据的相关信息。
  • 重要性:这种传递机制使得RNN能够捕捉序列中的时序依赖关系

 

将隐藏状态传递给下一个时间步

  • 隐藏状态的计算
  • 细胞结构:RNN的一个细胞接收当前时间步的输入和前一时间步的隐藏状态。
  • 组合方式:当前输入和先前隐藏状态被组合成一个向量,这个向量融合了当前和先前的信息。
  • 激活函数:组合后的向量经过一个tanh激活函数的处理,输出新的隐藏状态。这个新的隐藏状态既包含了当前输入的信息,也包含了之前所有输入的历史信息。

 

 

tanh激活函数区间-1~1)

  • 输出:新的隐藏状态被输出,并被传递给下一个时间步,继续参与序列的处理过程。

 

 

RNN的细胞结构和运算

LSTM工作原理

LSTM的细胞结构和运算

  • 输入门
  • 作用:决定哪些新信息应该被添加到记忆单元中。
  • 组成:输入门由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息是重要的,而tanh函数则生成新的候选信息。
  • 运算:输入门的输出与候选信息相乘,得到的结果将在记忆单元更新时被考虑。

 

  • 输入门(sigmoid激活函数 + tanh激活函数)
  • 遗忘门
  • 作用:决定哪些旧信息应该从记忆单元中遗忘或移除。
  • 组成:遗忘门仅由一个sigmoid激活函数组成。

 

sigmoid激活函数(区间0~1)

  • 运算:sigmoid函数的输出直接与记忆单元的当前状态相乘,用于决定哪些信息应该被保留,哪些应该被遗忘。输出值越接近1的信息将被保留,而输出值越接近0的信息将被遗忘。

 

  • 遗忘门(sigmoid激活函数)
  • 输出门
  • 作用:决定记忆单元中的哪些信息应该被输出到当前时间步的隐藏状态中。
  • 组成:输出门同样由一个sigmoid激活函数和一个tanh激活函数组成。sigmoid函数决定哪些信息应该被输出,而tanh函数则处理记忆单元的状态以准备输出。
  • 运算:sigmoid函数的输出与经过tanh函数处理的记忆单元状态相乘,得到的结果即为当前时间步的隐藏状态。

 

  • 输出门(sigmoid激活函数 + tanh激活函数)

三、LSTM的应用

 机器翻译

应用描述:LSTM在机器翻译中用于将源语言句子自动翻译成目标语言句子。

关键组件:

  • 编码器(Encoder):一个LSTM网络,负责接收源语言句子并将其编码成一个固定长度的上下文向量。
  • 解码器(Decoder):另一个LSTM网络,根据上下文向量生成目标语言的翻译句子。

流程:

  1. 源语言输入:将源语言句子分词并转换为词向量序列。
  2. 编码:使用编码器LSTM处理源语言词向量序列,输出上下文向量。
  3. 初始化解码器:将上下文向量作为解码器LSTM的初始隐藏状态。
  4. 解码:解码器LSTM逐步生成目标语言的词序列,直到生成完整的翻译句子。
  5. 目标语言输出:将解码器生成的词序列转换为目标语言句子。

优化:通过比较生成的翻译句子与真实目标句子,使用反向传播算法优化LSTM模型的参数,以提高翻译质量。

情感分析:

应用描述:LSTM用于对文本进行情感分析,判断其情感倾向(积极、消极或中立)。

关键组件:

  • LSTM网络:接收文本序列并提取情感特征。
  • 分类层:根据LSTM提取的特征进行情感分类。

流程:

  1. 文本预处理:将文本分词、去除停用词等预处理操作。
  2. 文本表示:将预处理后的文本转换为词向量序列。
  3. 特征提取:使用LSTM网络处理词向量序列,提取文本中的情感特征。
  4. 情感分类:将LSTM提取的特征输入到分类层进行分类,得到情感倾向。
  5. 输出:输出文本的情感倾向(积极、消极或中立)。

优化:通过比较预测的情感倾向与真实标签,使用反向传播算法优化LSTM模型的参数,以提高情感分析的准确性。

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/748731.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【网络安全的神秘世界】SQL注入漏洞(上)

🌝博客主页:泥菩萨 💖专栏:Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 本章知识使用的靶场:DVWA 一、漏洞简介 SQL:结构化查询语言,是一种特殊的编程语言&#…

项目经理必读:三步走实现项目高效管理

一个项目的成功往往取决于项目管理能力的高低。若管理不当,易导致团队成员间的推诿和抱怨,且项目团队还可能面临成员对目标不明确、信息不透明、进度难以跟踪等问题。作为项目经理,掌握有效的项目管理策略至关重要。 一、精细化的目标拆解 …

瑶池数据库SQL-问题二的解决方案

瑶池数据库SQL-问题二的解决方案 为什么选问题二问题二准备工作解决方案第一步第二步初步尝试再次尝试主表自关联查询满足条件数据 解题感受 为什么选问题二 个人没有详细的看三个题目的具体内容,只是看了三个题目的题目名称, 最后觉得问题二比较有意思…

本安防爆手机为什么能在石油化工行业使用

本安防爆手机专为石油化工行业等易燃易爆环境设计,具备严格的防爆安全标准和环境适应性,确保在石油化工厂的作业安全使用。这些手机不仅具备普通手机的通讯功能,更能有效防止电火花等潜在点火源的产生,为石油化工工作人员提供可靠…

阿里1688商家数据采集软件

大镜山阿里1688商家数据采集一款采集阿里巴巴1688.com商家数据的软件,采集的数据包括店铺名称、联系人姓名、手机号码等。 一、大镜山阿里1688商家数据采集特色 — 大镜山阿里1688商家数据采集一款采集阿里巴巴1688.com商家数据的软件,采集的数据包括店…

【JavaScript】一键入门

目录 一、JS起源 二、JS特点 三、JS组成部分 四、JS引入方式 一、JS起源 Java Script是由网景公司的Live Script发展而来的一种运行在客户端浏览器上的脚本语言,可以实现网页如文本内容、数据动态变化和动画特效等即浏览器与用户交互的这种体验。 二、JS特点 …

强化学习详解:理论基础与核心算法解析

本文详细介绍了强化学习的基础知识和基本算法,包括动态规划、蒙特卡洛方法和时序差分学习,解析了其核心概念、算法步骤及实现细节。 关注TechLead,复旦AI博士,分享AI领域全维度知识与研究。拥有10年AI领域研究经验、复旦机器人智能…

MySQL的安装与配置

MySQL提供安装包和压缩包两种安装方式,安装包是以.msi作为后缀名的二进制分发文件,压缩包是以.zip为后缀的压缩文件。安装包的安装只要双击安装文件,然后按照提示一步步安装就可以了,属于“傻瓜”式安装;压缩包的安装需…

成都百洲文化传媒有限公司专业电商服务的典范

在电商风起云涌的时代,成都百洲文化传媒有限公司凭借其深厚的行业经验和独特的创新思维,成为了众多品牌电商之路上的得力助手。今天,就让我们一起走进成都百洲文化传媒,看看他们是如何在电商领域乘风破浪,助力品牌实现…

新能源、新智造、新技术、新未来​ 2024常州国际新能源汽车产业博览会​ 9月20-22日盛大举行!

深入贯彻党的二十大关于制造强国建设、推动汽车产业高端化、制造化、绿色化发展的战略部署,构建新发展格局、推动高质量发展的内在要求。在“双碳”政策背景下,常州市紧扣“国际化智造名城、长三角中轴枢纽”城市定位,奋力推进“532”发展战略…

MyBatis源码分析--一级缓存、二级缓存原理

前言: 有点项目经验的朋友都知道缓存的重要性是不言而喻的,不仅仅我们在开发项目业务功能的时候使用了各种缓存,框架在设计的时候也有框架层面的缓存,尤其在查询多的场景下,缓存可以大大的减少数据库访问,…

valgrind调试c/c++内存问题:非法地址访问_内存泄漏_越界访问

1.valgrind命令 调试内存问题: valgrind --leak-checkfull 更新详细的显示: valgrind --leak-checkfull --show-leak-kindsall valgrind提示信息汇总 内存泄漏 lost in loss record 丢失记录 , 内存泄漏实例[[#2.内存泄漏–不完全释放内存|实例链接]]段错误 Process termina…

vue3-cropperjs图片裁剪工具-用户上传图片截取-(含预览视频)

效果图 上传图片弹窗预览 对于这个上传图片样式可以参考 官方原代码 官网传送入口 Upload 上传 | Element Plus (element-plus.org) <template><el-uploadclass"upload-demo"dragaction"https://run.mocky.io/v3/9d059bf9-4660-45f2-925d-ce80ad6…

吴恩达LangChain教程:Embedding与文档解析

当前有很多应用想要实现根据文档或者文本内容实现用户问答&#xff0c;或者实现多轮会话能力&#xff0c;这时候就会使用到Embedding的能力。 01 | 使用类介绍 想要依据Embedding实现文本检索&#xff0c;需要引入如下的依赖。 其中&#xff0c;RetrievalQA的作用是对一些文档…

一天跌20%,多只可转债“腰斩”,近百只跌破面值,“退可守”的香饽饽为何破防?

专业人士指出&#xff0c;近期部分可转债大跌原因主要有两点&#xff1a;一方面&#xff0c;转债市场与权益市场联动性强。另一方面&#xff0c;近期公布的宏观经济数据稳中趋缓&#xff0c;“供强需弱”特征依然明显&#xff0c;证监会主席吴清发言及“科创板八条”新规延续了…

Python 基础 (标准库):heapq (堆)

1. 官方文档 heapq --- 堆队列算法 — Python 3.12.4 文档 2. 相关概念 堆 heap 是一种具体的数据结构&#xff08;concrete data structures&#xff09;&#xff1b;优先级队列 priority queue 是一种抽象的数据结构&#xff08;abstract data structures&#xff09;&…

秘籍来啦!手机找回删除的文件,掌握这3种方法

你是否曾经不小心删除了手机上的重要文件&#xff0c;如照片、视频、文档等&#xff0c;然后束手无策&#xff0c;不知道该如何恢复&#xff1f;这时候&#xff0c;找回删除的文件就显得尤为重要。别担心&#xff0c;本文将为大家揭秘3种方法&#xff0c;让你轻松找回那些被删除…

Redis Stream Redisson Stream

目录 一、Redis Stream1.1 场景1&#xff1a;多个客户端可以同时接收到消息1.1.1 XADD - 向stream添加Entry&#xff08;发消息 &#xff09;1.1.2 XREAD - 从stream中读取Entry&#xff08;收消息&#xff09;1.1.3 XRANGE - 从stream指定区间读取Entry&#xff08;收消息&…

徐徐拉开的帷幕:拜登与特朗普的辩论大戏 日元跌破160大关!创1986年以来最低纪录

北京时间6月27日&#xff08;本周五&#xff09;上午9:00&#xff0c;拜登和特朗普将参加2024年总统候选人电视辩论。作为参考&#xff0c;2016年大选辩论期间&#xff0c;美元汇率对辩论结果的反应相对温和&#xff0c;希拉里胜选预期增强在一定程度上支撑了美元。 时间逐渐临…

AI产品打造全攻略:看我是如何预测用户流失,搞定AI产品全流程的

前言 对于任何互联网公司而言&#xff0c;用户流失无疑是一个不容忽视的问题。在本文中&#xff0c;我将通过一个真实的预测用户流失的项目案例&#xff0c;带领大家深入了解AI产品从筹备到上线的整个流程。这个过程将展现AI产品经理的工作全貌&#xff0c;包括各个环节的角色…