LSTM和GRU vs 普通的循环神经网络RNN

1、考虑下列三种情况下,对比一下普通RNN的表现和LSTM和GRU表现:

(1)早期观测值对预测未来观测者具有非常重要的意义。

 考虑一个极端情况,其中第一个观测值包含一个校验和, 目标是在序列的末尾辨别校验和是否正确。 在这种情况下,第一个词元的影响至关重要。

RNN的表现:将不得不给这个观测值指定一个非常大的梯度, 因为它会影响所有后续的观测值。

LSTM和GRU的表现:提供某些机制能够在一个记忆元里存储重要的早期信息。

(2) 一些词元没有相关的观测值。

例如,在对网页内容进行情感分析时, 可能有一些辅助HTML代码与网页传达的情绪无关。

RNN的表现:没有机制来跳过隐状态表示中的此类词元。

LSTM和GRU的表现:有一些机制来跳过隐状态表示中的此类词元。

(3)序列的各个部分之间存在逻辑中断。

例如,书的章节之间可能会有过渡存在, 或者证券的熊市和牛市之间可能会有过渡存在。

RNN的表现:在这种情况下,没有办法来重置我们的内部状态表示。

LSTM和GRU的表现:在这种情况下,有一法来重置我们的内部状态表示。

2、LSTM和GRU能力相对占优的原理和机制

(1)GRU

支持隐状态的门控。 这意味着模型有专门的机制来确定应该何时更新隐状态, 以及应该何时重置隐状态。 这些机制是可学习的,并且能够解决了上面列出的问题。 例如,如果第一个词元非常重要, 模型将学会在第一次观测之后不更新隐状态。 同样,模型也可以学会跳过不相关的临时观测。 最后,模型还将学会在需要的时候重置隐状态。 

下面具体讨论各类门控的作用。

重置门有助于捕获序列中的短期依赖关系。

更新门有助于捕获序列中的长期依赖关系。

重置门的数学表达式:

对于给定的时间步t,假设输入是一个小批量\textbf{X}_{t}\in \mathbb{R}^{n\times d}(样本数n,输入数d),前一个时间步的隐状态是\mathbf{H}_{t-1}\in \mathbb{R}^{n\times h}(隐藏单元数h)。

那么,重置门\textbf{R}_{t}\in \mathbb{R}^{n\times h}和更新门\textbf{Z}_{t}\in \mathbb{R}^{n\times h}的计算方式如下所示:

\textbf{R}_{t}=\sigma \left ( \mathbf{X}_{t}\mathbf{W}_{xr}+\mathbf{H}_{t-1}\mathbf{W}_{hr}+\mathbf{b}_{r} \right )

\textbf{Z}_{t}=\sigma \left ( \mathbf{X}_{t}\mathbf{W}_{xz}+\mathbf{H}_{t-1}\mathbf{W}_{hz}+\mathbf{b}_{z} \right )

其中,\textbf{W}_{xr}\in \mathbb{R}^{d\times h}\textbf{W}_{xz}\in \mathbb{R}^{d\times h}\textbf{W}_{hr}\in \mathbb{R}^{h\times h}\textbf{W}_{hz}\in \mathbb{R}^{h\times h}是权重参数,\mathbf{b}_{r}\in \mathbb{R}^{1\times h}\mathbf{b}_{z}\in \mathbb{R}^{1\times h}是偏置参数。\sigma表示sigmoid函数,将输入值转换到区间(0,1)内。

将重置门\textbf{R}_{t}与常规隐状态更新机制集成,得到时间步t的候选隐状态\mathbf{\widetilde{H}}_{t}\in \mathbb{R}^{n\times h}

\mathbf{\widetilde{H}}_{t}=tanh\left ( \mathbf{X}_{t}\mathbf{W}_{xh}+\left (\textbf{R}_{t}\bigodot \mathbf{H}_{t-1} \right )\mathbf{W}_{hz}+\mathbf{b}_{h} \right )

候选隐状态结合更新门\textbf{Z}_{t},形成新的隐状态\mathbf{\widetilde{H}}_{t}\in \mathbb{R}^{n\times h}

\mathbf{H}_{t}=\mathbf{Z}_{t}\bigodot \mathbf{H}_{t-1}+\left (1-\mathbf{Z}_{t} \right )\bigodot \mathbf{\widetilde{H}}_{t}

每当更新门\textbf{Z}_{t}接近1时,模型就倾向只保留旧状态。 此时,来自\textbf{X}_{t}的信息基本上被忽略, 从而有效地跳过了依赖链条中的时间步t。 相反,当\textbf{Z}_{t}接近0时, 新的隐状态\textbf{H}_{t}就会接近候选隐状态\mathbf{\widetilde{H}}_{t}。 这些设计可以帮助我们处理循环神经网络中的梯度消失问题, 并更好地捕获时间步距离很长的序列的依赖关系。 例如,如果整个子序列的所有时间步的更新门都接近于1, 则无论序列的长度如何,在序列起始时间步的旧隐状态都将很容易保留并传递到序列结束。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/263723.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

常见的弧形导轨有哪些

弧形导轨又叫圆弧导轨、滚轮圆弧导轨,是通过v形滚轮在圆弧v型导轨表面滚动,作圆周运动,运用广泛:数控机床、包装机械、输送设备、医疗器械、航空航天等设备;弧形导轨也分几种,常见的弧形导轨有以下几种&…

关于时区处理策略

前端会通过 App-Id 请求头附带 客户端时区 信息 前端传入的如果是 字符串,会自动根据 请求的客户端时区 解析为对应的 日期 如果前端传入的是时间戳,则无需额外解析转换 如果是 商户后台、管理后台 都统一基于 商户所在国家的时区(总台目前…

机器视觉:AI赋能缺陷检测,铸就芯片产品的大算力与高能效

导言:近年来,国内芯片行业快速发展,市场对芯片需求的不断增大,芯片的缺陷检测压力也越来越大。芯片产品在生产制造过程中,需要经历数道工序,每个生产环节的材料、环境、工艺参数等都有可能造成产品缺陷。不…

2023最新版JavaSE教程——第13天:泛型

目录 一、泛型概述1.1 生活中的例子1.2 泛型的引入 二、使用泛型举例2.1 集合中使用泛型2.1.1 举例2.1.2 练习 2.2 比较器中使用泛型2.2.1 举例2.2.2 练习 2.3 相关使用说明 三、自定义泛型结构3.1 泛型的基础说明3.2 自定义泛型类或泛型接口3.2.1 说明3.2.2 注意3.2.2 举例3.2…

react 2

1.快速搭建开发环境 2.react渲染流程 3.1 jsx基础 概念 3.2 jsx基础 本质 3.3 jsx基础 jsx表达式 3.4 jsx基础 实现列表渲染 3.5 jsx基础 实现条件渲染 3.5 jsx基础 实现复杂的条件渲染 4. react中事件绑定 5.react组建基础使用 6.1 useState 6.2 useState修改状态的规则 7.基础…

海外媒体发稿:雅虎全球发稿推广脱颖而出的10种方法-华媒舍

雅虎全球发稿是一项重要的推广手段,能够帮助企业和个人提升品牌知名度和曝光率。在众多的发稿中脱颖而出并不容易。本文将为您介绍10种让您的雅虎全球发稿在众多文章中脱颖而出的方法,帮助您取得更好的效果。 1. 深入研究目标受众 在撰写雅虎全球发稿前…

【排序算法】C语言实现选择排序与冒泡排序

文章目录 🚀前言🚀冒泡排序✈️冒泡排序的逻辑✈️冒泡排序coding 🚀选择排序✈️选择排序的逻辑✈️选择排序coding 🚀前言 这里是阿辉算法与数据结构专栏的第一篇文章,咱们就从排序算法开始讲起,排序算法…

优化企业员工管理的利器——ADManager Plus

在当今数字化的商业环境中,企业员工管理是组织成功运营的关键组成部分。为了提高效率、确保安全性和满足法规合规性要求,企业需要一种强大的工具来简化和集中管理其活跃目录(Active Directory)环境。ADManager Plus作为一款功能丰…

Ubuntu 常用命令之 zip 命令用法介绍

📑Linux/Ubuntu 常用命令归类整理 Ubuntu系统下的zip命令是用来压缩文件的。这个命令可以将一个或多个文件或者目录压缩成一个.zip文件,也可以将整个目录树压缩成一个.zip文件。 zip命令的基本格式 zip [选项] [压缩文件名] [要压缩的文件或目录...]z…

10、基于LunarLander登陆器的Dueling DDQN强化学习(含PYTHON工程)

10、基于LunarLander登陆器的Dueling DDQN强化学习(含PYTHON工程) LunarLander复现: 07、基于LunarLander登陆器的DQN强化学习案例(含PYTHON工程) 08、基于LunarLander登陆器的DDQN强化学习(含PYTHON工程…

Mybatis的关联查询(association和collection)

关联查询 实体间的关系(拥有 has、属于 belong) OneToOne:一对一关系(account ←→ user) OneToMany:一对多关系(user ←→ account) ManyToMany:多对多关系&#xff0…

测试框架|Burp Suite几个基本工具的使用

前阵子项目上想通过测试工具在网页上模拟返回错误代码 500 来查看页面的错误处理,然后去调查了下 burp suite,看了些基本工具的使用文档。虽然最后证实 burp suite 只能用来处理页面测试应用程序的实际行为和响应,而不是尝试模拟不存在的问题…

python脚本传参

sys.argvargparse 第一种:argparse 简单使用: import argparse # 创建一个参数解析实例 parser argparse.ArgumentParser(descriptionParameters) # 添加参数解析 parser.add_argument(--training_epoch, typeint, default3000) parser.add_argument(…

flutter + firebase 云消息通知教程 (android-安卓、ios-苹果)

如果能看到这篇文章的 一定已经对手机端的 消息推送通知 有了一定了解。 国内安卓厂商这里不提都有自己的FCM 可自行查找。(国内因无法科学原因 ,不能使用谷歌服务)只说海外的。 目前 adnroid 和 ios 推送消息分别叫 FCM 和 APNs。这里通过…

flutter开发windows应用的库

一、window_manager 这个插件允许 Flutter 桌面应用调整窗口的大小和位置 地址:https://github.com/leanflutter/window_manager二、win32 一个包,它使用FFI包装了一些最常见的Win32 API调用,使Dart代码可以访问这些调用,而不需…

华为交换机配置BGP的基本示例

BGP简介 定义 边界网关协议BGP(Border Gateway Protocol)是一种实现自治系统AS(Autonomous System)之间的路由可达,并选择最佳路由的距离矢量路由协议。早期发布的三个版本分别是BGP-1(RFC1105&#xff0…

Python+Playwright自动化测试--playwright处理浏览器多窗口切换

1.简介 浏览器多窗口的切换问题相比大家不会陌生吧,之前小编在javaselenium系列文章中就有介绍过。大致步骤就是:使用selenium进行浏览器的多个窗口切换测试,如果我们打开了多个网页,进行网页切换时,我们需要先获取各…

Ubuntu 常用命令之 history 命令用法介绍

📑Linux/Ubuntu 常用命令归类整理 history命令在Ubuntu系统中用于显示用户执行过的命令列表。这个命令在bash shell中非常有用,特别是当你需要记住你之前执行过的命令时。 history命令的参数如下 -c:清除历史记录。-d offset:删…

突破性能瓶颈:使用Asyncio构建高并发Python应用程序

是一种处理多个任务同时执行的编程方式,在Python中,asyncio是一种用于实现异步编程的强大工具。asyncio基于协程(coroutine)的概念,能够高效地处理I/O密集型任务。本文将介绍asyncio的基本原理和使用方法。 为啥需要a…

Nature Commun.:物理所揭示原子分辨下的铁电涡旋畴的原位力学转变过程

通过复杂的晶格-电荷相互作用形成的铁电涡旋畴在纳米电子器件研发中具有巨大的应用潜力。实际应用中,如何在外界激励下操纵这类结构的拓扑状态是至关重要的。中国科学院物理研究所/北京凝聚态物理国家研究中心表面物理国家重点实验室与北京大学、湘潭大学和美国宾夕…