「深度学习」门控循环单元GRU

「深度学习」门控循环单元GRU

article2025/3/9 22:42:59/文章来源:https://blog.csdn.net/qq_52063383/article/details/136022098

一、梯度消失问题

梯度消失：

基础的 RNN 模型不善于处理长期依赖关系，有很多局部影响，很难调整自己前面的计算。y^{<i>} 仅仅受自己附近的值影响。
解决方法：GRU 或 LSTM
梯度爆炸：

反向传播时，随着层数增多，梯度不仅可能指数型下降，还有可能指数型上升 —— 会导致参数过大，网络崩溃

解决方法：梯度修剪 —— 观察梯度向量，若大于某个阈值，则放缩梯度向量，保证其不会过大

二、GRU

目的：使隐藏层更好地捕捉深层连接，改善梯度消失的问题

1. RNN 单元

2. 简化版 GRU 单元

c = memory \space cell

c^{<t>} = a^{<t>}

c^{<t>} 的候选值：\widetilde{c}^{<t>} = tanh(w_{c}[c^{<t-1>},x^{<t>}]+b_{c})

核心思想 "门" - 决定什么时候更新：\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

u：“update”

\Gamma_{u} 介于0到1之间，大多数情况下非常接近0或1

sigmoid 激活函数:
关键部分：c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}

\Gamma_{u} = 1：将 c^{<t>} 更新为候选值

\Gamma_{u} = 0：保留原来的值

优点：若 \Gamma_{u} 接近0，c^{<t>}几乎等于c^{<t-1>}，即使经过了很多层，c^{<t>}的值依然会被保留，故可以缓和梯度下降带来的问题。

c^{<t>} 可以是向量，用不同的bit去记忆不同的单词。

3. 完整版 GRU

\widetilde{c}^{<t>} = tanh(w_{c}[\Gamma_{r}*c^{<t-1>},x^{<t>}]+b_{c})

\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

\Gamma_{r} = \sigma(w_{r}[c^{},x^{}]+b_{u})

r："relevance"

表示计算出的 \widetilde{c}^{<t>} 与 c^{<t-1>} 有多大的相关性

c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}

a^{<t>} = c^{<t>}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/374282.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

基于A-Star搜索算法的迷宫小游戏的设计

基于A-Star搜索算法的迷宫小游戏的设计

这篇文章是作者人工智能导论课的大作业，发出来供大家学习参考（有完整代码）。想要论文WORD文件的可以在本文资源处下载（可能还在审核）。摘要： 本文章聚焦于基于A-Star搜索算法的迷宫小游戏设计，…

阅读更多...

[设计模式Java实现附plantuml源码~结构型]实现对象的复用——享元模式

[设计模式Java实现附plantuml源码~结构型]实现对象的复用——享元模式

前言： 为什么之前写过Golang 版的设计模式，还在重新写Java 版？ 答：因为对于我而言，当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言，更适合用于学习设计模式。为什么类图要附上uml 因为很…

阅读更多...

前端基础复习（后端人员看前端知识）

前端基础复习（后端人员看前端知识）

企业级前端项目开发中，需要将前端开发所需要的工具、技术、流程、经验进行规范化和标准化，而不是零散的html、js、css文件堆叠在一起。首先我们需配置前端的开发基础环境NodeJS，相当于后端人员java开发的JDK。然后搭建前端工程脚手架Vue-cl…

阅读更多...

SQL Server数据库日志查看若已满需要清理的三种解决方案

SQL Server数据库日志查看若已满需要清理的三种解决方案

首先查看获取实例中每个数据库日志文件大小及使用情况，根据数据库日志占用百分比来清理 DBCC SQLPERF(LOGSPACE) 第一种解决方案： 在数据库上点击右键 → 选择属性 → 选择文件，然后增加数据库日志文件的文件大小。第二种解决方案手动…

阅读更多...

Linux 系统开启网络服务

Linux 系统开启网络服务

首先，大家新装的linux系统可能都没有安装vim工具，所以打开文件的方式是 vi /etc/sysconfig/network-scripts/ifcfg-ens33在这个界面把onboot改为yes，我这里是设置完的。然后通过下面语句重新启动服务就可以了。 service network restartcen…

阅读更多...

Aigtek高压功率放大器驱动容性负载有哪些

Aigtek高压功率放大器驱动容性负载有哪些

高压功率放大器在驱动容性负载时，需要考虑与该负载的匹配和适应。以下是几种常见的容性负载类型，以及高压功率放大器在驱动这些负载时的方法和技术： 声音系统：高压功率放大器常用于驱动音箱和扬声器等声音系统中的容性负载。对于音…

阅读更多...

python进行批量搜索匹配替换文本文字的matlab操作实例

python进行批量搜索匹配替换文本文字的matlab操作实例

在进行一些数据处理时，可能需要抓取原文中的一些内容，批量替换原文另外的一些内容，而且事先还需要一步搜索匹配的步骤。举个例子，如下matlab输出的txt文件，原文件有几万行数据，这里只摘取3行对应的文件文…

阅读更多...

分享71个节日PPT，总有一款适合您

分享71个节日PPT，总有一款适合您

分享71个节日PPT，总有一款适合您 71个节日PPT下载链接：https://pan.baidu.com/s/1v4_fHplsf_hOJQbNPVUudg?pwd8888 提取码：8888 Python采集代码下载链接：采集代码.zip - 蓝奏云学习知识费力气，收集整理更不易…

阅读更多...

使用GDI画图片生成合成图片并调用打印机进行图片打印

使用GDI画图片生成合成图片并调用打印机进行图片打印

使用GDI画图片生成合成图片并调用打印机进行图片打印新建窗体应用程序PrinterDemo，将默认的Form1重命名为FormPrinter，添加对 Newtonsoft.Json.dll用于读写Json字符串 zxing.dll，zxing.presentation.dll用于生成条形码，二维码…

阅读更多...

LLMs之miqu-1-70b：miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略

LLMs之miqu-1-70b：miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略

LLMs之miqu-1-70b：miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略目录 miqu-1-70b的简介 miqu-1-70b的安装和使用方法 1、安装 2、使用方法 miqu-1-70b的案例应用 miqu-1-70b的简介 2024年1月28日，发布了miqu 70b，潜在系列中的…

阅读更多...

leecode172 | 阶乘后的零 | 傻瓜GPT

leecode172 | 阶乘后的零 | 傻瓜GPT

题意给定一个整数 n ，返回 n! 结果中尾随零的数量。提示 n! n * (n - 1) * (n - 2) * ... * 3 * 2 * 1//题解 class Solution { public:int trailingZeroes(int n) { // ...*(1*5)*...*(x*5)*...*(1*5*5)*...*(x*5*5)*...*n 然后倒过来 //...∗(1∗5)∗...∗…

阅读更多...

我的世界Java版服务器如何搭建并实现与好友远程联机Minecarft教程

我的世界Java版服务器如何搭建并实现与好友远程联机Minecarft教程

文章目录 1. 安装JAVA2. MCSManager安装3.局域网访问MCSM4.创建我的世界服务器5.局域网联机测试6.安装cpolar内网穿透7. 配置公网访问地址8.远程联机测试9. 配置固定远程联机端口地址9.1 保留一个固定tcp地址9.2 配置固定公网TCP地址9.3 使用固定公网地址远程联机本教程主要介…

阅读更多...

网络安全大赛

网络安全大赛

网络安全大赛网络安全大赛的类型有很多，比赛类型也参差不齐，这里以国内的CTF网络安全大赛里面著名的的XCTF和强国杯来介绍，国外的话用DenCon CTF和Pwn2Own来举例 CTF CTF起源于1996年DEFCON全球黑客大会，以代替之前黑客们通过互相…

阅读更多...

idea（2023.3.3 ） spring boot热部署，修改热部署延迟时间

idea（2023.3.3 ） spring boot热部署，修改热部署延迟时间

1、添加依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</artifactId><optional>true</optional> </dependency>载入依赖 2、设置编辑器设置两个选项设置热部署更新延迟时…

阅读更多...

肯尼斯·里科《C和指针》第10章结构和联合（2）结构、指针和成员

肯尼斯·里科《C和指针》第10章结构和联合（2）结构、指针和成员

想吐槽的一点是如果我们当时上课也是这样讲就好了，，， 直接或通过指针访问结构和它们的成员的操作符是相当简单的，但是当它们应用于复杂的情形时就有可能引起混淆。这里有几个例子，能帮助大家更好地理解这两个操作符的工…

阅读更多...

Three.js学习6：透视相机和正交相机

Three.js学习6：透视相机和正交相机

一、相机相机 camera，可以理解为摄像机。在拍影视剧的时候，最终用户看到的画面都是相机拍出来的内容。 Three.js 里，相机 camera 里的内容就是用户能看到的内容。从这个角度来看，相机其实就是用户的视野，就像用户的眼…

阅读更多...

Sentinel（理论版）

Sentinel（理论版）

Sentinel 1.什么是Sentinel Sentinel 是一个开源的流量控制组件，它主要用于在分布式系统中实现稳定性与可靠性，如流量控制、熔断降级、系统负载保护等功能。简单来说，Sentinel 就像是一个交通警察，它可以根据系统的实时流量&…

阅读更多...

电力负荷预测 | 基于TCN的电力负荷预测（Python）———模型构建

电力负荷预测 | 基于TCN的电力负荷预测（Python）———模型构建

文章目录效果一览文章概述源码设计参考资料效果一览文章概述基于TCN的电力负荷预测（Python） python3.8 keras2.6.0 matplotlib3.5.2 numpy1.19.4 pandas1.4.3 tensorflow==2.6.0

阅读更多...

停止内耗，做有用的事

停止内耗，做有用的事

很多读者朋友跟我交流的时候，都以为我有存稿，于是听到我说每周四现写的时候都很惊讶。其实没什么好惊讶的，每周四我都会把自己关在书房里一整天，断掉一切电话、微信、邮件，从中午写到晚上，直到写完为止。这…

阅读更多...

力扣● 62.不同路径 ● 63. 不同路径 II

力扣● 62.不同路径 ● 63. 不同路径 II

● 62.不同路径单解这道题的话，发现第一行或者第一列的这些位置，都只有一条路径走到，所以路径条数都是1。这就是初始化。坐标大于第一行第一列的这些位置，因为机器人只能向下/向右走，所以只能从上个位置向下走和从左…

阅读更多...

最新文章