「深度学习」门控循环单元GRU

一、梯度消失问题

  • 梯度消失

    基础的 RNN 模型不善于处理长期依赖关系,有很多局部影响,很难调整自己前面的计算。y^{<i>} 仅仅受自己附近的值影响。

  • 解决方法:GRU 或 LSTM

  • 梯度爆炸

    反向传播时,随着层数增多,梯度不仅可能指数型下降,还有可能指数型上升 —— 会导致参数过大,网络崩溃

    解决方法:梯度修剪 —— 观察梯度向量,若大于某个阈值,则放缩梯度向量,保证其不会过大

二、GRU

目的:使隐藏层更好地捕捉深层连接,改善梯度消失的问题

1. RNN 单元

2. 简化版 GRU 单元

c = memory \space cell

c^{<t>} = a^{<t>}​​

  • c^{<t>} 的候选值:\widetilde{c}^{<t>} = tanh(w_{c}[c^{<t-1>},x^{<t>}]+b_{c})
  • 核心思想 "门" - 决定什么时候更新:\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

    u:“update”

    \Gamma_{u}​ 介于0到1之间,大多数情况下非常接近0或1

    sigmoid 激活函数:

  • 关键部分:c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}​

    \Gamma_{u} = 1:将 c^{<t>}​​ 更新为候选值

    \Gamma_{u} = 0:保留原来的值

优点:若 \Gamma_{u} 接近0,c^{<t>}几乎等于c^{<t-1>},即使经过了很多层,c^{<t>}的值依然会被保留,故可以缓和梯度下降带来的问题。

c^{<t>} 可以是向量,用不同的bit去记忆不同的单词。

3. 完整版 GRU

\widetilde{c}^{<t>} = tanh(w_{c}[\Gamma_{r}*c^{<t-1>},x^{<t>}]+b_{c})

\Gamma_{u} = \sigma(w_{u}[c^{<t-1>},x^{<t>}]+b_{u})

  • \Gamma_{r} = \sigma(w_{r}[c^{},x^{}]+b_{u})

         r:"relevance"

         表示计算出的 \widetilde{c}^{<t>} 与 c^{<t-1>} 有多大的相关性

c^{<t>} = \Gamma_{u}*\widetilde{c}^{<t>} + (1-\Gamma_{u})*\widetilde{c}^{<t-1>}​

a^{<t>} = c^{<t>}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/374282.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于A-Star搜索算法的迷宫小游戏的设计

这篇文章是作者人工智能导论课的大作业&#xff0c;发出来供大家学习参考&#xff08;有完整代码&#xff09;。想要论文WORD文件的可以在本文资源处下载&#xff08;可能还在审核&#xff09;。 摘要&#xff1a; 本文章聚焦于基于A-Star搜索算法的迷宫小游戏设计&#xff0c;…

[设计模式Java实现附plantuml源码~结构型]实现对象的复用——享元模式

前言&#xff1a; 为什么之前写过Golang 版的设计模式&#xff0c;还在重新写Java 版&#xff1f; 答&#xff1a;因为对于我而言&#xff0c;当然也希望对正在学习的大伙有帮助。Java作为一门纯面向对象的语言&#xff0c;更适合用于学习设计模式。 为什么类图要附上uml 因为很…

前端基础复习(后端人员看前端知识)

企业级前端项目开发中&#xff0c;需要将前端开发所需要的工具、技术、流程、经验进行规范化和标准化&#xff0c;而不是零散的html、js、css文件堆叠在一起。 首先我们需配置前端的开发基础环境NodeJS&#xff0c;相当于后端人员java开发的JDK。然后搭建前端工程脚手架Vue-cl…

SQL Server数据库日志查看若已满需要清理的三种解决方案

首先查看获取实例中每个数据库日志文件大小及使用情况&#xff0c;根据数据库日志占用百分比来清理 DBCC SQLPERF(LOGSPACE) 第一种解决方案&#xff1a; 在数据库上点击右键 → 选择 属性 → 选择 文件&#xff0c;然后增加数据库日志文件的文件大小。 第二种解决方案 手动…

Linux 系统开启网络服务

首先&#xff0c;大家新装的linux系统可能都没有安装vim工具&#xff0c;所以打开文件的方式是 vi /etc/sysconfig/network-scripts/ifcfg-ens33在这个界面把onboot改为yes&#xff0c;我这里是设置完的。然后通过下面语句重新启动服务就可以了。 service network restartcen…

Aigtek高压功率放大器驱动容性负载有哪些

高压功率放大器在驱动容性负载时&#xff0c;需要考虑与该负载的匹配和适应。以下是几种常见的容性负载类型&#xff0c;以及高压功率放大器在驱动这些负载时的方法和技术&#xff1a; 声音系统&#xff1a;高压功率放大器常用于驱动音箱和扬声器等声音系统中的容性负载。对于音…

python进行批量搜索匹配替换文本文字的matlab操作实例

在进行一些数据处理时&#xff0c;可能需要抓取原文中的一些内容&#xff0c;批量替换原文另外的一些内容&#xff0c;而且事先还需要一步搜索匹配的步骤。 举个例子&#xff0c;如下matlab输出的txt文件&#xff0c;原文件有几万行数据&#xff0c;这里只摘取3行对应的 文件文…

分享71个节日PPT,总有一款适合您

分享71个节日PPT&#xff0c;总有一款适合您 71个节日PPT下载链接&#xff1a;https://pan.baidu.com/s/1v4_fHplsf_hOJQbNPVUudg?pwd8888 提取码&#xff1a;8888 Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 学习知识费力气&#xff0c;收集整理更不易…

使用GDI画图片生成合成图片并调用打印机进行图片打印

使用GDI画图片生成合成图片并调用打印机进行图片打印 新建窗体应用程序PrinterDemo&#xff0c;将默认的Form1重命名为FormPrinter&#xff0c;添加对 Newtonsoft.Json.dll用于读写Json字符串 zxing.dll&#xff0c;zxing.presentation.dll用于生成条形码&#xff0c;二维码…

LLMs之miqu-1-70b:miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略

LLMs之miqu-1-70b&#xff1a;miqu-1-70b的简介、安装和使用方法、案例应用之详细攻略 目录 miqu-1-70b的简介 miqu-1-70b的安装和使用方法 1、安装 2、使用方法 miqu-1-70b的案例应用 miqu-1-70b的简介 2024年1月28日&#xff0c;发布了miqu 70b&#xff0c;潜在系列中的…

leecode172 | 阶乘后的零 | 傻瓜GPT

题意 给定一个整数 n &#xff0c;返回 n! 结果中尾随零的数量。提示 n! n * (n - 1) * (n - 2) * ... * 3 * 2 * 1//题解 class Solution { public:int trailingZeroes(int n) { // ...*(1*5)*...*(x*5)*...*(1*5*5)*...*(x*5*5)*...*n 然后倒过来 //...∗(1∗5)∗...∗…

我的世界Java版服务器如何搭建并实现与好友远程联机Minecarft教程

文章目录 1. 安装JAVA2. MCSManager安装3.局域网访问MCSM4.创建我的世界服务器5.局域网联机测试6.安装cpolar内网穿透7. 配置公网访问地址8.远程联机测试9. 配置固定远程联机端口地址9.1 保留一个固定tcp地址9.2 配置固定公网TCP地址9.3 使用固定公网地址远程联机 本教程主要介…

网络安全大赛

网络安全大赛 网络安全大赛的类型有很多&#xff0c;比赛类型也参差不齐&#xff0c;这里以国内的CTF网络安全大赛里面著名的的XCTF和强国杯来介绍&#xff0c;国外的话用DenCon CTF和Pwn2Own来举例 CTF CTF起源于1996年DEFCON全球黑客大会&#xff0c;以代替之前黑客们通过互相…

idea(2023.3.3 ) spring boot热部署,修改热部署延迟时间

1、添加依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</artifactId><optional>true</optional> </dependency>载入依赖 2、设置编辑器 设置两个选项 设置热部署更新延迟时…

肯尼斯·里科《C和指针》第10章 结构和联合(2)结构、指针和成员

想吐槽的一点是如果我们当时上课也是这样讲就好了&#xff0c;&#xff0c;&#xff0c; 直接或通过指针访问结构和它们的成员的操作符是相当简单的&#xff0c;但是当它们应用于复杂的情形时就有可能引起混淆。这里有几个例子&#xff0c;能帮助大家更好地理解这两个操作符的工…

Three.js学习6:透视相机和正交相机

一、相机 相机 camera&#xff0c;可以理解为摄像机。在拍影视剧的时候&#xff0c;最终用户看到的画面都是相机拍出来的内容。 Three.js 里&#xff0c;相机 camera 里的内容就是用户能看到的内容。从这个角度来看&#xff0c;相机其实就是用户的视野&#xff0c;就像用户的眼…

Sentinel(理论版)

Sentinel 1.什么是Sentinel Sentinel 是一个开源的流量控制组件&#xff0c;它主要用于在分布式系统中实现稳定性与可靠性&#xff0c;如流量控制、熔断降级、系统负载保护等功能。简单来说&#xff0c;Sentinel 就像是一个交通警察&#xff0c;它可以根据系统的实时流量&…

电力负荷预测 | 基于TCN的电力负荷预测(Python)———模型构建

文章目录 效果一览文章概述源码设计参考资料效果一览 文章概述 基于TCN的电力负荷预测(Python) python3.8 keras2.6.0 matplotlib3.5.2 numpy1.19.4 pandas1.4.3 tensorflow==2.6.0

停止内耗,做有用的事

很多读者朋友跟我交流的时候&#xff0c;都以为我有存稿&#xff0c;于是听到我说每周四现写的时候都很惊讶。其实没什么好惊讶的&#xff0c;每周四我都会把自己关在书房里一整天&#xff0c;断掉一切电话、微信、邮件&#xff0c;从中午写到晚上&#xff0c;直到写完为止。 这…

力扣● 62.不同路径 ● 63. 不同路径 II

● 62.不同路径 单解这道题的话&#xff0c;发现第一行或者第一列的这些位置&#xff0c;都只有一条路径走到&#xff0c;所以路径条数都是1。这就是初始化。坐标大于第一行第一列的这些位置&#xff0c;因为机器人只能向下/向右走&#xff0c;所以只能从上个位置向下走和从左…