RNN与Self-Attention

文章目录

1. SimpleRNN
- 1.1 $h_t$ 计算
- 1.2 激活函数
2. SimpleRNN+Self-Attention
- 2.1 状态更新
- 2.2 权重 $α$

1. SimpleRNN

学习视频：https://www.youtube.com/watch?v=Cc4ENs6BHQw&t=0s

对于时序数据，输入输出都不固定，需要many-one、many-many模型，RNN很适合时序数据
整个RNN 只有一个参数A

1.1 $h_t$ 计算

在这里插入图片描述

1.2 激活函数

为什么需要双曲正切函数作为激活函数？
假设输入为0，当矩阵A最大特征值=0.9，则 $h_{100}$ 每个元素近似为0；当矩阵A最大特征值=1.2，则 $h_{100}$ 每个元素都很大，状态向量会爆炸
在这里插入图片描述

训练参数

2. SimpleRNN+Self-Attention

学习链接：https://www.youtube.com/watch?v=Vr4UNt7X6Gw&t=0s

2.1 状态更新

对于SimpleRNN，新的状态 $h_{i+1}$ 与 $h_{i}$ 以及 $x_{i+1}$ 有关
引入Self-Attention后，新的状态 $h_{i+1}$ 与 $c_{i}$ 以及 $x_{i+1}$ 有关。

每一轮更新状态之前，都会用context vector c看一遍之前所有状态，解决遗忘问题
$c$是已有状态h的加权平均，初始$h_0$为全0向量，可以忽略

在这里插入图片描述

2.2 权重 $α$

用当前状态 $h_i$ 与已有状态作对比，包括与 $h_i$ 自己做对比，得到 $i 个 α$
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/907154.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！