【1小时掌握速通深度学习面试3】RNN循环神经网络

12.描述循环神经网络的结构及参数更新方式，如何使用神经网络对序列数据建模?

13.循环神经网络为什么容易出现长期依赖问题?

14.LSTM 是如何实现长短期记忆功能的?

15.在循环神经网络中如何使用 Dropout ?

16.如何用循环神经网络实现 Seg2Seq 映射?

17.Seg2Seq 框架在编码-解码过程中是否存在信息丢失?有哪些解决方案?

18.GRU是如何用两个门控单元来控制时间序列的记忆及遗忘行为的?

12.描述循环神经网络的结构及参数更新方式，如何使用神经网络对序列数据建模?

13.循环神经网络为什么容易出现长期依赖问题?

普通循环神经网络（处理连续、长度不固定的序列数据，捕获长距离样本之间的关联信息）

Dropout可以用在循环神经网络中吗？（循环神经网络具有记忆功能，其神经元的状态包含之前时刻的状态信息，使用Dropout删除神经元，会导致循环神经网络记忆能力衰退）长期依赖问题（1、网络层数增大，误差/梯度容易消失/爆炸，进而优化困难；2、输入序列越长，相当于网络结构越深，越容易出现长期依赖问题；3、原因：重复使用相同循环模块，导致信息的前向传播和误差反向传播都会出现同一个矩阵的幂，容易出现误差/梯度容易消失/爆炸；4、解决：正则化等；时间上添加跳跃连接；长短期记忆网络(LSTM)和门控循环单元(GRU)等新型网络架构）

长期依赖是指当前系统的状态，可能受很长时间之前系统状态的影响，是RNN中无法解决的一个问题。

14.LSTM 是如何实现长短期记忆功能的?

15.在循环神经网络中如何使用 Dropout ?

循环神经网络（RNNs）是基于序列的模型，对自然语言理解、语言生成、视频处理和其他许多任务至关重要。模型的输入是一个符号序列，在每个时间点一个简单的神经网络（RNN单元）应用于一个符号，以及此前时间点的网络输出。RNNs是强大的模型，在许多任务中表现出色，但会快速过拟合。RNN模型中缺少正则化使他难以处理小规模数据，为避免这种情况研究者经常使用提早停止，或者小规模的或未充分定义的模型。

Dropout是深度网络中常见的一种正则化技巧，在训练过程中网络单元随机的被隐藏/丢弃。但这种技巧在RNNs中一直未被成功应用。实证结果使很多人相信循环层（RNN单元之间的连接）中加入的噪音在长序列中会被放大，并淹没了信号。因此现存的研究认为这种技巧应仅用于RNN的输入和输出。但这种方式在研究中发现依然会导致过拟合。Dropout是一个同正则化完全不同的技术，与L1和L2范式正则化不同。dropout并不会修改代价函数而是修改深度网络本身。一个相关的早期使用这种技术的论文（（**ImageNetClassification with Deep Convolutional Neural Networks, by AlexKrizhevsky, Ilya Sutskever, and Geoffrey Hinton (2012).））中启发性的dropout解释是：这种技术减少了神经元之间复杂的共适性。因为一个神经元不能依赖其他特定的神经元。因此，不得不去学习随机子集神经元间的鲁棒性的有用连接。换句话说。想象我们的神经元作为要给预测的模型，dropout是一种方式可以确保我们的模型在丢失一个个体线索的情况下保持健壮的模型。在这种情况下，可以说他的作用和L1和L2范式正则化是相同的。都是来减少权重连接，然后增加网络模型在缺失个体连接信息情况下的鲁棒性。

Dropout 方法的使用最常出现于卷积神经网络中，通过 Dropout 方法，卷积神经网络可以使鲁棒性更强。Dropout 方法不仅可以用在卷积神经网络中，在循环神经网络中使用 Dropout方法也能够得到良好的结果。在对循环神经网络使用 Dropout时，需要注意的是，一般Dropout只存在于相邻层的循环体结构之间，而同一层的循环体结构之间不会使用Dropout。循环神经网络使用 Dropout 的示意图如下图。以t-3时刻的输入x(t-3)得到t+1时刻的输出 o(t+I）为例，x(t-3)经过两层 LSTM 循环体结构得到这一时刻的输出o(t-3）的过程需要用到 Dropout，但是这两层 LSTM 循环体结构在将状态传递到下一时刻相应的 LSTM 循环体结构时没有使用 Dropout。在这之后的时刻，循环体结构的执行以及是否使用 Dropout 也可以参考这一时刻的情况。

16.如何用循环神经网络实现 Seg2Seq 映射?

Seq2Seq模型的思想是，通过深度神经网络将一个序列作为输入，映射为另一个序列作为输出，这个过程由编码器和解码器两个环节构成。在经典实现中，编码器和解码器都由循环神经网络构成，如RNN，LSTM、GRU等。

编码过程：利用循环神经网络从输入序列中学习历史信息。

解码过程：利用循环神经网络对学习到的历史信息进行抽象和解码。

3.Seq2seq 编码器（Encoder）：

Encoder是一个RNN，也可以是LSTM、GRU等，接收的是每一个单词的词向量，和上一个时间点的隐藏状态。输出的是这个时间点的隐藏状态。其中激活函数可以是sigmoid、tanh、Relu、softmax等。

读完序列中每个单词后，会得到一个固定长度的语义向量。

4.Seq2seq解码器（Decoder）:

Decoder是个RNN，也可以是LSTM、GRU等，将encoder得到的语义向量作为初始状态输入到Decoder的RNN中，得到输出序列。可以看到上一时刻的输出会作为当前时刻的输入，而且其中语义向量只作为初始状态参与运算，后面的运算都与语义向量无关。

decoder处理方式还有另外一种，就是语义向量参与了序列所有时刻的运算，上一时刻的输出仍然作为当前时刻的输入，但语义向量会参与所有时刻的运算。

解码器的输出通常有如下几种方法：

（1）贪婪：输出对应最大概率值的单词，计算代价低。

（2）采样：通过对众多概率值采样输出单词。

（3）集束搜索：是一种启发式的算法，提高多个预测创建一个可能结果的扩展树。

17.Seg2Seq 框架在编码-解码过程中是否存在信息丢失?有哪些解决方案?

18.GRU是如何用两个门控单元来控制时间序列的记忆及遗忘行为的?

GRU 有两个门（重置门与更新门），而 LSTM 有三个门（输入门、遗忘门和输出门）。

GRU 并不会控制并保留内部记忆（c_t），且没有 LSTM 中的输出门。

LSTM 中的输入与遗忘门对应于 GRU 的更新门，重置门直接作用于前面的隐藏状态。

在计算输出时并不应用二阶非线性。

GRU 是标准循环神经网络的改进版，但到底是什么令它如此高效与特殊？

为了解决标准 RNN 的梯度消失问题，GRU 使用了更新门（update gate）与重置门（reset gate）。基本上，这两个门控向量决定了哪些信息最终能作为门控循环单元的输出。这两个门控机制的特殊之处在于，它们能够保存长期序列中的信息，且不会随时间而清除或因为与预测不相关而移除。门控循环单元不会随时间而清除以前的信息，它会保留相关的信息并传递到下一个单元，因此它利用全部信息而避免了梯度消失问题。