引言

上一节介绍了 $\text{Softmax}$ 回归的反向传播过程。本节将介绍递归神经网络的反向传播过程。

回顾：递归神经网络的前馈计算过程

场景构建

已知某特定时刻的递归神经网络神经元表示如下：
在这里插入图片描述
其中：

$x_t$ 表示数据在 $t$ 时刻的输入，其维度格式为 $x_t \in \mathbb R^{n_x \times m \times 1}$ 。其中 $n_x$ 表示当前时刻输入向量的维数； $m$ 表示样本数量； $1$ 则表示当前所在时刻 $t$ 。
- 输入向量可能是‘词向量’，或者是其他描述序列单位的向量。而 $n_x$ 描述该向量的大小。
- $m$ 可表示为当前 $\text{Batch}$ 内的样本数量。
- 对应完整序列数据 $\mathcal X$ 可表示为如下形式。其中 $\mathcal T$ 表示输入时刻的具体数量。
  $\mathcal X = (x_1,x_2,\cdots,x_t,x_{t+1},\cdots,x_{\mathcal T})^T \in \mathbb R^{n_x \times m \times \mathcal T}$
$h_t$ 表示 $t$ 时刻的序列信息，也是要传递到 $t + 1$ 时刻的值；它的维度格式表示为：
这里 $n_h$ 表示隐藏状态的维数大小;它由参数 $\mathcal W_{\mathcal H \Rightarrow \mathcal H},\mathcal W_{\mathcal H \Rightarrow \mathcal X}$ 决定; $h_{t+1} \in \mathbb R^{n_h \times m \times 1}$ 同理。
$h_t \in \mathbb R^{n_h \times m \times 1}$
对应的隐藏层矩阵 $\mathcal H \in \mathbb R^{n_h \times m \times \mathcal T}$ 。因为每一进入一个输入，都会得到一个相应更长的序列信息。因此 $\mathcal X,\mathcal H$ 共用同一个 $\mathcal T$ 。
$\mathcal O_{t+1}$ 表示数据传入后计算产生的预测值，它的维度格式表示为：
其中 $n_{\mathcal O}$ 表示预测输出结果的长度。
$\mathcal O_{t+1} \in \mathbb R^{n_{\mathcal O} \times m \times \mathcal 1}$
同理，对应的输出矩阵 $\mathcal O \in \mathbb R^{n_{\mathcal O} \times m \times \mathcal T_{\mathcal O}}$ ,这里的 $\mathcal T_{\mathcal O}$ 表示输出时刻的数量。需要注意的是， $\mathcal T_{\mathcal O}$ 和 $\mathcal T$ 是两个概念。输出的序列长度和输入长度无关，它与权重参数 $\mathcal W_{\mathcal H \Rightarrow \mathcal O}$ 相关。

前馈计算描述

为了方便描述，将上述过程中的序列下标表示为序列上标：
$x_t,h_t,h_{t+1},\mathcal O_{t+1} \Rightarrow x^{(t)},h^{(t)},h^{(t+1)},\mathcal O^{(t+1)}$

关于第 $t$ 时刻神经元的前馈计算过程表示如下：
需要注意的是，这里的 $h^{(t+1)},\mathcal O^{(t+1)}$ 表示对下一时刻信息的预测，而这个预测过程是在 $t$ 时刻完成的。

序列信息 $h^{(t+1)}$ 的计算过程：
$\begin{cases} \mathcal Z_1^{(t)} = \mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}}\cdot h^{(t)} + \mathcal W_{x^{(t)} \Rightarrow h^{(t+1)}} \cdot x^{(t)} + b_{h^{(t+1)}} \\ \quad \\ h^{(t+1)} = \text{Tanh}(\mathcal Z_1^{(t)}) \end{cases}$
预测值 $\mathcal O^{(t+1)}$ 的计算过程：
关于后验概率 $\mathcal P_{model}[\mathcal O^{(t+1)} \mid x^{(t)},h^{(t+1)}]$ 本质上是一个分类任务——从该分布中选择概率最高的结果作为 $x^{(t+1)}$ 的结果，这里使用 $\text{Softmax}$ 函数对各结果对应的概率分布信息进行评估。
$\begin{cases} \mathcal Z_2^{(t+1)} = \mathcal W_{h^{(t+1)} \Rightarrow \mathcal O^{(t+1)}} \cdot h^{(t+1)} + b_{\mathcal O^{(t+1)}} \\ \quad \\ \begin{aligned} \mathcal O^{(t+1)} & = \text{Softmax}(\mathcal Z_2^{(t+1)}) \\ & = \frac{\exp \left\{\mathcal Z_2^{(t+1)}\right\}}{\sum_{i=1}^{n_{\mathcal O}}\exp \left\{\mathcal Z_{2;i}^{(t+1)}\right\}} \\ \end{aligned} \end{cases}$

其中，公式中出现的各参数维度格式表示如下：
$\begin{aligned} & \mathcal Z_1:\begin{cases} \mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}} \in \mathbb R^{1 \times n_h} \Rightarrow \mathcal W_{\mathcal H \Rightarrow \mathcal H} \in \mathbb R^{n_h \times n_h} \\ \mathcal W_{x^{(t)} \Rightarrow h^{(t+1)}} \in \mathbb R^{1 \times n_x} \Rightarrow \mathcal W_{\mathcal X \Rightarrow \mathcal H} \in \mathbb R^{n_h \times n_x} \\ b_{\mathcal h^{(t+1)}} \in \mathbb R^{1 \times 1} \Rightarrow b_{\mathcal H} \in \mathbb R^{n_h \times 1} \end{cases} \\ & \mathcal Z_2:\begin{cases} \mathcal W_{h^{(t+1)} \Rightarrow \mathcal O^{(t+1)}} \in \mathbb R^{} \Rightarrow \mathcal W_{\mathcal H \Rightarrow \mathcal O} \in \mathbb R^{n_{\mathcal O} \times n_h} \\ b_{\mathcal O^{(t+1)}} \in \mathbb R^{1 \times 1} \Rightarrow b_{\mathcal O} \in \mathbb R^{n_{\mathcal O} \times 1} \end{cases} \end{aligned}$

反向传播过程各参数的梯度计算

各时刻损失函数梯度计算

假设损失函数 $\mathcal J$ 是描述真实目标 $[y]_{n_{\mathcal O} \times m \times \mathcal T_{\mathcal O}}$ 与预测结果 $\mathcal O_{n_{\mathcal O} \times m \times \mathcal T_{\mathcal O}}$ 之间的交叉熵 $(\text{CrossEntropy})$ 累积结果。具体表示如下：
$\begin{aligned} \mathcal J & = \sum_{t = 1}^{\mathcal T_{\mathcal O}} \mathcal L^{(t)} \\ \mathcal L^{(t)} & = -\sum_{i=1}^{n_{\mathcal O}} y_i^{(t)} \log \mathcal O_i^{(t)} \end{aligned}$
首先计算 $\mathcal J$ 对 $\mathcal L^{(t)}$ 的梯度结果 $\begin{aligned} \frac{\partial \mathcal J}{\partial \mathcal L^{(t)}}\end{aligned}$ ：
牛顿-莱布尼兹公式。
$\begin{aligned} \frac{\partial \mathcal J}{\partial \mathcal L^{(t)}} & = \sum_{k=1}^{\mathcal T_{\mathcal O}} \frac{\partial \mathcal L^{(k)}}{\partial \mathcal L^{(t)}} \\ & = \underbrace{0 + 0 + \cdots + 0}_{k \neq t} + \underbrace{1}_{k=t} \\ & = 1 \end{aligned}$

损失函数对各时刻神经元输出的梯度计算

其次，计算 $\mathcal L^{(t)}$ 对 $\mathcal O^{(t)}$ 的梯度结果 $\begin{aligned}\frac{\partial \mathcal L^{(t)}}{\partial \mathcal O^{(t)}}\end{aligned}$ ：
这仅仅是交叉熵的梯度结果。这里需要使用‘标量对向量求导’。
$\begin{aligned} \frac{\partial \mathcal L^{(t)}}{\partial \mathcal O^{(t)}} & = \frac{\partial}{\partial \mathcal O^{(t)}} \left[- \sum_{i=1}^{n_{\mathcal O}} y_i^{(t)} \log \mathcal O_i^{(t)}\right] \\ & = \left\{\frac{\partial}{\partial \mathcal O_1^{(t)}} \left[-(\underbrace{y_1^{(t)} \log \mathcal O_1^{(t)}}_{\mathcal O_1^{(t)}相关} + \underbrace{\cdots + y_{n_{\mathcal O}}^{(t)} \log \mathcal O_{n_{\mathcal O}}^{(t)}}_{\mathcal O_1^{(t)}无关})\right] ,\cdots, \frac{\partial}{\partial \mathcal O_{n_{\mathcal O}}^{(t)}} \left[-(\underbrace{y_1^{(t)} \log \mathcal O_1^{(t)} + \cdots}_{\mathcal O_{n_{\mathcal O}}^{(t)}无关} + \underbrace{y_{n_{\mathcal O}}^{(t)} \log \mathcal O_{n_{\mathcal O}}^{(t)}}_{\mathcal O_{n_{\mathcal O}}^{(t)}相关})\right] \right\} \\ & = \left[\frac{\partial}{\partial \mathcal O_1^{(t)}}(-y_1^{(t)} \log \mathcal O_1^{(t)}),\cdots,\frac{\partial}{\partial \mathcal O_{n_{\mathcal O}}^{(t)}}(-y_{n_{\mathcal O}}^{(t)} \log \mathcal O_{n_{\mathcal O}}^{(t)})\right] \\ & = \left[-\frac{y_1^{(t)}}{\mathcal O_1^{(t)}},\cdots,-\frac{y_{n_{\mathcal O}}^{(t)}}{\mathcal O_{n_{\mathcal O}}^{(t)}}\right]_{1 \times n_{\mathcal O}} \end{aligned}$

$\text{Softmax}$ 回归的梯度计算

计算 $\mathcal O^{(t)}$ 对 $\mathcal Z_2^{(t)}$ 的梯度结果 $\begin{aligned}\frac{\partial \mathcal O^{(t)}}{\partial \mathcal Z_2^{(t)}}\end{aligned}$ ：
这里用到了 $\text{Softmax}$ 回归的反向传播过程。详见Softmax函数的反向传播过程
其中 $\mathcal Z_2^{(t)} = (\mathcal Z_{2;1}^{(t)},\mathcal Z_{2;2}^{(t)},\cdots,\mathcal Z_{2;n_{\mathcal O}}^{(t)})_{1 \times n_{\mathcal O}}$
$\frac{\partial \mathcal O^{(t)}}{\partial \mathcal Z_2^{(t)}} = \left[\frac{\partial \mathcal O_i^{(t)}}{\partial \mathcal Z_{2;j}^{(t)}}\right]_{n_{\mathcal O} \times n_{\mathcal O}} \quad i,j \in \{1,2,\cdots,n_{\mathcal O}\}$
对应地， $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal Z_2^{(t)}} = \frac{\partial \mathcal L}{\partial \mathcal L^{(t)}} \cdot \frac{\partial \mathcal L^{(t)}}{\partial \mathcal O^{(t)}} \cdot \frac{\partial \mathcal O^{(t)}}{\partial \mathcal Z_2^{(t)}} \end{aligned}$ 可表示为：
并且将 $\begin{aligned}\frac{\partial \mathcal O_i^{(t)}}{\partial \mathcal Z_{2;j}^{(t)}}(i,j=1,2,\cdots,n_{\mathcal O}) = \begin{cases} \mathcal O_i^{(t)} \cdot (1 - \mathcal O_j^{(t)}) \quad i=j \\ -\mathcal O_i^{(t)} \cdot \mathcal O_j^{(t)} \quad i \neq j \end{cases}\end{aligned}$ 代入到式子中。
$\begin{aligned} \frac{\partial \mathcal L}{\partial \mathcal Z_2^{(t)}} & = 1 \times \left[-\frac{y_1^{(t)}}{\mathcal O_1^{(t)}},\cdots,-\frac{y_{n_{\mathcal O}}^{(t)}}{\mathcal O_{n_{\mathcal O}}^{(t)}}\right]_{1 \times n_{\mathcal O}} \cdot \left[\frac{\partial \mathcal O_i^{(t)}}{\partial \mathcal Z_{2;j}^{(t)}}\right]_{n_{\mathcal O} \times n_{\mathcal O}} \\ & = \left[-\sum_{i=1}^{n_{\mathcal O}} \frac{y_i^{(t)}}{\mathcal O_i^{(t)}}\ \cdot \frac{\partial \mathcal O_i^{(t)}}{\partial \mathcal Z_{2;j}^{(t)}}\right]_{1 \times n_{\mathcal O}} \quad j = 1,2,\cdots,n_{\mathcal O} \end{aligned}$
可以看出，该结果是一个 $\times n_{\mathcal O}$ 的向量。以其中第一项为例：
$\begin{aligned} j = 1 & \Rightarrow -\sum_{i=1}^{n_{\mathcal O}} \frac{y_i^{(t)}}{\mathcal O_i^{(t)}} \cdot \frac{\partial \mathcal O_i^{(t)}}{\partial \mathcal Z_{2;1}^{(t)}} \\ & = \mathcal O_1^{(t)} - y_1^{(t)} \end{aligned}$
同理，其他项同第一项操作，最终得到 $\begin{aligned}\frac{\partial \mathcal L}{\partial \mathcal Z_2^{(t)}}\end{aligned}$ 为：
很简练的一个结果，基于交叉熵与 $\text{Softmax}$ 的反向传播梯度结果。
$\begin{aligned} \frac{\partial \mathcal L}{\partial \mathcal Z_2^{(t)}} & = \left[\mathcal O_j^{(t)} - y_j^{(t)}\right]_{1 \times n_{\mathcal O}} \quad j=1,2,\cdots,n_{\mathcal O}\\ & = \mathcal O^{(t)} - y^{(t)} \end{aligned}$
但由于 $[y^{(t)}]_{n_{\mathcal O} \times m \times 1}$ 是 $t$ 时刻的真实分布，因此它有如下性质：
即 $y^{(t)}$ 内仅有一个值为 $1$ 其余值均为 $0$ ,这是真实样本给出的分布。
$\sum_{j=1}^{n_{\mathcal O}} y_j^{(t)} = 1;y_j^{(t)} \in \{0,1\}$
因此，描述每个分量 $\begin{aligned} \left(\nabla_{\mathcal Z_2^{(t)}}\mathcal L \right)_j = \left[\frac{\partial \mathcal L}{\partial \mathcal Z_{2;j}^{(t)}}\right](j=1,2,\cdots,n_{\mathcal O})\end{aligned}$ 可表示为如下形式：
其中 $1_{j,y^{(t)}}$ 表示向量 $y^{(t)}$ 中第 $j$ 个分量 $y_j^{(t)}\in \{0,1\}$ 的具体结果。
该式子对应《机器学习》(花书) P234 10.2.2 公式10.18。
$(\nabla_{\mathcal Z_2^{(t)}}\mathcal L)_j = \mathcal O_j^{(t)} - 1_{j,y^{(t)}}$

关于 $h^{(t)}$ 的综合反向传播梯度

继续反向传播，计算梯度 $\begin{aligned} \frac{\partial \mathcal L}{\partial h^{(t)}}\end{aligned}$ ：
后续的线性计算结果不展开写了。
$\begin{aligned} \frac{\partial \mathcal L}{\partial h^{(t)}} & = \frac{\partial \mathcal L}{\partial \mathcal Z_2^{(t)}} \cdot \frac{\partial \mathcal Z_2^{(t)}}{\partial h^{(t)}} \\ & = \left[\mathcal W_{h^{(t)} \Rightarrow \mathcal O^{(t)}}\right]^T \cdot \nabla_{\mathcal Z_2^{(t)}}\mathcal L \end{aligned}$
实际上，关于 $h^{(t)}$ 的梯度一共包含两个部分：一个是从 $\mathcal O^{(t)}$ 传播过来的梯度结果；另一个是从 $h^{(t+1)}$ 方向传播过来的梯度结果：
上图并没有描述出来，这里进行补充。
上面的梯度结果是从 $\mathcal O^{(t)}$ 传播下来的梯度。
来自不同角度的梯度结果
关于 $h^{(t+1)}$ 向 $h^{(t)}$ 传播的梯度表示为：
其中 $\nabla_{h^{(t+1)}}\mathcal L$ 就是 $\begin{aligned}\frac{\partial \mathcal L}{\partial h^{(t+1)}}\end{aligned}$ ,它和 $\begin{aligned}\frac{\partial \mathcal L}{\partial h^{(t)}}\end{aligned}$ 的情况完全相同，只是下标不同而已。为书写方便，后面不再展开。
$\left(\frac{\partial h^{(t+1)}}{\partial h^{(t)}}\right)^T \cdot \nabla_{h^{(t+1)}} \mathcal L \quad \left(\nabla_{h^{(t+1)}} \mathcal L = \left[\mathcal W_{h^{(t+1)} \Rightarrow \mathcal O^{(t+1)}}\right]^T \cdot \nabla_{\mathcal Z_2^{(t+1)}}\mathcal L \right)$

其中， $\begin{aligned}\frac{\partial h^{(t+1)}}{\partial h^{(t)}}\end{aligned}$ 中包含 $\mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}}$ 的梯度以及 $\text{Tanh}$ 激活函数的梯度：
其中 $\text{Diag}[1 - \text{Tanh}(\mathcal Z_1^{(t)})^2]$ 在数值稳定性一节中介绍过与其相似的 $\text{ReLU}$ 激活函数的表达形式。它实际上是关于 $\text{Tanh}$ 梯度的雅可比矩阵。除去对角线元素外，其余位置元素均为 $0$ 。
$\begin{aligned} \frac{\partial h^{(t+1)}}{\partial h^{(t)}} & = \frac{\partial h^{(t+1)}}{\partial \mathcal Z_1^{(t)}} \cdot \frac{\partial \mathcal Z_1^{(t)}}{\partial h^{(t)}} \\ & = \text{Diag}[1 - \text{Tanh}(\mathcal Z_1^{(t)})^2] \cdot \mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}} \end{aligned}$
因此，从 $h^{(t+1)}$ 方向传播过来的梯度可表示为：
$[\mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}}]^T\cdot (\nabla_{h^{(t+1)}} \mathcal L) \cdot \text{Diag}[1 - \text{Tanh}(\mathcal Z_1^{(t)})^2]$
最终，将两个角度的梯度结果相加，得到最终 $h^{(t)}$ 的梯度结果：
对应《机器学习》(花书) P234 10.2.2 公式10.21。
$\begin{aligned}\frac{\partial \mathcal L}{\partial h^{(t)}} & = \frac{\partial \mathcal L^{(t)}}{\partial h^{(t)}} + \frac{\partial \mathcal L^{(t+1)}}{\partial h^{(t+1)}} \cdot \frac{\partial h^{(t+1)}}{\partial h^{(t)}} \\ & = \left[\mathcal W_{h^{(t)} \Rightarrow \mathcal O^{(t)}}\right]^T \cdot \nabla_{\mathcal Z_2^{(t)}}\mathcal L + [\mathcal W_{h^{(t)} \Rightarrow h^{(t+1)}}]^T\cdot (\nabla_{h^{(t+1)}} \mathcal L) \cdot \text{Diag}[1 - \text{Tanh}(\mathcal Z_1^{(t)})^2] \end{aligned}$

总结

$\text{Softmax}$ 函数与交叉熵结合，其梯度结果变得非常简洁。即输出分布与真实分布间的差值；
递归神经网络中，隐变量 $h^{(t)}(t=1,2,\cdots,\mathcal T)$ 在反向传播过程中，既要获取当前时刻输出 $\mathcal O^{(t)}$ 的梯度，也要获取下一时刻隐变量 $h^{(t+1)}$ 的梯度。