1. 三种网络在准确率的对比
2. 三种网络在损失值的对比
3. 三种网络在计算时间的对比
4. RNN(传统循环神经网络)
主要特点:
- RNN 是最基础的循环神经网络,通过 递归 计算每个时间步的输出。
- 在每个时间步,RNN 会将当前输入和上一时间步的隐层状态一起传递给下一时间步。它的更新公式如下:
- 其中,hth_tht 是当前时间步的隐藏状态,ht−1 是上一时间步的隐藏状态,xt是当前时间步的输入,W 是权重矩阵,σ 是激活函数(如tanh或ReLU)。
优缺点:
- 优点:
- 结构简单,易于实现和理解。
- 缺点:
- 梯度消失和爆炸问题:随着时间步的增加,梯度会变得越来越小或越来越大,导致训练过程中无法有效传播,无法捕捉长期依赖。
- 不适合处理长序列数据,因为它无法有效地记住长期的历史信息。
5. LSTM(长短时记忆网络)
主要特点:
- LSTM 通过引入 细胞状态(Cell State) 和 门控机制 来解决传统 RNN 的梯度消失问题。LSTM 主要由三个门组成:
- 遗忘门(Forget Gate, ft):控制当前单元状态 CtC_tCt 中有多少信息应被遗忘。
- 输入门(Input Gate, it):控制当前输入 xtx_txt 中有多少信息应被存储在细胞状态 CtC_tCt 中。
- 输出门(Output Gate, ot):控制隐藏状态 hth_tht 中的哪些信息应该输出。
- 其中 C~t 是当前输入信息的候选状态,Ct 是当前的细胞状态。
优缺点:
- 优点:
- 有效解决梯度消失问题:LSTM通过加法(而非乘法)更新细胞状态,使得梯度能够在时间步之间稳定传播。
- 能够有效捕捉长期依赖关系,适合处理长序列数据。
- 缺点:
- 计算量较大:由于有多个门和状态,LSTM相较于RNN来说计算开销较大,训练速度较慢。
6. GRU(门控循环单元)
主要特点:
- GRU 是 LSTM 的一种变种,它将 LSTM 的三个门合并成两个门:更新门(Update Gate, zt) 和 重置门(Reset Gate, rtr_trt)。
- 更新门(zt)控制当前状态是否使用上一时刻的状态。
- 重置门(rt)控制如何将当前输入与上一时刻的隐藏状态结合。
其中,h~t 是通过重置门计算出来的候选隐藏状态。
优缺点:
- 优点:
- 计算效率高:相比LSTM,GRU的参数更少,计算量更小,因此训练速度更快。
- 长时间依赖的学习能力:与LSTM类似,GRU也能有效捕捉长时间依赖关系。
- 缺点:
- 较少的控制能力:虽然GRU在参数上比LSTM更少,但是它在某些复杂任务上可能不如LSTM灵活。
- 适用性有限:在某些问题上,LSTM可能更能捕捉复杂的时间依赖。