是什么样的原因导致更深的网络导致的训练效果更差呢?
梯度消失和梯度爆炸
随着网络层数的不断加深,梯度消失和梯度爆炸的现象会越来越明显,
梯度消失:假设每一层的误差梯度是一个小于1的数,那么在我们反向传播过程中,每向前传播一次,都要乘以小于1的误差梯度。那么当我们网络越来越深的时候,所乘的小于1的系数越多,那么久越趋近于0,这样梯度就会越来越小,造成梯度消失现象。
梯度爆炸:假设每一层的误差梯度是一个大于1的数,那么在我们反向传播过程中,每向前传播一次,都要乘以大于1的误差梯度。那么当我们网络越来越深的时候,所乘的大于1的系数越多,,这样梯度就会越来越大,造成梯度爆炸现象。
退化问题
解决了梯度消失和梯度爆炸的问题后,仍存在层数深的效果还是没有层数小的效果好。怎样解决呢,在我们的resnet当中提出了一个叫做“残差”的结构。
梯度消失和梯度爆炸现象怎么解决呢?
数据标准化处理,权重初始化,以及BN(Batch Normalization).