激活函数 ReLu还是还是可能出现梯度弥散,因为x<0的时候,梯度还是可能小于0 leaky relu,在x<0的时候,梯度就不会为0,梯度不会不动 Relu函数在x=0处是不连续的 一种更加光滑的曲线是SELU,是两个函数的concat softplus,把ReLu的尖点x=0做了一个平滑处理,使得导数不连续的地方导数连续 目前用的最多的是Relu、sigmoid,tan h(RNN)以及Leaky Relu GPU加速 loss层也是需要计算的,可以把loss层也搬到GPU上去