深度学习|误差逆传播:梯度速解

文章目录

    • 引言
    • 链式法则
    • 误差逆传播
      • 加法的逆传播
      • 乘法的逆传播
      • 逆传播求梯度
    • SoftmaxWithLoss 层
      • 正向传播
      • 逆传播
      • 代码实现参考
    • 结语

引言

我们知道训练神经网络模型的核心是以损失函数为基准来调整优化网络参数,使得网络的输出尽可能接近真实标签。在神经网络中,优化网络参数需要计算每个权重参数的梯度,不同的网络结构,计算梯度的方式和复杂度往往大不相同,有没有一种算法,即可以有效囊括所有类型的网络结构的梯度计算,又足以保证梯度计算的高效性?答案就是我们今天要讲的误差逆传播算法。

在这里插入图片描述

链式法则

要理解误差逆传播算法,需要先了解微分中链式法则的概念。链式法则是微分中的基本法则,可用于求解复合函数的导数。

如果某个函数由复合函数表示,则该复合函数的导数可以用构成该复合函数的各个函数的导数的乘积表示。

以式 1 所示的复合函数为例:

z = t 2 t = x + y (1) z = t^2 \\ t = x + y \tag{1} z=t2t=x+y(1)

通过链式法则求解 ∂ z ∂ x \frac{\partial{z}}{\partial{x}} xz

∂ z ∂ x = ∂ z ∂ t ∂ t ∂ x = 2 t × 1 = 2 ( x + y ) \frac{\partial{z}}{\partial{x}} = \frac{\partial{z}}{\partial{t}} \frac{\partial{t}}{\partial{x}} = 2t \times 1 = 2(x + y) xz=tzxt=2t×1=2(x+y)

可见一个复杂函数的求导问题可以分解为组成该复杂函数的局部函数的求导问题,我们完全可以将复杂函数的导数等价的表示为其所有局部函数的导数的乘积。

在神经网络中,误差逆传播算法就是利用链式法则来计算网络中每个参数的梯度。

误差逆传播

在前文「深度学习|模型训练:手写 SimpleNet」中,我们演示了使用数值微分方式求梯度的过程,数值微分的方式求梯度简单、易于理解与实现,但它的问题是计算效率很低。在 SimpleNet 的示例中,我们使用数值微分法训练所需时间长达 27.7 小时,几乎是不可用的状态。

那么有没有更高效的替代方式呢?终于轮到神经网络的主角算法误差逆传播出场了!

参考上文求复合函数(式 1)关于 x 的导数 ∂ z ∂ x \frac{\partial{z}}{\partial{x}} xz 的求解过程,给定 x 与 y,按照函数式求解 z 的正向计算的过程,就好比神经网络的前向传播Forward Propagation),而沿着函数正向计算的链路,从最末端逆向计算每个局部函数的导数,最终相乘从而得到该复杂函数的导数,就好比神经网络的逆传播Backward Propagation)。

前向传播(Forward Propagation):将输入数据通过网络进行运算,得到网络的输出、输出与目标值之间的误差
逆传播(Backward Propagation):从输出层开始,将误差逆传播到隐藏层,直到输入层。逆传播过程可以计算每个权重的梯度,即误差相对于每个权重的偏导数。

误差逆传播error BackPropagation,简称 BP)就是基于数学推导的解析性(相对于数值微分的数值性)梯度计算方法(符号微分Symbolic Differentiation),按照数学中求导的链式法则,局部导数会按正向传播的反方向传递。

以求解 ∂ z ∂ x \frac{\partial{z}}{\partial{x}} xz 为例,我们可以用如下图 1 中红色箭头所指过程表示该求导过程:

在这里插入图片描述

图 1 所示从左到右是复合函数的正向传播过程,表示的是 t = x + y t = x + y t=x+y z = t 2 z = t^2 z=t2 的正向计算过程。

从右往左是复合函数的逆传播过程,通过逆传播求函数关于 x 的导数 ∂ z ∂ x \frac{\partial{z}}{\partial{x}} xz,只需要沿着正向计算的链路逆向计算每个局部函数的导数,例如从输出 zz 本身的导数是 ∂ z ∂ z \frac{\partial{z}}{\partial{z}} zz,从 zt 的导数是 ∂ z ∂ t \frac{\partial{z}}{\partial{t}} tz,从 tx 的导数是 ∂ t ∂ x \frac{\partial{t}}{\partial{x}} xt,最终将每个环节的导数相乘即是该复合函数的导数 ∂ z ∂ z ∂ z ∂ t ∂ t ∂ x \frac{\partial{z}}{\partial{z}} \frac{\partial{z}}{\partial{t}} \frac{\partial{t}}{\partial{x}} zztzxt(其中 ∂ z ∂ z \frac{\partial{z}}{\partial{z}} zz 可忽略)。这就是 BP 算法的基本思想。

不难发现,神经网络中的前向传播都是由一些简单的加法、乘法等常用的运算复合而成,而神经网络的逆传播就是求解网络整个“复合函数”关于网络各层中权重参数梯度

我们在了解了 BP 算法的基本思路后,不难得出这些梯度的求解方式:沿着网络的正向运算过程,反向从输出层开始,往前计算每层运算的局部梯度,然后将求解目标参数梯度的完整链路上的所有局部梯度相乘,得到的就是目标参数的梯度。

接下来我们可以找到在逆传播过程中,使用 BP 算法求解加法、乘法等常用运算的梯度的规律。应用这些规律,我们可以在神经网络的逆传播运算过程中高效地计算梯度。

加法的逆传播

z = x + y z = x + y z=x+y 为例,其梯度 ( ∂ z ∂ x \frac{\partial{z}}{\partial{x}} xz ∂ z ∂ y \frac{\partial{z}}{\partial{y}} yz) 永远为 (1, 1)。

因此加法运算在逆传播时,总是将下游梯度乘以 1,即原封不动传递给上游。

我们可以使用 AddLayer 类实现加法运算的前向传播与逆传播:

class AddLayer:
    """
    加法运算的前向传播与逆传播
    """

    def __init__(self):
        self.x = None
        self.y = None

    def forward(self, x, y):
        """
        前向传播

        Args:
            x: 输入 x
            y: 输入 y

        Returns:
            out: 输出
        """

        out = x + y

        return out

    def backward(self, dout):
        """
        逆传播

        Args:
            dout: 上游梯度

        Returns:
            dx: x 的梯度
            dy: y 的梯度
        """

        dx = dout * 1
        dy = dout * 1

        return dx, dy

这里采用了标准层封装的方式来实现加法运算,将加法运算封装成了一个可以被任意结构的神经网络直接复用的小组件,其他如乘法运算激活函数损失函数等我们都将采用这样的实现方式。采用这样的封装方式,我们就可以在组装我们想要的网络时随意选择我们想要的组件(基本运算单元)。在实际的生产级机器学习框架(如 Scikit-learn、TensorFlow、PyTorch 等)中,这些底层运算封装也正是采用了这样的方式实现。

乘法的逆传播

z = x y z = xy z=xy 为例,其梯度 ( ∂ z ∂ x \frac{\partial{z}}{\partial{x}} xz ∂ z ∂ y \frac{\partial{z}}{\partial{y}} yz) = (y, x)。

因此乘法运算的逆传播时,总是将下游梯度乘以上游相乘参数的值(翻转值)。比如 x 与 y 相乘,求关于 x 的偏导数时,y 是 x 的翻转值;求关于 y 的偏导数时,x 是 y 的翻转值。

同上,我们用 MulLayer 类实现乘法运算的前向传播与逆传播:

class MulLayer:
    """
    乘法运算的前向传播与逆传播
    """

    def __init__(self):
        self.x = None
        self.y = None

    def forward(self, x, y):
        """
        前向传播

        Args:
            x: 输入 x
            y: 输入 y

        Returns:
            out: 输出
        """

        self.x = x
        self.y = y
        out = x * y

        return out

    def backward(self, dout):
        """
        逆传播

        Args:
            dout: 上游梯度

        Returns:
            dx: x 的梯度
            dy: y 的梯度
        """

        dx = dout * self.y
        dy = dout * self.x

        return dx, dy

逆传播求梯度

y = x 1 x 2 + x 3 y = x_1x_2 + x_3 y=x1x2+x3 为例,求 ( x 1 , x 2 , x 3 ) (x_1, x_2, x_3) (x1,x2,x3)= (100, 2, 300) 处的梯度。

在这里插入图片描述

y = x 1 x 2 + x 3 y = x_1x_2 + x_3 y=x1x2+x3 的计算链路如图 2,我们可以直接通过上文的 MulLayer 和 AddLayer 进行前向传播求 y,以及逆传播求关于 ( x 1 , x 2 , x 3 ) (x_1, x_2, x_3) (x1,x2,x3) 的梯度。

x1, x2, x3 = 100, 2, 300
mul_layer = MulLayer()
add_layer = AddLayer()

# forward
a = mul_layer.forward(x1, x2)
y = add_layer.forward(a, x3)
print(y)                # 500

# backward
da, dx3 = add_layer.backward(1)
dx1, dx2 = mul_layer.backward(da)
print(dx1, dx2, dx3)    # (x2, x1, 1) = (2, 100, 1)

运行结果与图 2 中所示 ( x 2 , x 1 , 1 ) (x_2, x_1, 1) (x2,x1,1)(输入 x 1 , x 2 , x 3 x_1, x_2, x_3 x1,x2,x3 各自的反向红色箭头是它们各自的梯度)一致,可见逆传播求梯度的结果是符合预期的。

以上逆传播求梯度过程可以直接应用在神经网络中对数组和矩阵的运算上:

x1, x2, x3 = np.array([100, 101, 102]), np.array([2, 3, 4]), np.array([300, 301, 302])
mul_layer = MulLayer()
add_layer = AddLayer()

# forward
a = mul_layer.forward(x1, x2)
y = add_layer.forward(a, x3)
print(y)                # [500 604 710]

# backward
da, dx3 = add_layer.backward(1)
dx1, dx2 = mul_layer.backward(da)
print(dx1, dx2, dx3)    # (x2, x1, 1) = [2 3 4] [100 101 102] 1

SoftmaxWithLoss 层

我们知道神经网络模型的训练过程就是根据损失函数关于权重参数的梯度优化权重参数的过程,其中求解损失函数关于权重参数的梯度是运算的核心。而损失函数往往是神经网络正向传播中的最后一个环节(训练过程的最后一个过程是损失函数,推理过程则一般不需要计算损失),根据 BP 算法的思路,在逆传播过程中,求解损失函数的“局部梯度”就成了求解权重参数梯度的第一步。

由于在多分类任务中,神经网络模型经常使用 Softmax 函数来对最终输出做归一化处理,我们在封装损失函数时,通常会将 Softmax 函数与损失函数结合在一起,这样的结构我们称之为SoftmaxWithLoss层。

下面我们以交叉熵误差为例,通过实现一个 SoftmaxWithLoss 层来演示 BP 算法及其“局部梯度”的求解过程。

假定网络的输出层有 n 个神经元(n 个分类类别),则 SoftmaxWithLoss 层的计算过程如图 3 所示:

在这里插入图片描述

从前面的层输入的是 ( a 1 , a 2 , . . . , a n ) (a_1, a_2, ..., a_n) (a1,a2,...,an),Softmax 层输出的是 ( y 1 , y 2 , . . . , y n ) (y_1, y_2, ..., y_n) (y1,y2,...,yn),实际结果分别是 ( t 1 , t 2 , . . . , t n ) (t_1, t_2, ..., t_n) (t1,t2,...,tn),Cross Entropy Error 输出的损失是 L。

正向传播

Softmax 往往作为网络输出层的激活函数,对网络的输出做最后的归一化处理;而在模型训练时,Softmax 的输出与实际结果作为损失函数的输入,可以计算出模型训练所需的损失值。可见 SoftmaxWithLoss 层实际就是经过了 Softmax 计算和 Loss Function 计算两个过程。

其中 Softmax 计算过程如式 2:

y k = e a k ∑ i = 1 n e a i (2) y_k = \frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}} \tag{2} yk=i=1neaieak(2)

Loss Function(交叉熵误差)计算过程如式 3:

L = − ∑ k t k log ⁡ y k (3) L = -\sum_{k} t_k \log{y_k} \tag{3} L=ktklogyk(3)

合并式 2 和式 3,SoftmaxWithLoss 层的正向传播总计算式 4:

L = cross_entropy_error ( y , t ) = cross_entropy_error ( softmax ( a ) , t ) = − ∑ k t k log ⁡ e a k ∑ i = 1 n e a i (4) \begin{split} L = \text{cross\_entropy\_error}(y, t) \\ = \text{cross\_entropy\_error}(\text{softmax}(a), t) \\ = - \sum_{k} t_k \log{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} \end{split} \tag{4} L=cross_entropy_error(y,t)=cross_entropy_error(softmax(a),t)=ktklogi=1neaieak(4)

SoftmaxWithLoss 层的正向传播分布计算过程:

  1. 指数运算:计算每个输入 a k a_k ak 的自然指数 e a k e^{a_k} eak
  2. 加法运算:计算所有输入的自然指数之和 S = ∑ i = 1 n e a i S = \sum_{i=1}^{n} e^{a_i} S=i=1neai
  3. 除法运算:计算所有输入的自然指数之和的倒数 1 S = 1 ∑ i = 1 n e a i \frac{1}{S} = \frac{1}{\sum_{i=1}^{n} e^{a_i}} S1=i=1neai1
  4. 乘法运算:计算每个输入 a k a_k ak 的自然指数与所有输入的自然指数之和的倒数的乘积 y k = e a k ∑ i = 1 n e a i y_k = \frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}} yk=i=1neaieak
  5. 对数运算:计算每个输入 a k a_k ak 的自然指数与所有输入的自然指数之和的倒数的乘积的对数 log ⁡ y k = log ⁡ e a k ∑ i = 1 n e a i \log{y_k} = \log{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} logyk=logi=1neaieak
  6. 乘法运算:计算每个输入 a k a_k ak 的自然指数与所有输入的自然指数之和的倒数的乘积的对数与实际结果 t k t_k tk 的乘积 t k log ⁡ y k = t k log ⁡ e a k ∑ i = 1 n e a i t_k \log{y_k} = t_k \log{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} tklogyk=tklogi=1neaieak
  7. 加法运算:计算所有输入的自然指数与所有输入的自然指数之和的倒数的乘积的对数与实际结果的乘积之和 ∑ k t k log ⁡ y k = ∑ k t k log ⁡ e a k ∑ i = 1 n e a i \sum_{k} t_k \log{y_k} = \sum_{k} t_k \log{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} ktklogyk=ktklogi=1neaieak
  8. 乘法运算:计算所有输入的自然指数与所有输入的自然指数之和的倒数的乘积的对数与实际结果的乘积之和的相反数 L = − ∑ k t k log ⁡ y k = − ∑ k t k log ⁡ e a k ∑ i = 1 n e a i L = - \sum_{k} t_k \log{y_k} = - \sum_{k} t_k \log{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} L=ktklogyk=ktklogi=1neaieak

正向传播计算的是 SoftmaxWithLoss 根据输入 a 和真实结果 t 计算误差的过程;相对的,我们再看如何使用逆传播迅速计算 SoftmaxWithLoss 层的损失梯度(损失函数关于输入 a 的梯度)。

逆传播

逆传播计算过程是沿着正向传播过程的反方向进行的,首先误差梯度的初始值永远是 ∂ L ∂ L \frac{\partial{L}}{\partial{L}} LL = 1,逆传播的计算过程如下:

  1. 乘法求导(8)

− ∑ k t k log ⁡ y k = ∑ k t k log ⁡ y k × ( − 1 ) - \sum_{k} t_k \log{y_k} = \sum_{k} t_k \log{y_k} \times (-1) ktklogyk=ktklogyk×(1)

该步是 ∑ k t k log ⁡ y k \sum_{k} t_k \log{y_k} ktklogyk ( − 1 ) (-1) (1) 做乘法运算,逆传播计算 ∑ k t k log ⁡ y k \sum_{k} t_k \log{y_k} ktklogyk 的局部梯度取乘数 -1,此时梯度为 − 1 × 1 = − 1 -1 \times 1 = -1 1×1=1

  1. 加法求导(7)

∑ k t k log ⁡ y k = t 1 log ⁡ y 1 + t 2 log ⁡ y 2 + . . . + t n log ⁡ y n \sum_{k} t_k \log{y_k} = t_1 \log{y_1} + t_2 \log{y_2} + ... + t_n \log{y_n} ktklogyk=t1logy1+t2logy2+...+tnlogyn

该步是对各项 t k log ⁡ y k t_k \log{y_k} tklogyk 做加法运算,逆传播计算各项 t k log ⁡ y k t_k \log{y_k} tklogyk 的局部梯度取原值 -1,此时各项梯度为 -1;

  1. 乘法求导(6)

t k log ⁡ y k t_k \log{y_k} tklogyk

该步是 t k t_k tk log ⁡ y k \log{y_k} logyk 做乘法运算,逆传播计算 log ⁡ y k \log{y_k} logyk 的局部梯度取乘数 t k t_k tk,此时梯度为 t k × ( − 1 ) = − t k t_k \times (-1) = -t_k tk×(1)=tk

  1. 对数求导(5)

log ⁡ y k \log{y_k} logyk

该步是对 y k y_k yk 做对数运算,逆传播计算 y k y_k yk 的局部梯度取自变量的倒数 1 y k \frac{1}{y_k} yk1,此时梯度为 − t k × 1 y k = − t k y k - t_k \times \frac{1}{y_k} = - \frac{t_k}{y_k} tk×yk1=yktk

  1. 乘法求导(4)

y k = e a k ∑ i = 1 n e a i y_k = \frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}} yk=i=1neaieak

该步是 e a k e^{a_k} eak 1 ∑ i = 1 n e a i \frac{1}{\sum_{i=1}^{n} e^{a_i}} i=1neai1 做乘法运算,逆传播计算 1 ∑ i = 1 n e a i \frac{1}{\sum_{i=1}^{n} e^{a_i}} i=1neai1 的局部梯度取乘数 e a k e^{a_k} eak,此时梯度为:

− t k y k × e a k = − t k × e a k e a k ∑ i = 1 n e a i = − t k ∑ i = 1 n e a i - \frac{t_k}{y_k} \times e^{a_k} = - \frac{t_k \times e^{a_k}}{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} = - t_k \sum_{i=1}^{n} e^{a_i} yktk×eak=i=1neaieaktk×eak=tki=1neai

因为 1 ∑ i = 1 n e a i \frac{1}{\sum_{i=1}^{n} e^{a_i}} i=1neai1 分别与 n 项 e a i e^{a_i} eai 做乘法运算,逆传播计算局部梯度求所有分支的和 - t k ∑ i = 1 n e a i t_k \sum_{i=1}^{n} e^{a_i} tki=1neai,此时梯度为:

∑ k ( − t k ∑ i = 1 n e a i ) \sum_k{(- t_k \sum_{i=1}^{n} e^{a_i})} k(tki=1neai)

逆传播计算 e a k e^{a_k} eak 的局部梯度取乘数 1 ∑ i = 1 n e a i \frac{1}{\sum_{i=1}^{n} e^{a_i}} i=1neai1,此时梯度为:

− t k y k × 1 ∑ i = 1 n e a i = − t k e a k ∑ i = 1 n e a i 1 ∑ i = 1 n e a i = − t k e a k (temp-1) \begin{split} - \frac{t_k}{y_k} \times \frac{1}{\sum_{i=1}^{n} e^{a_i}} \\ = - \frac{t_k}{\frac{e^{a_k}}{\sum_{i=1}^{n} e^{a_i}}} \frac{1}{\sum_{i=1}^{n} e^{a_i}} \\ = - \frac{t_k}{e^{a_k}} \tag{temp-1} \end{split} yktk×i=1neai1=i=1neaieaktki=1neai1=eaktk(temp-1)

  1. 除法求导(3)

1 S = 1 ∑ i = 1 n e a i \frac{1}{S} = \frac{1}{\sum_{i=1}^{n} e^{a_i}} S1=i=1neai1

该步是用 ∑ i = 1 n e a i \sum_{i=1}^{n} e^{a_i} i=1neai 除 1,逆传播计算 ∑ i = 1 n e a i \sum_{i=1}^{n} e^{a_i} i=1neai 的局部梯度为: − 1 S 2 = − 1 ( ∑ i = 1 n e a i ) 2 - \frac{1}{S^{2}} = - \frac{1}{(\sum_{i=1}^{n} e^{a_i})^{2}} S21=(i=1neai)21,此时梯度为:

∑ k ( − t k ∑ i = 1 n e a i ) × ( − 1 ( ∑ i = 1 n e a i ) 2 ) = ∑ k ( t k ) 1 ( ∑ i = 1 n e a i ) 2 ∑ i = 1 n e a i = ∑ k ( t k ) 1 ∑ i = 1 n e a i \begin{split} \sum_k(- t_k \sum_{i=1}^{n} e^{a_i}) \times (- \frac{1}{(\sum_{i=1}^{n} e^{a_i})^{2}}) \\ = \sum_k(t_k) \frac{1}{(\sum_{i=1}^{n} e^{a_i})^{2}} \sum_{i=1}^{n} e^{a_i} \\ = \sum_k(t_k) \frac{1}{\sum_{i=1}^{n} e^{a_i}} \end{split} k(tki=1neai)×((i=1neai)21)=k(tk)(i=1neai)21i=1neai=k(tk)i=1neai1

此处因为 t k t_k tk 是 one-hot 编码,有且仅有一个 k 令 t k t_k tk 为 1,其他 t 全是 0,即 ∑ k ( t k ) = 1 \sum_k(t_k) = 1 k(tk)=1,因此此时梯度为:

∑ k ( t k ) 1 ∑ i = 1 n e a i = 1 ∑ i = 1 n e a i \sum_k(t_k) \frac{1}{\sum_{i=1}^{n} e^{a_i}} = \frac{1}{\sum_{i=1}^{n} e^{a_i}} k(tk)i=1neai1=i=1neai1

  1. 加法求导(2)

S = ∑ i = 1 n e a i S = \sum_{i=1}^{n} e^{a_i} S=i=1neai

该步是对各项 e a i e^{a_i} eai 做加法运算,逆传播计算各项 e a i e^{a_i} eai 的局部梯度取原值为:

1 ∑ i = 1 n e a i (temp-2) \frac{1}{\sum_{i=1}^{n} e^{a_i}} \tag{temp-2} i=1neai1(temp-2)

  1. 指数求导(1)

e a k e^{a_k} eak

该步是自然指数运算,逆传播求 e a k e^{a_k} eak 的局部梯度取自身为: e a k e^{a_k} eak

因为 e a i e^{a_i} eai 被分别使用于正向传播 2正向转播 4 的运算,逆传播求 e a i e^{a_i} eai 的梯度前,需要将正向传播 2正向转播 4处的梯度(即 temp-2 与 temp-1)求和作为 e a i e^{a_i} eai 的逆传播输入值,即:

1 ∑ i = 1 n e a i + ( − t k e a k ) = 1 ∑ i = 1 n e a i − t k e a k \frac{1}{\sum_{i=1}^{n} e^{a_i}} + (- \frac{t_k}{e^{a_k}}) = \frac{1}{\sum_{i=1}^{n} e^{a_i}} - \frac{t_k}{e^{a_k}} i=1neai1+(eaktk)=i=1neai1eaktk

因此此处的梯度为:

e a k × ( 1 ∑ i = 1 n e a i − t k e a k ) = e a k 1 ∑ i = 1 n e a i − t k = y k − t k \begin{split} e^{a_k} \times (\frac{1}{\sum_{i=1}^{n} e^{a_i}} - \frac{t_k}{e^{a_k}}) \\ = \frac{e^{a_k}}{\frac{1}{\sum_{i=1}^{n} e^{a_i}}} - t_k \\ = y_k - t_k \end{split} eak×(i=1neai1eaktk)=i=1neai1eaktk=yktk

即通过 SoftmaxWithLoss 层的逆传播过程推演计算,我们得到了损失函数 L 关于输入 a k a_k ak 的梯度为式 5:

∂ L ∂ a k = y k − t k (5) \frac{\partial{L}}{\partial{a_k}} = y_k - t_k \tag{5} akL=yktk(5)

相比数值微分法求梯度需要大量计算,我们可以直接利用公式 5 求损失函数 L 关于输入 a k a_k ak 的梯度,这将极大提高计算效率。

代码实现参考

根据上文 SoftmaxWithLoss 层的正向传播算式 4 与逆传播算式 5,我们可以轻易实现 SoftmaxWithLoss 层:

class SoftmaxWithLoss:
    def __init__(self):
        self.loss = None
        self.y = None  # softmax的输出
        self.t = None  # 监督数据

    def forward(self, x, t):
        """
        前向传播

        Args:
            x: 输入数据
            t: 监督数据

        Returns:
            float: 损失
        """

        self.t = t
        self.y = softmax(x)
        self.loss = cross_entropy_error(self.y, self.t)

        return self.loss

    def backward(self, dout=1):
        """
        逆传播

        Args:
            dout: 上游梯度

        Returns:
            np.ndarray: 损失关于输入 x 的梯度
        """

        batch_size = self.t.shape[0]
        if self.t.size == self.y.size:  # 监督数据是one-hot-vector的情况
            dx = (self.y - self.t) / batch_size
        else:
            dx = self.y.copy()
            dx[np.arange(batch_size), self.t] -= 1
            dx = dx / batch_size

        return dx

测试 SoftmaxWithLoss 层的正向传播与逆传播:

softmax_with_loss = SoftmaxWithLoss()

# 示例数据
a = np.array([[1.0, 2.0, 0.5], [0.0, 1.0, 1.0]])  # 未归一化输出
t = np.array([[1, 0, 0], [0, 1, 0]])  # one-hot 编码标签

# 前向传播
loss = softmax_with_loss.forward(a, t)

# 逆传播
da = softmax_with_loss.backward()

print("Softmax Result:\n", softmax_with_loss.y)
print("Cross Entropy Loss:", loss)
print("Gradient:\n", da)
# Softmax Result:
#  [[0.2312239  0.62853172 0.14024438]
#  [0.1553624  0.4223188  0.4223188 ]]
# Cross Entropy Loss: 1.1631814594485623
# Gradient:
#  [[-0.38438805  0.31426586  0.07012219]
#  [ 0.0776812  -0.2888406   0.2111594 ]]

将以上逆传播求梯度的过程套用在神经网络损失函数关于权重参数的梯度求解上,我们就实现一个高效的神经网络学习算法,这就是 BP 算法。

交叉熵误差概念回顾

以多分类任务为例,我们知道其交叉熵误差的计算公式为:

L ( y , t ) = − ∑ i t i log ⁡ ( y i ) L(y, t) = -\sum_{i} t_i \log(y_i) L(y,t)=itilog(yi)

其中:

  • y y y 是模型的输出,通常是经过 softmax 函数处理得到的预测概率分布。
  • t t t 是真实标签,通常是 one-hot 编码表示的实际结果。

使用 Python 代码实现的交叉熵误差函数:

import numpy as np

def cross_entropy_error(y, t):
    """
    交叉熵误差函数

    Args:
        y: 神经网络的输出
        t: 监督数据

    Returns:
        float: 交叉熵误差
    """

    # 监督数据是 one-hot-vector 的情况下,转换为正确解标签的索引
    if t.size == y.size:
        t = t.argmax(axis=1)

    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

Softmax 函数实现回顾

def softmax(x):
   """归一化指数函数"""
   if x.ndim == 2:
       x = x.T
       x = x - np.max(x, axis=0)
       y = np.exp(x) / np.sum(np.exp(x), axis=0)
       return y.T

   x = x - np.max(x)  # 溢出对策
   return np.exp(x) / np.sum(np.exp(x))

结语

我们通过 BP 算法的正向传播与逆传播过程,演示了如何高效计算神经网络的梯度。通过 BP 算法,我们可以直接计算损失函数关于权重参数的梯度,而不需要通过数值微分法进行梯度计算,这将大大提高神经网络的训练效率。

BP 算法是迄今最成功的神经网络学习算法,通常神经网络(不限于前馈神经网络)都使用 BP 算法进行训练。“BP 网络”特指使用 BP 算法训练的多层前馈神经网络。

BP 算法实质是 LMS(Least Mean Square)算法的推广。LMS 试图使网络的输出均方误差最小化,用于神经元激活函数可微的感知机学习,LMS 推广到由非线性可微神经元组成的多层前馈网络,就是 BP 算法。


PS:感谢每一位志同道合者的阅读,欢迎关注、点赞、评论!


  • 上一篇:深度学习|损失函数:网络参数优化基准
  • 专栏:「数智通识」 | 「机器学习」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/882776.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

网络原理(4)——网络层(IP)、数据链路层

1. IP 协议 基本概念: 主机:配有 IP 地址,但是不进行路由控制的设备 路由器:即配有 IP 地址,又能进行路由控制 节点:主机和路由器的统称 IP 协议报头格式 1) 4 位版本:实际上只有两个取值&…

RabbitMQ 高级特性——发送方确认

文章目录 前言发送方确认confirm 确认模式return 退回模式 常见面试题 前言 前面我们学习了 RabbitMQ 中交换机、队列和消息的持久化,这样能够保证存储在 RabbitMQ Broker 中的交换机和队列中的消息实现持久化,就算 RabbitMQ 服务发生了重启或者是宕机&…

安卓13去掉下拉菜单的Dump SysUI 堆的选项 android13删除Dump SysUI 堆

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析3.1 位置13.2 位置24.代码修改5.编译6.彩蛋1.前言 客户需要去掉下拉菜单里面的Dump SysUI 堆图标,不让使用这个功能。 2.问题分析 android的下拉菜单在systemui里面,这里我们只需要定位到对应的添加代…

通义灵码AI 程序员正式发布:写代码谁还动手啊

虽然见不到面 但你已深潜我心 前几天,在 2024 年的杭州云栖大会上,随着通义大模型能力的全面提升,阿里云通义灵码这位中国的首位 AI 程序员也迎来重大的升级。 一年前这位 AI 程序员还只能完成基础的编程任务,到现在可以做到几…

2024年华为杯研究生数学建模竞赛D题(时空演化模型+脆性指数 完整文章|可视化)

2024年华为杯研究生数学建模竞赛D题 全文请从 底部名片 处加群获取哦~ 问题重述 题目背景: 地理系统是由自然和人文多要素综合作用形成的复杂巨系统。传统上,地理学家通过宏观结构和定性分析方法描述地理系统的主导特征,如地形分布、气候…

LabVIEW闪退

LabVIEW闪退或无法启动可能由多个原因引起,特别是在使用了一段时间后突然发生的问题。重启电脑后 LabVIEW 和所有 NI 软件都无法打开,甚至在卸载和重装时也没有反应。这种情况通常与系统环境、软件冲突或 NI 软件组件的损坏有关。 1. 检查系统和软件冲突…

使用 Docker 部署 RStudio 的终极教程

一.介绍 在现代数据科学和统计分析领域,RStudio 是一个广受欢迎的集成开发环境(IDE),为用户提供了强大的工具来编写、调试和可视化 R 代码。然而,传统的 RStudio 安装可能面临环境配置复杂、版本兼容性等问题。Docker…

CentOS7搭建Hadoop3集群教程

一、集群环境说明 1、用VMware安装3台Centos7虚拟机 2、虚拟机配置:2C,2G内存,50G存储 3、集群架构设计 从表格中,可以看出,Hadoop集群,主要有2个模块服务,一个是HDFS服务,一个是YAR…

不靠学历,不拼年资,怎么才能月入2W?

之前统计局发布了《2023年城镇单位就业人员年平均工资情况》,2023年全国城镇非私营单位和私营单位就业人员年平均工资分别为120698元和68340元。也就是说在去年非私营单位就业人员平均月薪1W,而私营单位就业人员平均月薪只有5.7K左右。 图源:…

视频监控相关笔记

一、QT 之 QTreeWidget 树形控件 Qt编程指南,Qt新手教程,Qt Programming Guide 一个树形结构的节点中的图表文本 、附带数据的添加: QTreeWidgetItem* TourTreeWnd::InsertNode(NetNodeInfo node, QTreeWidgetItem* parent_item) { // …

asp.net core日志与异常处理小结

asp.net core的webApplicationBuilder中自带了一个日志组件,无需手动注册服务就能直接在控制器中构造注入,本文主要介绍了net core日志与异常处理小结,需要的朋友可以参考下 ILogger简单使用 asp.net core的webApplicationBuilder中自带了一个日志组件…

Redis的一些数据类型(一)

(一)数据类型 我们说redis是key value键值对的方式存储数据,key是字符串,而value是一些数据结构,那今天就来说一下value存储的数据。 我们数据结构包含,String,hash,list,set和zest但…

新手卖家做跨境电商,选择Shopee还是亚马逊?

对于刚刚涉足跨境电商领域的新人来说,选择合适的电商平台是迈出成功第一步的关键。目前最主流的跨境平台一定是亚马逊,平台覆盖全球各个市场,利润高,但门槛也高。Shopee主要面向的是东南亚市场,商品一般更有性价比&…

LabVIEW界面输入值设为默认值

在LabVIEW中,将前面板上所有控件的当前输入值设为默认值,可以通过以下步骤实现: 使用控件属性节点:你可以创建一个属性节点来获取所有控件的引用。 右键点击控件,选择“创建” > “属性节点”。 设置属性节点为“D…

Unity开发绘画板——02.创建项目

1.创建Unity工程 我们创建一个名为 DrawingBoard 的工程,然后先把必要的工程目录都创建一下: 主要包含了一下几个文件夹: Scripts :存放我们的代码文件 Scenes :工程默认会创建的,存放场景文件 Shaders &…

加固与脱壳01 - 环境搭建

虚拟机 VMWare 多平台可用,而且可以直接激活,需要先注册一个账号 https://support.broadcom.com/group/ecx/productdownloads?subfamilyVMwareWorkstationPro KALI 类Ubuntu系统,官方提供了 vmware 版本,直接下载就可以使用。…

关于安卓App自动化测试的一些想法

安卓App自动化一般使用PythonAppium。页面元素通常是使用AndroidStudio中的UI Automator Viewer工具来进行页面元素的追踪。但是这里涉及到一个问题就是,安卓apk在每次打包的时候,会进行页面的混淆以及加固,所以导致每次apk打包之后会出现页面…

[Linux]用户管理指令

开机/重启/登录/注销 进入xhsell 或者虚拟系统中, 右键桌面打开终端, 在终端执行命令, 重启或关机linux系统 建议使用普通账号登录, 如果权限不够时, 使用 su - 用户名 命令切换到超管, 然后再使用 logout命令退回到普通账号, logout 不能在图形界面的终端中使用 用户管理 Li…

网络信息传输安全

目录 机密性-加密 对称加密 非对称加密 身份认证 摘要算法和数据完整性 数字签名 签名验签 数字证书 申请数字证书所需信息 数字证书的生成 数字证书的应用 https协议 数字证书的申请 数据在网络中传输过程中,怎么做到 数据没有被篡改?hash算…

基于PHP的新闻管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于phpMySQL的新闻管理系统。…