Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)

Pytorch常用的函数(六)常见的归一化总结(BatchNorm/LayerNorm/InsNorm/GroupNorm)

常见的归一化操作有:批量归一化(Batch Normalization)、层归一化(Layer Normalization)、实例归一化(Instance Normalization)、组归一化(Group Normalization)等。

其归一化操作示意图如下:

(下图来自Group Normalization论文,地址: https://arxiv.org/pdf/1803.08494.pdf)

在这里插入图片描述

在CV领域,深度网络中的数据维度一般是[N, C, H, W]格式,N是batch size,H/W是feature的高/宽,C是feature的channel,压缩H/W至一个维度。

其三维的表示如上图,假设单个方格的长度是1,那么其表示的是[6, 6,*, * ]

上图形象的表示了四种norm的工作方式:

  • BN在batch的维度上norm,归一化维度为[N,H,W],对batch中对应的channel归一化;
  • LN避开了batch维度,归一化的维度为[C,H,W];
  • IN 归一化的维度为[H,W];
  • 而GN介于LN和IN之间,其首先将channel分为许多组(group),再对每一组做归一化。
  • 我们下面以nlp中三维数据[N, L, C]为例进行详细讲解。

1 批归一化(BatchNorm)

BN应该是我们最熟悉的归一化操作了,批归一化的核心思想是:以一个小批量数据样本为单位在对应维度上进行标准化

1.1 批归一化的计算公式

数据归一化方法很简单,就是要让数据具有0均值和单位方差,如下式:
y = x − E [ x ] V a r [ x ] + ϵ y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} y=Var[x]+ϵ xE[x]
但是如果简单的这么干,会降低层的表达能力。比如在使用sigmoid激活函数的时候,如果把数据限制到0均值单位方差,那么相当于只使用了激活函数中近似线性的部分,这显然会降低模型表达能力。

为此,作者又为BN增加了2个参数,用来保持模型的表达能力,这样就公式就变为下式的形式:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

  • 上述公式中用到了均值E和方差Var,需要注意的是理想情况下E和Var应该是针对整个数据集的,但显然这是不现实的。因此,作者做了简化,用一个Batch的均值和方差作为对整个数据集均值和方差的估计。
  • BN与常用的数据归一化最大的区别就是加了后面这两个参数,这两个参数主要作用是在加速收敛和表征破坏之间做的trade off。
    • 以Sigmoid激活函数为例,批量归一化之后数据整体处于函数的非饱和区域, 只包含线性变换,破坏了之前学习到的特征分布。
    • 为了恢复原始数据分布,具体实现中引入了变换重构以及可学习参数gamma和beta ,即规范化后的隐层表示将输入数据限制到了一个全局统一的确定范围,为了保证模型的表达能力不因为规范化而下降
    • beta 是再平移参数,gamma是再缩放参数。

1.2 批归一化的api验证

批归一化的计算步骤如下:

  1. 对于每个批次的输入样本,在每个通道上分别计算均值和标准差。
    • 如下图所示,一共有6(embeding_dim)个通道
    • 每个通道,用36(seq_len×batch_size)个数据计算出1个均值,一共计算出6个均值
  2. 使用每个通道上的均值和标准差,对该样本中的每个通道内的元素进行归一化。

在这里插入图片描述

api官方文档: https://pytorch.org/docs/stable/generated/torch.nn.BatchNorm1d.html

torch.nn.BatchNorm1d(
    num_features,   # 通道
    eps=1e-05,      # 避免归一化时分母为0
    momentum=0.1,   # 用来计算running_mean和running_var的一个量
    affine=True,    # 是否进行缩放平移,即gamma和beta参数是否启用
    track_running_stats=True,  # 是否统计全局的running_mean和running_var
    device=None, 
    dtype=None
)

我们通过手动实现BatchNorm1d来验证公式:

import torch
import torch.nn as nn


def bn_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置affine=False,不启用gamma和beta参数
    bn_op = nn.BatchNorm1d(num_features=embedding_dim, affine=False)
    # 输入要求是 N C L,需要变换维度
    # N is the batch size, 
    # C is the number of features or channels
    # L is the sequence length
    bn_y = bn_op(input_x.transpose(-1, -2)).transpose(-1, -2)

    print('官方api的bn结果:\n', bn_y)

    # 2、手动实现bn
    # 在【每个通道】上分别计算均值和标准差
    # 这里一共4(embedding_dim)个通道
    # 即在batch维度和seq_len维度,求均值和标准差(即上图蓝色部分)
    bn_mean = input_x.mean(dim=(0, 1), keepdim=True)
    # unbiased=False  使用有偏估计来计算标准差
    bn_std = input_x.std(dim=(0, 1), unbiased=False, keepdim=True)
    print('均值:\n', bn_mean)
    print('标准差:\n', bn_std)

    eps = 1e-5
    # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
    verify_bn_y = (input_x - bn_mean) / (bn_std + eps)  # bn_mean和bn_std会触发广播机制
    print('自己实现的bn结果:\n', verify_bn_y)


if __name__ == '__main__':
    bn_nlp()
# 可以看到官方api的bn结果和自己计算的bn结果一致
原始的输入:
 tensor([[[-1.9182, -0.8153, -0.2014, -0.0894],
          [ 0.6366, -1.1906, -1.2189, -0.2368],
          [ 2.1686, -0.3856, -0.1906,  0.9672]],

         [[ 0.5857, -0.7613, -0.0867, -0.6334],
          [ 0.1875, -1.3680,  0.2689,  0.5938],
          [-0.8454,  1.4016,  0.7525, -0.8184]]])
官方api的bn结果:
 tensor([[[-1.6096, -0.3228, -0.1488, -0.0839],
          [ 0.3925, -0.7329, -1.8555, -0.3162],
          [ 1.5930,  0.1468, -0.1306,  1.5814]],

         [[ 0.3525, -0.2638,  0.0436, -0.9413],
          [ 0.0405, -0.9268,  0.6400,  0.9928],
          [-0.7689,  2.0996,  1.4513, -1.2329]]])
均值:
# (-1.9182+0.6366+2.1686+0.5857+0.1875-0.8454)/6 = 0.1358
 tensor([[[ 0.1358, -0.5199, -0.1127, -0.0362]]])
标准差:
 tensor([[[1.2761, 0.9151, 0.5961, 0.6345]]])
自己实现的bn结果:
 tensor([[[-1.6096, -0.3228, -0.1488, -0.0839],
          [ 0.3925, -0.7329, -1.8555, -0.3162],
          [ 1.5930,  0.1468, -0.1306,  1.5814]],

         [[ 0.3525, -0.2638,  0.0436, -0.9413],
          [ 0.0405, -0.9268,  0.6400,  0.9928],
          [-0.7689,  2.0996,  1.4513, -1.2329]]])

1.3 批归一化的注意点

1.3.1 使用场景

BN的适用性

  • 每个 mini-batch 比较大,数据分布比较接近。
  • 在进行训练之前,要做好充分的 shuffle,否则效果会差很多。

不能使用BN的场景

  • 在使用小batch size的时候不稳定

  • 对于在线学习不好

  • 对于循环神经网络不好,RNN不适合用BN的原因:Normalize的对象(position)来自不同分布。

    • CNN中使用BN,对一个batch内的每个channel做标准化。多个训练图像的同一个channel,大概率来自相似的分布。(例如树的图,起始的3个channel是3个颜色通道,都会有相似的树形状和颜色深度)
    • RNN中使用BN,对一个batch内的每个position做标准化。多个sequence的同一个position,很难说来自相似的分布。(例如都是影评,但可以使用各种句式,同一个位置出现的词很难服从相似分布)
    • 所以RNN中BN很难学到合适的μ和σ,将来自不同分布的特征做正确变换,甚至带来反作用,所以效果不好。

1.3.2 BN的作用

  • 改善流经网络的梯度

  • 允许更大的学习率,大幅提高训练速度。现在我们可以采用初始很大的学习率,然后学习率的衰减速度也很大,因为这个算法收敛很快。当然这个算法即使你选择了较小的学习率,也比以前的收敛速度快,因为它具有快速训练收敛的特性;

  • 减少对初始化的强烈依赖

  • 改善正则化策略。作为正则化的一种形式,轻微减少了对dropout的需求。你再也不用去理会过拟合中drop out、L2正则项参数的选择问题,采用BN算法后,你可以移除这两项参数,或者可以选择更小的L2正则约束参数了,因为BN具有提高网络泛化能力的特性;

  • 再也不需要使用使用局部响应归一化层了(局部响应归一化是Alexnet网络用到的方法),因为BN本身就是一个归一化网络层;

  • 可以把训练数据彻底打乱(防止每批训练的时候,某一个样本都经常被挑选到,文献说这个可以提高1%的精度)。

1.3.3 BN在训练和推理时候的差异

  • 在训练时,是对每一批的训练数据进行归一化,也即用每一批数据的均值和方差。

    • BN训练时为什么不用全量训练集的均值和方差呢?
    • 因为用全量训练集的均值和方差容易过拟合,对于BN,其实就是对每一批数据进行归一化到一个相同的分布,而每一批数据的均值和方差会有一定的差别,而不是用固定的值,这个差别实际上能够增加模型的鲁棒性,也会在一定程度上减少过拟合。
    • 也正是因此,BN一般要求将训练集完全打乱,并用一个较大的batch值,否则,一个batch的数据无法较好得代表训练集的分布,会影响模型训练的效果。
  • 在推理时,比如进行一个样本的预测,就并没有batch的概念,因此用的是全量训练数据的均值和方差,可以通过移动平均法求得。

2 层归一化(LayerNorm)

2.1 层归一化概述

层归一化的公式,和批归一化相同:
y = x − E [ x ] V a r [ x ] + ϵ ∗ γ + β y = \frac{x - \mathrm{E}[x]}{\sqrt{\mathrm{Var}[x] + \epsilon}} * \gamma + \beta y=Var[x]+ϵ xE[x]γ+β

2.2.1 层归一化的优缺点

  • 层规范化就是针对 BN 的不足而提出的。

  • LN 针对单个训练样本进行,不依赖于其他数据,因此可以避免 BN 中受 mini-batch 数据分布影响的问题

    • 可以用于 小mini-batch场景、动态网络场景和 RNN,特别是自然语言处理领域。
    • LN则是独立于batch_size的。
  • 此外,LN 不需要保存 mini-batch 的均值和方差,节省了额外的存储空间。

  • 需要注意的是:

    • BN 的转换是针对单个神经元可训练的,即不同神经元的输入经过再平移和再缩放后分布在不同的区间。
    • 而 LN 对于一整层的神经元训练得到同一个转换,即所有的输入都在同一个区间范围内。
    • 因此,如果不同输入特征不属于相似的类别(比如颜色和大小),那么 LN 的处理可能会降低模型的表达能力。

2.2.2 BN和LN的差异

  • BatchNorm就是通过对batch size这个维度归一化来让分布稳定下来。

  • LayerNorm则是通过对Hidden size这个维度归一化来让某层的分布稳定。

  • 在BN和LN都能使用的场景中,BN的效果一般优于LN,原因是基于不同数据,同一特征得到的归一化特征更不容易损失信息。

  • 但是有些场景是不能使用BN的,例如: batchsize较小或者在RNN中,这时候可以选择使用LN,LN得到的模型更稳定且起到正则化的作用。LN能应用到小批量和RNN中是因为LN的归一化统计量的计算是和batchsize没有关系的。

2.2.3 Bert、Transformer中为何使用的是LN

为何CV数据任务上很少用LN,用BN的比较多,而NLP上应用LN是比较多?

第一种解释如下:

我们用文本数据句话来说明BN和LN的操作区别。

我是中国人我爱中国
武汉抗疫非常成功0
大家好才是真的好0
人工智能很火000
  • 上面的4条文本数据组成了一个batch的数据,那么BN的操作的时候,就会把4条文本相同位置的字来做归一化处理,例如:我、武、大、人(每个embedding第i个位置一起进行归一化),这里就破坏了一个字内在语义的联系。

  • 而LN则是针对每一句话的每个token embedding做归一化处理。从这个角度看,LN就比较适合NLP任务,也就是bert和Transformer用的比较多。

  • 第一个解释从反面证明BN不适合作归一化,它是对batch个词的某个embedding位置进行归一化,不合理。

第二个解释如下:

batch normalization不具备的两个功能:

  • 1、layer normalization 有助于得到一个球体空间中符合均值为0、方差为1高斯分布的 embedding。NLP数据则是由embedding开始的,这个embedding并不是客观存在的,它是由我们设计的网络学习出来的。通过layer normalization得到的embedding是以坐标原点为中心,1为标准差,越往外越稀疏的球体空间中,这个正是我们理想的数据分布

  • 2、layer normalization可以对transformer学习过程中由于多词条embedding累加可能带来的“尺度”问题施加约束,相当于对表达每个词一词多义的空间施加了约束,有效降低模型方差。简单来说,每个词有一片相对独立的小空间,通过在这个小空间中产生一个小的偏移来达到表示一词多义的效果。transformer每一层都做了这件事,也就是在不断调整每个词在空间中的位置,这个调整就可以由layer normalization 来实现,batch normalization是做不到的。

2.2 层归一化的api验证

  • 层归一化计算步骤
  1. 对于每个样本内的每个层级,计算该层级上的均值和标准差。
    • 如下图所示,每一道红线(embeding_dim个数据计算)计算一个均值和标准差
    • 下图中,一共有6个样本,每个样本有6个层级,因此会计算出36个均值
  2. 使用每个层级的均值和标准差,对每个样本内的通道进行归一化。

在这里插入图片描述

api官方文档:https://pytorch.org/docs/stable/generated/torch.nn.LayerNorm.html

torch.nn.LayerNorm(
    normalized_shape, 
    eps=1e-05, 
    elementwise_affine=True, 
    bias=True, 
    device=None, 
    dtype=None
)

我们通过手动实现LayerNorm来验证公式:

def ln_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置elementwise_affine=False,不启用gamma和beta参数
    ln_op = nn.LayerNorm(normalized_shape=embedding_dim, elementwise_affine=False)
    # 输入要求是 [N, *],不需要变换维度
    ln_y = ln_op(input_x)

    print('官方api的ln结果:\n', ln_y)

    # 2、手动实现layer norm
    # 对于【每个样本内的每个层级】,计算该层级上的均值和标准差
    # 这里有2(batch_size)个样本,每个样本有3(seq_len)个层级
    ln_mean = input_x.mean(dim=-1, keepdim=True)
    # unbiased=False  使用有偏估计来计算标准差
    ln_std = input_x.std(dim=-1, unbiased=False, keepdim=True)
    print('均值:\n', ln_mean)
    print('标准差:\n', ln_std)

    eps = 1e-5
    # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
    verify_ln_y = (input_x - ln_mean) / (ln_std + eps)  # 触发广播机制
    print('自己实现的ln结果:\n', verify_ln_y)



if __name__ == '__main__':
    ln_nlp()
# 可以看到官方api的ln结果和自己计算的ln结果一致
原始的输入:
 tensor([[[-0.9624,  1.2447,  0.6740,  0.2548],
          [-0.4195,  1.3283, -2.7728,  0.8382],
          [ 0.8185, -0.5858,  0.0787,  0.6890]],

         [[-0.8232, -2.5022, -0.7234,  0.3765],
          [ 1.2651, -0.9825, -0.3684, -0.1102],
          [ 0.0357,  1.5741,  1.1220, -0.5346]]])
官方api的ln结果:
 tensor([[[-1.5608,  1.1621,  0.4580, -0.0592],
          [-0.1028,  0.9989, -1.5861,  0.6900],
          [ 1.0193, -1.4990, -0.3074,  0.7871]],

         [[ 0.0922, -1.5400,  0.1892,  1.2586],
          [ 1.5983, -1.1353, -0.3885, -0.0744],
          [-0.6120,  1.2212,  0.6825, -1.2916]]])
均值:
 tensor([[[ 0.3028],  # (-0.9624+1.2447+0.6740+0.2548)/4 = 0.3028
          [-0.2565],
          [ 0.2501]],

         [[-0.9180],
          [-0.0490],
          [ 0.5493]]])
标准差:
 tensor([[[0.8106],
          [1.5865],
          [0.5576]],

         [[1.0286],
          [0.8222],
          [0.8392]]])
自己实现的ln结果:
 tensor([[[-1.5608,  1.1621,  0.4580, -0.0592],
          [-0.1028,  0.9989, -1.5861,  0.6900],
          [ 1.0193, -1.4990, -0.3074,  0.7871]],

         [[ 0.0922, -1.5400,  0.1892,  1.2585],
          [ 1.5983, -1.1353, -0.3885, -0.0744],
          [-0.6120,  1.2212,  0.6825, -1.2916]]])

3 实例归一化(InstanctNorm)

3.1 实例归一化概述

  • 区别:实例归一化独立于批次和通道。每个样本都有自己的归一化参数。
  • 适用场景:适用于图像生成、风格迁移等需要保留每个样本独特性的任务,因为它不会引入批次间的相关性,更适合处理单个样本或小批量的情况。

3.2 实例归一化的api验证

  • 实例归一化的计算步骤
  1. 对于每个输入样本,在每个通道上分别计算均值和标准差。
    • 如下图,一共有6个输入样本,6个通道数据
    • 下图的蓝色区域计算一个均值和标准差,一共计算出36个均值
  2. 使用每个通道上的均值和标准差,对该样本中的每个通道内的元素进行归一化。

在这里插入图片描述

api官方文档:https://pytorch.org/docs/stable/generated/torch.nn.InstanceNorm1d.html

torch.nn.InstanceNorm1d(
    num_features, 
    eps=1e-05, 
    momentum=0.1, 
    affine=False, 
    track_running_stats=False, 
    device=None, 
    dtype=None
)

我们通过手动实现InstanceNorm1d来验证公式:

def in_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置affine=False,不启用gamma和beta参数
    in_op = nn.InstanceNorm1d(num_features=embedding_dim, affine=False)
    # 输入要求是 [N, C, L],需要变换维度
    in_y = in_op(input_x.transpose(-1, -2)).transpose(-1, -2)

    print('官方api的in结果:\n', in_y)

    # 2、手动实现instant norm
    # 对于每个输入样本,在每个通道上分别计算均值和标准差
    # 这里有2(batch_size)个样本,有4(embedding_dim)个通道
    in_mean = input_x.mean(dim=1, keepdim=True)
    # unbiased=False  使用有偏估计来计算标准差
    in_std = input_x.std(dim=1, unbiased=False, keepdim=True)
    print('均值:\n', in_mean)
    print('标准差:\n', in_std)

    eps = 1e-5
    # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
    verify_in_y = (input_x - in_mean) / (in_std + eps)  # 触发广播机制
    print('自己实现in结果:\n', verify_in_y)

if __name__ == '__main__':
    in_nlp()
原始的输入:
 tensor([[[ 1.4341, -0.4215,  1.1963, -0.6798],
          [-0.4178, -0.3566,  0.6031, -0.9045],
          [ 0.2921, -1.4179,  0.8111, -1.7165]],

         [[-0.8753,  1.8243,  1.7770, -0.6461],
          [ 0.6337,  1.9972,  0.1212, -1.1680],
          [ 0.2313,  0.4167, -1.0360, -0.3761]]])
官方api的in结果:
 tensor([[[ 1.3082,  0.6393,  1.3270,  0.9443],
          [-1.1194,  0.7728, -1.0866,  0.4396],
          [-0.1888, -1.4121, -0.2404, -1.3838]],

         [[-1.3665,  0.5815,  1.2904,  0.2554],
          [ 0.9986,  0.8257, -0.1440, -1.3323],
          [ 0.3680, -1.4072, -1.1464,  1.0768]]])
均值:
 # (1.4341-0.4178+0.2921)/3 = 0.4361
 tensor([[[ 0.4361, -0.7320,  0.8701, -1.1003]],

        [[-0.0034,  1.4127,  0.2874, -0.7301]]])
标准差:
 tensor([[[0.7629, 0.4857, 0.2457, 0.4453]],

        [[0.6380, 0.7078, 1.1544, 0.3287]]])
自己实现in结果:
 tensor([[[ 1.3081,  0.6393,  1.3271,  0.9443],
          [-1.1194,  0.7728, -1.0867,  0.4396],
          [-0.1888, -1.4121, -0.2404, -1.3838]],

         [[-1.3665,  0.5815,  1.2904,  0.2554],
          [ 0.9986,  0.8257, -0.1440, -1.3323],
          [ 0.3680, -1.4071, -1.1464,  1.0768]]])

4 组归一化(Group Norm)

4.1 组归一化概述

  • 我们已经知道对于BN来说,过小的batch size会导致其性能下降,一般来说每GPU上batch设为32最合适

  • 但是对于一些其他深度学习任务batch size往往只有1-2,比如目标检测,图像分割,视频分类上,输入的图像数据很大,较大的batchsize显存吃不消。

  • 在这里插入图片描述

  • 另外,BN是在batch这个维度上Normalization,但是这个维度并不是固定不变的,比如训练和测试时一般不一样,一般都是训练的时候在训练集上通过滑动平均预先计算好平均-mean,和方差-variance参数,在测试的时候,不在计算这些值,而是直接调用这些预计算好的来用,但是,当训练数据和测试数据分布有差别是时,训练机上预计算好的数据并不能代表测试数据。

  • 既然明确了问题,解决起来就简单了,归一化的时候避开batch这个维度是不是可行呢,于是就出现了layer normalization和instance normalization等工作,但是仍比不上GN。

  • GN的极端情况就是LN和IN,分别对应G等于1和G等于C,作者在论文中给出G设为32较好。

4.2 组归一化的api验证

  • 组归一化的计算步骤
  1. 对于每个输入样本,在每个组上(下图整块蓝色区域)分别计算均值和标准差。
    • 如下图,一共有6个输入样本,2个组
    • 下图的蓝色区域计算一个均值和标准差,一共计算出12个均值
  2. 使用每个组上的均值和标准差,对该组中的元素进行归一化。

在这里插入图片描述

api的官方文档:https://pytorch.org/docs/stable/generated/torch.nn.GroupNorm.html

torch.nn.GroupNorm(
    num_groups,   # 分组的组数
    num_channels, # channel的个数
    eps=1e-05, 
    affine=True, 
    device=None, 
    dtype=None
)

我们通过手动实现GroupNorm来验证公式:

def group_nlp():
    batch_size = 2
    seq_len = 3
    embedding_dim = 4

    input_x = torch.randn(batch_size, seq_len, embedding_dim)  # N L C

    print('原始的输入:\n', input_x)

    # 1、调用官网api
    # 设置affine=False,不启用gamma和beta参数
    # 设置分为2组
    group_op = nn.GroupNorm(num_groups=2, num_channels=embedding_dim, affine=False)
    # 输入要求是 [N, C, *],需要变换维度
    group_y = group_op(input_x.transpose(-1, -2)).transpose(-1, -2)

    print('官方api的group结果:\n', group_y)

    # 2、手动实现group norm
    # 将输入按照通道切分为2组
    g_input_xs = torch.split(input_x, split_size_or_sections=embedding_dim // 2, dim=-1)

    # 循环2组,进行归一化
    results = []
    for index, g_input_x in enumerate(g_input_xs):
        # 对于每个输入样本,在每个组上分别计算均值和标准差
        group_mean = g_input_x.mean(dim=(1, 2), keepdim=True)
        # unbiased=False  使用有偏估计来计算标准差
        group_std = g_input_x.std(dim=(1, 2), unbiased=False, keepdim=True)
        print(f'第{index + 1}组均值:\n', group_mean)
        print(f'第{index + 1}组标准差:\n', group_std)
        eps = 1e-5
        # note: 官方文档是将eps放入方差之中再开根号,不过这里对值影响不大
        g_result = (g_input_x - group_mean) / (group_std + eps)
        results.append(g_result)
    # 再次拼接    
    verify_gn_y = torch.cat(results, dim=-1)
    print('自己实现group结果:\n', verify_gn_y)


if __name__ == '__main__':
    group_nlp()
原始的输入:
 tensor([[[ 0.6412, -0.9580,  0.1505, -0.9598],
          [-0.2981, -1.5032,  0.3579, -0.8543],
          [ 0.0351, -0.0369, -1.4433,  1.0080]],

         [[-0.2616,  0.2139, -0.8719,  3.2135],
          [-1.0790,  0.0833,  0.8177, -0.0801],
          [ 1.2287, -2.2719,  0.6443, -0.3537]]])
官方api的group结果:
 tensor([[[ 1.4229, -0.8651,  0.5148, -0.7823],
          [ 0.0790, -1.6452,  0.7571, -0.6591],
          [ 0.5557,  0.4527, -1.3472,  1.5167]],

         [[ 0.0785,  0.5116, -1.0883,  2.0133],
          [-0.6661,  0.3926,  0.1944, -0.4872],
          [ 1.4360, -1.7527,  0.0627, -0.6949]]])
第1组均值:
 tensor([[[-0.3533]], # (0.6412-0.2981+0.0351-0.9580-1.5032-0.0369)/6=-0.3533

        [[-0.3477]]])
第1组标准差:
 tensor([[[0.6989]],

        [[1.0978]]])
第2组均值:
 tensor([[[-0.2902]],# (0.1505+0.3579-1.4433-0.9598-0.8543+1.0080)/6=-0.2902

        [[ 0.5616]]])
第2组标准差:
 tensor([[[0.8559]],

        [[1.3172]]])
自己实现group结果:
 tensor([[[ 1.4229, -0.8651,  0.5148, -0.7823],
          [ 0.0790, -1.6452,  0.7571, -0.6591],
          [ 0.5557,  0.4527, -1.3472,  1.5167]],

         [[ 0.0785,  0.5116, -1.0883,  2.0133],
          [-0.6661,  0.3926,  0.1944, -0.4872],
          [ 1.4360, -1.7527,  0.0627, -0.6949]]])

5 总结

四者联系:

  • 都属于归一化技术, 基本数学原理一模一样,目标是减少内部协变量偏移,加速网络训练
  • 都会计算均值和标准差,并做归一化处理

四者区别:

  • 适用场景不同:BN用于CNN,LN用于RNN,IN用于样式迁移,GN兼具BN和LN的优点
  • 归一化粒度不同:BN针对批,LN针对层,IN针对实例,GN针对通道组
  • 计算量不同:BN和GN计算量大,LN和IN计算量小
  • 是否使用批信息:BN使用批信息,LN、IN、GN不使用
  • BN和GN会减少特征表达的灵活性,LN和IN能够保留特征表达的灵活性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/311437.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

WindowsServer安装mysql最新版

安装 下载相应mysql安装包: MySQL :: Download MySQL Installer 选择不登陆下载 双击运行下载好的mysql-installer-community-*.*.*.msi 进入类型选择页面,本人需要mysql云服务就选择了server only server only(服务器)&#x…

第8章-第2节-Java中流的简单介绍

1、什么是流 我们可以先想象水流是怎样的?溪水不断流动,最终融入大海;我们今天的学习IO其实如同水流一样,当我们读取文件信息或者写入信息时,如同水流一样,不断读取或者写入,直到业务流程结束。…

【AI视野·今日CV 计算机视觉论文速览 第286期】Tue, 9 Jan 2024

AI视野今日CS.CV 计算机视觉论文速览 Tue, 9 Jan 2024 Totally 121 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning Authors Chen Zhao, Shuming Li…

Vercel配置自定义域名

首先你需要有一个域名 1.点击部署的项目设置 2.找到Domains 3.输入自己的域名 点击添加之后按要求去域名服务商添加解析即可 4.显示下面内容就设置完成了,

vscode配置Todo Tree插件

一、在VSCode中安装插件Todo Tree ​​​​ 二、按下快捷键ctrlshiftP,输入setting.jspn 选择相应的配置范围,我们选择的是用户配置 Open User Settings(JSON),将以下代码插入其中。 {//todo-tree 标签配置从这里开始 标签兼容大小写字母(…

The Sandbox 线下联动|「友邦嘉年华」地主专享门票免费放送

我们很高兴与票务合作伙伴 0xMoongate 合作, 为各位地主们准备了免费的“友邦嘉年华”门票! “友邦嘉年华”介绍: The Sandbox 是香港最大户外盛事之一“友邦嘉年华”的荣誉合作伙伴! 我们将这份兴奋延伸到现实世界&#xff0c…

【.NET Core】可为null类型详解

【.NET Core】可为null类型详解 文章目录 【.NET Core】可为null类型详解一、概述二、可为空的值类型2.1 声明和赋值2.2 检查可为空值类型2.3 基础类型与可为空的值类型互换2.4 可为空的值类型装箱和取消装箱2.5 如何确定可为空的值类型 三、可为 null 的引用类型 一、概述 nu…

Elasticsearch安装Windows版

目录 1.:下载安装包,选择指定的版本,这里选择了7.8.0,官网下载地址: ​编辑 2:下载好之后解压,解压之后是这样的: 3:配置环境变量,跟JDK一样,…

金和OA jc6 GetAttOut SQL注入漏洞复现

0x01 产品简介 金和OA协同办公管理系统软件(简称金和OA),本着简单、适用、高效的原则,贴合企事业单位的实际需求,实行通用化、标准化、智能化、人性化的产品设计,充分体现企事业单位规范管理、提高办公效率的核心思想,为用户提供一整套标准的办公自动化解决方案,以帮助…

大文件分片上传,断点续传,秒传 示例(待更新...)

1.html代码 <template><div class="card content-box"><el-upload ref="upload" class="upload-demo" action="https://run.mocky.io/v3/9d059bf9-4660-45f2-925d-ce80ad6c4d15":limit="1" :on-change=&quo…

Springboot+vue的毕业论文管理系统(有报告)。Javaee项目,springboot vue前后端分离项目

演示视频&#xff1a; Springbootvue的毕业论文管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot vue前后端分离项目 项目介绍&#xff1a; 本文设计了一个基于Springbootvue的前后端分离的毕业论文管理系统&#xff0c;采用M&#xff08;model&…

并发前置知识一:线程基础

一、通用的线程生命周期&#xff1a;“五态模型” 二、java线程有哪几种状态&#xff1f; New&#xff1a;创建完线程Runable&#xff1a;start(),这里的Runnable包含操作的系统的Running&#xff08;运行状态&#xff09;和Ready&#xff08;上面的可运行状态&#xff09;Blo…

【Kafka-3.x-教程】-【三】Kafka-Broker、Kafka-Kraft

【Kafka-3.x-教程】专栏&#xff1a; 【Kafka-3.x-教程】-【一】Kafka 概述、Kafka 快速入门 【Kafka-3.x-教程】-【二】Kafka-生产者-Producer 【Kafka-3.x-教程】-【三】Kafka-Broker、Kafka-Kraft 【Kafka-3.x-教程】-【四】Kafka-消费者-Consumer 【Kafka-3.x-教程】-【五…

java基础之异常练习题

异常 1.Java 中所有的错误/异常都继承自 Throwable类&#xff1b;在该类的子类中&#xff0c; Error 类表示严重的底层错误&#xff0c; 对于这类错误一般处理的方式是 直接报告并终止程序 &#xff1b; Exception 类表示异常。 2.查阅API&#xff0c;完成以下填空&#xff1a;…

【C#】使用 LINQ 中的 Skip() 和 Take()进行分页,为什么要分页,分页作用是什么

欢迎来到《小5讲堂》 大家好&#xff0c;我是全栈小5。 这是是《C#》序列文章&#xff0c;每篇文章将以博主理解的角度展开讲解&#xff0c; 特别是针对知识点的概念进行叙说&#xff0c;大部分文章将会对这些概念进行实际例子验证&#xff0c;以此达到加深对知识点的理解和掌握…

Linux 常用进阶指令

我是南城余&#xff01;阿里云开发者平台专家博士证书获得者&#xff01; 欢迎关注我的博客&#xff01;一同成长&#xff01; 一名从事运维开发的worker&#xff0c;记录分享学习。 专注于AI&#xff0c;运维开发&#xff0c;windows Linux 系统领域的分享&#xff01; 其他…

【内容管理系统】内容管理系统v1.0.0版本正式上线

目录 背景 体验 技术栈 功能菜单 示例图片 背景 为了开发一个无需开发人员&#xff0c;即可动态修改展示内容的内容管理系统&#xff0c;因此开发了当前的内容管理系统。 体验 体验地址&#xff1a;&#xff08;邮箱注册即可体验&#xff0c;部署的带宽有限&#xff0c…

java通过okhttp方式实现https请求的工具类(绕过证书验证)

目录 一、引入依赖包二、okhttp方式实现的https请求工具类2.1、跳过证书配置类2.2、okhttp方式的 https工具类 三、测试类 一、引入依赖包 引入相关依赖包 <!--okhttp依赖包--> <dependency><groupId>com.squareup.okhttp3</groupId><artifactId>…

C++标准学习--tuple

以下帖子介绍的比较详细&#xff1a; C的 tuple_c tuple-CSDN博客 tuple 是 C11 新标准里的类型&#xff0c;它是一个类似 pair 类型的模板。tuple 是一个固定大小的不同类型值的集合&#xff0c;是泛化的 std::pair。我们也可以把它当做一个通用的结构体来用&#xff0c;不需…

Electron中调用dll

截止目前Electron的官方稳定版本已经更新到了28.1.1。我在创建Electron项目时用的28.0.0版本&#xff0c;后面在项目中有用到调用dll方法的需求&#xff0c;大致的实现就是将后端给的dll文件引入到项目中&#xff0c;安装ffi-napi依赖&#xff0c;然后进行使用。但是在Electron…