AF3 AdaLN类源码解读

AdaLN 是一种 Adaptive Layer Normalization（自适应层归一化），通过组合多种归一化策略和自适应权重调整机制来实现更灵活的归一化。

核心思想：

对输入张量分别进行两种不同的 Layer Normalization。
利用一个 gamma 门控机制，动态调整两种归一化结果的权重。
添加一个跳跃连接（skip connection），以增强网络的表达能力。

源代码：

class AdaLN(nn.Module):
    """Adaptive Layer Normalization."""

    def __init__(self, normalized_shape):
        super(AdaLN, self).__init__()
        # Layer norms
        self.a_layer_norm = LayerNorm( # equivalent to scale=False, offset=False in Haiku
            normalized_shape,  
            elementwise_affine=False,
            bias=False
        )
        self.s_layer_norm = LayerNorm( # equivalent to scale=True, offset=False in Haiku
            normalized_shape,  
            elementwise_affine=True,
            bias=False
        )

        # Linear layers for gating and the skip connection
        dim = normalized_shape if isinstance(normalized_shape, int) else normalized_shape[-1]
        self.to_gamma = nn.Sequential(
            Linear(dim, dim, init='gating'),
            nn.Sigmoid()
        )
        self.skip_linear = LinearNoBias(dim, dim, init='final')

    def forward(se

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/944381.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！