文章目录
- abstract
abstract
- demo: https://musichifi.github.io/web/
- 主要用于高精度的音乐场景
- 文章主要做了两件事:(1)低频mel谱输入,生成更高频率的语音;(2)单声道音频生成立体声;
- 整体包含三个结构:(1)低频vocoder,低频mel还原低频音频;(2)band-width extension:HiFi vocder,低频音频生成高频音频;(3)mono-to-stereo,变立体声。
- 三个部分使用的都是BigVGAN的结构,权重/loss独立。其中,BigVGAN结构包含anti-aliasing multi-periodicity composition (AMP) block which internally uses a Snake activation function,别人的工作证明这种结构相比于简单的上卷积高频噪声更少。
- band-width extension:输入mel,输出高频音频。和第一个vocoder不同的是,提取mel时候的hop_size减半,从而mel帧数加倍,达到时间维度上采样两倍的效果。