Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
目录
0. 摘要
3. 方法
3.1 基础:通过下一个 token 预测进行自回归建模
3.2 通过下一尺度预测进行视觉自回归建模
3.3 实现细节
4. 实验
5. 未来工作
0. 摘要
我们提出了视觉自回归建模(Visual AutoRegressive,VAR),这是一种重新定义图像自回归学习的新一代范式,将其视为粗到细的 “下一尺度预测” 或 “下一分辨率预测”,与标准的逐行扫描 “下一个 token 预测” 有所不同。这种简单、直观的方法使得自回归(AR)transformer 能够快速学习视觉分布,并且具有良好的泛化能力:VAR 首次使得类似 GPT 的 AR 模型在图像生成方面超越了扩散 transformer。在 ImageNet 256×256 基准测试中,VAR 通过将 Fréchet Inception Distance(FID)从 18.65 提高到 1.80,将 Inception Score(IS)从 80.4 提高到 356.4,使得推理速度提高了 20 倍,显著改善了 AR 基线。经验验证显示,VAR 在图像质量、推理速度、数据效率和可扩展性等多个维度上优于扩散 transformer(DiT)。扩展 VAR 模型展示了类似 LLM 中观察到的幂律(power-law)尺度规律,线性相关系数接近 -0.998,这是坚实的证据。VAR 进一步展示了在包括 inpainting、 outpainting 和编辑在内的下游任务中的零样本泛化能力。这些结果表明,VAR 已经模拟了 LLM 的两个重要特性:尺度定律和零样本泛化。我们已经发布了所有模型和代码,以促进对于 AR/VAR 模型在视觉生成和统一学习方面的探索。
尝试探索我们的在线演示:https://var.vision
代码和模型:https://github.com/FoundationVision/VAR
3. 方法
3.1 基础:通过下一个 token 预测进行自回归建模
讨论。token 化(tokenizing)和扁平化(flattening)使得在图像上进行下一个 token 的自回归学习成为可能,但它们引入了几个问题:
- 违规数学前提。图像编码器通常会生成具有相互依赖特征向量 f^(i,j) 的图像特征图 f。因此,在量化和扁平化之后,token 序列 (x1, x2, . . . , xh×w) 展现出双向相关性。这与自回归模型的单向依赖假设相矛盾,该假设规定每个 token xt 只应该依赖于其前序 (x1, x2, . . . , x_(t−1))。
- 结构性下降。扁平化破坏了图像特征图中固有的空间局部性。例如,token q^(i,j) 及其 4 个直接相邻的 token q^(i±1,j)、q^(i,j±1) 由于它们的接近性而密切相关。这种空间关系在线性序列 x 中被削弱,单向约束减少了这些相关性。
- 效率低下。使用传统的自注意力 transformer 生成图像 token 序列 x = (x1, x2, . . . , x_(n×n)) 会产生 O(n^2) 的自回归步骤和 O(n^6) 的计算成本。
空间局部性的破坏(问题 2)是显而易见的。关于问题 1,我们在附录中提供了实证证据,分析了流行的量化自编码器 [19] 中的 token 依赖关系,并揭示了显著的双向相关性。有关问题 3 的计算复杂性证明详见附录。这些理论和实际限制促使我们重新思考图像生成背景下的自回归模型。
3.2 通过下一尺度预测进行视觉自回归建模
重新构想。我们通过将策略从 “下一个 token 预测” 转变为 “下一尺度预测”,来对图像上的自回归建模进行重新构想。在这里,自回归单元是一个完整的 token 映射,而不是单个 token。我们首先将特征图 f ∈ R^(h×w×C) 量化为 K 个多尺度 token 映射 (r1, r2, . . . , rK),每个 token 映射都具有逐渐增加的分辨率 hk × wk,最终 rK 与原始特征图的分辨率 h × w 相匹配。自回归似然性被表述为:
其中,每个自回归单元 r^k ∈ [V]^(hk×wk) 是尺度 k 上的 token 映射,序列 (r1, r2, . . . , rk−1) 作为 rk 的 “前序”。在第 k 个自回归步骤中,rk 中的 hk × wk 个 token 的所有分布相互依赖,并且将在并行条件下生成,条件是 rk 的前序和关联的第 k 个位置嵌入映射。这种 “下一尺度预测” 方法就是我们所定义的视觉自回归建模(VAR),如图 4 右侧所示。
讨论。VAR 解决了前面提到的三个问题:
- 如果我们限制每个 rk 只依赖于其前序,也就是说,获取 rk 的过程仅与 (r1, r2, . . . , rk−1) 相关,数学前提就会得到满足。这种约束是可以接受的,因为它与自然的粗到细的进展特性相符,就像人类的视觉感知和艺术绘画一样。关于这一点的更多细节将在下文的 token 化部分中提供。
- 空间局部性得到保留,因为在 VAR 中没有扁平化操作,并且每个 rk 中的 token 是完全相关的。多尺度设计进一步加强了空间结构。
- 生成具有 n × n 潜在图像的复杂度显着降低至 O(n^4),具体证明请参见附录。这种效率提升来自于每个 rk 中的并行 token 生成。
Tokenization。我们开发了一个新的多尺度量化自编码器,将图像编码为 K 个多尺度离散 token 映射 R = (r1, r2, . . . , rK),这对于 VAR 学习是必要的。我们采用了与 VQGAN [19] 相同的架构,但使用了修改后的多尺度量化层。在特征图 f 或 ˆf 上进行编码和解码过程,并采用了残差设计,详见算法 1 和 2。我们在经验上发现,类似于 [37] 的残差式设计比独立插值更有效。算法 1 表明,每个 rk 只会依赖于其前序 (r1, r2, . . . , rk−1)。请注意,跨所有尺度使用了共享的码本 Z,确保每个 rk 的 token 属于相同的词汇表 [V]。为了解决从 zk 扩展到 hK × wK 时的信息丢失问题,我们使用了 K 个额外的卷积层 {ϕ_k}^K_(k=1)。在将 f 下采样到 hk × wk 后不使用卷积。
3.3 实现细节
VAR tokenizer。如前所述,我们使用了基本的 VQVAE 架构 [19],采用了多尺度量化方案,使用了 K 个额外的卷积层(0.03M 个额外参数)。我们为所有尺度使用了共享的码本,其中 V = 4096,潜在维度为 32。与基线 [19] 相似,我们的 tokenizer 也在 OpenImages [36] 上使用复合损失进行训练(见附录以获取更多细节)。
VAR transformer。我们的主要关注点是 VAR 算法,因此我们保持了简单的模型架构设计。我们采用了类似于 GPT-2 和 VQGAN [49, 19] 的标准仅解码器 transformer 的架构,唯一的修改是将传统的层归一化替换为自适应归一化(AdaLN)——这个选择是由其广泛采用和在视觉生成模型中已被证明的有效性所驱动的 [33, 34, 32, 57, 56, 29, 46, 12]。对于类别条件合成,我们将类别嵌入作为起始 token [s],也作为 AdaLN 的条件。我们不使用现代大型语言模型中的先进技术,比如旋转位置嵌入(RoPE)、SwiGLU MLP 或 RMS Norm [63, 64]。
4. 实验
5. 未来工作
在这项工作中,我们主要关注学习范式的设计,并将 VQVAE 架构和训练保持不变,以更好地证明 VAR 框架的有效性。我们期望推进 VQVAE tokenizer [77, 43, 74],作为增强自回归生成模型的另一种有前途的方式,这与我们的工作是正交的。我们相信通过在最新的工作中使用先进的 tokenizer 或采样技术来迭代 VAR,可以进一步提高 VAR 的性能或速度。
文本提示生成是我们研究的一个持续方向。鉴于我们的模型基本上类似于现代 LLMs,它可以轻松地与它们集成,通过编码器-解码器或上下文方式执行文本到图像的生成。这是我们目前的重点探索方向。
视频生成在本文中没有实现,但可以自然地扩展。通过将多尺度视频特征视为 3D 金字塔,我们可以制定类似的 “3D 下一尺度预测”,通过 VAR 生成视频。与基于扩散的生成器如 SORA [8] 相比,我们的方法在时间一致性或与 LLMs 的集成方面具有固有优势,因此可以处理更长的时间依赖关系。这使得 VAR 在视频生成领域具有竞争力,因为传统的自回归模型在视频生成方面可能效率太低,因为其计算复杂度极高,推理速度慢:使用传统的自回归模型生成高分辨率视频成本过高,而 VAR 可以解决这个问题。因此,我们预见 VAR 模型在视频生成领域有着光明的未来。