(2024,自回归,下一尺度预测,VQGAN)视觉自回归建模:通过下一尺度预测的可扩展的图像生成

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1 基础:通过下一个 token 预测进行自回归建模 

3.2 通过下一尺度预测进行视觉自回归建模

3.3 实现细节

4. 实验

5. 未来工作


0. 摘要

我们提出了视觉自回归建模(Visual AutoRegressive,VAR)这是一种重新定义图像自回归学习的新一代范式,将其视为粗到细的 “下一尺度预测” 或 “下一分辨率预测”,与标准的逐行扫描 “下一个 token 预测” 有所不同。这种简单、直观的方法使得自回归(AR)transformer 能够快速学习视觉分布,并且具有良好的泛化能力:VAR 首次使得类似 GPT 的 AR 模型在图像生成方面超越了扩散 transformer。在 ImageNet 256×256 基准测试中,VAR 通过将 Fréchet Inception Distance(FID)从 18.65 提高到 1.80,将 Inception Score(IS)从 80.4 提高到 356.4,使得推理速度提高了 20 倍,显著改善了 AR 基线。经验验证显示,VAR 在图像质量、推理速度、数据效率和可扩展性等多个维度上优于扩散 transformer(DiT)。扩展 VAR 模型展示了类似 LLM 中观察到的幂律(power-law)尺度规律,线性相关系数接近 -0.998,这是坚实的证据。VAR 进一步展示了在包括 inpainting、 outpainting 和编辑在内的下游任务中的零样本泛化能力。这些结果表明,VAR 已经模拟了 LLM 的两个重要特性:尺度定律和零样本泛化。我们已经发布了所有模型和代码,以促进对于 AR/VAR 模型在视觉生成和统一学习方面的探索。

尝试探索我们的在线演示:https://var.vision
代码和模型:https://github.com/FoundationVision/VAR 

3. 方法

3.1 基础:通过下一个 token 预测进行自回归建模 

讨论。token 化(tokenizing)和扁平化(flattening)使得在图像上进行下一个 token 的自回归学习成为可能,但它们引入了几个问题:

  • 违规数学前提。图像编码器通常会生成具有相互依赖特征向量 f^(i,j) 的图像特征图 f。因此,在量化和扁平化之后,token 序列 (x1, x2, . . . , xh×w) 展现出双向相关性。这与自回归模型的单向依赖假设相矛盾,该假设规定每个 token xt 只应该依赖于其前序 (x1, x2, . . . , x_(t−1))。
  • 结构性下降。扁平化破坏了图像特征图中固有的空间局部性。例如,token q^(i,j) 及其 4 个直接相邻的 token q^(i±1,j)、q^(i,j±1) 由于它们的接近性而密切相关。这种空间关系在线性序列 x 中被削弱,单向约束减少了这些相关性。
  • 效率低下。使用传统的自注意力 transformer 生成图像 token  序列 x = (x1, x2, . . . , x_(n×n)) 会产生 O(n^2) 的自回归步骤和 O(n^6) 的计算成本。

空间局部性的破坏(问题 2)是显而易见的。关于问题 1,我们在附录中提供了实证证据,分析了流行的量化自编码器 [19] 中的 token 依赖关系,并揭示了显著的双向相关性。有关问题 3 的计算复杂性证明详见附录。这些理论和实际限制促使我们重新思考图像生成背景下的自回归模型。

3.2 通过下一尺度预测进行视觉自回归建模

重新构想。我们通过将策略从 “下一个 token 预测” 转变为 “下一尺度预测”,来对图像上的自回归建模进行重新构想。在这里,自回归单元是一个完整的 token 映射,而不是单个 token。我们首先将特征图 f ∈ R^(h×w×C) 量化为 K 个多尺度 token 映射 (r1, r2, . . . , rK),每个 token 映射都具有逐渐增加的分辨率 hk × wk,最终 rK 与原始特征图的分辨率 h × w 相匹配。自回归似然性被表述为:

其中,每个自回归单元 r^k ∈ [V]^(hk×wk) 是尺度 k 上的 token 映射,序列 (r1, r2, . . . , rk−1) 作为 rk 的 “前序”。在第 k 个自回归步骤中,rk 中的 hk × wk 个 token 的所有分布相互依赖,并且将在并行条件下生成,条件是 rk 的前序和关联的第 k 个位置嵌入映射。这种 “下一尺度预测” 方法就是我们所定义的视觉自回归建模(VAR),如图 4 右侧所示。

讨论。VAR 解决了前面提到的三个问题:

  • 如果我们限制每个 rk 只依赖于其前序,也就是说,获取 rk 的过程仅与 (r1, r2, . . . , rk−1) 相关,数学前提就会得到满足。这种约束是可以接受的,因为它与自然的粗到细的进展特性相符,就像人类的视觉感知和艺术绘画一样。关于这一点的更多细节将在下文的 token 化部分中提供。
  • 空间局部性得到保留,因为在 VAR 中没有扁平化操作,并且每个 rk 中的 token 是完全相关的。多尺度设计进一步加强了空间结构。
  • 生成具有 n × n 潜在图像的复杂度显着降低至 O(n^4),具体证明请参见附录。这种效率提升来自于每个 rk 中的并行 token 生成。

Tokenization。我们开发了一个新的多尺度量化自编码器,将图像编码为 K 个多尺度离散 token 映射 R = (r1, r2, . . . , rK),这对于 VAR 学习是必要的。我们采用了与 VQGAN [19] 相同的架构,但使用了修改后的多尺度量化层。在特征图 f 或 ˆf 上进行编码和解码过程,并采用了残差设计,详见算法 1 和 2。我们在经验上发现,类似于 [37] 的残差式设计比独立插值更有效。算法 1 表明,每个 rk 只会依赖于其前序 (r1, r2, . . . , rk−1)。请注意,跨所有尺度使用了共享的码本 Z,确保每个 rk 的 token 属于相同的词汇表 [V]。为了解决从 zk 扩展到 hK × wK 时的信息丢失问题,我们使用了 K 个额外的卷积层 {ϕ_k}^K_(k=1)。在将 f 下采样到 hk × wk 后不使用卷积。

3.3 实现细节

VAR tokenizer。如前所述,我们使用了基本的 VQVAE 架构 [19],采用了多尺度量化方案,使用了 K 个额外的卷积层(0.03M 个额外参数)。我们为所有尺度使用了共享的码本,其中 V = 4096,潜在维度为 32。与基线 [19] 相似,我们的 tokenizer 也在 OpenImages [36] 上使用复合损失进行训练(见附录以获取更多细节)。

VAR transformer。我们的主要关注点是 VAR 算法,因此我们保持了简单的模型架构设计。我们采用了类似于 GPT-2 和 VQGAN [49, 19] 的标准仅解码器 transformer 的架构,唯一的修改是将传统的层归一化替换为自适应归一化(AdaLN)——这个选择是由其广泛采用和在视觉生成模型中已被证明的有效性所驱动的 [33, 34, 32, 57, 56, 29, 46, 12]。对于类别条件合成,我们将类别嵌入作为起始 token [s],也作为 AdaLN 的条件。我们不使用现代大型语言模型中的先进技术,比如旋转位置嵌入(RoPE)、SwiGLU MLP 或 RMS Norm [63, 64]。 

4. 实验

5. 未来工作

在这项工作中,我们主要关注学习范式的设计,并将 VQVAE 架构和训练保持不变,以更好地证明 VAR 框架的有效性。我们期望推进 VQVAE tokenizer [77, 43, 74],作为增强自回归生成模型的另一种有前途的方式,这与我们的工作是正交的。我们相信通过在最新的工作中使用先进的 tokenizer 或采样技术来迭代 VAR,可以进一步提高 VAR 的性能或速度。

文本提示生成是我们研究的一个持续方向。鉴于我们的模型基本上类似于现代 LLMs,它可以轻松地与它们集成,通过编码器-解码器或上下文方式执行文本到图像的生成。这是我们目前的重点探索方向。

视频生成在本文中没有实现,但可以自然地扩展。通过将多尺度视频特征视为 3D 金字塔,我们可以制定类似的 “3D 下一尺度预测”,通过 VAR 生成视频。与基于扩散的生成器如 SORA [8] 相比,我们的方法在时间一致性或与 LLMs 的集成方面具有固有优势,因此可以处理更长的时间依赖关系。这使得 VAR 在视频生成领域具有竞争力,因为传统的自回归模型在视频生成方面可能效率太低,因为其计算复杂度极高,推理速度慢:使用传统的自回归模型生成高分辨率视频成本过高,而 VAR 可以解决这个问题。因此,我们预见 VAR 模型在视频生成领域有着光明的未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/543608.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI反超Claude3,GPT4.5-Turbo正式版发布,AI王座再次易主

没想到,仅仅过了两个月,全球最强AI的宝座又易主了! 几个月前,Claude3 Opus全面超越GPT-4,全球的网友纷纷抛弃GPT,投向Claude3的怀抱,并纷纷分享Claude3带来的惊艳体验。 如今,Open…

Win10 使用Telnet

命令行 telnet 127.0.0.1 80 调试是否能连接服务 输入exit 回车即可退出 相比于ping的不同

k8s:kubectl 命令设置简写启用自动补全功能

k8s:kubectl 命令设置简写&启用自动补全功能 1、设置kubectl命令简写2、启用kubectl自动补全功能 💖The Begin💖点点关注,收藏不迷路💖 Kubernetes(K8s)是一个强大的容器编排平台&#xff0…

生活中的数学 --- 等额本息贷款和等额本金贷款的月供应该怎么算?

等额本息贷款和等额本金贷款的月供应该怎么算? 从一个例子开始,假设我要从银行贷款36万(即,本金),银行给出的贷款年利率是12%(月利率为年利率除以12),贷款半年(6个月),按月还款,分6期还完。 问分…

5、JVM-G1详解

G1收集器 -XX:UseG1GC G1 (Garbage-First)是一款面向服务器的垃圾收集器,主要针对配备多颗处理器及大容量内存的机器. 以极高概率满足GC停顿时间要求的同时,还具备高吞吐量性能特征. G1将Java堆划分为多个大小相等的独立区域(Region),JVM目标…

Open CASCADE学习|实现Extrude功能

首先定义了一些基本的几何元素,如线、圆和平面,然后使用makeExtrudebydir函数来对一个面进行挤出操作。下面是详细过程: 定义Extrude函数:makeExtrudebydir函数接受一个TopoDS_Shape对象和一个gp_Vec对象作为参数。TopoDS_Shape是…

【数据挖掘】实验6:初级绘图

实验6:初级绘图 一:实验目的与要求 1:了解R语言中各种图形元素的添加方法,并能够灵活应用这些元素。 2:了解R语言中的各种图形函数,掌握常见图形的绘制方法。 二:实验内容 【直方图】 Eg.1&…

单路高清HDMI编码器JR-3211HD

产品简介: JR-3211HD单路高清HDMI编码器是专业的高清音视频编码产品,该产品具有支持1路高清HDMI音视频采集功能, 1路3.5MM独立外接音频输入,编码输出双码流H.264格式,音频MP3/AAC格式。编码码率可调,画面质…

CASA(Carnegie-Ames-Stanford Approach)模型原理及实践应用

植被作为陆地生态系统的重要组成部分对于生态环境功能的维持具有关键作用。植被净初级生产力(Net Primary Productivity, NPP)是指单位面积上绿色植被在单位时间内由光合作用生产的有机质总量扣除自养呼吸的剩余部分。植被NPP是表征陆地生态系统功能及可…

Linux登录访问限制

Linux系统下,用户密码的有效期可以通过编辑/etc/login.defs文件控制;密码复杂度规则设定需要通过/etc/pam.d/system-auth文件控制;登录失败次数限制通常由/etc/pam.d/login文件限制,可使用pam_tally2模块进行设置。 Linux系统下的…

Linux的学习之路:10、进程(2)

摘要 本章主要是说一下fork的一些用法、进程状态、优先级和环境变量。 目录 摘要 一、fork 1、fork的基本用法 2、分流 二、进程状态 三、优先级 四、环境变量 1、常见环境变量 2、和环境变量相关的命令 3、通过代码如何获取环境变量 五、导图 一、fork 1、fork…

Houdini笔记操作技巧_集锦

个人记录下,谨防遗忘。同时丰富下Hou的中文搜素环境。 1、自定义启动界面 ① 设置完界面后,保存自定义界面(Save Current Desktop As...) ② Edit-->Preferences-->General UIInterface-->Startup in Desktop&#xff1…

换手机了怎么重新设置Microsoft Authenticator验证?

进入到这个页面 https://mysignins.microsoft.com/security-info 选择安全信息

顺序表实战——基于顺序表的通讯录

前言:本篇文章主要是利用顺序表作为底层, 实现一个通讯录。偏向于应用, 对于已经学习过c的友友们可能没有难度了已经。没有学习过c的友友, 如果顺序表不会写, 或者说没有自己实现过, 请移步学习顺序表相关内…

手机数据恢复工具

下载地址:手机数据恢复工具.zip Android/HarmonyOS 文件误删是日常使用电子设备时经常遇到的问题,也许一不小心就就可能会误删。 俗话说:数据无价,一但想要找回一些被删除的文件,就需要耗费大量的精力和财力来恢复文…

【网站项目】面向企事业单位的项目申报小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

【电控笔记5】电流环速度环三环参数整定

旋转坐标系下的电压方程,由id和iq计算出ud和uq Lq:q轴电感 Ld:d轴电感 输入是电流,输出是电压? 内嵌式pmsm(ipmsm)模型建立: 其中: λf是转子磁场在定子绕组所产生的磁通链,为一常数,在psms中转子磁场非常稳定几乎不变。 ipmsm转矩方程式: 对永磁同步马达而言,使…

Niobe开发板OpenHarmony内核编程开发——定时器

本示例将演示如何在Niobe Wifi IoT开发板上使用cmsis 2.0 接口进行定时器开发 Timer API分析 osTimerNew() /// Create and Initialize a timer./// \param[in] func function pointer to callback function./// \param[in] type \ref osTimerOnce …

ELK日志分析系统+Filebeat

目录 一、Filebeat介绍 1、Filebeat简介 2、Filebeat的工作方式 3、filebeat工作流程 4、Filebeat的作用 5、filebeat的用途 1.为什么要用filebeat来收集日志?为什么不直接用logstash收集日志? 2.filebeat和logstash的区别 二、部署(ELFK)Fileb…

uniCloud联表查询方式举例

联查表&#xff1a; 1. 在shema中配置外键&#xff1a; 2.在前端使用&#xff1a; <unicloud-db v-slot:default"{data, loading, error, options}" :options"formData" collection"opendb-news-articles,uni-id-users" //这里这么写 fi…