【三维生成】StarGen：基于视频扩散模型的可扩展的时空自回归场景生成

在这里插入图片描述

标题：《StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation》
项目：https://zju3dv.github.io/StarGen
来源：商汤科技、浙大CAD、Tetras.AI

文章目录

摘要
一、引言
二、相关工作
- 2.1 Reconstruction Models
- 2.2 Generation Models
- 2.3 Combining Reconstruction and Generation
三、时空自回归（Spatiotemporal Autoregression）
四、时空条件的视频生成（Spatiotemporal-Conditioned Video Generation）
五、下游任务
实验

摘要

近年来，大型重建和生成模型的研究进展显著改善了场景重建和新的视图生成。然而，由于计算的限制，这些 大型模型的每个推理都局限在一个小的区域内，这使得长期一致的场景生成具有挑战性。为了解决， StarGen使用了一个预训练的视频扩散模型，以自回归的方式进行远程场景生成。 每个视频clip 的条件是(空间上)相邻图像和先前生成的clip 的(时间上的）重叠图像的 3D warping，通过精确的姿态控制提高远程场景生成的时空一致性。时空条件与各种输入条件兼容，促进了各种任务，包括稀疏视点插值sparse view interpolation、永久视角生成 perpetual view generation和基于布局的城市生成 layout-conditioned city generation。

一、引言

近年来，大型模型的快速发展推动了在三维重建和生成方面取得的重大进展，这两个领域日益相互交织和互补。在重建方面，大型重建模型[30,70,75]的出现成功地减少了对密集多视图捕获的依赖。与此同时，生成模型已经被用来解决在稀疏捕获的视图[40,61,71]中填充不可见区域的挑战。在生成方面，3D重建技术促进了将2D生成模型提升到3D生成任务，要么通过将2D分布提取为3D表示 [LucidDreamer,DreamFusion,ProlificDreamer] ，要么通过从2D生成的图像 [LucidDreamer Text2RoomText2NeRF] 重建3D表示。此外，大型重建模型也被用来增强生成的二维多视图图像[21,71,81]之间的一致性。

这些大型重构和生成模型的一个主要限制是，在有限的计算资源下，在单一推理中只能处理有限数量的令牌（token）。因此，目前的方法通常局限于生成单个对象或短程场景，这使得支持远程场景生成具有挑战性。虽然有时间自回归方法将当前视频剪辑的第一帧设置在之前生成的剪辑的最后一帧上，以实现long range视频生成，但它们只在短时间[16,22]内保持时间一致性。随着时间的推移，误差会累积，空间一致性变得难以保持。例如，当在同一区域内来回移动时，每个pass 可能会在同一位置产生不一致的内容

StarGen是一个long range 的场景生成的时空自动回归框架。如图1，关键思想是将每个视频clip的生成不仅在时间上相邻的图像上，而且在与当前窗口共享共同内容的空间上相邻的图像上。我们引入了一个大型的重建模型，该模型从空间条件化图像中提取三维信息，并将重建的潜在特征渲染到每个新的视图中，通过精确的姿态控制来指导生成。贡献总结如下：

StarGen，一种新的自回归框架，它结合了空间和时间条件，以支持long range场景生成和精确的姿态控制。
我们提出了一种新的架构，补充了一个精心设计的大型重建模型与预训练的视频扩散模型用于时空条件视频生成
我们通过在框架内实现三个任务来演示StarGen的多功能性，包括稀疏视图插值、永久视图生成和布局条件下的城市生成。

在这里插入图片描述

二、相关工作

2.1 Reconstruction Models

2.2 Generation Models

2.3 Combining Reconstruction and Generation

在这里插入图片描述

LangSplat提出了一种预测三维潜在空间中语义高斯的方法，可以通过轻量级生成的2D architecture 进行splat和decode。现有的可推广的三维重建方法要么不能扩展到大的场景和分辨率，要么局限于近距离输入视图的插值。LangSplat结合了基于回归和生成方法的优势，同时纯粹在现成的真实视频数据上进行训练，方法的核心是变分三维高斯，这是一种有效地编码由三维特征高斯组成的潜在空间内的变化不确定性的表示。从这些高斯分布中，特定的实例可以通过高效的喷溅和快速生成的解码器进行采样和渲染。

在这里插入图片描述
Epipolar Transformer 是一种用于处理稀疏特征的技术，主要用于解决多视图几何中的特征匹配问题。它的核心思想是利用**极线约束（Epipolar Constraint）**来引导特征匹配和特征提取，从而在稀疏特征点（如关键点或角点）的场景中，利用极线约束优化特征的位置和描述符。

该方法的核心是三维表示，将场景编码为一组语义三维高斯，通过附加的视图相关的特征向量描述场景外观。此外，通过存储球谐系数正态分布的参数µ和σ，而不是显式特征向量，分别对每个语义高斯分布的不确定性进行建模。总的来说，一个场景被表示为N个变分高斯的集合：

在这里插入图片描述

采样语义高斯。我们区分了高斯表示的两种状态，变分高斯和语义高斯。后者可以通过对所有高斯数分布的重参数化技巧对显式球谐系数进行采样得到：

在这里插入图片描述

三、时空自回归（Spatiotemporal Autoregression）

给定一个长的位姿轨迹，StarGen为每个位姿生成一个图像。与以往基于视频扩散模型 [Streetscapes，Vista] 的时间自回归方法相似，长轨迹生成通过短视频clip的重叠滑动窗口{ $W_k$ } $^K_{k=1}$ 进行，如图1(a).中的虚线框所示。当前（新的）窗口 $W_k$ 的生成，以前一个（已知）窗口 $W_{k−1}$ 的temporally overlapping image $I^{temp}_k$ 为条件，如蓝色实心框所示。为了处理时间上非相邻图像可能与当前窗口共享相同内容的情况，引入空间相邻图像以增强空间一致性。

具体的，将生成的场景表示为一组稀疏采样的图像{ $I^{spat}_i$ } $^M_{i=1}$ ，每个图像与输入位姿 $P_i$ 和生成的深度图 $D_i$ 配对。首先识别两个当前窗口具有最大公共区域的空间条件图像 $^{spat}_{i1}，I^{spat}_{i2}）$ ，如绿色梯形区域。这些时空条件图像 $^{spat}_{i1}，I^{spat}_{i2}，I^{temp}_k）$ 被输入一个时空条件视频生成模型，生成当前的视频clip，如图1(b)所示。最后，从当前clip中均匀采样两个图像，并添加到采样图像集中，窗口向前滑动，继续生成。

在这里插入图片描述

四、时空条件的视频生成（Spatiotemporal-Conditioned Video Generation）

在这里插入图片描述

图2.时空条件下的视频生成。给定两幅带pose图像作为空间条件（左边的绿色框），重建模型对它们的深度图和特征图进行回归。两个特征图 $F^{spat}_{i1}$ 和 $F^{ spat}_{i2}$ 被渲染成新视图特征 $F^{nov}$ ，并暂时压缩到CogVideoX的潜在空间，得到 $z^{spat}$ 。同时，对时间条件图像（右边的蓝框）进行编码，以取代（也可以说成补充） $z^{spat}$ 中相应的latent，得到时空条件 $z^{st-cond}$ ，通过ControlNe给CogVodoX的生成添加条件。

3D重建模型，与预训练的视频扩散模型相结合，生成一个基于之前生成的内容的视频clip，如图2所示。鉴于空间条件 $C^{spat}=$ { $I^{spat}_i,P_i$ } $_{i=i1,i2}$ ，时间条件 $C^{temp}=$ { $I^{temp}_k$ }，文本提示 $T$ ，和新视角 $P^{nov}$ = { $P_j$ } $^N_{j=1}$ ，目标是为新视图 $x =$ { $x_j$ } $^N_{j=1}$ 生成图像的条件分布建模：

在这里插入图片描述
其中θ表示模型参数，N表示每个视频clip中的图像数量。该公式使模型能够利用空间和时间条件来指导新视图生成。

空间条件 。受LatentSplat[60]的启发， 1.【重建】首先利用一个大型重建模型（LRM）从两张空间条件图像 $^{spat}_{i1}，I^{spat}_{i2}）$ 中预测场景结构 。与现有的仅依赖颜色信息的方法不同，输入还包含了先验深度图和 Plucker坐标。完整的LRM输入是 { $I^{spat}_i,\hat{D}^{spat}_i,\hat{P}^{spat}_i$ } $_{i=i1,i2}$ ，包括RGB图像 $I∈R^{H×W×3}$ ，Depth Anythinig V2预测的深度图 $D∈R^{H×W×1}$ ，以及来自输入位姿的Plucker坐标 $P∈R^{H×W×6}$ 。

2.【回归】按照GS-LRM ，我们将LRM的输入stack, patchify, concatenate到一个token序列中，输入一个Transformer网络，回归对应于两个条件视图的深度图{ $D^{spat}_i$ } $_{i=i1,i2}$ 和特征图{ $F^{spat}_i$ } $_{i=i1,i2}$ 。 需要注意的是，与从单目深度预测中获得的无尺度 $\hat{D}^{spat}_i$ 不同，回归的 $D^{spat}_i$ 被期望与输入pose进行尺度对齐 。所以我们可以将特征渲染给新的视图（给定新视图 $P^{nov}=$ { $P_j$ } $^N_{j=1}$ ），获得新的视图特征 $F^{nov}=$ { $F_j$ } $^N_{j=1}$ 和深度映射 $D^{nov}=$ { $D_j$ } $^N_{j=1}$ ：

在这里插入图片描述

$F^{nov}$ 中的不可见区域用零填充。这样，结构、外观、摄像机运动和可见性信息被编码在 $F^{nov}$ 中，为生成过程提供条件，以确保可见区域与空间条件图像一致，识别和填充不可见区域，并遵循输入的位姿轨迹。为了将条件对齐到SVD模型的潜在空间，设置每个特征映射的维度来匹配潜在维度：训练一个压缩网络，压缩 $F^{nov}∈R^{N×h×w×c}$ 的时间维度从N到n，生成 $z^{spat}∈R^{n×h×w×c}$ 。按照CogVideoX ，除了第一帧外，每四帧都被压缩成一帧，即 $n = 1 + (N - 1) /4$

时空条件 。其他方法通过将backbone T2V模型微调为I2V模型来支持时间condition，因此需要在不同的位置训练不同的backbone 进行condition。为了在不调整主干的情况下增强多功能性，我们直接替换了 $z^{spat}$ 中相应的latent frame。

具体地说，将时间条件图像 $I^{temp}_k$ （可以理解为当前已知的帧）输入预训练的VAE编码器，获得一个latent $z^{temp}_k$ 。为了条件化第一帧， $z^{spat}_k$ 中的第一个 latent frame被直接替换为 $z^{temp}_k$ 。对于其他帧的条件化，通过在第 $k$ 帧处插入三个重复的pose来修改新视图pose轨迹。这四个静态帧将在 $z^spat$ 中被压缩成一个，并被 $z^{temp}_k$ 取代。被替换的latent记为 $z^{st-cond}$ ，作为CogVideoX通过ControlNet生成与时空条件一致的视频的条件。

训练损失 。

在这里插入图片描述

其中 $λ_{depth}$ = 0.05， $λ_{latent}$ = 0.1和 $λ_{diffusion}$ = 1.0。第一项 $λ_{depth}$ 监督渲染的深度图 $D^{nov}$ 来训练LRM。使用无尺度损失：

在这里插入图片描述

$S^{nov}$ 表示新视图的均匀采样子集。 $S^{nov}| = 3$ 为了提高实验效率。 $π (\cdot)$ 将逆深度归一化为[0,1]； $λ_{latent}$ 用于监督 latent $z^{spat}$ 来同时训练 LRM 和压缩网络； $λ_{diffusion}$ 是传统的扩散损失：

在这里插入图片描述
其中，E为预训练的VAE编码器，x为真实的新视图图像； $ϵ_θ$ 为模型参数为θ的去噪网络， $z_t$ 为被已知噪声 $ϵ$ corrupted 的 noisy latent， $t$ 表示扩散时间步长。

五、下游任务

稀疏视图插值 是稀疏视图重建的关键步骤，与我们密切相关的并行工作[40,71]证明了这一点。给定开始帧和结束帧，它将生成中间图像。在StarGen的框架下，我们基于两种输入图像之间的重叠来区分两种情况。在两幅输入图像有较大的重叠区域的情况下，它们同时作为空间和时间条件，输入时空条件视频生成模型，生成插值视频。对于起始帧和结束帧共享最小甚至没有共同区域的远程场景，我们提出了一种双通道方法。在第一个pass中，该过程与之前的方法相似，但相邻生成的图像之间的姿态差比第一种情况大，得到一组稀疏采样的图像。在第二pass中，来自第一通道的每一对相邻图像被视为视频clip的开始帧和结束帧。然后，使用所提出的时空自回归方法按顺序生成所有的片段

永久视图生成是从单个图像生成一个场景的新视图的任务，同时允许位姿控制[39,71]。在StarGen的框架中，输入图像作为第一个生成的clip的空间和时间条件。剩下的片段然后使用所提出的时空自回归生成。与开始帧和结束帧都提供约束的稀疏视图插值任务相比，永久视图生成只对第一帧有约束。因此，它对错误积累更加敏感，并对生成模型的可伸缩性提出了更高的要求，使其成为StarGen能力的一个优秀演示。

基于布局条件的城市生成是生成给定城市布局和观测位姿[16,62]的图像的任务。首先根据观察位姿，将城市布局渲染为深度和语义视频。然后分别为深度和语义图训练两个独立的ControlNet，类似于 [Pixart-δ: Fast and controllable image generation with latent consistency models] 。这两个ControlNet被组合起来生成第一个clip。剩下的片段然后使用所提出的时空自回归生成。时空条件可以有效地与深度和语义条件相结合，这要感谢ControlNet的结合能力和我们提出的框架的灵活性。

实验

实验细节。 StarGen由一个大型的重建模型（LRM）、一个普通压缩网络（CCN）和一个带有ControlNet的视频扩散模型（VDM）组成。LRM，使用ViT架构[17]，它包括12层，隐藏大小为768，MLP大小为4096，和12个注意头，总计114M参数;CCN使用了一个Conv3d层，输入和输出通道都设置为16，内核大小为（3、3、3），步幅为（1、1、1），空洞为（1、1、1），padding为（0、0、0）；VDM使用预训练的CogVideoX-2B-T2I [68]，没有进行任何微调。ControlNet模型包含6层模型，是CogVideoX- 2B-T2I前6层的可训练副本。

为了提高训练的效率，所提出的模型在分辨率为256×256的情况下进行了训练。训练过程包括： 1)预热 使用batchsize 384的连续帧从头开始训练LRM+CCN，从1K热身步骤开始，共持续40K步；2)间隔训练 使用1∼3帧间隔训练LRM+CCN，batchsize 为384，训练20k步；3)联合训练，也使用1∼3帧间隔，15K步为240步。对于布局条件的城市生成任务，我们另外训练了两个深度和语义控制网，使用128个超过20K步的批大小。我们还微调了我们的模型，在11K步中训练16的LRM+CCN，然后在另外11K步中分别训练80的ControlNet

数据集。训练数据包括RealEstate-10K[79]、ACID [39]和DL3DV-10K [38]。我们过滤掉了较短的视频剪辑，最终得到了66,859个视频的数据集。对于具有布局条件的城市生成任务，我们另外使用了来自CityDreamer[62]的城市生成数据集，该数据集包括来自开放街道地图[2]的城市布局数据和来自Google Earth Studio [1]的渲染。该数据集包括400个轨迹，每个轨迹最初有60帧，我们将其插值到600帧

在这里插入图片描述