4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling技术路线

在这里插入图片描述

这篇文章分为四部分，首先从2021年的CLIP说起。
在这里插入图片描述
这篇论文的主要工作是提出了一种名为 CLIP（Contrastive Language-Image Pre-training）的模型，它通过自然语言监督学习视觉模型，以实现视觉任务的零样本（zero-shot）迁移。CLIP 的核心是通过对比预训练任务来学习图像与文本之间的匹配，从而构建可以泛化到不同视觉任务的表示。具体而言，该模型基于 4 亿对图像和文本配对的巨大数据集进行训练，能有效地从自然语言中学习图像表示，甚至在没有特定任务的数据集训练的情况下也能进行下游任务。

零样本迁移（zero-shot transfer）：通过图像和文本的对比学习，CLIP 可以在不进行额外训练的情况下直接在多个现有的计算机视觉数据集上进行推理，并与全监督基线模型相媲美。

统一学习（task-agnostic learning）：CLIP 使用自然语言作为训练信号，从广泛的语料中进行监督，学习到可以被广泛应用的视觉概念表示。这种通用性使其能够在多个计算机视觉任务中具备竞争力，而无需特定任务的微调。

对比学习：CLIP 使用对比学习方法来优化图像和文本的匹配度，以此来学习视觉表示。模型学习到的表征可以用于多种下游任务，如 OCR、视频中的动作识别、地理定位、物体分类等。

从论文给的流程图以及伪代码我们可以观察到，CLIP采用一个文本编码和一个图片编码，再计算二者的相关程度，在inference的时候输出最大值对应的类别。

第二篇则是Imagen: 高保真文本到图像生成模型

Imagen: 高保真文本到图像生成模型

这篇论文的主要工作是提出了一个名为 Imagen 的文本到图像生成模型，它结合了大型**预训练语言模型（Pretrained Language Models）和高保真的扩散模型（Diffusion Models）**来生成高质量的照片级真实感（Photorealism）图像，并具有深层次的语言理解能力。Imagen 基于大型语言模型（如 T5）对文本的强大理解能力，以及扩散模型在图像生成中的优越性能，实现了显著的图像-文本对齐能力和图像质量。

主要贡献

在这里插入图片描述

大规模冻结语言模型的有效性
- 发现大规模的冻结语言模型在文本编码方面，比图像扩散模型的规模扩展对样本质量的提升更显著。
引入动态阈值（Dynamic Thresholding）
- 用于提高指导权重的使用效果，生成更高质量的图像。
提出高效的 U-Net 变体
- 提出了一种新的高效 U-Net 变体，改进了模型的收敛速度和内存使用。
在 COCO 数据集上取得最佳表现
- 在 COCO 数据集上实现了新的最先进的 FID 分数 7.27。
引入新的评估基准 DrawBench
- 提出了一个新的基准 DrawBench，用于评估文本到图像生成模型，提供了更深入的比较与评估。

关键词

Imagen: 文本到图像扩散模型，专注于高保真和深度语言理解。
Photorealism: 照片级真实感，生成的图像非常接近真实照片。
Diffusion Models: 扩散模型，用于高保真的图像生成。
Pretrained Language Models: 预训练语言模型，用于编码输入文本。
Dynamic Thresholding: 动态阈值，用于改善图像质量和文本对齐。
DrawBench: 评估基准，用于深入评估和比较文本到图像模型。

Imagen: Methodology Overview

2.1 预训练文本编码器（Pretrained Text Encoders）

Imagen 采用一个文本编码器将输入文本映射为嵌入序列，并结合级联条件扩散模型将这些嵌入转换为分辨率不断提高的图像。文本到图像模型需要强大的**语义文本编码器（Semantic Text Encoders）**来捕捉任意自然语言文本输入的复杂性和组合性。标准的文本编码器通常在图像-文本配对数据上进行训练，可以从头开始训练【41, 53】，也可以基于图像-文本数据进行预训练【54】，如 CLIP [49]。此外，大型语言模型（Large Language Models, LLMs），如 BERT [15]、GPT [47, 48, 7] 和 T5 [52] 也可用于编码文本，这些模型在理解文本和生成文本方面表现出显著进步。Imagen 探索了 BERT、T5 和 CLIP 作为文本编码器，并在训练时冻结这些模型的权重，这样可以减少计算需求，提高内存效率。

实验表明，扩展文本编码器的规模可以显著提高文本到图像生成的质量。尽管 T5-XXL 和 CLIP 文本编码器在简单基准（如 MS-COCO）上表现类似，但在人类评估者的测试中，T5-XXL 编码器在图像-文本对齐和图像质量上优于 CLIP。

2.2 扩散模型和无分类器指导（Diffusion Models and Classifier-Free Guidance）

扩散模型（Diffusion Models） 是一种通过迭代去噪过程将**高斯噪声（Gaussian Noise）**转换为从学习数据分布中采样的生成模型【63, 28, 65】。这些模型可以是条件模型，例如基于类标签、文本或低分辨率图像的条件【16, 29, 59, 58, 75, 41, 54】。Imagen 采用的扩散模型通过优化去噪目标进行训练，使得在迭代生成时逐步降低噪声水平，最终生成高质量的样本。

无分类器指导（Classifier-Free Guidance）是一种技术，可以通过联合训练条件和无条件目标，随机去掉条件来实现，这避免了使用预训练模型进行采样的复杂性。Imagen 主要依赖无分类器指导来实现文本条件下的有效生成。

2.3 大指导权重采样器（Large Guidance Weight Samplers）

最近的研究表明，增加**无分类器指导权重（Classifier-Free Guidance Weight）可以提高图像与文本的对齐度，但也会导致生成图像的饱和过度和自然度下降【27】。在每个采样步骤中，图像预测必须保持在训练数据的范围内，但高指导权重会导致预测值超出这些范围，进而影响采样效果。为了解决这个问题，Imagen 引入了静态阈值（Static Thresholding）和动态阈值（Dynamic Thresholding）**两种方法。

静态阈值（Static Thresholding）：将预测值剪裁至 “[-1, 1]” 的范围，以防止生成空白图像，尽管这种方法在高权重下仍会导致图像过饱和。
动态阈值（Dynamic Thresholding）：在每个采样步骤中设置一个基于像素绝对值的阈值，将超出该阈值的像素向内推，从而防止每一步的像素饱和。这种方法显著改善了图像的照片级真实感（Photorealism），并增强了图像与文本的对齐能力，尤其是在使用非常大的指导权重时。

2.4 Robust Cascaded Diffusion Models

Imagen 利用一个基础的 64×64 模型，以及两个文本条件超分辨率扩散模型来逐步将生成的 64×64 图像上采样到 256×256 图像，再上采样到 1024×1024 图像。级联扩散模型配合噪声条件增强（Noise Conditioning Augmentation）【29】在逐步生成高保真图像方面表现得非常有效。此外，让超分辨率模型知道添加的噪声量（通过噪声级别条件化）可以显著提高样本质量，并增强超分辨率模型处理低分辨率模型产生的伪影的能力。Imagen 在两个超分辨率模型中都使用了噪声条件增强，这对于生成高保真图像至关重要。

在训练期间，增强级别（Augmentation Level） 是随机选择的，而在推理期间，我们遍历其不同的值来找到最佳样本质量。在本研究中，我们使用高斯噪声作为增强形式，并应用保留方差的高斯噪声增强，类似于扩散模型中使用的前向过程。增强级别由 aug_level ∈ [0, 1] 指定。

2.5 Neural Network Architecture

基础模型（Base Model）: 我们采用了来自【40】的 U-Net 架构用于基础的 64×64 文本到图像扩散模型。该网络通过一个池化嵌入向量对文本嵌入进行条件化，并将其添加到扩散时间步嵌入中，类似于【16, 29】中使用的类嵌入条件化方法。我们进一步通过在多个分辨率下添加跨注意力机制（Cross Attention）【57】来对整个文本嵌入序列进行条件化。实验发现，注意力和池化层中的层归一化（Layer Normalization）【2】有助于显著提高性能。

超分辨率模型（Super-Resolution Models）: 对于 64×64 → 256×256 的超分辨率，我们使用了从【40, 58】改编的 U-Net 模型。我们对该 U-Net 模型进行了多项修改，以提高内存效率、推理时间和收敛速度（我们的变体在每秒步数上比【40, 58】中使用的 U-Net 快 2-3 倍）。我们称这种变体为高效 U-Net（Efficient U-Net）（更多细节和对比见附录 B.1）。我们的 256×256 → 1024×1024 超分辨率模型在 64×64 → 256×256 的 1024×1024 图像裁剪上进行训练。为了实现这一点，我们移除了自注意力层，但保留了跨注意力层，因为我们发现它们非常关键。在推理过程中，模型接收完整的 256×256 低分辨率图像作为输入，并返回上采样的 1024×1024 图像作为输出。请注意，我们在两个超分辨率模型中都使用了文本跨注意力。

DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

该研究改进了 Dream Fields 方法，将 CLIP 替换为从二维扩散模型蒸馏得到的损失。具体来说，并引入了得分蒸馏采样（Score Distillation Sampling, SDS），通过最小化具有共享均值的高斯分布家族与预训练扩散模型学习的得分函数之间的 KL 散度，实现了采样。在将 SDS 与针对三维生成任务定制的 NeRF 变体结合后，该方法 DreamFusion 能够根据用户提供的多样化文本提示生成高保真、一致的三维对象和场景。
在这里插入图片描述

方法流程概述
1.初始化神经辐射场（NeRF）: 首先，使用随机参数初始化 NeRF 以表示三维场景。此时，NeRF的目标是从噪声分布开始，逐渐学习如何生成三维结构。
2.得分蒸馏采样 (SDS) 优化: 我们使用 SDS 来逐步优化 NeRF的参数。具体而言，我们从文本提示中生成图像嵌入，并通过冻结的扩散模型计算图像的噪声和得分函数。然后，我们计算生成的三维图像与扩散模型输出之间的误差，并基于此误差反向传播更新NeRF 的参数。
3.逐步生成三维结构: 通过多次迭代优化，NeRF 逐渐生成更接近目标的三维结构。每次优化过程中，生成的图像都更符合输入文本提示的内容。
4.最终三维对象生成: 经过足够的迭代后，NeRF 生成的三维对象达到了高保真度和一致性，可以从不同视角呈现出真实感。
这段文本解释了作者提出的用于可行采样的优化方法，称为得分蒸馏采样 (Score Distillation Sampling, SDS)，以及它在优化过程中是如何运作的。

主要内容解析

目标：基于扩散模型进行优化
- 作者的方法利用了扩散模型的结构，以通过优化损失函数来实现有效的采样。具体来说，作者通过优化参数 ( heta) 使得生成的图像 (x = g( heta)) 看起来像是来自已训练好的扩散模型的样本。这个过程的目标是找到一个使生成图像符合扩散模型分布的参数集合。
损失函数的选择与难点
- 为了执行这个优化，作者需要一个可微分的损失函数，类似于 DeepDream 方法（Mordvintsev et al., 2015），即合理的图像具有较低的损失值，不合理的图像则具有较高的损失值。
- 最初，作者尝试重用扩散模型的训练损失（公式 1），通过最小化生成数据点 (x = g( heta)) 的训练损失来找到学习的条件密度 (p(x|y)) 的模式。
- 但在实际中，作者发现此损失函数难以生成真实的样本，特别是在使用身份 DIP（(x = heta)）时表现不佳。这表明这种优化目标的鲁棒性不足，难以调节时间步长等参数。
原始梯度的计算复杂度与改进
- 作者进一步分析了损失函数的梯度，梯度计算中包含一个 U-Net 的雅可比矩阵项，这需要通过扩散模型的 U-Net 进行反向传播，计算代价非常高，并且对于小噪声水平，其条件很差。
- 因此，作者决定忽略 U-Net 雅可比项，提出了一种新的梯度计算方式，使得优化基于扩散模型的可微分图像参数化（DIP）更加有效。
得分蒸馏采样 (SDS) 的梯度
- 作者提出的 SDS 的梯度公式为：

在这里插入图片描述

这个梯度通过在时间步 (t) 对应的随机噪声扰动 (x)，并估计一个更新方向，使生成的图像更接近扩散模型中的高密度区域。这样的方法在本质上通过不断调整图像的参数 ( heta)，使其能够生成更符合输入文本描述的图像。

损失函数与蒸馏过程的联系
- 虽然这种梯度的定义看似是启发式的，但作者在附录中证明了，它实际上是基于扩散模型学习的得分函数的加权概率密度蒸馏损失的梯度。这使得该方法在理论上更加稳固，并且通过优化过程使生成图像更加符合输入文本的描述。

综上所述，这段内容主要介绍了 SDS 的核心思想以及如何通过优化损失函数实现从文本到图像的生成。SDS 方法通过忽略高计算成本的雅可比项，并通过加权概率密度蒸馏的方式，实现了有效的梯度优化，使得生成的图像具有更好的真实性和符合性。

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling

首先看一下相关工作

方法：文本到 4D 生成

我们的文本到 4D 生成方法基于一种基于哈希编码的神经表示[39]，该方法隐式地将场景分解为静态和动态特征网格[64]。在本节中，我们概述了用于 4D 神经渲染的表示方法，并描述了基于HSDS（Hybrid Score Distillation Sampling）的优化过程（见图 3）。

4D 神经渲染

体积神经渲染方法通过使用神经表示来参数化 3D 空间中每个点的光的衰减和发射，从而表示一个场景[36, 38]。我们可以通过从相机投影中心沿每个像素位置向场景中投射射线来渲染图像。对于沿射线采样的点µ ∈ R^3，我们查询神经表示来获取体积密度τ ∈ R+ 和颜色 c ∈ R^3+，分别描述特定点处的光衰减和发射。然后，使用 alpha 合成来恢复渲染像素 C 的颜色：

$\sum_i w_i c_i, \quad w_i = \alpha \prod_{j<i} (1 - \alpha_j),$

其中：

$\alpha_i = 1 - e^{-\tau_i \| \mu_i - \mu_{i+1} \|}。$

我们使用附加的时间变量 t 来查询神经表示，这使得能够建模时间变化的密度和颜色。

我们的神经表示由两个多分辨率哈希表组成，分别用于解耦静态和动态场景建模。静态哈希表存储可学习的特征向量，这些向量通过体素查找和哈希操作进行索引，并使用两个小型多层感知器（MLPs）解码为密度和颜色。我们考虑以下形式的神经表示：

$N_\theta : \mu, t \rightarrow \tau, c$

其中θ = {\theta_{\text{static}}, \theta_{\text{dynamic}}, \theta_{\text{MLP}}} 表示所有可学习参数，包括静态和动态哈希表以及 MLPs。

对于给定的μ，我们通过识别每个尺度 1 ≤ s ≤ S 的最近体素来查询静态哈希表。然后，在从哈希表中检索到体素顶点后，对特征值进行三线性插值。每个尺度检索到的特征被拼接为 $f_{\text{static}} = f_{\text{static}}^{(1)} \oplus \cdots \oplus f_{\text{static}}^{(S)}$ 。对于动态哈希表，我们遵循相同的查询过程，但使用四线性插值。最终，从静态和动态哈希表中检索到的特征被相加为 $f_{\text{static}} + f_{\text{dynamic}}$ 。最后，我们通过 MLP 解码得到密度和颜色。

混合得分蒸馏采样（Hybrid SDS）

我们利用 4D 表示和 SDS 来从文本提示创建动态 3D 场景。我们的混合方法结合了三种不同风格的 SDS，这些方法在交替优化过程中被平滑地融合，以提高 4D 模型的结构和质量：

3D 感知的文本到图像扩散模型的 SDS，用于优化静态场景并避免 Janus 问题。
变分得分蒸馏采样（Variational Score Distillation Sampling, VSD），使用标准文本到图像模型[51]来改善静态场景的外观。
视频 SDS，使用文本到视频模型[69]，将 SDS 扩展到多个视频帧并为场景添加运动。

在以下部分中，我们描述了每种 SDS 及其在文本到 4D 生成中的作用。

3D 感知场景优化

我们首先考虑使用 3D 感知的文本到图像扩散模型[55]的 SDS 来优化静态场景。扩散模型通过向多视角图像逐步添加高斯噪声进行训练，然后反向预测去噪图像，从而为输入场景增加结构。在 3D 感知 SDS 中，我们通过渲染多个图像，添加噪声，然后使用分类器自由引导来预测噪声，最后使用梯度更新神经表示的参数，以优化场景的 3D 结构。

这种方法有效地利用了扩散模型在逐步添加和去除噪声的过程中对图像结构的理解，将其转化为优化场景表示的梯度信息，确保生成的场景在视觉上具有一致性和真实感。

改善外观效果：VSD 方法

我们结合了基于 VSD（变分得分蒸馏） 的附加损失项，以改善从场景中渲染图像的外观。该损失项使用了预训练的文本到图像模型[51]，并通过微调方案改进了图像质量，使其超过单独使用 3D 感知文本到图像模型的效果。具体地，我们按照 Wang 等人的方法[71]，在场景优化过程中，将输出扩散模型的梯度与标准 SDS 的梯度进行组合。

我们采用以下损失项：

$\nabla_\theta L_{IMG} = E_{t_d, \epsilon, T} \left[ w(t_d) \left( \epsilon_{\phi}(z_{t_d}; t_d, y) - \epsilon'_{\phi}(z_{t_d}; t_d, y, T) \right) \frac{\partial x_\theta}{\partial \theta} \right],$

其中 $\epsilon'_{\phi}$ 是使用经过微调的扩散模型预测的噪声，加入了额外的相机外参 $T$ 作为条件。与原始的 VSD 描述不同，我们发现可以省略对多个场景样本的同时优化，从而减少内存需求，而不会显著降低外观质量。

添加运动：视频 SDS

我们使用来自文本到视频扩散模型[69]的监督来为生成场景添加运动。这种方法通过将扩散模型对所有噪声视频帧的结构信息进行结合，扩展了原始 SDS 梯度，具体表示为：

$\nabla_\theta L_{VID} = E_{t_d, \epsilon} \left[ w(t_d) (\epsilon_{\phi}(z_{t_d}; t_d, y) - \epsilon) \frac{\partial X_\theta}{\partial \theta} \right].$

为了简化符号，我们重用了 $\epsilon_{\phi}$ 和 $\epsilon$ 来表示每个视频帧的预测噪声和实际噪声，并让 $X_\theta$ 是从表示中渲染的一组 V 个视频帧的集合。

优化过程 - 算法 1

我们通过三个阶段来优化 4D 表示，在交替步骤中平滑地融合（1）3D 感知 SDS、（2）VSD 和（3）视频 SDS 的监督。

阶段 1：在优化的第一阶段，我们使用 3D 感知 SDS 的梯度更新 $N_\theta$ ，直到收敛。由于这一阶段侧重于优化静态场景，我们冻结动态哈希表 $f_{\text{dynamic}}$ 的参数，只更新静态哈希表和解码器 MLP。
阶段 2：接下来，我们使用交替优化过程加入 VSD 梯度。在每次迭代中，我们随机选择使用 $\nabla_\theta L_{3D}$ 或 $\nabla_\theta L_{IMG}$ 来更新模型，选择的概率分别为 $P_{3D}$ 和 $P_{IMG}$ 。这一阶段的优化改进了静态场景的外观，同时避免了 Janus 问题。
阶段 3：最后，我们结合所有梯度更新来更新表示。在每次迭代中，我们随机选择使用 $\nabla_\theta L_{3D}$ 、 $\nabla_\theta L_{IMG}$ 或 $\nabla_\theta L_{VID}$ 来更新模型，选择的概率分别为 $P_{3D}$ ， $P_{3D} \cdot P_{IMG}$ 和 $1-P_{3D} \cdot P_{IMG}$ 。由于这一阶段旨在将运动融入表示中，我们在使用 $\nabla_\theta L_{VID}$ 更新时解冻动态哈希表的参数，但在使用文本到图像模型更新时保持冻结。我们还降低了静态哈希表的学习率，以保持前一阶段的高质量外观效果。