4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling技术路线

在这里插入图片描述

这篇文章分为四部分,首先从2021年的CLIP说起。
在这里插入图片描述
这篇论文的主要工作是提出了一种名为 CLIP(Contrastive Language-Image Pre-training) 的模型,它通过自然语言监督学习视觉模型,以实现视觉任务的零样本(zero-shot)迁移。CLIP 的核心是通过对比预训练任务来学习图像与文本之间的匹配,从而构建可以泛化到不同视觉任务的表示。具体而言,该模型基于 4 亿对图像和文本配对的巨大数据集进行训练,能有效地从自然语言中学习图像表示,甚至在没有特定任务的数据集训练的情况下也能进行下游任务。

零样本迁移(zero-shot transfer):通过图像和文本的对比学习,CLIP 可以在不进行额外训练的情况下直接在多个现有的计算机视觉数据集上进行推理,并与全监督基线模型相媲美。

统一学习(task-agnostic learning):CLIP 使用自然语言作为训练信号,从广泛的语料中进行监督,学习到可以被广泛应用的视觉概念表示。这种通用性使其能够在多个计算机视觉任务中具备竞争力,而无需特定任务的微调。

对比学习:CLIP 使用对比学习方法来优化图像和文本的匹配度,以此来学习视觉表示。模型学习到的表征可以用于多种下游任务,如 OCR、视频中的动作识别、地理定位、物体分类等。


从论文给的流程图以及伪代码我们可以观察到,CLIP采用一个文本编码和一个图片编码,再计算二者的相关程度,在inference的时候输出最大值对应的类别。

第二篇则是Imagen: 高保真文本到图像生成模型

Imagen: 高保真文本到图像生成模型

这篇论文的主要工作是提出了一个名为 Imagen 的文本到图像生成模型,它结合了大型**预训练语言模型(Pretrained Language Models)和高保真的扩散模型(Diffusion Models)**来生成高质量的照片级真实感(Photorealism)图像,并具有深层次的语言理解能力。Imagen 基于大型语言模型(如 T5)对文本的强大理解能力,以及扩散模型在图像生成中的优越性能,实现了显著的图像-文本对齐能力和图像质量。

主要贡献

在这里插入图片描述

  1. 大规模冻结语言模型的有效性

    • 发现大规模的冻结语言模型在文本编码方面,比图像扩散模型的规模扩展对样本质量的提升更显著。
  2. 引入动态阈值(Dynamic Thresholding)

    • 用于提高指导权重的使用效果,生成更高质量的图像。
  3. 提出高效的 U-Net 变体

    • 提出了一种新的高效 U-Net 变体,改进了模型的收敛速度和内存使用。
  4. 在 COCO 数据集上取得最佳表现

    • 在 COCO 数据集上实现了新的最先进的 FID 分数 7.27。
  5. 引入新的评估基准 DrawBench

    • 提出了一个新的基准 DrawBench,用于评估文本到图像生成模型,提供了更深入的比较与评估。

关键词

  • Imagen: 文本到图像扩散模型,专注于高保真和深度语言理解。
  • Photorealism: 照片级真实感,生成的图像非常接近真实照片。
  • Diffusion Models: 扩散模型,用于高保真的图像生成。
  • Pretrained Language Models: 预训练语言模型,用于编码输入文本。
  • Dynamic Thresholding: 动态阈值,用于改善图像质量和文本对齐。
  • DrawBench: 评估基准,用于深入评估和比较文本到图像模型。

Imagen: Methodology Overview

2.1 预训练文本编码器(Pretrained Text Encoders)

Imagen 采用一个文本编码器将输入文本映射为嵌入序列,并结合级联条件扩散模型将这些嵌入转换为分辨率不断提高的图像。文本到图像模型需要强大的**语义文本编码器(Semantic Text Encoders)**来捕捉任意自然语言文本输入的复杂性和组合性。标准的文本编码器通常在图像-文本配对数据上进行训练,可以从头开始训练【41, 53】,也可以基于图像-文本数据进行预训练【54】,如 CLIP [49]。此外,大型语言模型(Large Language Models, LLMs),如 BERT [15]GPT [47, 48, 7]T5 [52] 也可用于编码文本,这些模型在理解文本和生成文本方面表现出显著进步。Imagen 探索了 BERTT5CLIP 作为文本编码器,并在训练时冻结这些模型的权重,这样可以减少计算需求,提高内存效率。

实验表明,扩展文本编码器的规模可以显著提高文本到图像生成的质量。尽管 T5-XXLCLIP 文本编码器在简单基准(如 MS-COCO)上表现类似,但在人类评估者的测试中,T5-XXL 编码器在图像-文本对齐和图像质量上优于 CLIP

2.2 扩散模型和无分类器指导(Diffusion Models and Classifier-Free Guidance)

扩散模型(Diffusion Models) 是一种通过迭代去噪过程将**高斯噪声(Gaussian Noise)**转换为从学习数据分布中采样的生成模型【63, 28, 65】。这些模型可以是条件模型,例如基于类标签、文本或低分辨率图像的条件【16, 29, 59, 58, 75, 41, 54】。Imagen 采用的扩散模型通过优化去噪目标进行训练,使得在迭代生成时逐步降低噪声水平,最终生成高质量的样本。

无分类器指导(Classifier-Free Guidance)是一种技术,可以通过联合训练条件和无条件目标,随机去掉条件来实现,这避免了使用预训练模型进行采样的复杂性。Imagen 主要依赖无分类器指导来实现文本条件下的有效生成。

2.3 大指导权重采样器(Large Guidance Weight Samplers)

最近的研究表明,增加**无分类器指导权重(Classifier-Free Guidance Weight)可以提高图像与文本的对齐度,但也会导致生成图像的饱和过度和自然度下降【27】。在每个采样步骤中,图像预测必须保持在训练数据的范围内,但高指导权重会导致预测值超出这些范围,进而影响采样效果。为了解决这个问题,Imagen 引入了静态阈值(Static Thresholding)动态阈值(Dynamic Thresholding)**两种方法。

  • 静态阈值(Static Thresholding):将预测值剪裁至 “[-1, 1]” 的范围,以防止生成空白图像,尽管这种方法在高权重下仍会导致图像过饱和。
  • 动态阈值(Dynamic Thresholding):在每个采样步骤中设置一个基于像素绝对值的阈值,将超出该阈值的像素向内推,从而防止每一步的像素饱和。这种方法显著改善了图像的照片级真实感(Photorealism),并增强了图像与文本的对齐能力,尤其是在使用非常大的指导权重时。

2.4 Robust Cascaded Diffusion Models

Imagen 利用一个基础的 64×64 模型,以及两个文本条件超分辨率扩散模型来逐步将生成的 64×64 图像上采样到 256×256 图像,再上采样到 1024×1024 图像。级联扩散模型配合噪声条件增强(Noise Conditioning Augmentation)【29】在逐步生成高保真图像方面表现得非常有效。此外,让超分辨率模型知道添加的噪声量(通过噪声级别条件化)可以显著提高样本质量,并增强超分辨率模型处理低分辨率模型产生的伪影的能力。Imagen 在两个超分辨率模型中都使用了噪声条件增强,这对于生成高保真图像至关重要。

在训练期间,增强级别(Augmentation Level) 是随机选择的,而在推理期间,我们遍历其不同的值来找到最佳样本质量。在本研究中,我们使用高斯噪声作为增强形式,并应用保留方差的高斯噪声增强,类似于扩散模型中使用的前向过程。增强级别由 aug_level ∈ [0, 1] 指定。

2.5 Neural Network Architecture

基础模型(Base Model): 我们采用了来自【40】的 U-Net 架构用于基础的 64×64 文本到图像扩散模型。该网络通过一个池化嵌入向量对文本嵌入进行条件化,并将其添加到扩散时间步嵌入中,类似于【16, 29】中使用的类嵌入条件化方法。我们进一步通过在多个分辨率下添加跨注意力机制(Cross Attention)【57】来对整个文本嵌入序列进行条件化。实验发现,注意力和池化层中的层归一化(Layer Normalization)【2】有助于显著提高性能。

超分辨率模型(Super-Resolution Models): 对于 64×64 → 256×256 的超分辨率,我们使用了从【40, 58】改编的 U-Net 模型。我们对该 U-Net 模型进行了多项修改,以提高内存效率、推理时间和收敛速度(我们的变体在每秒步数上比【40, 58】中使用的 U-Net 快 2-3 倍)。我们称这种变体为高效 U-Net(Efficient U-Net)(更多细节和对比见附录 B.1)。我们的 256×256 → 1024×1024 超分辨率模型在 64×64 → 256×256 的 1024×1024 图像裁剪上进行训练。为了实现这一点,我们移除了自注意力层,但保留了跨注意力层,因为我们发现它们非常关键。在推理过程中,模型接收完整的 256×256 低分辨率图像作为输入,并返回上采样的 1024×1024 图像作为输出。请注意,我们在两个超分辨率模型中都使用了文本跨注意力。

DREAMFUSION: TEXT-TO-3D USING 2D DIFFUSION

该研究改进了 Dream Fields 方法,将 CLIP 替换为从二维扩散模型蒸馏得到的损失。具体来说,并引入了得分蒸馏采样(Score Distillation Sampling, SDS),通过最小化具有共享均值的高斯分布家族与预训练扩散模型学习的得分函数之间的 KL 散度,实现了采样。在将 SDS 与针对三维生成任务定制的 NeRF 变体结合后,该方法 DreamFusion 能够根据用户提供的多样化文本提示生成高保真、一致的三维对象和场景。
在这里插入图片描述

方法流程概述
1.初始化神经辐射场(NeRF): 首先,使用随机参数初始化 NeRF 以表示三维场景。此时,NeRF的目标是从噪声分布开始,逐渐学习如何生成三维结构。
2.得分蒸馏采样 (SDS) 优化: 我们使用 SDS 来逐步优化 NeRF的参数。具体而言,我们从文本提示中生成图像嵌入,并通过冻结的扩散模型计算图像的噪声和得分函数。然后,我们计算生成的三维图像与扩散模型输出之间的误差,并基于此误差反向传播更新NeRF 的参数。
3.逐步生成三维结构: 通过多次迭代优化,NeRF 逐渐生成更接近目标的三维结构。每次优化过程中,生成的图像都更符合输入文本提示的内容。
4.最终三维对象生成: 经过足够的迭代后,NeRF 生成的三维对象达到了高保真度和一致性,可以从不同视角呈现出真实感。
这段文本解释了作者提出的用于可行采样的优化方法,称为得分蒸馏采样 (Score Distillation Sampling, SDS),以及它在优化过程中是如何运作的。

主要内容解析

  1. 目标:基于扩散模型进行优化

    • 作者的方法利用了扩散模型的结构,以通过优化损失函数来实现有效的采样。具体来说,作者通过优化参数 ( heta) 使得生成的图像 (x = g( heta)) 看起来像是来自已训练好的扩散模型的样本。这个过程的目标是找到一个使生成图像符合扩散模型分布的参数集合。
  2. 损失函数的选择与难点

    • 为了执行这个优化,作者需要一个可微分的损失函数,类似于 DeepDream 方法(Mordvintsev et al., 2015),即合理的图像具有较低的损失值,不合理的图像则具有较高的损失值。
    • 最初,作者尝试重用扩散模型的训练损失(公式 1),通过最小化生成数据点 (x = g( heta)) 的训练损失来找到学习的条件密度 (p(x|y)) 的模式。
    • 但在实际中,作者发现此损失函数难以生成真实的样本,特别是在使用身份 DIP((x = heta))时表现不佳。这表明这种优化目标的鲁棒性不足,难以调节时间步长等参数。
  3. 原始梯度的计算复杂度与改进

    • 作者进一步分析了损失函数的梯度,梯度计算中包含一个 U-Net 的雅可比矩阵项,这需要通过扩散模型的 U-Net 进行反向传播,计算代价非常高,并且对于小噪声水平,其条件很差。
    • 因此,作者决定忽略 U-Net 雅可比项,提出了一种新的梯度计算方式,使得优化基于扩散模型的可微分图像参数化(DIP)更加有效。
  4. 得分蒸馏采样 (SDS) 的梯度

    • 作者提出的 SDS 的梯度公式为:

在这里插入图片描述

  • 这个梯度通过在时间步 (t) 对应的随机噪声扰动 (x),并估计一个更新方向,使生成的图像更接近扩散模型中的高密度区域。这样的方法在本质上通过不断调整图像的参数 ( heta),使其能够生成更符合输入文本描述的图像。
  1. 损失函数与蒸馏过程的联系
    • 虽然这种梯度的定义看似是启发式的,但作者在附录中证明了,它实际上是基于扩散模型学习的得分函数的加权概率密度蒸馏损失的梯度。这使得该方法在理论上更加稳固,并且通过优化过程使生成图像更加符合输入文本的描述。

综上所述,这段内容主要介绍了 SDS 的核心思想以及如何通过优化损失函数实现从文本到图像的生成。SDS 方法通过忽略高计算成本的雅可比项,并通过加权概率密度蒸馏的方式,实现了有效的梯度优化,使得生成的图像具有更好的真实性和符合性。

4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling

首先看一下相关工作

相关工作:文本到 4D 生成

4D 场景生成

4D 场景生成指的是随着时间的推移对动态 3D 环境进行建模,从而提供一个完整的 4D(3D + 时间)表示。现有的大多数方法主要集中在从文本描述生成 3D 场景,例如众所周知的基于 NeRF 的方法。然而,4D 生成在静态 3D 内容的基础上增加了时间维度,使得在外观、几何和运动的一致性方面的实现变得更加具有挑战性。以前的 4D 场景生成研究通常需要密集的传感器数据或多视角同步摄像头,限制了其实用性。我们的工作 4D-fy 利用预训练的扩散模型从纯文本描述中生成 4D 内容,从而显著减少了对昂贵硬件设备的依赖。

用于生成任务的扩散模型

扩散模型已被广泛应用于各种生成任务,包括**文本到图像(T2I)文本到视频(T2V)**的应用。T2I 扩散模型(如 DALL-EImagenStable Diffusion)在从自然语言提示生成高质量图像方面表现出色。同样,T2V 扩散模型扩展了生成时间动态的能力,使得从文本提示生成一致的视频序列成为可能。**得分蒸馏采样(Score Distillation Sampling, SDS)已被用于优化这些生成模型中的潜在变量。我们提出的混合得分蒸馏采样(Hybrid SDS)**方法结合了多个预训练模型的监督,在视觉质量、空间一致性和动态真实感等方面提供了更优的表现。

文本到 3D 和文本到视频生成

最近在文本到 3D 生成方面的进展主要依赖于利用预训练的扩散模型与类似 NeRF 的体积场景表示相结合。这些方法使用 3D 感知的文本到图像模型,在生成过程中考虑场景的 3D 结构,有效地将图像信息蒸馏为一致的 3D 形式。然而,从 3D 扩展到 4D 需要管理的不仅是静态 3D 属性,还包括场景中与时间相关的变化。另一方面,**文本到视频(T2V)**模型则侧重于生成具有时间一致性的 2D 视频序列,这些模型为创建模拟时间变化的图像序列奠定了基础,这对于实现生成场景的 4D 一致性至关重要。4D-fy 结合了这两种范式——T2V 和 T2I,以实现一致且逼真的 4D 生成。

文本到 4D 生成的挑战

文本到 4D 生成面临的一个最紧迫的挑战是Janus 问题,即当从不同的时间和角度观察对象时,其外观的一致性无法保持,导致不自然的时间过渡。此外,在加入时间变化的同时保持空间一致性也使得生成过程变得极为复杂。现有的 4D 方法通常难以在外观保真度、几何精度和真实运动之间取得平衡。我们的混合 SDS 方法通过在迭代优化过程中平衡这些方面,确保生成的 4D 场景在各个维度上都具有一致性。

在这里插入图片描述
从方法部分来看

方法:文本到 4D 生成

我们的文本到 4D 生成方法基于一种基于哈希编码的神经表示[39],该方法隐式地将场景分解为静态和动态特征网格[64]。在本节中,我们概述了用于 4D 神经渲染的表示方法,并描述了基于HSDS(Hybrid Score Distillation Sampling)的优化过程(见图 3)。

4D 神经渲染

体积神经渲染方法通过使用神经表示来参数化 3D 空间中每个点的光的衰减和发射,从而表示一个场景[36, 38]。我们可以通过从相机投影中心沿每个像素位置向场景中投射射线来渲染图像。对于沿射线采样的点µ ∈ R^3,我们查询神经表示来获取体积密度τ ∈ R+ 和颜色 c ∈ R^3+,分别描述特定点处的光衰减和发射。然后,使用 alpha 合成来恢复渲染像素 C 的颜色:

C = ∑ i w i c i , w i = α ∏ j < i ( 1 − α j ) , C = \sum_i w_i c_i, \quad w_i = \alpha \prod_{j<i} (1 - \alpha_j), C=iwici,wi=αj<i(1αj),

其中:

α i = 1 − e − τ i ∥ μ i − μ i + 1 ∥ 。 \alpha_i = 1 - e^{-\tau_i \| \mu_i - \mu_{i+1} \|}。 αi=1eτiμiμi+1

我们使用附加的时间变量 t 来查询神经表示,这使得能够建模时间变化的密度和颜色。

我们的神经表示由两个多分辨率哈希表组成,分别用于解耦静态和动态场景建模。静态哈希表存储可学习的特征向量,这些向量通过体素查找和哈希操作进行索引,并使用两个小型多层感知器(MLPs)解码为密度和颜色。我们考虑以下形式的神经表示:

N θ : μ , t → τ , c N_\theta : \mu, t \rightarrow \tau, c Nθ:μ,tτ,c

其中θ = {\theta_{\text{static}}, \theta_{\text{dynamic}}, \theta_{\text{MLP}}} 表示所有可学习参数,包括静态和动态哈希表以及 MLPs。

对于给定的μ,我们通过识别每个尺度 1 ≤ s ≤ S 的最近体素来查询静态哈希表。然后,在从哈希表中检索到体素顶点后,对特征值进行三线性插值。每个尺度检索到的特征被拼接为 f static = f static ( 1 ) ⊕ ⋯ ⊕ f static ( S ) f_{\text{static}} = f_{\text{static}}^{(1)} \oplus \cdots \oplus f_{\text{static}}^{(S)} fstatic=fstatic(1)fstatic(S)。对于动态哈希表,我们遵循相同的查询过程,但使用四线性插值。最终,从静态和动态哈希表中检索到的特征被相加为 f = f static + f dynamic f = f_{\text{static}} + f_{\text{dynamic}} f=fstatic+fdynamic。最后,我们通过 MLP 解码得到密度和颜色。

混合得分蒸馏采样(Hybrid SDS)

我们利用 4D 表示和 SDS 来从文本提示创建动态 3D 场景。我们的混合方法结合了三种不同风格的 SDS,这些方法在交替优化过程中被平滑地融合,以提高 4D 模型的结构和质量:

  1. 3D 感知的文本到图像扩散模型的 SDS,用于优化静态场景并避免 Janus 问题
  2. 变分得分蒸馏采样(Variational Score Distillation Sampling, VSD),使用标准文本到图像模型[51]来改善静态场景的外观。
  3. 视频 SDS,使用文本到视频模型[69],将 SDS 扩展到多个视频帧并为场景添加运动。

在以下部分中,我们描述了每种 SDS 及其在文本到 4D 生成中的作用。

3D 感知场景优化

我们首先考虑使用 3D 感知的文本到图像扩散模型[55]的 SDS 来优化静态场景。扩散模型通过向多视角图像逐步添加高斯噪声进行训练,然后反向预测去噪图像,从而为输入场景增加结构。在 3D 感知 SDS 中,我们通过渲染多个图像,添加噪声,然后使用分类器自由引导来预测噪声,最后使用梯度更新神经表示的参数,以优化场景的 3D 结构。

这种方法有效地利用了扩散模型在逐步添加和去除噪声的过程中对图像结构的理解,将其转化为优化场景表示的梯度信息,确保生成的场景在视觉上具有一致性和真实感。

改善外观效果:VSD 方法

我们结合了基于 VSD(变分得分蒸馏) 的附加损失项,以改善从场景中渲染图像的外观。该损失项使用了预训练的文本到图像模型[51],并通过微调方案改进了图像质量,使其超过单独使用 3D 感知文本到图像模型的效果。具体地,我们按照 Wang 等人的方法[71],在场景优化过程中,将输出扩散模型的梯度与标准 SDS 的梯度进行组合。

我们采用以下损失项:

∇ θ L I M G = E t d , ϵ , T [ w ( t d ) ( ϵ ϕ ( z t d ; t d , y ) − ϵ ϕ ′ ( z t d ; t d , y , T ) ) ∂ x θ ∂ θ ] , \nabla_\theta L_{IMG} = E_{t_d, \epsilon, T} \left[ w(t_d) \left( \epsilon_{\phi}(z_{t_d}; t_d, y) - \epsilon'_{\phi}(z_{t_d}; t_d, y, T) \right) \frac{\partial x_\theta}{\partial \theta} \right], θLIMG=Etd,ϵ,T[w(td)(ϵϕ(ztd;td,y)ϵϕ(ztd;td,y,T))θxθ],

其中 ϵ ϕ ′ \epsilon'_{\phi} ϵϕ 是使用经过微调的扩散模型预测的噪声,加入了额外的相机外参 T T T 作为条件。与原始的 VSD 描述不同,我们发现可以省略对多个场景样本的同时优化,从而减少内存需求,而不会显著降低外观质量。

添加运动:视频 SDS

我们使用来自文本到视频扩散模型[69]的监督来为生成场景添加运动。这种方法通过将扩散模型对所有噪声视频帧的结构信息进行结合,扩展了原始 SDS 梯度,具体表示为:

∇ θ L V I D = E t d , ϵ [ w ( t d ) ( ϵ ϕ ( z t d ; t d , y ) − ϵ ) ∂ X θ ∂ θ ] . \nabla_\theta L_{VID} = E_{t_d, \epsilon} \left[ w(t_d) (\epsilon_{\phi}(z_{t_d}; t_d, y) - \epsilon) \frac{\partial X_\theta}{\partial \theta} \right]. θLVID=Etd,ϵ[w(td)(ϵϕ(ztd;td,y)ϵ)θXθ].

为了简化符号,我们重用了 ϵ ϕ \epsilon_{\phi} ϵϕ ϵ \epsilon ϵ 来表示每个视频帧的预测噪声和实际噪声,并让 X θ X_\theta Xθ 是从表示中渲染的一组 V 个视频帧的集合。

优化过程 - 算法 1

我们通过三个阶段来优化 4D 表示,在交替步骤中平滑地融合(1)3D 感知 SDS、(2)VSD 和(3)视频 SDS 的监督。

  • 阶段 1:在优化的第一阶段,我们使用 3D 感知 SDS 的梯度更新 N θ N_\theta Nθ,直到收敛。由于这一阶段侧重于优化静态场景,我们冻结动态哈希表 f dynamic f_{\text{dynamic}} fdynamic 的参数,只更新静态哈希表和解码器 MLP。
    在这里插入图片描述

  • 阶段 2:接下来,我们使用交替优化过程加入 VSD 梯度。在每次迭代中,我们随机选择使用 ∇ θ L 3 D \nabla_\theta L_{3D} θL3D ∇ θ L I M G \nabla_\theta L_{IMG} θLIMG 来更新模型,选择的概率分别为 P 3 D P_{3D} P3D P I M G P_{IMG} PIMG。这一阶段的优化改进了静态场景的外观,同时避免了 Janus 问题
    在这里插入图片描述

  • 阶段 3:最后,我们结合所有梯度更新来更新表示。在每次迭代中,我们随机选择使用 ∇ θ L 3 D \nabla_\theta L_{3D} θL3D ∇ θ L I M G \nabla_\theta L_{IMG} θLIMG ∇ θ L V I D \nabla_\theta L_{VID} θLVID 来更新模型,选择的概率分别为 P 3 D P_{3D} P3D P 3 D ⋅ P I M G P_{3D} \cdot P_{IMG} P3DPIMG 1 − P 3 D ⋅ P I M G 1-P_{3D} \cdot P_{IMG} 1P3DPIMG。由于这一阶段旨在将运动融入表示中,我们在使用 ∇ θ L V I D \nabla_\theta L_{VID} θLVID 更新时解冻动态哈希表的参数,但在使用文本到图像模型更新时保持冻结。我们还降低了静态哈希表的学习率,以保持前一阶段的高质量外观效果。
    在这里插入图片描述

通过这种方式,混合 SDS 有效地结合了每个预训练扩散模型的优势,同时避免了直接组合各模型梯度所带来的质量下降。


关键词对照表

  • 4D Scene Generation - 4D 场景生成
  • Diffusion Models - 扩散模型
  • Text-to-Image (T2I) - 文本到图像(T2I)
  • Text-to-Video (T2V) - 文本到视频(T2V)
  • Score Distillation Sampling (SDS) - 得分蒸馏采样(SDS)
  • Hybrid Score Distillation Sampling (Hybrid SDS) - 混合得分蒸馏采样(Hybrid SDS)
  • Spatial Consistency - 空间一致性
  • Temporal Coherence - 时间一致性
  • Janus Problem - Janus 问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/892245.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

「规模焦虑」如影随形,库迪咖啡想靠便捷店突围能行吗?

作者 | 辰纹 来源 | 洞见新研社 “我有一个广东的小兄弟&#xff0c;做了9年的奶茶&#xff0c;后来因为觉得咖啡是一个上升期的赛道&#xff0c;所以毅然决然拿了45万加盟了库迪咖啡&#xff0c;结果全亏损完了&#xff0c;相当于只买了一个配方。” 抖音博主茶饮圈大山哥分…

MyBatis XML映射文件

XML映射文件 XML映射文件的名称与Mapper接口名称一致&#xff0c;并且将XML映射文件和Mapper接口放置在相同包下&#xff08;同包同名&#xff09;XML映射文件的namespace属性为Mapper接口全限定名一致XML映射文件中SQL语句的id与Mapper接口中的方法名一致&#xff0c;并保持返…

C语言_指针_进阶

引言&#xff1a;在前面的c语言_指针初阶上&#xff0c;我们了解了简单的指针类型以及使用&#xff0c;下面我们将进入更深层次的指针学习&#xff0c;对指针的理解会有一个极大的提升。从此以后&#xff0c;指针将不再是难点&#xff0c;而是学习底层语言的一把利器。 本章重点…

ubuntu 开放 8080 端口快捷命令

文章目录 查看防火墙状态开放 80 端口开放 8080 端口开放 22端口开启防火墙重启防火墙**使用 xhell登录**&#xff1a; 查看防火墙状态 sudo ufw status [sudo] password for crf: Status: inactivesudo ufw enable Firewall is active and enabled on system startup sudo…

Linux性能调优,还可以从这些方面入手

linux是目前最常用的操作系统&#xff0c;下面是一些常见的 Linux 系统调优技巧&#xff0c;在进行系统调优时&#xff0c;需要根据具体的系统负载和应用需求进行调整&#xff0c;并进行充分的测试和监控&#xff0c;以确保系统的稳定性和性能。同时&#xff0c;调优过程中要谨…

第二十一节 图像旋转

void QUickdemo::roate_demo(Mat& image) { Mat dst, M; int w image.cols; int h image.rows; M getRotationMatrix2D(Point2f(w / 2, h / 2), 45, 1.0);--M getRotationMatrix2D(Point2f(w / 2, h / 2), 45, 1.0);&#xff1a;使用getRotationMatrix…

Linux学习网络编程学习(TCP和UDP)

文章目录 网络编程主要函数介绍1、socket函数2、bind函数转换端口和IP形式的函数 3、listen函数4、accept函数网络模式&#xff08;TCP&UDP&#xff09;1、面向连接的TCP流模式2、UDP用户数据包模式 编写一个简单服务端编程5、connect函数编写一个简单客户端编程 超级客户端…

jmeter入门:脚本录制

1.设置代理。 网络连接-》代理-》手动设置代理. ip&#xff1a; 127.0.0.1&#xff0c; port&#xff1a;8888 2. add thread group 3. add HTTP(s) test script recorder, target controller chooses Test plan-> thread Group 4. click start. then open the browser …

Windows环境下Qt Creator调试模式下qDebug输出中文乱码问题

尝试修改系统的区域设置的方法&#xff1a; 可以修复问题。但会出现其它问题&#xff1a; 比如某些软件打不开&#xff0c;或者一些软件界面的中文显示乱码&#xff01; 暂时没有找到其它更好的办法。

k8s的微服务

ipvs模式 Service 是由 kube-proxy 组件&#xff0c;加上 iptables 来共同实现的 kube-proxy 通过 iptables 处理 Service 的过程&#xff0c;需要在宿主机上设置相当多的 iptables 规则&#xff0c;如果宿主机有大量的Pod&#xff0c;不断刷新iptables规则&#xff0c;会消耗…

FreeRTOS应用开发学习

了解FreeRTOS 任务相关API FreeRTOS任务创建API FreeRTOS 中&#xff0c;任务的创建有两种方法&#xff0c;一种是使用动态创建&#xff0c;一种是使用静态创建。动态创建时&#xff0c;任务控制块和栈的内存是创建任务时动态分配的&#xff0c;任务删除时&#xff0c;内存可…

推动AI技术研发与应用,景联文科技提供专业高效图像采集服务

景联文科技提供专业图像采集服务&#xff0c;涵盖多个领域的应用需求。 包含人体图像、人脸图像、手指指纹、手势识别、交通道路、车辆监控等图像数据集&#xff0c;计算机视觉图像数据集超400TB&#xff0c;支持免费试采试标。 高质量人像采集服务&#xff1a;支持不同光线条件…

2024年10月16日练习

一.回文数&#xff1a; 思路一&#xff1a; 负数肯定就不是回文数了&#xff0c;所以负数就直接返回flase&#xff0c;正数的话就一位位分解&#xff0c;然后构成一个 新的整数&#xff0c;然后去判断两者是否相等即可&#xff1a; bool isPalindrome(int x) {if (x<0){r…

阿里Dataworks使用循环节点和赋值节点完成对mongodb分表数据同步

背景 需求将MongoDB数据入仓MaxCompute 环境说明 MongoDB 100个Collections&#xff1a;orders_1、orders_2、…、orders_100 前期准备 1、MongoDB数据源配置 需要先保证DW和MongoDB网络是能够联通的&#xff0c;需要现在集成任务中配置MongoDB的数据源信息。 具体可以查…

SldWorks问题 2. 矩阵相关接口使用上的失误

问题 在计算三维点在图纸&#xff08;DrawingDoc&#xff09;中的位置时&#xff0c;就是算不对&#xff0c;明明就4、5行代码&#xff0c;怎么看都是很“哇塞”的&#xff0c;毫无问题的。 但结果就是不对。 那就调试一下吧&#xff0c;调试后发现生成的矩阵很不对劲&#…

数学建模算法与应用 第15章 预测方法

目录 15.1 微分方程模型 Matlab代码示例&#xff1a;求解简单的微分方程 15.2 灰色预测模型&#xff08;GM&#xff09; Matlab代码示例&#xff1a;灰色预测模型 15.3 自回归模型&#xff08;AR&#xff09; Matlab代码示例&#xff1a;AR模型的预测 15.4 指数平滑法 M…

论文阅读-U3M(2)

HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE? 文章目录 HOW MUCH POSITION INFORMATION DO CONVOLUTIONAL NEURAL NETWORKS ENCODE?前言一、位置编码网络&#xff08;PosENet&#xff09;二、训练数据三、实验3.1 位置信息的存在性3.2 分析PosEN…

单片机原理及应用笔记:C51的运算符与项目实践

单片机原理及应用笔记 作者简介 李永康&#xff0c;男&#xff0c;银川科技学院计算机与人工智能学院&#xff0c;2022级计算机与科学技术9班本科生&#xff0c;单片机原理及应用课程第7组。 指导老师&#xff1a;王兴泽 电子邮件&#xff1a;3214729183qq.com 个人CSDN主…

学习 PostgreSQL + Spring Boot 3 +mybatisplus整合过程中的报错记录

今天计划学习 PostgreSQL&#xff0c;并顺便尝试使用 Spring Boot 3.x 框架&#xff0c;打算整合 Spring Boot 3、PostgreSQL 和 MyBatis-Plus。整合后一直出现以下报错&#xff1a; 去AI上面搜了讲的是sqlSessionFactory 或 sqlSessionTemplate 没有正确配置 初始分析&#…

linux提权【笔记总结】

文章目录 信息收集通过命令收集信息内核&#xff0c;操作系统&#xff0c;设备信息等用户信息环境信息进程与服务安装的软件服务与插件计划任务查看是否存在明文密码查看与主机的通信信息查看日志信息 通过脚本收集信息LinEnum脚本介绍复现 Linuxprivchecker复现 linux-exploit…