【CVPR 2024】GART: Gaussian Articulated Template Models

【CVPR 2024】GART: Gaussian Articulated Template Models

  • 一、前言
  • Abstract
  • 1. Introduction
  • 2. Related Work
  • 3. Method
    • 3.1. Template Prior
    • 3.2. Shape Appearance Representation with GMM
    • 3.3. Motion Representation with Forward Skinning
    • 3.4. Reconstruct GART from Monocular Videos
  • 4. Experiments
  • 4.1. Comparison on Human Rendering
    • 4.2. Application on Dog Rendering
    • 4.3. Ablation Study
    • 4.4. Application: Text-to-GART
  • 5. Conclusions

一、前言

【Paper】 > 【Github_Code】 > 【Project】
GART 利用移动的 3D 高斯混合模型来显式地近似可变形主体的几何形状和外观。它利用了具有可学习前向蒙皮的分类模板模型先验(如 SMPL、SMAL 等),同时通过引入新的潜在骨骼进一步推广到更复杂的非刚性变形。

Abstract

介绍:我们介绍了高斯关节模板模型(GART),这是一种显式、高效且富有表现力的表示方法,用于从单目视频中捕捉和渲染非刚性关节主体。
方法:GART 利用移动的 3D 高斯混合模型来显式地近似可变形主体的几何形状和外观。它利用了具有可学习前向蒙皮的分类模板模型先验(如 SMPL、SMAL 等),同时通过引入新的潜在骨骼进一步推广到更复杂的非刚性变形。
实验:GART 可以通过可微渲染在几秒钟或几分钟内从单目视频中重建,并以超过 150fps 的速度在新姿态下进行渲染。

SMAL : A Skinned Multi-Animal Linear Model of 3D Animal Shape

1. Introduction

在这里插入图片描述

人类和动物是现实世界动态场景中最常见的可变形实体,因此存在大量的方法来建模它们的几何形状、外观和运动。本文研究了如何从单目视频中表示和重建这些可变形主体。由于它们共享类别级结构,变形模板模型得以开发并广泛应用,如用于人类的 SMPL [42] 和用于四足动物的 SMAL [95]。虽然这些模型对于姿态估计非常有用,但类别模板模型无法在各种变形过程中捕捉到详细的外观和几何形状。

最近的研究提出通过在模板上构建额外的隐式表示来解决这个问题,以建模几何变形和外观。这些表示大多基于神经场(neural fields)[46, 47, 50, 75]。虽然隐式表示增强了质量,但由于查询操作成本高,渲染速度较慢。对神经场进行动画处理具有挑战性,需要专门的前向或后向蒙皮技术 [8, 9]。此外,这些方法通常依赖于准确的模板姿态估计,因为在立体视觉错误时,它们很容易在空白空间中产生伪影。相比之下,显式表示 [1, 18, 89] 渲染效率高,易于变形,并且由于基于变形的优化过程,对姿态估计误差更具鲁棒性。然而,显式表示通常质量次优,并受到固定网格拓扑结构的限制 [1],受限于使用过多的点 [89],或严重依赖多视角工作室相机系统 [18]。

我们对关节建模的主要见解是,隐式辐射场的显式近似能够克服两者的弱点。我们提出了高斯关节模板模型(GART),这是一种用于非刚性关节主体的新型可渲染表示。GART 利用经典模板模型的运动学骨架,并通过在规范空间中使用高斯混合模型(GMM)来建模详细外观,该模型近似底层辐射场(见第3.2节)。由于 GMM 没有固定的拓扑结构,并且每个组件可以平滑地近似一个邻域,GART 具有与 NeRFs 一样的表现力,同时保持简单性和可解释性。

作为一种显式表示,GART 可以通过类似于模板网格的前向蒙皮进行动画处理。然而,预定义的骨架无法捕捉到宽松衣物(如长裙)的运动。我们通过一种新颖的潜在骨骼方法来解决这一挑战,其中一组未观察到的潜在骨骼及其驱动额外变形的蒙皮权重,可以从单目视频中同时学习(见第3.3节)。GMM 近似的另一个挑战是,缺乏相对于神经场的局部平滑性,这会在输入视图稀疏或输入人体姿态噪声较大时影响重建质量。我们引入了平滑性先验来建模关节主体,以使 GART 适应单目重建(见第3.4节)。

为了从单目视频中捕捉关节主体,我们使用估计的模板初始化 GART,并通过 3D 高斯点云[27, 96] 渲染 GMM 以重建每一帧。优化过程逐渐更新每个高斯参数,并像基于变形的方法一样,在模板姿态估计出现错误时表现得更加稳健。借助显式、高效且富有表现力的 GART,我们能够在30秒内从单目视频中重建一个人体头像,并以540×540的分辨率在笔记本电脑上以150+ FPS的速度渲染它,据我们目前所知,这比任何最先进的基于 NeRF 的人体渲染方法都要快。此外,我们还将 GART 作为一个通用框架,从野外的单目视频中重建动物,其保真度比之前的基于网格的方法更高。

总结来说,我们的主要贡献有:

  1. GART:一种通用且显式的表示方法,用于非刚性关节主体,通过高斯混合模型(GMM)来近似规范形状和外观的辐射场。

  2. 高效动画:GART 可以通过可学习的前向蒙皮高效地进行动画处理,并且通过一种新颖的潜在骨骼方法捕捉人类宽松衣物等具有挑战性的变形。

  3. 实验结果:我们的实验表明,GART 在单目人类重建和渲染方面在多个数据集上达到了最先进的性能,具有最佳的训练和推理效率,并能从野外的单目视频中生成高质量的动物重建。

2. Related Work

3D Human Reconstruction.
从单目观测中重建3D人类是一个困难的任务,因为存在深度模糊。参数化模板模型 [39, 42, 51, 58] 提供了一个强有力的人体先验知识,并且在最近的单目3D人体姿态和形状重建中起到了关键作用 [15, 26, 29, 30, 64, 65, 69]。然而,参数化网格的显式和预定义拓扑结构无法捕捉个性化的外观,例如纹理、头发和衣物 [1, 2, 18–20]。为了解决这个问题,最近的研究 [7–9, 11–13, 16, 17, 21–25, 31, 33, 38, 40, 49, 52, 53, 60, 62, 63, 68, 71, 76, 77, 86, 90, 92] 提出了使用神经表示(如NeRF)来从多个视角或视频中捕捉高保真度的人体。为了重建动态人类,神经表示与参数化模型相结合,以分离姿态和形状 [40, 55, 71]。外观可以在规范空间中建模,然后由关节模板进行姿态调整 [8, 9]。这些混合方法允许捕捉的虚拟人重新动画化,并展示了对建模个性化细节的高度灵活性。然而,其缺点是查询和渲染效率低下。我们提出的GART同样利用参数化模板来建模人体关节化。但与上述神经表示不同的是,外观由3D高斯分布 [27, 91, 96] 表示,渲染效率高。此外,3D高斯分布的显式性允许我们设计简单的变形和正则化规则。

3D Animal Reconstruction. 类似于人类建模,参数化模型也被提出用于不同的动物 [3, 4, 36, 59, 95],并且可以适配于图像和视频 [5, 93]。通过图像引导变形模板,可以以有限的保真度捕捉新的实例或更多的物种 [70, 94]。由于为多样的动物创建模板模型成本高昂,无模型方法通过变形一个球体来学习动物形状 [6, 14, 67, 73]。最近的方法旨在直接从视频中构建可动画的神经场 [74, 79, 80]。使用多视角RGB和Vicon相机阵列系统,已经展示了高质量的动物神经捕捉 [44]。然而,与所有这些方法不同,GART在D-SMAL [59] 模板上稳健地构建了详细的3D高斯分布,可以从野外单目视频中捕捉不同种类的狗。

3D Gaussian Splatting. 上述重建技术的关键在于可微渲染,其中网格 [34, 41]、点/表面 [35, 78, 84, 88] 和 NeRFs [37, 47, 48] 被广泛使用。最近在可微渲染方面的进展复兴了经典的 EWA 体积点绘技术 [96],其中使用 3D 高斯分布来近似底层辐射场,并通过基于点绘的渲染实现高效率和高保真度 [27]。3D-GS [27, 28] 技术最近被应用于建模一般动态场景 [43, 72, 81, 82],这些场景没有特定的结构(即关节化),并且也被应用于 3D 生成 [10, 66, 83]。

3. Method

在这里插入图片描述

3.1. Template Prior

不同于在工作室中使用多视角系统[19, 20]捕捉变形对象,从单目视频中进行捕捉极具挑战性,许多研究利用类别级模板模型作为强有力的先验知识来关联和累积跨时间的信息,以实现对人类和动物的单目重建。这些模板包括用于人类的SMPL [42, 51]系列和用于动物的SMAL [59, 95]。通常,一个模板模型由三个组件组成:
( M , B , W ) . \begin{equation} (\mathcal M, \mathcal B, \mathcal W). \end{equation} (M,B,W).模板网格 M = ( V c , F ) \mathcal{M} = (\mathcal{V}_c, \mathcal{F}) M=(Vc,F) 在规范空间中定义,用于建模对象的形状。类别的预定义运动结构(骨架) B \mathcal{B} B 具有 n b n_b nb 个关节,可以基于驱动姿态 θ \theta θ 返回一组刚性骨骼变换:
[ B 1 , B 2 , … , B n b ] = B ( θ ) , \begin{equation} [B_1, B_2, \ldots, B_{n_b}] = \mathcal B(\theta), \end{equation} [B1,B2,,Bnb]=B(θ),其中, B i ∈ S E ( 3 ) B_i \in SE(3) BiSE(3) 表示将规范关节坐标系移动到关节坐标系的刚性变换。规范空间中的表面点 x c x_c xc 可以通过线性混合蒙皮(LBS)变形到关节空间:
x = ( ∑ k = 1 n b W k ( x c ) B k ) x c , \begin{equation} x = \left(\sum_{k=1}^{n_b} \mathcal W_k(x_c) B_k \right)x_c, \end{equation} x=(k=1nbWk(xc)Bk)xc,其中, W k ( x c ) ∈ R \mathcal{W}_k(x_c) \in \mathbb{R} Wk(xc)R 用于查询规范空间中预定义的蒙皮权重。通常, W \mathcal{W} W 可以通过扩散网格蒙皮权重在整个 R 3 \mathbb{R}^3 R3 空间中预定义。

3.2. Shape Appearance Representation with GMM

高斯关节模板 (GART) 是一种用于可变形关节对象的表示方法,它结合了隐式和显式表示的优点。受到最近在静态场景渲染 \cite{kerbl20233d} 和经典基于点的图形学 \cite{zwicker2002ewa} 进展的启发,我们提出 \emph{使用三维高斯混合模型 (GMM) 在规范空间中\underline{显式}地近似\underline{隐式}的基础辐射场}。GMM 中的第 i i i 个分量由一个三维均值 μ ( i ) ∈ R 3 \mu^{(i)} \in \mathbb{R}^3 μ(i)R3、一个三维旋转 R ( i ) ∈ S O ( 3 ) R^{(i)} \in SO(3) R(i)SO(3)、各向异性的三维缩放因子 s ( i ) ∈ R 3 + s^{(i)} \in \mathbb{R}^{3+} s(i)R3+、一个不透明度因子 η ( i ) ∈ ( 0 , 1 ] \eta^{(i)} \in (0,1] η(i)(0,1]、以及由球谐函数编码的颜色辐射函数 f ( i ) ∈ R C f^{(i)} \in \mathbb{R}^C f(i)RC 参数化。给定规范空间中的查询位置 x c x_c xc,第 i i i 个分量的密度贡献为:
σ ( i ) ( x c ) = η exp ⁡ ( − 1 2 ( x c − μ ) T Σ − 1 ( x c − μ ) ) , \begin{equation} \sigma^{(i)}(x_c) =\eta \exp{\left( -\frac{1}{2 }(x_c-\mu)^T \varSigma^{-1} (x_c-\mu)\right)}, \end{equation} σ(i)(xc)=ηexp(21(xcμ)TΣ1(xcμ)),其中,协方差矩阵为 Σ = R diag ( s 2 ) R T \varSigma = R \text{diag}(s^2)R^T Σ=Rdiag(s2)RT,我们省略了索引 i i i。该分量的颜色贡献为:
c ( i ) ( x c , d ) = σ ( x c ) sph ( R T d , f ) , \begin{equation} c^{(i)}(x_c, d) = \sigma(x_c) \text{sph}(R^Td,f), \end{equation} c(i)(xc,d)=σ(xc)sph(RTd,f),其中, sph ( R T d , f ) \text{sph}(R^T d, f) sph(RTd,f) 表示在局部坐标系方向 R T d R^T d RTd 上,使用系数 f f f 来评估球谐函数,给定全局查询视角方向 d d d。总的辐射场是所有 N N N 个分量的总和:
σ ( x c ) = ∑ i = 1 N σ ( i ) ( x c ) , c ( x c , d ) = ∑ i = 1 N c ( i ) ( x c , d ) . \begin{equation} \sigma(x_c) = \sum_{i=1}^N\sigma^{(i)}(x_c), \quad c(x_c, d) = \sum_{i=1}^N c^{(i)}(x_c, d). \end{equation} σ(xc)=i=1Nσ(i)(xc),c(xc,d)=i=1Nc(i)(xc,d).方程 6 通过一系列高斯分量参数显式表示了规范几何和外观,可以写成:
G = { ( μ ( i ) , R ( i ) , s ( i ) , η ( i ) , f ( i ) ) } i = 1 N . \begin{equation} \mathcal G =\left\{ (\mu^{(i)}, R^{(i)}, s^{(i)}, \eta^{(i)}, f^{(i)}) \right\}_{i=1}^N. \end{equation} G={(μ(i),R(i),s(i),η(i),f(i))}i=1N.在 GART 中, G \mathcal{G} G 替代了方程 1中的 M \mathcal{M} M 三元组。请注意,在优化过程中(见第 3.4 节),每个分量可以独立移动,并且不受网格等固定拓扑结构的约束,这使得 GART 具有高度的灵活性。

3.3. Motion Representation with Forward Skinning

Learnable Forward Skinning
使用 G \mathcal{G} G 的一个关键优势是简单且显式的变形建模。由于模板中的预定义类别级蒙皮先验 W \mathcal{W} W 可能无法反映实际实例的变形,我们为每个高斯分量分配一个可学习的蒙皮校正:
W ^ ( μ ( i ) ) = W ( μ ( i ) ) + Δ w ( i ) , \begin{equation} \widehat{\mathcal W}(\mu^{(i)}) = \mathcal W (\mu^{(i)}) + \Delta w^{(i)}, \end{equation} W (μ(i))=W(μ(i))+Δw(i),
其中, Δ w ( i ) ∈ R n b \Delta w^{(i)} \in \mathbb{R}^{n_b} Δw(i)Rnb 是第 i i i 个高斯分量的可学习蒙皮。在 GART 中,可学习的 W ^ \widehat{\mathcal{W}} W 替代了方程1 中的 W \mathcal{W} W。给定一个姿态 θ \theta θ,第 i i i 个高斯分量的关节变换 A ( i ) A^{(i)} A(i) 为:
A ( i ) = ∑ k = 1 n b W k ^ ( μ ( i ) ) B k , \begin{equation} A^{(i)} = \sum_{k=1}^{n_b} \widehat{\mathcal W_k}(\mu^{(i)}) B_k, \end{equation} A(i)=k=1nbWk (μ(i))Bk,
高斯中心和旋转被表示为:
μ art ( i ) = A rot ( i ) μ ( i ) + A t ( i ) , R art ( i ) = A rot R ( i ) , \begin{equation} \mu_{\text{art}}^{(i)} = A^{(i)}_{\text{rot}}\mu^{(i)} + A_t^{(i)}, \quad R_{\text{art}}^{(i)} = A_{\text{rot}}R^{(i)}, \end{equation} μart(i)=Arot(i)μ(i)+At(i),Rart(i)=ArotR(i),
其中, A rot ( i ) A_{\text{rot}}^{(i)} Arot(i) A t ( i ) A_t^{(i)} At(i) 分别是 A ( i ) A^{(i)} A(i) 的左上 3 × 3 3 \times 3 3×3 块和右 3 × 1 3 \times 1 3×1 块。注意, A ( i ) A^{(i)} A(i) 可能不再是一个 S E ( 3 ) SE(3) SE(3) 变换。但变换后的 R a ( i ) R_a^{(i)} Ra(i) 仍然可以用于构造方程4中的协方差矩阵,并且通过使用方程 6 中的关节均值和协方差,可以直接从方程 10 中得到关节辐射场。这个前向蒙皮使得 GART 能够高效地建模运动,并避免了其他隐式表示中使用的反向蒙皮求根问题 \cite{snarf, fastsnarf}。

Latent Bones and Flexible Deformation
与特定人物无关的人体模型(如 SMPL)具有预定义的骨架 B \mathcal{B} B,能够很好地模拟人体运动,但无法捕捉松散衣物的运动。我们的目标是找到一种简单的近似方法,从单目视频中捕捉衣物的运动。我们的洞察是,关节主体的变形可以看作是由 n b n_b nb 个预定义骨骼加上 n l n_l nl 个未知潜在骨骼驱动的。我们可以将潜在骨骼的变换表示为姿态 θ \theta θ 的函数:
[ B ~ 1 , … , B ~ n l ] = B ~ ( θ ) \begin{equation} [\widetilde B_{1},\ldots, \widetilde B_{n_l}] = \widetilde{\mathcal{B}}(\theta) \end{equation} [B 1,,B nl]=B (θ)
其中, B ~ i ∈ S E ( 3 ) \widetilde{B}_{i} \in SE(3) B iSE(3),并且 B ~ ( θ ) \tilde{\mathcal{B}}(\theta) B~(θ) 可以用多层感知器(MLP)或每帧可优化的表格来参数化。同样地,我们可以在训练过程中为每个高斯函数学习潜在骨骼的蒙皮权重 W ~ ( μ ) ∈ R n l \widetilde{\mathcal{W}}(\mu) \in \mathbb{R}^{n_l} W (μ)Rnl。随着潜在骨骼的加入,来自 Eq.9的前向蒙皮变为:
A ( i ) = ∑ k = 1 n b W k ^ ( μ ( i ) ) B k + ∑ q = 1 n l W q ~ ( μ ( i ) ) B ~ q . \begin{equation} A^{(i)} = \sum_{k=1}^{n_b} \widehat{\mathcal W_k}(\mu^{(i)}) B_k + \sum_{q=1}^{n_l} \widetilde{\mathcal W_q}(\mu^{(i)}) \widetilde B_q. \end{equation} A(i)=k=1nbWk (μ(i))Bk+q=1nlWq (μ(i))B q.
请注意,这种变形模型在计算上高效且紧凑,因为变换 B \mathcal{B} B B ~ \widetilde{\mathcal{B}} B 在所有高斯函数中是全局共享的。
Summary
现在,我们全面介绍 GART:
( G , B , W ^ , B ~ , W ~ ) , \begin{equation} (\mathcal G, \mathcal B, \widehat{\mathcal W}, \widetilde{\mathcal B}, \widetilde{\mathcal W}), \end{equation} (G,B,W ,B ,W ),
它通过可学习的高斯混合模型(GMM) G \mathcal{G} G 明确地近似规范形状和外观,并通过先验骨架和可学习的潜在骨骼 B , B ~ \mathcal{B}, \widetilde{\mathcal{B}} B,B 及其可学习的蒙皮权重 W ^ , W ~ \widehat{\mathcal{W}}, \widetilde{\mathcal{W}} W ,W 紧凑地表示前向变形。给定一个姿态 θ \theta θ,使用 Eq.10, 12,关节辐射场近似为:
G art ( θ ) = { ( μ art ( i ) , R art ( i ) , s ( i ) , η ( i ) , f ( i ) ) } i = 1 N μ art ( i ) = A rot ( i ) μ ( i ) + A t ( i ) , R art ( i ) = A rot R ( i ) A ( i ) = ∑ k = 1 n b W k ^ ( μ ( i ) ) B k ( θ ) + ∑ q = 1 n l W q ~ ( μ ( i ) ) B ~ q ( θ ) \begin{align} \begin{split} \mathcal G_{\text{art}}(\theta) &= \left\{ (\mu_{\text{art}}^{(i)}, R_\text{art}^{(i)}, s^{(i)}, \eta^{(i)}, f^{(i)}) \right\}_{i=1}^N\\ \mu_{\text{art}}^{(i)} &= A^{(i)}_{\text{rot}}\mu^{(i)} + A_t^{(i)}, \quad R_{\text{art}}^{(i)} = A_{\text{rot}}R^{(i)}\\ A^{(i)} &= \sum_{k=1}^{n_b} \widehat{\mathcal W_k}(\mu^{(i)}) B_k(\theta) + \sum_{q=1}^{n_l} \widetilde{\mathcal W_q}(\mu^{(i)}) \widetilde B_q(\theta) \end{split} \end{align} Gart(θ)μart(i)A(i)={(μart(i),Rart(i),s(i),η(i),f(i))}i=1N=Arot(i)μ(i)+At(i),Rart(i)=ArotR(i)=k=1nbWk (μ(i))Bk(θ)+q=1nlWq (μ(i))B q(θ)

3.4. Reconstruct GART from Monocular Videos

Differentiable Rendering with Splatting
给定一个透视投影 π ( x ; E , K ) \pi(x; E, K) π(x;E,K),其中 E E E 是相机外参, K K K 是内参矩阵,3D 高斯的投影可以近似处理为具有以下均值和协方差的 2D 高斯:
μ 2 D = π ( μ ; E , K ) ;   Σ 2 D = J E Σ E T J T , \begin{equation} \mu_{2D} = \pi(\mu; E,K) ; \ \varSigma_{2D} = J E \varSigma E^T J^T, \end{equation} μ2D=π(μ;E,K); Σ2D=JEΣETJT,
其中, J J J 是透视投影 π \pi π 的雅可比矩阵,详见 \cite{zwicker2002ewa} 中的方程 (26-31)。通过在投影过程中保持高斯分布的特性,我们可以高效地进行 splatting 并通过排序的颜色累积来近似体渲染 \cite{zwicker2002ewa}。
I ( u , d ) = ∑ i = 1 N α ( i ) sph ( R T d , f ( i ) ) ∏ j = 1 i − 1 ( 1 − α ( j ) ) α ( i ) = G 2 D ( u ∣ η ( i ) , μ 2 D ( i ) , Σ 2 D ( i ) ) , \begin{align}\begin{split} I(u,d) &= \sum_{i=1}^{N} \alpha^{(i)} \text{sph}(R^Td,f^{(i)}) \prod_{j=1}^{i-1} (1-\alpha^{(j)})\\ \alpha^{(i)} &= G_{2D}(u|\eta^{(i)}, \mu_{2D}^{(i)},\varSigma_{2D}^{(i)}), \end{split}\end{align} I(u,d)α(i)=i=1Nα(i)sph(RTd,f(i))j=1i1(1α(j))=G2D(uη(i),μ2D(i),Σ2D(i)),其中,索引按照深度方向排序,查询的像素坐标为 u u u,世界坐标系中的观察方向为 d d d G 2 D G_{2D} G2D 是类似于方程 4 的 2D 高斯密度评估。方程 16是可微的 \cite{kerbl20233d},可以通过 2D 观测提供监督来更新所有高斯参数,更多细节请参考 \cite{zwicker2002ewa,kerbl20233d}。

Optimization
给定来自单目视频的一组 M M M 张图像及模板的估计位姿 { ( I 1 ∗ , θ 1 ) , … , ( I M ∗ , θ M ) } \{(I^*_1, \theta_1), \ldots, (I^*_M, \theta_M)\} {(I1,θ1),,(IM,θM)},我们通过比较 G art ( θ ) \mathcal G_{\text{art}}(\theta) Gart(θ) 的渲染图像与真实图像来优化 G , W ^ , B ~ , W ~ \mathcal G, \widehat{\mathcal W}, \widetilde{\mathcal B}, \widetilde{\mathcal W} G,W ,B ,W 并细化 θ \theta θ。我们在模板网格上初始化 G \mathcal G G,并在优化过程中遵循 3D-GS 的 densify-and-prune 策略 \cite{kerbl20233d}。

将 {GART} 的渲染图像记为 I ^ ( G art ( θ ) ) \hat I(\mathcal G_{\text{art}}(\theta)) I^(Gart(θ)),训练损失为:
L = L 1 ( I ^ , I ∗ ) + λ SSIM L SSIM ( I ^ , I ∗ ) + L reg , \begin{equation} L = L_1(\hat I, I^*) + \lambda_{\text{SSIM}} L_{\text{SSIM}}(\hat I, I^*) + L_{\text{reg}}, \end{equation} L=L1(I^,I)+λSSIMLSSIM(I^,I)+Lreg,
其中, λ \lambda λ 是损失权重, L reg L_{\text{reg}} Lreg 将在下文介绍。

Regularization 3D高斯模型在{GART}中的灵活特性在2D观测稀疏时可能会受到约束不足的影响。与NeRF中的MLP所引入的平滑性不同,3D高斯混合模型在未观测空间中常常会产生伪影。受到\cite{snarf, fastsnarf}的启发,可学习的蒙皮权重 W ^ , W ~ \widehat{\mathcal{W}}, \widetilde{\mathcal{W}} W ,W 应该在空间上是平滑的,因此我们将它们提炼到一个粗糙的体素网格中,并且在方程8, 12中的每个高斯蒙皮 Δ w ( i ) , W ~ ( μ ( i ) ) \Delta w^{(i)}, \widetilde{\mathcal{W}}(\mu^{(i)}) Δw(i),W (μ(i))通过体素网格在 μ ( i ) \mu^{(i)} μ(i)处进行三线性插值。我们进一步对 μ \mu μ的KNN邻域中的高斯属性变化进行正则化,得到:
L S T D ( i ) = ∑ a t t r ∈ { R , s , η , f , W ^ , W ~ } λ a t t r STD i ∈ K N N ( μ ( i ) ) ( a t t r ( i ) ) , \begin{equation} L^{(i)}_{STD} = \sum_{attr \in \{R,s,\eta, f,\widehat{\mathcal W}, \widetilde{\mathcal W}\}} \lambda_{attr} \text{STD}_{i\in KNN(\mu^{(i)})}(attr^{(i)}), \end{equation} LSTD(i)=attr{R,s,η,f,W ,W }λattrSTDiKNN(μ(i))(attr(i)),
其中, STD \text{STD} STD 是标准差。
此外,我们鼓励拟合过程对原始运动结构进行小幅度的修改,以进一步利用模板模型的先验知识,并鼓励使用小高斯模型,因为非刚性主体是通过分段刚性移动的高斯模型来近似的,这导致了:
L n o r m ( i ) = λ W ^ ∥ Δ w ( i ) ∥ 2 + λ W ~ ∥ W ~ ( μ ( i ) ) ∥ 2 + λ s ∥ s ( i ) ∥ ∞ . \begin{equation} L^{(i)}_{norm} = \lambda_{ \widehat{\mathcal W}} \| \Delta w^{(i)} \|_2 + \lambda_{ \widetilde{\mathcal W}} \| \widetilde{\mathcal W}(\mu^{(i)}) \|_2 + \lambda_s \|s^{(i)}\|_{\infty}. \end{equation} Lnorm(i)=λW ∥Δw(i)2+λW W (μ(i))2+λss(i).
总的正则化损失为:
L r e g = 1 N ∑ i = 1 N L S T D ( i ) + L n o r m ( i ) . \begin{equation} L_{reg} = \frac{1}{N}\sum_{i=1}^N L^{(i)}_{STD} + L^{(i)}_{norm}. \end{equation} Lreg=N1i=1NLSTD(i)+Lnorm(i).
Inference
在推理过程中,{GART} 的所有属性都明确地存储在每个高斯上(不需要体素网格查询)。由于我们对外观和运动的高效建模,渲染一个关节模型与渲染一个静态场景一样快。在 People-Snapshot \cite{peopelsnap} 数据集上,以分辨率 540 × 540 540\times 540 540×540 进行推理时,帧率超过 150 150 150

4. Experiments

在这里插入图片描述

4.1. Comparison on Human Rendering

在本节中,我们验证了 GART 在单目人类重建和视图合成中的有效性、效率和表现力。我们使用 SMPL [42] 作为模板,训练时的输入是带有每帧视频估计的 SMPL 姿态的单目 RGB 视频。测试期间的评估是通过 PSNR、SSIM 和 LPIPS 指标进行的新视图合成。

在这个任务中,最新的基准是最近高效的基于 NeRF 的人类渲染方法 Instant-Avatar [24] 和 Instant-NVR [13],它们展示了比传统网格表示 [1] 更好的保真度。Instant-Avatar 在规范空间中使用 instant-NGP [48],并利用 Fast-SNARF [8],一种高度定制的 GPU 求解器,用于快速反向蒙皮根查找来建模变形。它还提出了一种特殊的不透明度缓存策略来加速体积渲染。Instant-NVR 使用单独的 NeRFs 来建模每个身体部位的外观,并利用精心设计的基于图表的反向蒙皮来建模变形。我们在三个数据集上进行了比较:ZJU-MoCap [55]、People-Snapshot [1] 和 UBC-Fashion [87]。与 Instant-Avatar [24] 类似,我们也在测试时对 SMPL 姿态进行了细化。

ZJU-MoCap [55] 我们在 ZJU-MoCap 数据集 [55] 上与 Instant-NVR [13] 及其他人类渲染方法进行了比较,设置与 [13] 相同。平均结果如表 1 所示。GART 在合成结果方面超越了其他方法,并且训练时间更少。得益于其高效的渲染 [27] 和前向蒙皮(第 3.3 节),GART 在不到 30 秒的训练后即可实现类似的定量性能。图 3 中的定性结果显示,我们的结果比 Instant-NVR [13] 捕捉到更多细节。
在这里插入图片描述
People-Snapshot [1] 另一个常用的人类头像数据集是 People-Snapshot [1],我们在相同的实验设置下将 GART 与 Instant-Avatar [24] 进行了比较。结果显示在表 2 和图 4 中。我们的方法在较短的训练时间内实现了可比的性能。除了训练效率外,GART 在推理过程中相较于 Instant-Avatar 具有独特的优势。在 540 × 540 的分辨率下,Instant-Avatar 可以以 15FPS [24] 的速度渲染,但 GART 在单个 RTX-3080-Laptop GPU 上可以以超过 150FPS 的速度渲染。
在这里插入图片描述
在这里插入图片描述
UBC-Fashion [87] 虽然 ZJU-MoCap [55] 和 People-Snapshot [1] 数据集被广泛用于基准测试,但这些数据集中的服装都比较紧身,与 SMPL 身体模型差异不大。我们进一步挑战更复杂的服装建模,如具有高度动态运动和变形的长裙。我们使用了 UBC-Fashion [87] 数据集中的六个视频,其中包含动态长裙和不同肤色。正如图 5 所示,每个单目视频捕捉到一个穿着宽松服装的模特在摄像机前转圈。
在这里插入图片描述

由于这些序列的姿态变化非常有限,并且仅捕捉到一个视角,我们从第 0 帧开始,以 4 帧的间隔选择帧进行训练,从第 2 帧开始,以相同的间隔选择帧进行测试。SMPL 姿态通过最先进的姿态估计器 ReFit [69] 获得。由于 GART 和 Instant-Avatar [24] 都可以在测试期间优化 SMPL 姿态,而长裙也给姿态估计器带来了挑战,导致估计结果噪声较大,我们发现如果在测试期间使用最近的训练姿态并进行优化,两个方法的结果都会更好。

定量比较如表3所示,我们评估了两种 {GART} 的变体:{GART}-MLP 使用 MLP 来表示方程11 中的潜在骨骼 B ~ ( θ ) \widetilde{\mathcal{B}}(\theta) B (θ),其中 MLP 的输入是 SMPL 姿态;{GART}-T-Table 直接优化每个时间帧的刚性变换列表,以表示潜在骨骼 [ B ~ 1 , … , B ~ n l ] [\widetilde B_{1},\ldots, \widetilde B_{n_l}] [B 1,,B nl]
在这里插入图片描述

如图5所示,Instant-Avatar 成功捕捉了上半身,但未能捕捉到动态服装。这可能有三个原因:

  1. 由于隐式建模,使用 Fast-SNARF \cite{fastsnarf} 解决反向蒙皮问题,在高度动态的裙子区域导致多个模糊对应关系。因此,我们观察到错误的蒙皮将裙子附着到手臂上。
  2. 使用 24 个 SMPL 骨骼和可学习的蒙皮权重不足以捕捉复杂的变形;
  3. 由于 NeRF 的灵活性和噪声姿态估计的有限表现力,在一些错误姿态下,由于其光度重要性,在空白空间中产生了许多伪影。

相反,我们的方法通过简单的前向蒙皮建模变形,如第3.3节所述,可以通过潜在骨骼进一步捕捉灵活的变形,并在基于变形的过程中使用 3D-GS \cite{kerbl20233d} 进行优化,从而实现更好的性能。

4.2. Application on Dog Rendering

在这一部分中,我们展示了 GART 作为一个通用框架,用于从单目野外视频中捕捉和渲染动物。具体来说,我们使用了为多种狗品种提出的新 D-SMAL [59] 模型作为基础模板。我们在总共 8 个新序列上进行了实验:6 个序列来自 2022 年全国狗展(6 个最佳展示参与者),以及 2 个从 Adobe Stock Videos 获取的绿屏拍摄序列。相比于人类,狗的姿态估计更具挑战性,因为训练数据稀缺且环境中存在遮挡。因此,我们选择了由 BITE [59] 估计出准确姿态且遮挡较少的部分。如图 6 所示,GART 能很好地捕捉不同的狗品种。与 D-SMAL 相比,GART 更好地重建了品种特有的外观特征,如尾巴、耳朵和有纹理的毛发。我们还将 InstantAvatar [24] 适配到 D-SMAL 模板中,并将其称为 InsAvat-Dog 进行比较。与 GART 相比,InsAvat-Dog 在这种具有挑战性的设定下可能会产生鬼影伪影,这可能是由于训练期间狗的姿态不准确且高度动态。我们为每个序列包括了一小部分测试帧,并在表 4 中报告了这些指标,作为野外神经动物重建的基准。
在这里插入图片描述
在这里插入图片描述

4.3. Ablation Study

为了验证我们的变形建模的有效性,我们将完整模型与以下两种情况进行了比较:1)去除潜在骨骼,2)去除可学习的蒙皮,比较对象是UBC-Fashion序列。结果如表5和图7所示。我们观察到完整模型效果最佳,并注意到没有潜在骨骼的模型仍然可以比Instant-Avatar [24]更少地重建连衣裙的伪影,显示了我们在噪声姿态和大变形下的鲁棒性和有效性。从图7中可以直观地看到,添加潜在骨骼后,裙子的独立运动比去掉潜在骨骼的模型捕捉得更好。我们还通过以下两种方式验证了注入平滑性的有效性:1)去除体素蒸馏的蒙皮权重,但将每个高斯的蒙皮权重存储为一个列表,2)去除Eq. 18中的KNN正则化。野外视频的定性比较如图7所示。我们注意到,没有KNN版本在背部产生了强烈的伪影,而没有体素版本在侧视图中在身体周围产生了噪声伪影。
在这里插入图片描述
在这里插入图片描述

4.4. Application: Text-to-GART

GART 是一个通用的关节化对象表示方法,不局限于真实单目视频重建。在本节中,我们进一步展示了一个应用——Text-to-GART,通过简单地将Eq.17中的渲染 L 1 L1 L1损失和SSIM损失替换为SDS损失 \cite{poole2022dreamfusion}。输入是一段描述用户希望生成内容的文本,输出是一个优化后的GART,表示该对象。

优化损失变为
L = L SDS + L reg , L = L_{\text{SDS}}+ L_{\text{reg}}, L=LSDS+Lreg,
其中 L SDS L_{\text{SDS}} LSDS通过前向传播一个微调的Stable-Diffusion \cite{rombach2022high}模型MVDream \cite{shi2023MVDream}计算。关于 L SDS L_{\text{SDS}} LSDS的更多细节,请参见Stable-Diffusion \cite{rombach2022high}和DreamGaussian \cite{tang2023dreamgaussian}。

由于没有从视频帧中估计的真实姿态,我们从AMASS \cite{AMASS:ICCV:2019}中随机采样一些合理的SMPL \cite{smpl}模板姿态,以在蒸馏过程中增强GART。

生成结果如图8所示。得益于GART的高效性,该应用的计算瓶颈主要在于2D扩散前向传播,典型的生成时间在单个GPU上每个对象大约为10分钟。
在这里插入图片描述

5. Conclusions

本文提出了一种简单且通用的表示方法——GART,通过高斯混合模型和新颖的蒙皮变形来处理非刚性关节对象。GART 在单目人类和动物的重建和渲染方面达到了最新的性能,同时保持了高效的训练和推理效率。
Limitations and future work 我们提出的方法有两个主要的局限性,未来可以进一步探索:

  1. 我们的方法依赖于模板姿态估计器,而对于更广泛的动物种类,可能不存在这样的估计器。
  2. GART 能够高效地拟合单个单目视频,下一个有趣的步骤是探索如何从野外视频集合中捕捉关节对象的类别级先验知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/786797.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

字节码编程javassist之获取指令码

写在前面 本文看下使用javassist如何查看方法对应的字节码指令信息。 1:程序 测试类 package com.dahuyou.javassist.huohuo.cc;import java.math.BigDecimal;public class MyApiTestNoAnnotation {public double queryUserInfo(String uId){return BigDecimal.…

SimLab 流体网格建模工具详解 Part2: Mesh

SimLab的建模功能 SimLab中和流体网格建模相关的功能主要集成在 Geometry 和 Mesh 两个标签中。在上期文章中,我们详细介绍了Geometry标签中的内容,本期文章我们将分享继续分享 Mesh 标签的内容,一起来看看吧。 Mesh 标签 标签下的工具生成网…

8.2结构体的定义和使用

代码 #include <iostream> using namespace std; #include <string>//1、创建学生数据类型&#xff1a;学生包括(姓名&#xff0c;年龄&#xff0c;分数) //自定义数据类型&#xff0c;一些类型集合组成一个类型 //语法 struct 类型名称{成员列表} struct Stduent…

西瓜杯CTF(1)

#下班之前写了两个题&#xff0c;后面继续发 Codeinject <?php#Author: h1xaerror_reporting(0); show_source(__FILE__);eval("var_dump((Object)$_POST[1]);"); payload 闭合后面的括号来拼接 POST / HTTP/1.1 Host: 1dc86f1a-cccc-4298-955d-e9179f026d54…

【java计算机毕设】医院信息管理系统MySQL springboot html html maven前后端一体 小组项目设计源码+文档

目录 1项目功能 2项目介绍 3项目地址 1项目功能 【java计算机毕设】医院信息管理系统MySQL springboot html maven项目设计代码文档 小组项目 2项目介绍 系统功能&#xff1a; java医院信息管理系统包括管理员、门诊两种角色&#xff08;初始化两个角色&#xff0c;可自由分…

多文件编程:c/c++分文件写法(入门)

前言 一个 C 项目通常会采取 声明与定义分离 的方式进行编写&#xff0c;其基本遵循&#xff1a;头文件中写声明&#xff0c;源文件中写定义。 此外&#xff0c;为了区分头文件与源文件&#xff0c;会采用不同的文件后缀&#xff1a; .h: 头文件 .cpp: 源文件 (当然还有其他的…

小白轻松上手,Python编程常用的30个经典操作以及代码演示

当谈到经典的Python编程案例时&#xff0c;通常涉及各种基础和进阶的编程任务. 30个常见的案例&#xff0c;涵盖了从基本操作到稍复杂的应用&#xff1a; 基础操作 1.Hello World: 打印"Hello, World!"到控制台。 print("Hello, World!")2.变量和数据…

智能猫砂盆不好用?三款热门智能猫砂盆推荐!

为什么现在那么多人会淘汰掉普通的猫砂盆&#xff0c;转而去购买智能猫砂盆呢&#xff1f;因为智能猫砂盆的自动铲屎功能是真的香啊&#xff0c;有智能猫砂盆在&#xff0c;就不用每天都自己去铲屎了&#xff0c;我只需要隔三四天去清理一下集便仓就好了&#xff0c;对于我们这…

电脑桌面日历记事本怎么弄 好用的桌面日历记事本

在这个数字化的时代&#xff0c;电脑已成为我们日常生活中不可或缺的伙伴。我常常在电脑上记录各种事项&#xff0c;以便随时查看和提醒自己。而我最钟爱的记事方式&#xff0c;莫过于使用桌面日历记事本。 想象一下&#xff0c;你的电脑桌面上有一个直观的日历&#xff0c;每…

[经典]Axrue部件库:Fluent Design部件库

部件库预览链接&#xff1a;&#xff08;请与班主任联系获取文档&#xff09; 支持版本: Axrure RP 8 文件大小: 2.66 MB 文档内容介绍 基本部件&#xff1a; 常规&#xff1a;3款 基本输入&#xff1a;50款 集合&#xff1a;50款 对话框/弹窗&#xff1a;3款 文本&#…

【BUG】RestTemplate发送Post请求后,响应中编码为gzip而导致的报错

BUG描述 20240613-09:59:59.062|INFO|null|810184|xxx|xxx||8|http-nio-xxx-exec-1|com.xxx.jim.xxx.XXXController.?.?|MSG接收到来自xxx的文件请求 headers:[host:"xxx", accept:"text/html,application/json,application/xhtmlxml,application/xml;q0.9,*…

谷歌摸鱼神器来了:推出AI会议替身,一键总结提问发言_会议预约 ai对话

饱受会议折磨的打工人&#xff0c;终于可以解放了&#xff01; 就在刚刚举办的Google Cloud Next’23大会上&#xff0c;谷歌宣布了一系列科技新进展&#xff0c;最瞩目的要属其中的“开会AI替身”了。 只需要一句“帮我参加”&#xff0c;AI就能替你开会&#xff0c;并在合适…

接口测试课程结构

课程大纲 如图&#xff0c;接下来的阶段课程&#xff0c;依次专项讲解如下专题&#xff0c;能力级别为中级&#xff0c;进阶后基本为中高级&#xff1a; 1.接口基础知识&#xff1b; 2.抓包工具&#xff1b; 3.接口工具&#xff1b; 4.mock服务搭建&#xff08;数据模拟服务&am…

解决了一个java Bug:Exception in thread “main“ java.lang.NullPointerException

写代码&#xff0c;遇到了个问题。 很纳闷&#xff0c;跟着人家写的代码。只能去查资料。 赶紧去找&#xff0c;自己的代码 逆天&#xff0c;赶紧改&#xff01; 成功了&#xff01;&#xff01;&#xff01;

Android常用设计模式(小白必看)

不要担心冗长&#xff0c;3分钟解决面试和学习问题&#xff0c;收藏再看 目的&#xff1a;当作一种模板&#xff0c;结合自身特点&#xff0c;针对项目需求来使用 目录 单例模式 特点&#xff1a; 实现方式&#xff1a; 1、饿汉式 2、线程安全的懒汉式 3、双重校验锁 使…

内网渗透第7天 socker代理 会不会???我们使用cs以及msf来建立代理 代理真的容易???步骤弄明白了吗??

我们在进行内网渗透的时候&#xff0c;第一步要解决的就是网的问题&#xff0c;网络我们都不通或者我们都不能进行访问怎么能进行后门的渗透。我们今天就来讲讲怎么进行建立代理的。这的图非常的简单&#xff0c;也没有waf等阻碍&#xff0c;我们的目的就是攻击机器可以对web进…

RockYou2024 发布史上最大密码凭证

参与 CTF 的每个人都至少使用过一次臭名昭著的rockyou.txt单词表&#xff0c;主要是为了执行密码破解活动。 该文件是一份包含1400 万个唯一密码的列表。 源自 2009 年的 RockYou 黑客攻击&#xff0c;创造了计算机安全历史。 多年来&#xff0c;“rockyou 系列”不断发展。…

ASP.NET MVC Lock锁的测试

思路&#xff1a;我们让后台Thread.Sleep一段时间&#xff0c;来模拟一个耗时操作&#xff0c;而这个时间可以由前台提供。 我们开启两个或以上的页面&#xff0c;第一个耗时5秒(提交5000)&#xff0c;第二个耗时1秒(提交1000)。 期望的测试结果&#xff1a; 不加Lock锁&…

如何在Facebook上保护你的个人资料安全?

随着社交媒体的普及和个人信息的数字化&#xff0c;保护个人资料安全成为越来越重要的议题。特别是在使用像Facebook这样的平台时&#xff0c;我们需要特别注意如何保护我们的数据免受未经授权的访问和滥用。本文将探讨一些实用的方法&#xff0c;以及如何增强你在Facebook上的…

10359-002J 同轴连接器

型号简介 10359-002J是Southwest Microwave的2.92 mm连接器。该连接器外壳材料是不锈钢 CRES 合金 UNS-30300&#xff0c;接触材料是 Becu UNS-C17300&#xff0c;接触镀层是金 MIL-DTL-45204&#xff0c;捕捉材料是 ULTEM 1000。 型号特点 电缆螺母&#xff1a;不锈钢&#x…