【计算机视觉|人脸建模】SOFA:基于风格、由单一示例的2D关键点驱动的3D面部动画

本系列博文为深度学习/计算机视觉论文笔记,转载请注明出处

标题:SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks

链接:SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks | Proceedings of the 2023 ACM International Conference on Multimedia Retrieval

授权声明:

允许免费制作本作品全部或部分内容的数字或硬拷贝以供个人或课堂使用,前提是制作或分发副本不是为了盈利或商业利益,并且副本在首页上附有此通知和完整引用。必须尊重作者以外的其他人拥有的本作品组件的版权。允许以信用方式提取。要以其他方式复制、重新发布、发布到服务器上或重新分发到列表,需要事先获得特定许可和/或付费。从 permissions@acm.org 请求权限。

ICMR’23,2023年6月12日至15日,希腊塞萨洛尼基

© 2023年版权由所有者/作者持有。出版权由ACM授权。

ACM ISBN 979-8-4007-0178-8/23/06. . . 15.00美元

https://doi.org/10.1145/3591106.3592291

图1:我们方法的可视化结果。(a) 目标面部图像 (b) 目标关键点图 © 我们渲染的虚拟角色 (d) 真实虚拟角色 (e) 我们的纹理映射 (f) 真实纹理映射。

摘要

我们提出了一个基于2D关键点驱动的3D面部动画框架(2D landmark-driven 3D facial animation framework),无需使用3D面部数据集进行训练。我们的方法将3D面部头像分解为几何(geometry)和纹理(texture)部分。在给定2D关键点作为输入的情况下,我们的模型学习估计FLAME的参数,并将目标纹理转换为不同的面部表情。实验结果表明,我们的方法取得了显著的成果。通过使用2D关键点作为输入数据,我们的方法有潜力在获取完整RGB面部图像有困难的场景下进行部署(例如被VR头戴显示器遮挡)。

CCS概念

• 计算方法学 -> 动画

关键词

面部动画、3D头像、可塑模型

ACM参考文献格式

Pu Ching, Hung-Kuo Chu, and Min-Chun Hu. 2023. SOFA: Style-based One-shot 3D Facial Animation Driven by 2D landmarks. In International Conference on Multimedia Retrieval (ICMR '23), June 12–15, 2023, Thessaloniki, Greece. ACM, New York, NY, USA, 5 pages. https://doi.org/10.1145/3591106.3592291

1 介绍

面部动画一直是计算机图形学和计算机视觉领域中的重要任务。尽管发展了在远程会议场景中广泛使用的卡通风格虚拟角色,但为那些需要更具沉浸感和生动体验的用户提供逼真的面部动画仍然具有挑战性。根据输出的最终表示形式,面部动画可以简单地分为两类方法:基于2D和基于3D的方法。基于3D的方法可以进一步根据是否使用**参数化面部模型(parameterized facial model)**分为基于模型(model-based)和基于无模型(model-free based)的方法。

**基于2D的面部动画。**基于2D的面部动画着重于特定范围内的摄像机角度,并在给定一系列2D面部目标图像和诸如关键点等信息的情况下生成相应的2D面部图像序列。根据应用限制,基于2D的面部动画可以分为主体依赖(subject-dependent)和主体无关(subject-agnostic)的方法。

  • 主体依赖方法只能用于特定的人物。
  • 主体无关的方法大多是基于单示例设置(one-shot setting),即在给定用户的一张图像和不同模态的源信息的情况下控制目标图像。

例如

  1. Gu等人[4]将关键点图与输入图像拼接在一起,学习了一个基于变形的网络用于面部重定向。
  2. Zakharov等人[18]利用自适应实例归一化来融合关键点和原始图像特征。
  3. 为了生成高质量的面部图像,Yi等人[17]在生成器中包含了一个两阶段的精化步骤。
  4. 为了进一步利用面部控制信号,Zhao等人[19]使用局部分支来改进细粒度面部细节;
  5. Meshry等人[12]学习了一个空间布局图以产生更多信息;
  6. Tao等人[15]提出使用可变形锚点来建模复杂结构。

大量的2D面部数据集鼓励研究人员开发不同的面部解析器,例如关键点预测器(landmark predictor)面部特征分割器(landmark predictor),以便以简单的方式驱动虚拟角色。

大多数现有的基于2D的方法可以**输出正面面部的高质量图像,但无法生成不同头部姿势的面部图像。**相比之下,基于3D的方法具有更大的潜力生成不同头部姿势的面部动画。

基于3D的面部动画。3D面部动画可分为无模型和基于模型的方法,即是否使用可塑模型作为先验

  • 无模型方法[9, 13, 16]通常预先训练变分自编码器(VAE),学习一个潜在空间来压缩纹理和几何的语义信息。然后根据预训练的解码器和不同数据模态的输入(例如NIR眼睛图像或用户眼睛/嘴唇的关键点位置)驱动虚拟角色。
    • 由于以上方法是用户特定的,Cao等人[2]提出了一个框架来学习全局先验,并在不同身份条件下解码纹理和几何。
    • 无模型方法能够为不同输入数据模态学习全局潜在空间,但3D无模型方法的训练通常依赖于特定用户的大量3D面部几何和纹理数据,导致对该用户过拟合,并且泛化能力较差
  • 基于3D模型的方法通常训练一个编码器,用于给定用户的2D面部图像回归不同面部属性的参数(例如姿态、形状和表情),以及一个解码器,用于生成用户的3D面部。
    • 3DMM[1, 7]已被用作注册面部的有效方法。最近,FLAME[8]被提出用于估计控制表情、姿态和形状的参数。**先前的方法旨在回归这些参数,并使用2D面部图像重建损失作为训练目标。**基于模型的方法将几何信息压缩为低维表示,因此在最近的面部动画工作中被广泛使用。
    • Sanyal等人[8]在投影的2D关键点上使用循环一致性来实现3D面部重建,而无需使用3D面部的真值数据。Feng等人[3]考虑了纹理映射和详细位移,使用可微分渲染来训练其生成器。Medin等人[11]解决了类似于Feng的工作[3]的面部动画问题,但最终输出是一张2D图像而不是3D面部。
    • 与3D无模型方法相比,3D模型方法通常使用可微分渲染器来计算图像之间的重建损失,因此不需要3D面部几何和纹理数据的真值。然而,对于虚拟现实应用,现有的基于3D模型的方法可能会失败,因为用户的面部被头戴式显示器(HMD)遮挡,导致输入面部信息不完整

总结起来,当前的面部动画方法在数据采集和逼真度方面存在一些权衡。

  • 2D方法在数据采集和跨模态推断方面比较方便,但无法提供高度沉浸式的渲染结果。3D无模型方法提供良好的渲染结果,但受到数据采集难度的限制。
  • 3D模型方法在数据采集和渲染结果之间取得了平衡,但依赖于完整的RGB面部图像,因此在虚拟现实等遮挡环境中并不实用。

在本文中,我们采用了一个单示例设置的框架,通过用户的一张完整面部图像和面部关键点序列驱动3D面部动画

面部关键点序列可以从完整的面部图像中获取,也可以在VR场景中从部分遮挡的面部图像中获取,并辅助使用额外的NIR(近红外)图像。

我们提出的架构基于3D模型方法的概念,并且可以在不需要3D面部真值的情况下进行操作。基于提出的框架,我们进一步提出使用由关键点表示的面部表情作为风格,并通过StyleGAN生成器调整目标面部纹理映射。

实验结果表明,我们提出的方法能够在实时生成显著的面部合成结果

2 方法

图2(a)展示了我们的系统框架。

图2:总体系统框架

控制(controlling)关键点图(landmark map) L ′ L' L可以通过基于现成的关键点预测器 E L E_L EL从源面部图像 I ′ I' I(或者从捕获被部分遮挡的面部图像的额外近红外图像)中获取。

对于给定的关键点图 L ′ L' L,可以通过面部几何回归器 E R E_R ER来预测面部参数。

同时,根据之前描述的单示例设置,给定完整的用户面部图像 I 0 I_0 I0,预先训练的虚拟角色估计器 E T E_T ET用于估计用户的初始面部纹理 T 0 T_0 T0,关键点预测器 E L E_L EL被应用于获取用户的初始关键点图 L 0 L_0 L0

我们提出了一个基于风格的纹理转换器 S T S_T ST,用于根据给定的关键点图 L 0 L_0 L0 L ′ L' L,将初始面部纹理 T 0 T_0 T0变形为目标纹理 T ′ T' T,这是通过计算给定的关键点图 L 0 L_0 L0 L ′ L' L之间的残差信息 Δ S \Delta{S} ΔS得到的。

最后,对于每个源帧 I ′ I' I,结合面部参数和纹理 T ′ T' T,使用虚拟角色生成器 D A D_A DA生成最终的虚拟角色 Y Y Y

2.1 几何回归器

几何回归器(Geometry Regressor,图中 E R E_R ER

使用单视角图像直接合成整个以顶点表示的3D面部模型是一个非常复杂的问题。

受先前工作的启发,我们采用FLAME [8]作为可塑模型,它需要三种参数:

  • 姿态 θ \theta θ
  • 表情 ψ \psi ψ
  • 形状 β \beta β

来生成3D面部网格。与对整个面部进行复杂几何建模相比,使用像FLAME这样的可塑模型有一个优势,即具有较低自由度的表示,使我们能够设计一个轻量级的几何回归器 E R E_R ER来估计FLAME参数并实时生成虚拟角色。

  1. 姿态(Pose):姿态参数 θ \theta θ用来描述3D面部网格在空间中的旋转和平移。它可以控制虚拟角色的头部和脸部的朝向,从而实现不同的头部姿势和面部朝向。
  2. 表情(Expression):表情参数 ψ \psi ψ用来描述3D面部网格的面部表情,例如微笑、愤怒、悲伤等。它可以控制虚拟角色的面部表情的变化,从而实现不同的面部表情。
  3. 形状(Shape):形状参数 β \beta β用来描述3D面部网格的整体形状。它可以控制虚拟角色的面部形状的变化,从而实现不同用户的个性化特征和面部形态的变化。

除了减小模型大小,使用FLAME可塑模型使得在不需要3D真值数据的情况下生成高质量的面部网格成为可能。

值得注意的是

  1. 几何回归器 E R E_R ER仅估计姿态参数 θ ′ \theta' θ和表情参数 ψ ′ \psi' ψ
  2. 形状参数 β ′ \beta' β由虚拟角色估计器 E T E_T ET根据完整的用户面部图像 I 0 I_0 I0进行估计。

在第3.3节中,我们将展示当几何回归器 E R E_R ER不包含形状参数进行回归时效果更好。

2.2 基于风格的纹理转换器

基于风格的纹理转换器(Style-based Texture Translator,图中 S T S_T ST

基于风格的纹理转换器 S T S_T ST接收一个风格编码 Δ S \Delta{S} ΔS,它是关键点图的残差信息,用于估计动画纹理映射 T ′ T' T

  • 我们通过映射网络 M M M从2D关键点图 L ′ L' L中提取信息,输出 S ′ S' S包含主体身份和源表情的信息。
  • 类似地,映射网络 M M M被应用于2D关键点图 L 0 L_0 L0,以提取 S 0 S_0 S0,其中包含主体身份和中性表情的信息。

为了减少对主体身份的依赖并仅保留表情信息,我们将 S ′ S' S S 0 S_0 S0的残差作为风格编码,即:
Δ S = S ′ − S 0 (1) \Delta{S}=S'-S_0\tag{1} ΔS=SS0(1)
如图2(b)所示,纹理转换器 S T S_T ST N N N个编码块, { E i } i = 1 N \lbrace{E_i}\rbrace^N_{i=1} {Ei}i=1N,和 N N N个基于风格的堆叠扭曲(style-based stacked warping)块, { D i } i = 1 N \lbrace{D_i}\rbrace^N_{i=1} {Di}i=1N,组成,其中的跳跃连接(skip-connection)类似U-net架构。

在给定 Δ S \Delta{S} ΔS的条件下,每个基于风格的堆叠扭曲块 D i D_i Di将前一层的输出特征 D i + 1 D_{i+1} Di+1 E i E_i Ei作为输入。

更具体地说,每个扭曲块 D i D_i Di是一个具有调制卷积层的StyleGAN生成器,其公式为:
f D i = U p s a m p l e ( c o n v m ( D i ( f D i + 1 , f E i ) , Δ S ) ) (2) f_{D_i}=Upsample(convm(D_i(f_{D_{i+1}},f_{E_i}),\Delta{S}))\tag{2} fDi=Upsample(convm(Di(fDi+1,fEi),ΔS))(2)
请注意, f D 0 f_{D_0} fD0是最终的动画纹理映射 T ′ T' T

在第3.2节中,我们验证了将PixelShuffle [14]作为上采样过程应用,相较于使用反卷积层,可以提高细粒度生成质量。通过在不同感受野中提供风格编码,纹理转换器 S T S_T ST能够生成具有特定风格的全局表示。

2.3 虚拟角色生成器

虚拟角色生成器(Avatar generator,图中 D A D_A DA

由于我们的面部模型建立在FLAME基础上,我们可以对估计的虚拟角色应用预定义的UV映射来进行渲染。

为了提高渲染质量,我们采用了一个基于L2范数计算的照片级别损失,该损失计算了使用估计纹理和使用真实纹理渲染的面部图像之间的差异(详见第2.4节)。

此外,我们采用可微分渲染来实现所提出的纹理转换器 S T S_T ST的端到端训练。值得注意的是,在推断阶段,可以使用其他不可微分引擎来渲染估计的虚拟角色。

我们估计的3D虚拟角色在渲染过程中不受输入图像的原始摄像机角度的限制。

2.4 学习内容

在训练阶段,几何估计器 E R E_R ER和纹理转换器 S T S_T ST分别进行训练。

  • 对于几何估计器 E R E_R ER,我们最小化几何损失,定义为:
    L g = λ F L F L A M E + λ l L l (3) L_g=\lambda_FL_{FLAME}+\lambda_lL_l\tag{3} Lg=λFLFLAME+λlLl(3)

    • L F L A M E L_{FLAME} LFLAME是估计参数和真实参数之间的L2损失,即 ∣ ∣ θ ′ − θ ∣ ∣ 2 ||\theta'-\theta||^2 ∣∣θθ2 ∣ ∣ ψ ′ − ψ ∣ ∣ 2 ||\psi'-\psi||^2 ∣∣ψψ2

    • L l L_l Ll是估计网格的3D关键点与真实网格的3D关键点之间的L2损失。需要注意的是,网格的3D关键点是由FLAME提取的。

  • 对于纹理转换器 S T S_T ST,我们最小化纹理损失,定义为:
    L T = λ i L i + λ r L r + λ p L p (4) L_T=\lambda_iL_i+\lambda_rL_r+\lambda_pL_p\tag{4} LT=λiLi+λrLr+λpLp(4)

    • L i L_i Li表示估计纹理映射和真实纹理映射之间的L2损失。
    • L r L_r Lr是前面提到的照片级别损失。
    • L p L_p Lp是估计纹理映射和真实纹理映射之间的感知损失[6]。

λ F \lambda_F λF λ l \lambda_l λl λ i \lambda_i λi λ r \lambda_r λr λ p \lambda_p λp是预定义的超参数。

3 实验

3.1 实验设置

  • 数据收集。 为了证明我们的基于3D模型的方法可以在不需要3D面部真值的情况下运行,我们收集了一个包含792个视频序列的2D面部数据集,

    • 其中包含6种基本情绪(包括惊讶、害怕、厌恶、快乐、悲伤、愤怒)和12种复合面部表情(由这6种基本情绪组成),以涵盖丰富的自然表情。
    • 我们邀请了22名受试者来收集视频数据集,每个受试者执行每种表情两次。
    • 其中两位受试者的视频被用作测试集。
  • 数据处理。 对于收集到的原始视频序列,我们使用一个现成的面部检测模型[10]来裁剪每帧中的面部区域。然后,裁剪后的面部区域被调整大小为256×256,并作为我们网络的输入。

  • 训练细节。 几何估计器 E R E_R ER和纹理转换器 S T S_T ST是分别进行训练的。

    • 对于几何估计器 E R E_R ER,我们使用ResNet-18作为主干网络来提取特征,然后分别应用2个MLP分支来预测姿势和表情。在我们的实验中,我们使用Adam优化器,在学习率为0.0002的情况下,对我们的模型进行了50个epochs的训练。

    • 纹理转换器 S T S_T ST由3个编码块和3个解码块组成,通过U-net架构进行连接。在我们的实验中,我们使用Adam优化器,在学习率为0.0002的情况下,对我们的模型进行了100个epochs的训练。

3.2 纹理转换

我们将基于风格的解码块与一个基准方法进行比较,该基准方法直接使用2D卷积层融合特征。

在实践中,我们应用了相同的训练设置,除了解码器的架构。

在基准模型中,我们不是将提取的特征映射为风格编码,而是在瓶颈处将关键点特征与输出进行连接,该输出是编码器的2D特征图。

  • 在UV空间中,通常使用L1、PSNR、SSIM和FID等常见重建指标。

  • 在我们的实验中,我们发现L1、PSNR和SSIM在不同方法之间只有很小的差异,因此我们使用FID作为性能指标来展示每种方法的有效性。

表1显示了不同方法之间的定量评估,包括基准方法,我们提出的方法以及应用PixelShuffle(表示为Pix)、将剩余信息作为风格编码(表示为Res)、以及是否应用感知损失(表示为PLoss)的削减研究。

表1:纹理转换比较结果。Pix 使用PixelShuffle进行上采样,Res 将剩余信息用作风格编码,PLoss 应用感知损失。

在这里插入图片描述

我们发现,使用我们提出的基于风格的解码器可以显着改善纹理重建质量。将剩余信息作为风格编码进一步提高了视觉质量。

图3:不同方法之间的定性比较。 对于每种方法,左列是纹理映射,右列是渲染结果。

图3显示了基准模型不能很好地重建细节眼部表情,如眨眼,而我们提出的基于风格的纹理转换器可以更好地重建面部细节。此外,我们的模型轻巧,可以实现实时推理(约20 fps)。

  • 表1显示,应用感知损失在训练过程中降低了FID。
  • 图3显示,感知损失有助于保留纹理重建中的高频细节(例如皱纹或光照)。

我们还尝试了应用patch-GAN[5]损失来进一步改善视觉质量,但是FID性能大幅下降。

3.3 几何估计

我们比较了估计所有FLAME参数和只估计表情/姿势而不估计形状之间的结果。

表2:几何估计的比较(MSE ↓)

表2显示了对应的MSE(均方误差),用于衡量估计参数与真实参数之间的距离。我们可以观察到,不估计形状信息的模型表现更好。

此外,我们还比较了由FLAME获得的3D关键点的MSE,结果也显示出不估计形状信息的模型达到了更好的性能

4 结论

  • 本研究提出了一种新的框架,使用2D关键点对3D面部动画进行建模,无需使用3D面部数据集作为真值。
  • 我们提供了一种灵活的解决方案,只要可以获取2D面部关键点并提供一张完整的面部图像(单示例设置),就可以驱动3D角色。
  • 我们展示了通过使用提出的基于风格的框架,重建的角色的视觉质量优于基准方法。
  • 在未来,我们将验证基于不同控制输入的提出框架,并证明该模型的泛化能力。

参考文献

[1] Volker Blanz和Thomas Vetter. 1999. 用于合成3D面部的可塑模型。《计算机图形学与交互技术年会论文集》。

[2] Chen Cao,Tomas Simon,Jin Kyu Kim,Gabe Schwartz,Michael Zollhoefer,ShunSuke Saito,Stephen Lombardi,Shih-En Wei,Danielle Belko,Shoou-I Yu等。2022年。来自手机扫描的真实体积化身。《ACM图形学交易》(TOG)(2022)。

[3] Yao Feng,Haiwen Feng,Michael J Black和Timo Bolkart。2021年。从野外图像中学习可动画的详细3D面部模型。《ACM图形学交易》(ToG)(2021)。

[4] Kuangxiao Gu,Yuqian Zhou和Thomas Huang。2020年。Flnet:基于关键点的忠实对话面部动画综合的学习网络。《人工智能AAAI会议论文集》。

[5] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei A Efros。2017年。条件对抗网络的图像到图像转换。CVPR(2017)。

[6] Justin Johnson,Alexandre Alahi和Li Fei-Fei。2016年。用于实时风格转换和超分辨率的感知损失。《欧洲计算机视觉会议论文集》。斯普林格。

[7] Reinhard Knothe,Brian Amberg,Sami Romdhani,Volker Blanz和Thomas Vetter。2011年。面部形态模型。《人脸识别手册》。斯普林格。

[8] Tianye Li,Timo Bolkart,Michael J Black,Hao Li和Javier Romero。2017年。从4D扫描中学习面部形状和表情模型。《ACM图形学交易》(2017)。

[9] Stephen Lombardi,Jason Saragih,Tomas Simon和Yaser Sheikh。2018年。面部渲染的深度外观模型。《ACM图形学交易》(ToG)(2018)。

[10] Camillo Lugaresi,Jiuqiang Tang,Hadon Nash,Chris McClanahan,Esha Uboweja,Michael Hays,Fan Zhang,Chuo-Ling Chang,Ming Guang Yong,Juhyun Lee等。2019年。Mediapipe:构建感知管道的框架。arXiv预印本arXiv:1906.08172(2019)。

[11] Safa C Medin,Bernhard Egger,Anoop Cherian,Ye Wang,Joshua B Tenenbaum,Xiaoming Liu和Tim K Marks。2022年。MOST-GAN:用于解缠面部图像操作的3D可塑StyleGAN。《AAAI人工智能会议论文集》。

[12] Moustafa Meshry,Saksham Suri,Larry S Davis和Abhinav Shrivastava。2021年。学习用于少样本说话头合成的空间表示。《IEEE / CVF计算机视觉国际会议论文集》。

[13] Alexander Richard,Colin Lea,Shugao Ma,Jurgen Gall,Fernando De la Torre和Yaser Sheikh。2021年。编解码器角色的音频和凝视驱动面部动画。《IEEE / CVF冬季计算机视觉应用会议论文集》。

[14] Wenzhe Shi,Jose Caballero,Ferenc Huszár,Johannes Totz,Andrew P Aitken,Rob Bishop,Daniel Rueckert和Zehan Wang。2016年。使用高效子像素卷积神经网络的实时单图像和视频超分辨率。《IEEE计算机视觉和模式识别会议论文集》。

[15] Jiale Tao,Biao Wang,Borun Xu,Tiezheng Ge,Yuning Jiang,Wen Li和Lixin Duan。2022年。具有可变形锚模型的结构感知运动转移。《IEEE / CVF计算机视觉与模式识别会议论文集》。

[16] Shih-En Wei,Jason Saragih,Tomas Simon,Adam W Harley,Stephen Lombardi,Michal Perdoch,Alexander Hypes,Dawei Wang,Hernan Badino和Yaser Sheikh。2019年。VR面部动画通过多视角图像转换。《ACM图形学交易》(TOG)(2019)。

[17] Zili Yi,Qiang Tang,Vishnu Sanjay Ramiya Srinivasan和Zhan Xu。2020年。通过变形实现动画:高质量面部表情动画的高效方法。《多媒体ACM国际会议论文集》。

[18] Egor Zakharov,Aliaksandra Shysheya,Egor Burkov和Victor Lempitsky。2019年。逼真的神经说话头模型的少样本对抗学习。《IEEE / CVF国际计算机视觉会议论文集》。

[19] Ruiqi Zhao,Tianyi Wu和Guodong Guo。2021年。面部图像动画的稀疏到密集运动转移。《IEEE / CVF国际计算机视觉会议论文集》。

REFERENCES

[1] Volker Blanz and Thomas Vetter. 1999. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques.

[2] Chen Cao, Tomas Simon, Jin Kyu Kim, Gabe Schwartz, Michael Zollhoefer, Shun-Suke Saito, Stephen Lombardi, Shih-En Wei, Danielle Belko, Shoou-I Yu, et al. 2022. Authentic volumetric avatars from a phone scan. ACM Transactions on Graphics (TOG) (2022).

[3] Yao Feng, Haiwen Feng, Michael J Black, and Timo Bolkart. 2021. Learning an animatable detailed 3D face model from in-the-wild images. ACM Transactions on Graphics (ToG) (2021).

[4] Kuangxiao Gu, Yuqian Zhou, and Thomas Huang. 2020. Flnet: Landmark-driven fetching and learning network for faithful talking facial animation synthesis. In Proceedings of the AAAI conference on artificial intelligence.

[5] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. 2017. Image-to-Image Translation with Conditional Adversarial Networks. CVPR (2017).

[6] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 2016. Perceptual losses for real-time style transfer and super-resolution. In European conference on computer vision. Springer.

[7] Reinhard Knothe, Brian Amberg, Sami Romdhani, Volker Blanz, and Thomas Vetter. 2011. Morphable Models of Faces. In Handbook of Face Recognition. Springer.

[8] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and Javier Romero. 2017. Learning a model of facial shape and expression from 4D scans. ACM Trans. Graph. (2017).

[9] Stephen Lombardi, Jason Saragih, Tomas Simon, and Yaser Sheikh. 2018. Deep appearance models for face rendering. ACM Transactions on Graphics (ToG) (2018).

[10] Camillo Lugaresi, Jiuqiang Tang, Hadon Nash, Chris McClanahan, Esha Uboweja, Michael Hays, Fan Zhang, Chuo-Ling Chang, Ming Guang Yong, Juhyun Lee, et al. 2019. Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172 (2019).

[11] Safa C Medin, Bernhard Egger, Anoop Cherian, Ye Wang, Joshua B Tenenbaum, Xiaoming Liu, and Tim K Marks. 2022. MOST-GAN: 3D morphable StyleGAN for disentangled face image manipulation. In Proceedings of the AAAI Conference on Artificial Intelligence.

[12] Moustafa Meshry, Saksham Suri, Larry S Davis, and Abhinav Shrivastava. 2021. Learned Spatial Representations for Few-shot Talking-Head Synthesis. In Proceedings of the IEEE/CVF International Conference on Computer Vision.

[13] Alexander Richard, Colin Lea, Shugao Ma, Jurgen Gall, Fernando De la Torre, and Yaser Sheikh. 2021. Audio-and gaze-driven facial animation of codec avatars. In Proceedings of the IEEE/CVF winter conference on applications of computer vision.

[14] Wenzhe Shi, Jose Caballero, Ferenc Huszár, Johannes Totz, Andrew P Aitken, Rob Bishop, Daniel Rueckert, and Zehan Wang. 2016. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network. In Proceedings of the IEEE conference on computer vision and pattern recognition.

[15] Jiale Tao, Biao Wang, Borun Xu, Tiezheng Ge, Yuning Jiang, Wen Li, and Lixin Duan. 2022. Structure-Aware Motion Transfer with Deformable Anchor Model. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.

[16] Shih-En Wei, Jason Saragih, Tomas Simon, Adam W Harley, Stephen Lombardi, Michal Perdoch, Alexander Hypes, Dawei Wang, Hernan Badino, and Yaser Sheikh. 2019. VR facial animation via multiview image translation. ACM Transactions on Graphics (TOG) (2019).

[17] Zili Yi, Qiang Tang, Vishnu Sanjay Ramiya Srinivasan, and Zhan Xu. 2020. Animating through warping: An efficient method for high-quality facial expression animation. In Proceedings of the 28th ACM international conference on multimedia.

[18] Egor Zakharov, Aliaksandra Shysheya, Egor Burkov, and Victor Lempitsky. 2019. Few-shot adversarial learning of realistic neural talking head models. In Proceedings of the IEEE/CVF international conference on computer vision.

[19] Ruiqi Zhao, Tianyi Wu, and Guodong Guo. 2021. Sparse to dense motion transfer for face image animation. In Proceedings of the IEEE/CVF International Conference on Computer Vision.
Few-shot adversarial learning of realistic neural talking head models. In Proceedings of the IEEE/CVF international conference on computer vision.

[19] Ruiqi Zhao, Tianyi Wu, and Guodong Guo. 2021. Sparse to dense motion transfer for face image animation. In Proceedings of the IEEE/CVF International Conference on Computer Vision.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/58280.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

磁盘均衡器:HDFS Disk Balancer

HDFS Disk Balancer 背景产生的问题以及解决方法 hdfs disk balancer简介HDFS Disk Balancer功能数据传播报告 HDFS Disk Balancer开启相关命令 背景 相比较于个人PC,服务器一般可以通过挂载多块磁盘来扩大单机的存储能力在Hadoop HDFS中,DataNode负责最…

【数据结构与算法】线索化二叉树

线索化二叉树 n 个节点的二叉链表中含有 n 1 【公式 2n - (n - 1) n 1】个空指针域。利用二叉链表中的空指针域,存放指向该节点在某种遍历次序下的前驱和后继节点的指针(这种附加的指针称为“线索”)。这种加上了线索的二叉链表称为线索链…

网站是如何进行访问的?在浏览器地址栏输入网址并回车的一瞬间到页面能够展示回来,经历了什么?

这个问题是检验web和计网学习程度的经典问题。 网站访问流程: 1.域名->ip地址 1) 在输入完一个域名之后,首先是检查浏览器自身的DNS缓存是否有相应IP地址映射,如果没有对应的解析记录,浏览器会查找本机的hosts配置文件&…

【Spring Boot】Thymeleaf模板引擎 — Thymeleaf表达式

Thymeleaf表达式 本节介绍Thymeleaf的各种表达式&#xff0c;通过一些简单的例子来演示Thymeleaf的表达式及用法。 1.变量表达式 变量表达式即获取后台变量的表达式。使用${}获取变量的值&#xff0c;例如&#xff1a; <p th:text"${name}">hello</p>…

leetcode 763. 划分字母区间

2023.8.3 本题的关键是要确保同一字母需要在同一片段中&#xff0c;而这就需要关注到每个字母最后一次出现的位置。 思路&#xff1a;用一个哈希表保存每个字母&#xff08;26个&#xff09;最后一次出现的位置。然后从头遍历&#xff0c;不断更新最右边界&#xff0c;直到当前…

一个严肃的话题,ADR会取代WAF和RASP吗?

做安全的人应该都对WAF耳熟能详&#xff0c;也就是我们常说的Web应用防火墙&#xff0c;成为了应用安全防护的明星产品之一。从传统的防火墙、IDS、IPS&#xff0c;再到WAF横空出世&#xff0c;引领技术趋势若干年&#xff0c;这一阶段可以称为应用安全防护1.0时代。作为一款成…

计算机毕设 深度学习疫情社交安全距离检测算法 - python opencv cnn

文章目录 0 前言1 课题背景2 实现效果3 相关技术3.1 YOLOV43.2 基于 DeepSort 算法的行人跟踪 4 最后 0 前言 &#x1f525; 这两年开始毕业设计和毕业答辩的要求和难度不断提升&#xff0c;传统的毕设题目缺少创新和亮点&#xff0c;往往达不到毕业答辩的要求&#xff0c;这两…

jar命令的安装与使用

场景&#xff1a; 项目中经常遇到使用WinR软件替换jar包中的文件&#xff0c;有时候存在WinRAR解压替换时提示没有权限&#xff0c;此时winRAR不能用还有有什么方法替换jar包中的文件。 方法&#xff1a; 使用jar命令进行修改替换 问题&#xff1a; 执行jar命令报错jar 不…

【从零开始学习JAVA | 第三十七篇】初识多线程

目录 前言&#xff1a; ​编辑 引入&#xff1a; 多线程&#xff1a; 什么是多线程&#xff1a; 多线程的意义&#xff1a; 多线程的应用场景&#xff1a; 总结&#xff1a; 前言&#xff1a; 本章节我们将开始学习多线程&#xff0c;多线程是一个很重要的知识点&#xff…

MYSQL进阶-事务

1.什么是数据库事务&#xff1f; 事务是一个不可分割的数据库操作序列&#xff0c;也是数据库并发控制的基本单位&#xff0c;其执 行的结果必须使数据库从一种一致性状态变到另一种一致性状态。事务是逻辑上 的一组操作&#xff0c;要么都执行&#xff0c;要么都不执行。 事务…

使用 LangChain 搭建基于 Amazon DynamoDB 的大语言模型应用

LangChain 是一个旨在简化使用大型语言模型创建应用程序的框架。作为语言模型集成框架&#xff0c;在这个应用场景中&#xff0c;LangChain 将与 Amazon DynamoDB 紧密结合&#xff0c;构建一个完整的基于大语言模型的聊天应用。 本次活动&#xff0c;我们特意邀请了亚马逊云科…

华为云CTS 使用场景

云审计服务 CTS 云审计服务&#xff08;Cloud Trace Service&#xff09;&#xff0c;帮助您监控并记录华为云账号的活动&#xff0c;包括通过控制台、API、开发者工具对云上产品和服务的访问和使用行为&#xff0c;提供对各种云资源操作记录的收集、存储和查询功能&#xff0…

应用在多媒体手机中的低功率立体声编解码器

多媒体手机一般是指可以录制或播放视频的手机。多媒体的定义是多种媒体的综合&#xff0c;一般是图像、文字、声音等多种结合&#xff0c;所以多媒体手机是可以处理和使用图像文字声音相结合的移动设备。目前流行的多媒体概念&#xff0c;主要是指文字、图形、图像、声音等多种…

【0803作业】创建两个线程:其中一个线程拷贝图片的前半部分,另一个线程拷贝后半部分(4种方法)

方法一&#xff1a;使用pthread_create、pthread_exit、pthread_join函数【两个线程不共用同一份资源】 先在主函数创建并清空拷贝的目标文件&#xff0c;再创建两个线程&#xff0c;在两个线程内部同时打开要读取的文件以及要拷贝的目标文件&#xff08;两个线程不共用同一份资…

Vulnhub: BlueMoon: 2021靶机

kali&#xff1a;192.168.111.111 靶机&#xff1a;192.168.111.174 信息收集 端口扫描 nmap -A -sC -v -sV -T5 -p- --scripthttp-enum 192.168.111.174 80端口目录爆破&#xff0c;发现文件&#xff1a;hidden_text gobuster dir -u http://192.168.111.174 -w /usr/sha…

牛客网Verilog刷题——VL41

牛客网Verilog刷题——VL41 题目答案 题目 请设计一个可以实现任意小数分频的时钟分频器&#xff0c;比如说8.7分频的时钟信号&#xff0c;注意rst为低电平复位。提示&#xff1a;其实本质上是一个简单的数学问题&#xff0c;即如何使用最小公倍数得到时钟周期的分别频比。设小…

RabbitMQ教程与安装

1 在CentOS7中安装RabbitMQ 在 CentOS 中安装 RabbitMQ 的命令如下&#xff1a; 首先&#xff0c;确保已经安装了 EPEL 软件包存储库。如果没有&#xff0c;请运行以下命令安装它&#xff1a; sudo yum install epel-release 更新系统的软件包列表&#xff1a; sudo yum upda…

成本控制策略:加强企业安全

我们生活在一个不确定的时代。大多数经济学家预测&#xff0c;今年全球经济将继续放缓&#xff0c;亚太地区当然也不会逆势而上。 在供应链问题、大规模裁员、高通胀和高利率之间&#xff0c;我们毫不奇怪地看到大多数公司和行业采取谨慎态度&#xff0c;战略、增长计划和预算…

艺术二维码 API 申请及使用

艺术二维码是一种创新的技术产品&#xff0c;它将二维码与美观的背景图像相结合&#xff0c;创造出既实用又美观的作品。它们不仅具有传统二维码的功能性&#xff0c;能被智能设备快速扫描识别&#xff0c;还加入了艺术元素&#xff0c;增强了视觉吸引力和品牌识别度。其中&…

GPT Prompt编写的艺术:如何提高AI模型的表现力

随着AI技术的迅速发展&#xff0c;人工智能模型变得越来越强大&#xff0c;能够协助我们完成各种任务。然而&#xff0c;如何更好地利用AI的能力仍然存在很大的探索空间。在与AI进行交互的过程中&#xff0c;我们主要依赖于Prompt&#xff0c;不管是直接与大模型交互&#xff0…