数字人解决方案VividTalk——音频驱动单张照片实现人物头像说话的效果

前言

VividTalk是一项由南京大学、阿里巴巴、字节跳动和南开大学共同开发的创新项目。该项目通过结合单张人物静态照片和一段语音录音,能够制作出一个看起来仿佛实际说话的人物视频。项目的特点包括自然的面部表情和头部动作,口型能够同步,同时支持多种语言和不同风格,如真实风格、卡通风格等。
在这里插入图片描述
VividTalk是一个通用的一次性音频驱动的说话头部生成框架,旨在通过音频作为输入信号,驱动任意面部图像的生成。该技术具有广泛的应用场景,包括虚拟化身、视觉配音和视频会议等。为了最大程度地增加生成视频的逼真度,VividTalk考虑了非刚性面部表情组件和刚性头部组件的建模。

技术挑战与方法创新:

  1. 面部表情运动建模: VividTalk采用了3D面部可塑模型(3DMM)作为中间表示,相较于稀疏的面部标志点,3DMM能够更详细地建模各种表情。然而,面部表情的混合形状分布差异导致了音频和面部运动之间的一对多映射问题。VividTalk通过使用混合形状和3D顶点,以及基于多分支变压器的网络,充分利用长期音频上下文,解决了这一挑战。

  2. 刚性头部运动建模: 对于刚性头部运动,由于与音频关系较弱,建模更加困难。VividTalk将这个问题视为离散和有限空间中的代码查询任务,并建立了可学习的头部姿势代码本,具有重构和映射机制。这创新性地解决了从音频中生成合理头部姿势的挑战。

VividTalk框架的两阶段流程:

  1. 音频到网格生成(第一阶段):

    • 使用混合形状和3D顶点作为中间表示,提供全局粗略运动和细粒度嘴唇运动的描述。
    • 基于多分支变压器的网络,充分利用长期音频上下文,建模音频与中间表示的关系。
  2. 网格到视频生成(第二阶段):

    • 建立可学习的头部姿势代码本,用于合理地从音频中学习刚性头部运动。
    • 将学习到的两个运动应用于参考身份,得到驱动网格。
    • 渲染内部面部和外部面部的投影纹理,全面建模运动。
    • 使用双分支运动VAE建模密集运动,逐帧合成最终的视频。

通过这一创新方法,VividTalk能够生成高质量、逼真的音频驱动的说话头部视频,为虚拟化身和其他应用领域提供了新的可能性。

实现流程

音频驱动的说话头像生成旨在根据音频信号生成面部图像。在早期的研究中,一些尝试以端到端的方式生成视频的方法已经出现。然而,最近的研究采用了多阶段的框架,将音频映射到中间表示,如3DMM系数和面部关键点,以更好地建模运动。相较于这些方法,VividTalk的方法采用混合形状和顶点作为中间表示,分别建模粗略运动和细粒度运动,从而实现了唇同步和更逼真的说话头像视频生成。

视频驱动的说话头像生成主要关注将源演员的动作转移到目标对象上,也被称为面部再现。这一领域的方法通常分为两类:特定主体和通用主体。特定主体方法能够生成高质量的视频,但由于无法扩展到新的主体,其应用受到一定限制。近期,一些通用主体的方法试图解决这个问题,并取得了显著的成功。与这些方法相比,VividTalk的任务更为挑战性,因为VividTalk需要以音频作为输入来驱动图像,而不依赖于任何运动的先验知识。

实现方法

VividTalk介绍了一种方法,可以根据音频序列和参考面部图像生成具有多样化面部表情和自然头部姿势的说话头像视频。该方法由两个级联阶段组成,分别是音频到网格生成和网格到视频生成。文章还介绍了3D可塑模型和数据预处理的基础知识,并描述了总体框架的训练策略。
在这里插入图片描述

1.处理前期预备

3D变形模型:VividTalk的方法使用基于3d的(混合形状和顶点)而不是基于2d的信息作为说话头生成的中间表示。在3DMM中,三维脸型可以表示为:
在这里插入图片描述
数据预处理:VividTalk的模型只需要使用视听同步数据集进行训练。并进行预处理。

2.音频到网格生成

VividTalk的目标是根据输入音频序列和参考面部图像生成3d驱动网格。VividTalk首先利用FaceVerse重建参考面部图像。接下来,然后从音频中学习非刚性面部表情运动和刚性头部运动来驱动重构网格。为此,提出了一个多分支BlendShape和顶点偏移生成器以及一个可学习的头部姿态码本。
在这里插入图片描述
BlendShape和顶点偏移生成器。学习一个通用的模型来生成准确的嘴部运动和具有特定风格的面部表情,这在两个方面具有挑战性:1)第一个挑战是音频-动作相关问题。由于音频信号与口腔运动最相关,因此很难从音频中模拟非口腔运动;2)从音频到面部表情运动的映射自然具有一对多的属性,这意味着相同的音频输入可能有多个正确的运动模式,导致没有个人特征的mean face现象。为了解决音频-运动相关问题,使用混合形状和顶点偏移作为中间表示,其中混合形状提供了全局的粗面部表情运动,唇相关顶点偏移提供了局部的细粒度嘴唇运动。对于平均脸问题,提出了一种基于多支路变压器的生成器来单独建模每个部分的运动,并注入特定主题的风格以保持个人特征。
在这里插入图片描述
在这里插入图片描述
使用预训练的音频提取器来提取上下文化的语音表示。为了表示个人特定的风格特征,使用预训练的3D人脸重建模型从参考图像中提取身份信息α,并将其编码为风格嵌入z风格。然后,将音频特征A和嵌入个人风格的z风格添加并馈送到基于多分支Transformer的体系结构中,其中两个分支生成混合形状,在粗粒度上建模面部表情运动,第三个分支生成唇部相关的顶点偏移,在细粒度上补充唇部运动。请注意,为了更好地建模时间依赖性,在预测当前运动时,将学习到的过去运动作为网络的输入,可以表示为:

在这里插入图片描述
训练完成后,可以得到具有非刚性面部表情运动的驱动网格。
可学习的头部姿势码本。头部姿势是影响视频真实性的另一个重要因素。但是,直接从音频中学习并不容易,因为它们之间的关系很弱,会导致不合理和不连续的结果。提出将该问题作为一个离散且有限的头姿空间中的代码查询任务,并精心设计了两阶段的训练机制,第一阶段构建丰富的头姿码本,第二阶段将输入音频映射到码本以生成最终结果,如图4所示。
在这里插入图片描述
在重建阶段,任务是构建一个上下文头部姿态码本和能够从Z解码真实头部姿态序列的解码器。采用由编码器、解码器和码本组成的VQ-VAE作为主干。首先,计算相对头部位姿,并将其编码为潜码。然后,使用一个元素量化函数q(·)来得到zq,将Z´中的每一项Z´映射到它最近的码本条目Z k:
在这里插入图片描述
最后,基于Z q,由解码器D给出重构的相对头部位姿P * r 1:f,如下所示:
在这里插入图片描述
在映射阶段,专注于构建一个网络,该网络可以将音频映射到前一阶段学习的码本,以生成自然和连续的头部姿势序列。为了更好地模拟时间连续性,提出了一种基于自注意和跨模态多头注意机制的变压器自回归模型Φ map。具体来说,Φ map以音频序列A、个人风格嵌入z风格和初始头姿P 0为输入,输出中间特征z -,从码本z量化为z - q,然后由预训练的解码器D解码:
在这里插入图片描述
注意,码本Z和解码器D在映射训练阶段被冻结。
到目前为止,非刚性的面部表情动作和刚性的头部姿势都已经学会了。现在,可以通过将学习到的头部刚体位姿应用到M´nr网格上,得到最终的驱动网格M´d:
在这里插入图片描述

3. 网格到视频生成

提出了一个双分支运动vae来模拟二维密集运动,并将其作为生成器的输入来合成最终的视频。
在这里插入图片描述
将三维区域运动直接转换为二维区域运动是困难和低效的,因为网络需要寻找两个区域运动之间的对应关系才能更好地建模。为了减少网络的学习负担并获得进一步的性能,借助投影纹理表示在二维域中进行这种转换。

为了渲染3D网格的投影纹理,首先将3D人脸的平均形状在x、y、z轴上归一化为0−1,得到类似于RGB的三个通道的归一化坐标码NCC,可以看作是人脸纹理的一种新的表示:

在这里插入图片描述
然后采用Z-Buffer对投影的三维内表面纹理PT进行NCC上色渲染。然而,由于3DMM的限制,不能很好地对外表面区域进行建模。为了更好地对跨帧运动建模,使用对图像进行解析,得到外脸区域纹理PT out,如躯干和背景,将其与PT in结合如下:
在这里插入图片描述
如图5所示,在面部分支中,参考投影纹理PT ref和驱动投影纹理PT d被连接并馈入Encoder,随后是MLP,后者输出2D面部运动图。为了进一步增强嘴唇运动和更准确地建模,还选择了与嘴唇相关的地标并将其转换为高斯图,这是一种更紧凑和有效的表示。然后,沙漏网络将高斯图的减除作为输入,输出一个二维的唇形运动,该唇形运动将与面部运动连接并解码为密集运动和遮挡图。
最后,根据之前预测的密集运动图对参考图像进行变形,得到变形后的图像,并将变形后的图像作为与遮挡图一起的生成器的输入,逐帧合成最终的视频。

4.训练策略

训练分为两个阶段:音频到网格和网格到视频。训练过程中,BlendShape和Vertex Offset Generator受到重建损失的监督。
在这里插入图片描述
在Learnable Head Pose Codebook的训练中,使用了直通梯度估计器。
在这里插入图片描述
在网格到视频阶段,使用了基于预训练VGG-19网络的感知损失和特征匹配损失。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/357643.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++ 数论相关题目:卡特兰数应用、快速幂求组合数。满足条件的01序列

给定 n 个 0 和 n 个 1 ,它们将按照某种顺序排成长度为 2n 的序列,求它们能排列成的所有序列中,能够满足任意前缀序列中 0 的个数都不少于 1 的个数的序列有多少个。 输出的答案对 1097 取模。 输入格式 共一行,包含整数 n 。 …

“全”实力认可 | 美创科技领跑CCSIP 2023全景图数据安全领域

近日,FreeBuf咨询正式发布《CCSIP(China Cyber Security Industry Panorama)2023中国网络安全行业全景册(第六版)》。本次全景册面向广大国内安全厂商,由厂商自主申报并填写信息征集表,经FreeBu…

Android 中的动态应用程序图标

Android 中的动态应用程序图标 一、需求二、解决方案三、方案实现四、结论 一、需求 您可能遇到过那些可以实现巧妙技巧的应用程序 - 更改应用程序图标(也许是在您的生日那天),然后无缝切换回常规图标。这种功能会激起你的好奇心&#xff0c…

网络防御安全:2-6天笔记

第二章:防火墙 一、什么是防火墙 防火墙的主要职责在于:控制和防护。 防火墙可以根据安全策略来抓取流量之后做出对应的动作。 二、防火墙的发展 区域: Trust 区域,该区域内网络的受信任程度高,通常用来定义内部…

TensorFlow2实战-系列教程9:RNN文本分类1

🧡💛💚TensorFlow2实战-系列教程 总目录 有任何问题欢迎在下面留言 本篇文章的代码运行界面均在Jupyter Notebook中进行 本篇文章配套的代码资源已经上传 1、文本分类任务 1.1 文本分类 数据集构建:影评数据集进行情感分析&…

Leetcode 206 反转链表

反转链表 准备工作1)ListNode基本结构2)初始化ListNode集合 解法一:遍历创建新节点解法二:两组List,面向对象操作解法三:递归调用解法四:直接移动解法五:解法二的面向过程 Leetcode …

spring cloud activiti 审批流的用法

demo的搭建及使用 1、创建activiti审批流需要安装bpmn插件,新的idea版本支持的这个bpmn插件只有下图这个,并不好用,所以我这里使用eclipse来创建bpmn流程 eclipse的连接如下:链接:https://pan.baidu.com/s/1mSoKprN-…

基于Java SSM框架实现药品销售系统项目【项目源码+论文说明】

基于java的SSM框架实现药品销售系统演示 摘要 本论文主要论述了如何使用JAVA语言开发一个药品销售系统 ,本系统将严格按照软件开发流程进行各个阶段的工作,采用B/S架构,面向对象编程思想进行项目开发。在引言中,作者将论述药品销…

原生table样式

HTML <div><table style"width: 100%;"><thead><tr><th style"width:25%;">董事会</th><th style"width:25%;">监事会</th><th style"width:25%;">股东</th><th sty…

【Vue】前端项目引入阿里图标

【Vue&React】前端项目引入阿里图标 1、登录自己的iconfont-阿里巴巴矢量图标库&#xff0c;把需要的图标加入到自己的项目中去&#xff1b;2、加入并进入到项目中去选择Font class 并下载到本地3、得到的文件夹如下4. 把红框中的部分粘贴到自己的项目中&#xff08; stati…

CRG设计之复位

1. 前言 CRG(Clock and Reset Generation&#xff0c;时钟复位生成模块) 模块扮演着关键角色。这个模块负责为整个系统提供稳定可靠的时钟信号&#xff0c;同时在系统上电或出现故障时生成复位信号&#xff0c;确保各个模块按预期运行。简而言之&#xff0c;CRG模块就像是SoC系…

nginx无法启动,win10占用80端口 (注册表方式解决)

参考&#xff1a;https://blog.csdn.net/qq_39523111/article/details/128853509 改为4 重启后 不再占用 pid 不是4了 已经变为nginx了 改为0 没起作用

蓝桥杯2024/1/26笔记-----基于PCF8591的电压采集装置

功能实现要求&#xff1a; 每次建好工程文件夹&#xff0c;里边包含User&#xff08;放工程文件&#xff0c;mian.c&#xff0c;可以在这里写如同我这个文章的文本文档&#xff09;、Driver&#xff08;存放底层文件如Led.c&#xff0c;Led.h等&#xff09; 新建的工程先搭建框…

STM32——中断系统和外部中断EXTI

一、中断 1.1中断系统 中断系统是管理和执行中断的逻辑结构&#xff1b; 1.2中断 系统在执行主程序过程中&#xff0c;出现了特定的触发条件&#xff08;触发源&#xff09;&#xff0c;系统停止执行当前程序&#xff0c;转而去执行中断程序&#xff0c;执行完毕后&#xf…

windows系统下启动redis命令

windows系统下启动redis命令 进入redis安装目录 cd redis 输入 redis-server.exe redis.windows.conf 启动redis命令&#xff0c;看是否成功 可能会启动失败&#xff0c;报[1696] 30 Jan 09:46:07.518 # Creating Server TCP listening socket 127.0.0.1:6379: bind: No erro…

云计算底层技术、磁盘技术揭秘虚拟化管理、公有云概述

查看本机是否具备虚拟化支持 硬件辅助虚拟化 处理器里打开 虚拟化Inter VT-x/EPT 或AMD-V 构建虚拟化平台工具软件包 yum 与 dnf Yum和DNF都是用于管理Linux系统中的软件包的工具&#xff0c;但它们在许多方面存在一些差异。以下是一些可能的区别&#xff1a; 依赖解…

运行VUE提示找不到模块validate-engines.js...

原来好好的&#xff0c;突然提示找不到模块validate-engines.js&#xff0c;CMD命令行输入npm -v不是内部或外部命令&#xff0c;node -v可以查看到版本号。 解决&#xff1a; 1. 卸载nodejs&#xff0c;重新下载安装文件&#xff1a;下载nodejs 2. 到目录&#xff1a;C:\Us…

成功解决AttributeError: ‘str‘ object has no attribute ‘decode‘

成功解决AttributeError: ‘str’ object has no attribute ‘decode’. &#x1f335;文章目录&#x1f335; &#x1f333;引言&#x1f333;&#x1f333;报错分析及解决方案&#x1f333;&#x1f333;参考文章&#x1f333;&#x1f333;结尾&#x1f333; &#x1f333;引…

Chiplet,汽车“芯”风向

异构集成、高速互联、算力灵活可扩展正在成为新一轮汽车芯片竞争的焦点。尤其是随着以ChatGPT为代表的大数据、大模型产品在车端的落地&#xff0c;对于芯片的要求还在持续提升。 本周&#xff0c;12家日本汽车制造商&#xff08;包括丰田、日产、本田等&#xff09;、零部件制…

Redis 面试题 | 20.精选Redis高频面试题

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…