人机交互系统中的人脸讲话生成系统调研

《Human-Computer Interaction System: A Survey of Talking-Head Generation》
在这里插入图片描述
图片源：https://github.com/Yazdi9/Talking_Face_Avatar

前言
摘要
一、背景介绍
二、人机交互系统体系结构
- 2.1. 语音模块
- 2.2. 对话系统模块
- 2.3. 人脸说话动作生成
三人脸动作生成
- 1 基于2D的方法。
- 2 基于3D的方法。
- 3.1 问题公式化
- 3.2. 管道
- - 3.2.1. 基于标记点的方法
  - 3.2.2. 基于系数的方法
  - 3.2.3.基于顶点的方法
- 3.3. 端到端
4. 数据集和评价指标
5. 未来方向数据集的构建和使用较少样本进行学习的方法
6.结论
总结

前言

来自中国传媒大学团队的调研工作，Talking Face generation，TFG，是当前一个非常火热的研究方向。TFG发展到哪一步了，未来的发展趋势是如何的，如何进行TFG的研究工作，希望本篇解读能够解答问题。感谢团队Liu Ning同学的参与贡献。

摘要

随着人工智能技术的飞速发展，虚拟人在个人辅助、智能客服、在线教育等领域得到了广泛的应用。
拟人化数字人可以快速与人联系，增强人机交互的用户体验。作者设计了人机交互系统的框架，其中包括语音识别，文本到语音，对话系统，虚拟人生成。 然后，作者通过虚拟人深度生成框架对说话头视频生成模型进行了分类。同时，本文系统地回顾了近五年来在人脸说话视频生成方面的技术进展和发展趋势，重点介绍了其中的关键性工作，并对数据集进行了总结。

一、背景介绍

随着人工智能技术迅速发展，虚拟人不断应用于各种场景，包括虚拟主播、虚拟客服、在线教育等。在人机交互中，有一种拟人化的数字人，可以快速与用户建立联系，提升用户体验。同时，多模态人机交互也是虚拟人的应用方向之一。该系统旨在使用深度学习模型生成具有自然特征的交互对象，包括语音识别、对话系统、文本到语音和虚拟人视频合成。其中，虚拟人视频生成主要分为2D/3D人脸重建、人脸说话动作生成、身体运动和人体运动。同时，在人脸说话动作生成任务中，需要考虑嘴唇形状和面部表情、眼动等面部属性的听觉一致性。

在人脸说话动作生成的研究中，音频驱动的唇动合成是一个热门的研究方向，通过输入相应的音频和任意的网格顶点、人脸图像或视频，合成唇动的人说话视频。换句话说，该模型动态地将低维语音或文本信号映射到较高维视频信号。请注意，文本驱动的嘴唇合成是该任务的自然扩展。

传统的方法：在深度学习普及之前，许多研究人员主要采用跨模态检索方法[1-4]和隐马尔可夫模型（HMM）来解决这个问题[5]。然而，基于语素和视位之间映射关系的跨模态检索方法没有考虑语音的上下文语义信息。同样，许多因素，如先验假设，也限制了基于HMM的方法的应用。
在这里插入图片描述
图1 近年来关于人脸说话动作生成的研究综述

随着计算能力的快速提升，基于深度学习的Talking Head生成任务引起了广泛关注，推动了该领域的蓬勃发展。本文主要对近五年来基于深度学习的说话人头视频合成模型进行了系统的回顾。**图1显示了Talking-Head生成的文献图。**沿着时间轴，近年来作品数量急剧增加。

在这里插入图片描述
图2 对人脸说话视频生成方法的分类

根据模型输入的内容，我们可以分为基于2D的方法和基于3D的方法的说话头生成模型。根据模型的方法结构，我们可以将说话头生成技术分为管道和端到端类型，如图2所示。然而，在合成说话头视频时，大多数模型需要相对较长的时间来生成视频，只有一小部分模型，如DCK [6]，可以在短时间内输出结果。本文第三部分对这一问题进行了详细的讨论。

在整个任务的研究过程中，数据集和其评估指标对于训练一个人脸说话动作生成的通用模型来说不可或缺。在深度学习方法的广泛应用过程中，大规模数据集的出现推动了人脸说话动作视频生成模型的进一步发展，并成为衡量和比较不同算法的通用平台。但是，科技有两面性，比如deepfake。为了防止技术被用于危害国家和社会，只有一小部分数据集是完全开源的，还有一部分是通过应用获得的（注：这部分数据的应用权限只对高校、科研院所、企业的科研人员、教师、工程师开放。禁止学生申请。）。在第四部分中，我们回顾了常用的数据集，包括统计数据、亮点和下载链接。

本文的贡献
现在，我们可以在本文中总结我们的主要贡献：
1、本文提出了一个多模态人机交互的系统框架，为人脸说话动作生成模型的应用提供了一个新思路。
2、本文提出了两种分类法，对具有重要参考意义的方法进行了分类，并分析了代表性方法的优缺点及其潜在联系。
3、我们总结了说话人脸说话动作生成模型常用的数据集和评估指标。同时，我们强调了生成视频所消耗的时间作为衡量模型性能的重要性。

论文结构：

第二部分介绍了一个多通道人机交互系统的体系结构，包括语音模块、对话系统和说话人生成模块。
第三部分介绍了近五年来两种不同的虚拟说话人生成方法：流水线和端到端。
第四部分讨论了用于训练虚拟人说话头生成模型的数据集和用于评价模型性能的指标;
在第五节中描述了三种提高虚拟人说话头生成模型速度的潜在方法；
第六节中总结。

二、人机交互系统体系结构

**目的：**该系统基于自然语言处理、语音和图像处理等人工智能技术，追求与低延迟和高保真拟人化虚拟人的多模态交互。

如图3所示，该系统主要由四个模块组成：

系统通过自动语音识别（ASR）模块将用户输入的语音信息转换为文本信息;
对话系统（DS）将ASR模块输出的文本信息作为输入;
文字语音转换（TTS）模块将DS输出的文本转换为真实的语音信息;
说话头生成模块预处理作为模型输入的图片、视频或混合形状以提取其面部特征。
然后，该模型通过TTS模块将低维语音信号映射到高维视频信号，包括嘴部、表情、运动等。
最后，该模型使用渲染系统融合特征和多模态输出视频并在用户端显示。

在这里插入图片描述
图3 多通道人机交互的系统架构

2.1. 语音模块

语音模块的ASR和TTS分别对应于人的听觉和语言功能。 经过几十年的研究，语音识别和文本到语音合成已经广泛应用于各种商业产品中。我们使用百度开源的PaddleSpeech [32]。一个模型可以同时完成ASR和TTS任务，这大大降低了模型部署的复杂性，并可以更好地与其他模块协作。此外，我们还可以选择商业公司提供的API服务，如百度、搜狗、科大讯飞等。

2.2. 对话系统模块

我们的对话系统模块需要有能力进行多轮对话。该系统需要回答特定领域的问题，并满足用户的聊天需求。如图3所示，在用户的语音通过ASR之后，问题被传递到对话模块。对话模块必须根据用户的问题从知识库中检索或生成匹配的答案。然而，在特定领域的多回合对话中不可能完全依赖模型来生成答案。在某些场景下，为了更好地考虑上下文信息，上述信息将被聚合以识别用户的意图并以QA的方式返回答案。

2.3. 人脸说话动作生成

说话人头部生成模块中的面部外观数据主要来自真人照片、视频或blendshape人物模型系数。以视频为例，我们首先对这些人脸外观数据进行视频预处理，然后将图3中TTS的音频信号映射到人脸唇形、面部表情、面部动作等更高维的信号，最后使用神经网络。该模型执行视频渲染并输出多模式视频数据。

在人机交互中，及时的响应可以改善用户体验。但是，整个系统的时延等于每个数据处理模块所消耗的时间之和。其中，语音模块和对话模块已经被广泛的用户商用，能够满足人机交互的实时性要求。目前，说话人头部生成模型渲染和输出多模态视频需要较长时间。因此，需要提高说话人头部生成模型的数据处理效率，减少多模态视频的渲染时间，减少人机交互系统扩展的响应时间。虽然虚拟人已经在一些商业产品中实现了低延迟响应，如JD的ViDA-MAN [33]等。生产周期长、成本高、便携性差也是不容忽视的问题。

三人脸动作生成

定义： 谈话头视频生成，即唇动序列生成，旨在合成与驱动源（音频或文本片段）相对应的唇动序列。在合成唇动的基础上，谈话头的视频合成还需要考虑其面部属性，例如面部表情和头部运动。

早期的方法：在早期的谈话头视频生成方法中，研究人员主要使用跨模态检索和基于HMM（隐马尔可夫模型）的方法[34]来实现驱动源与唇动数据的动态映射。然而，这些方法对模型的应用环境、视觉音素标注等有相对较高的要求。Thies等人[3]引入了一种基于图像的唇动合成方法，通过从离线样本中检索和选择最佳唇形来生成真实的口腔。然而，该方法是基于文本-音素-音素的映射检索，未能真正考虑语音的上下文信息。Zhang等人[30]提出了关键姿态插值和平滑模块，以基于跨模态检索合成姿态序列，并使用GAN（生成对抗网络）模型生成视频。

深度学习的方法
近年来，深度学习技术的快速发展为谈话头视频生成提供了技术支持，并促进了谈话头视频生成方法的蓬勃发展。图1显示了谈话头的图像维度可以分为基于2D和基于3D的方法。图2显示了基于深度学习的谈话头视频生成框架大致可以分为两种类型：管线式和端到端。

表1总结了谈话头视频生成的代表性工作。表1.这是近年来谈话头生成的主要模式。ID：模型可分为三种类型：身份依赖型（D）、身份无关型（I）和混合型（H）。驱动数据：音频（A）、文本（T）和视频（V）。
在这里插入图片描述

1 基于2D的方法。

在基于2D的方法中，TFG主要使用标记点、语义图或其他类似图像的表示来解决问题，这可以追溯到Bregler等人1997年的工作[4]。在谈话头部视频生成中，Chen等人[17]使用标记点作为从低维音频映射到高维视频的中间层，并将整个方法分为两个阶段。Chung等人[9]使用两个解码器来解耦声音和说话者身份，从而在不受说话者身份影响的情况下生成视频。唇部合成也可以使用图像到图像的翻译方法来生成[35]，这是一种方法的扩展。Zhou等人[16]和Song等人[15]使用了独立的音视频表示和神经网络的组合来优化合成。

2 基于3D的方法。

早期的3D方法预先构建特定人物的3D模型，然后渲染这些模型。相比于2D方法，这种方法可以更好地控制动作。然而，这类3D模型的构建成本相对较高，且更换新身份的效果无法保证。在合成奥巴马的视频时，这些工作[8,11]通过预构建3D面部模型并学习将音频序列映射到视频序列来驱动模型，以合成逼真的说话面部视频。此外，还有许多基于3DMM参数的生成性谈话头模型[10,19,20,23]，以及模型如blendshape[19]、flame[36]和3D网格[37]，这些模型使用音频作为输入。其中，VOCA[16]使用角色头部的blendshape来创建模型。Meshtalk[37]使用中性面模板网格作为基础来生成谈话头视频。然而，具有中间参数3DMM的模型会带来一定的信息损失。此外，VOCA是一个独立的3D谈话头合成模型，可以捕捉不同的说话风格，而Meshtalk可以解析出与音频相关和音频无关的面部运动的绝对潜在空间。

目前大多数方法直接从训练视频重建3D模型。NVP（神经语音木偶） 从此设计了Audio 2 ExpressionNet和独立身份的3D模型。NeRF（Neural Radiance Fields）[38-41]模拟MLP的隐式表示，可以存储3D空间坐标和外观信息，并用于大分辨率场景。为了减少信息损失，AD-NeRF [25]训练了两个NeRF用于说话头合成的头部和驱动渲染，并获得了良好的视觉效果。在实际应用场景中，许多模型需要不受限制的通用身份和语音作为输入。Prajwal等人。[22，42]将任何未识别的视频和任意语音作为输入来合成不受限制的讲话头部视频。本节将主要介绍问题公式化和使用管道和端到端生成谈话头的框架。

3.1 问题公式化

在这里插入图片描述

在从语音到视频的渲染网络中，现有的模型分别引入了U-Net、GAN、Vision Transformer（ViT）以及新兴的NeRF等网络结构。（这篇综述还是缺少对3DGS相关的报道，我们可以给予这个重点去总结调研的方向）

1、在使用GAN生成说话头部视频时，wav2lip [22]提出了基于SyncNet的专家唇同步算法，公式如下：
在这里插入图片描述

2、在使用ViT生成说话头部视频时，FaceFormer [28]提出了一种新的seq2seq架构来自回归预测面部运动，公式如下：
在这里插入图片描述

3.NeRF的方法，用于3D生成
在这里插入图片描述

3.2. 管道

Pipeline方法主要分为两个步骤：将低维驱动源数据映射到面部参数;然后使用GPU渲染、视频编辑或GAN将学习到的面部参数转换为高维视频输出。

根据人脸参数的数据类型，管道方法可以分为基于标记点的方法，基于系数的方法和基于顶点的方法。

3.2.1. 基于标记点的方法

面部标记点广泛应用于各种面部分析任务中，包括头部视频合成。在他们的开创性工作中，Suwajanakorn等人[8]使用单层LSTM将低维语音数据映射到非线性唇部关键点，然后依次进行面部纹理合成、视频重定时和目标视频合成。Kumar等人[11]提出了LSTM+UNet架构，并使用Pix2Pix代替基于管道的视频合成方法来改进模型。同时，LSTM+UNet架构也被广泛应用于许多工作中s [21,44]。
由于谈话头合成视频的应用场景广泛，需要一种不受输入语音和身份限制的方法。因此，仅使用奥巴马讲话视频作为数据的工作[8,11]无法满足业务需求，也无法合成其他人物或语音。Jalalifar等人[45]引入了基本条件生成对抗网络（C-GAN）作为音频到视频映射问题的独立模块，用于生成给定面部标记点的视频。由于这两个模块是独立的，模型可以使用任何音频作为驱动源来合成新视频。Chen等人[17]进一步考虑了合成过程前后视频帧之间的相关性。他们提出了一种动态像素级损失来解决目标区域的像素抖动问题。

然而，在模型的生成对抗网络部分，由于dlib[46]检测器唇部标记点精度不足，与数据集的唇部标记数据存在误差，影响了模型输出视频的效果。除了用于2D标记点的方法外，低维驱动源数据到高维3D标记点的映射也得到了广泛研究。语音信号不仅包含语义层次的信息，还包含语音、语音风格和情感等信息。Zhou等人[21]使用神经网络学习独立的语音内容和身份特征，用语音内容特征预测3D标记点，并用UNet风格的生成器合成谈话头视频。

3.2.2. 基于系数的方法

基于2D系数。主动外观模型（AAM）是最常用的面部系数模型之一，代表形状、纹理及其相关性的变化。

Fan等人[47]使用重叠的三音子作为双层Bi-LSTM模型的数据输入，以学习唇部区域的AAM系数，然后将学习到的数据映射到面部图像中，以合成谈话头视频。然而，AAM系数在将参考面部转换为新对象时可能导致潜在错误和灵活性受限。
基于3D系数。除了2D面部系数模型，[48,49]提出了基于CNN+RNN的模型，将低维语音信号映射到3D面部的混合形状系数。Thies等人[23]提出了基于CNN的Audio2Expression网络和内容感知过滤网络，可以将任何人的讲话语音序列映射到能够代表特定人讲话风格的3D混合形状。同时，NVP方法[23]首先从语音中推断情感，从而渲染高质量的说话头视频。
许多方法仅控制和生成唇部运动和面部表情，但这些方法无法在完全3D头部控制下合成完整的谈话头视频。Kim等人[13]将3D可变模型（3DMM，一种更密集的3D面部参数表示) [50]引入谈话头生成，该方法可以完全控制动作参数，例如面部运动、表情和眼睛，或仅调整面部表情参数并保持其他不变。

3DMM系数包括刚性头部姿态参数、面部识别系数、表情系数、双目注视方向参数和球面谐波光照系数。 Zhang等人[51]提出了一个具有特定风格动画生成器和流引导视频生成器的框架，以合成高视觉质量的视频。其中，特定风格的动画生成器可以成功将唇部运动与眉毛和头部姿态分离。由于该方法未考虑时间一致性，生成的谈话头视频中的唇部可能会受到干扰。同时，正则化的头部姿态和眼球运动参数限制了整个3D头部的运动空间。Ji等人.[52]提出了一种情感视频肖像（EVP），用于实现能够控制谈话头和面部情感的语音驱动视频合成。

3.2.3.基于顶点的方法

3D面部顶点是用于讲话头部视频合成的其他常用3D模型。例如，Karras等人。[10]使用深度神经网络来学习从输入音频到对应于固定拓扑网格的3D顶点坐标的非线性映射。同时，设计了一个额外的情感代码，用于从训练数据中学习相应的情感状态，以控制说话头部的面部表情。然而，许多提出的模型主要是针对具有特定身份的扬声器音频。为了解决这个问题，Cudeiro等人[19]提出了VOCA模型，该模型将DeepSpeech提取的音频特征与不同说话者的特征向量融合，并输出3D顶点的位移数据。VOCA算法的主要贡献在于解决了人脸识别与人脸运动的耦合问题，利用识别控制参数改变其视觉动力学特性。由于该方法在实验室中使用高清4D数据集，因此无法使用野生视频进行训练。Fan等人[28]提出了一种基于Transformer的FaceFormer模型，该模型对长期音频的上下文信息进行编码，并通过自回归预测一系列动画3D人脸网格。
Richard等人。[37]提出了一种基于跨模态损失的面部动画分类的潜在空间，不仅可以解开音频相关和音频无关的信息，如面部动作（眨眼和眉毛的运动）。然而，一些研究人员引入了具有附加跳跃连接的UNet风格解码器的神经网络架构。该方法可以预测3D顶点坐标，解开的上下表面区域的运动，并防止过度平滑，合成一个更合理的，现实的说话头视频。为了保证高保真视频质量，该模型需要大规模的高清3D训练数据集。

3.3. 端到端

在2018年之前，会说话头视频生成的流水线方法是一个主要研究方向。然而，这种基于流水线的方法具有复杂的处理流程、昂贵且耗时的面部参数标注以及额外的辅助技术，如面部地标检测和3D/4D/5D面部重建。因此，许多研究者开始探索端到端的说话人视频合成方法。端到端方法指的是直接从驱动源生成说话唇（面部）视频而不涉及任何中间链接的面部参数的架构。

**Chung等人提出的Specch2vid是最早探索端到端合成人脸视频的框架之一。**如图4所示，它由四个模块组成：音频编码器、身份图像编码器、说话人面部图像解码器和去模糊模块。语音编码器用于从原始音频中提取语音特征;身份图像编码器用于从输入图像中提取身份特征;说话人人脸图像解码器以语音和身份特征为输入，通过转置卷积和上采样方法进行特征融合，输出合成图像。然而，在获得高质量图像的上述处理中，该模型用L1损失函数代替了通常在图像生成和自动编码器中使用的L2损失函数。另外，基于CNN的去模糊模块被单独训练以提高输出图像的质量…但该模型的缺点也很明显：（1）由于Specch 2 vid没有考虑时间序列的连续性，会产生跳帧或抖动的不连贯视频序列;（2）L1重构损失是在整个人脸上进行的，很难从单个音频中推断出一个人的多个面部表情。注：本文中用于学术研究的政治人物奥巴马的图像主要来源于数据集。

在这里插入图片描述
图4 Specch2vid结构的概述。

为了克服Speech 2 Vid的上述限制，许多研究人员通过利用生成对抗训练策略[56]提出了新的解决方案[16，53 -55]。以音频驱动的说话人视频生成模型为例，一段音频包含语音、情感、说话风格等各种信息。因此，解耦的复杂的音频信息是一个显着的问题，在说话的头视频任务。为了缓解这个问题，Zhou等人[16]提出了可拆卸视听系统（DAVS）。监督对抗训练模型比以前的方法更专注于提取语音和身份特征信息。然而，这些方法在训练阶段过于依赖额外的Word-ID和Person-ID标签。这种方法忽略了头部姿势和音频之间的相关性[57]。Si等人。[53]使用知识蒸馏在预训练的情感识别教师网络和预训练的面部识别教师网络的帮助下从音频输入中分离情感，身份和语音特征。最近，许多研究人员在模型中引入了编码属性，如面部表情，头部姿势和眨眼频率，以生成更自然的说话头部。例如，参考文献[58，59]将情感编码器引入模型，[60]将隐式姿势编码模块设计到生成管道中。Ji等人。[61]设计了一个Audio 2Facial-Dynamics模块来学习面部关键点的运动和音频中隐含情绪的位移。Biswas等人[62]提出了一种语音驱动的合成说话人脸的方法，可以实现连贯的头部运动、准确的口型同步、自然眨眼和高保真纹理。Waibel等人。[63]提出了一种端到端神经系统，用于将视频的嘴唇同步翻译为另一种语言的视频。

基于GAN的方法专注于为说话头视频生成模型定制更有效的学习目标，以避免仅使用图像重建损失的缺点。 Prajwal等人。[22，42]介绍了一种简单的视听同步器，用于合成语音和对口型讲话头部视频。此外，Chen等人。[12]提出了视听导数相关损失，以优化特征空间中两种模态的一致性。他们提出了一种三流GAN视频，以强制从输入音频信号Talking Mouth Video生成。Biswas等人。[62]提出了一种基于注意力的GAN网络来识别与头部运动相关的音频特征，并且还可以学习语音的韵律特征与嘴唇同步，眨眼和头部运动之间的重要相关性。

除了基于GAN的端到端方法外，研究人员还受到神经辐射场（NeRF）的启发[38]。Guo等人[25]提出了音频驱动神经辐射场（AD-NeRF）模型。AD-NeRF集成的DeepSpeech音频特征用作条件输入，以学习隐式神经场景表示函数，该函数将音频特征映射到动态神经辐射场，用于扬声器面部渲染。ADNeRF可以通过学习两个独立的神经辐射场来对头部和上身进行建模，并且还可以操纵动作姿势和背景替换等属性，但该方法无法推广不匹配的驾驶语音和说话人。

然而，ADNeRF在渲染阶段经常遭受头部和躯干分离，导致不自然的合成视频。因此，Liu等人。[27]提出了一种称为语义感知说话肖像NeRF（SSP-NeRF）的方法，该方法使用语音的语义感知来解决局部面部动态和全局头部-躯干之间的不协调问题。同时，NeRF的绘制速度慢也是一个不容忽视的问题。这些方法[41，64 -66]提高了NeRF的渲染速度。与以前的流水线方法的融合策略不同，Ye等人。[6]提出了一种具有动态卷积核（DCK）的全卷积神经网络，用于跨模态特征融合和音频驱动的多模态任务的面部视频生成，并且对不同的身份，头部姿势和音频具有鲁棒性。由于简单高效的网络架构，大大提高了说话人视频生成模型的实时性。

Yao等人。[67]提出了一种基于神经辐射场的新框架。其中，唇动是直接从输入音频中预测出来的，实现了声音和图像的同步。设计了一种基于高斯过程采样的Transformer变分自动编码器，用于学习合理自然的个性化属性，如头部姿态和眨眼等。

4. 数据集和评价指标

参考论文。

5. 未来方向数据集的构建和使用较少样本进行学习的方法

**高质量的数据集有利于模型生成逼真、生动和人性化的说话头部视频。**现有的开源数据集主要由野生视频组成，有些用于视觉语音识别任务。此外，当前方法的一个局限性是，基于深度学习的说话头视频生成方法主要依赖于标记数据。最近，一些工作已经开始探索其他有效的学习范式，如知识蒸馏和少镜头学习，研究说话头视频生成任务的价值。与此同时，一些研究人员已经开始构建具有隐藏特征（如语义和情感注释）的高质量视觉语音数据集。

具有自发运动的真实的说话头视频生成。人类对合成视频中的任何动作变化都很敏感，他们会无意识地关注嘴唇、眼睛、眉毛和自发的头部运动。

挑战
具有视听一致性的嘴唇运动是讲话头部视频生成的不可或缺的部分，并且隐含的特征，例如眼睛和头部运动以及情感特征，很少可以从音频中推断出来。近年来，基于对嘴唇运动的研究，许多研究开始探索眨眼和头部姿态等内隐特征在生成说话头部视频中的应用。在研究中引入这些隐含特征可以使视频更真实。特别是在人机对话系统中，TTS模块合成的语音不如野生音频所包含的信息丰富。

说话人视频生成技术的发展已经严重威胁到社会的发展。滥用谈话头视频生成技术和人的图片或视频可能会降低虚假信息的生产成本，促进其传播，并造成严重的道德和法律的问题，特别是对名人或政治家。

说话人视频生成、假视频识别和检测是自然的共生任务。与此同时，说话人视频生成模型输出的内容自然逼真，给相关取证工作带来了很大的困难和挑战，引起了众多研究者的关注。现有的方法大多是对模型性能进行改进，忽略了模型可解释性差的问题.此外，大多数方法只在固定数据集上进行优化，对野生数据的影响是负面的。可解释且鲁棒的说话头部视频生成检测对于加速技术发展和防止技术滥用是重要的。

多人讲话头视频生成。在语音识别任务中，ASR模型可以根据输入语音的声纹差异识别说话人的数量，并划分说话人和语音内容。多人讲话头部视频的生成是一项具有挑战性的任务，它将一段具有不同声纹的语音映射到不同讲话头部的面部关键点信息。它可以应用于生活中的许多场景，例如广播新闻时的新闻连接。然而，将单个讲话头部视频生成方法转移到多个讲话头部视频生成任务可能不是最佳的。最近，这项任务开始引起研究人员的注意。考虑到基于深度学习的说话人生成模型的实时性问题无法解决，这方面还有很大的研究空间。

下面，我们提供一些想法，并讨论潜在的方法来解决说话头生成模型的实时性能差。

一种基于CG的话头生成方法。 随着虚拟世界概念的引入，用于在游戏、电影和其他场景中创建虚拟角色的计算图形(CG)公司已经推出了虚拟人生成程序。目前，可用于创建虚拟人谈话负责人的程序，包括2022年12月30日访问的Audio2Face(NVIDIA NIM | audio2face。)在NVIDIA Omniverse中，元人类创造者(MetaHuman | 逼真人类创建器 - 虚幻引擎 - Unreal Engine，于2022年12月30日访问。)在Epic的虚幻引擎中，数字人类(观察敌人 - 最先进的数字人类 | Unity 演示，于2022年12月30日访问。)在Unity3D和3D Engine(3D Engine - 华为开发者联盟 (huawei.com)，中，于2022年12月30日访问。)在华为的HMS核心中。现在，基于CG程序的虚拟人说话头部的实时渲染具有结合Audio2Face和Meta-Human Creator来输出渲染视频的方式。与此同时，一些研究人员通过让模型学习来学习语音、嘴唇和表情参数。它将虚拟人的动作生成算法与3D引擎相结合，实时输出渲染的卡通图像视频，如华为的手语数字化和基于3D人体网格的姿势制导生成[79]。对于说话头的深度生成，将深度学习方法与CG程序相结合，保证了视频渲染的实时性。虽然它具有巨大的应用潜力，但高昂的成本是虚拟人对讲机视频输出的一个缺点。语音到动画(S2A)技术是一种根据给定语音自动估计同步的面部动画参数并基于诸如虚幻引擎4(UE4)的渲染引擎利用这些预测参数生成最终动画化身的方法。在S2a的基础上，Chen et al.[31]结合MOE变换对上下文进行建模，提高了模型的推理速度。

一种基于NeRF（Neural Radiance Fields）渲染的方法。 在计算机视觉领域，利用深度神经网络对物体和场景进行编码是一个新的研究方向。NeRF是一种隐式神经表示，可以从多个角度的图像中呈现任何视角的锐利照片。其中，AD-NeRF将NeRF引入到头显视频生成中。尽管原生NeRF算法的缓慢渲染速度阻止其在真实的时间内生成讲话头部视频，但许多研究人员已经提出了许多方法来提高NeRF的渲染速度[64- 66，80]。例如，DONeRF可以在单个GPU上每秒渲染20帧，Plenoctrees [66]比传统的NeRF快3000倍以上。

一种融合语音识别和计算机视觉的方法。 随着输入语音数据量的不断增加，流式自动语音识别系统能够真实的实时输出语音识别的文本结果。其中，流解码器CTC [81]、RNN-T [82]、LAC [83]的发展推动了Streaming ASR的快速发展。相比之下，在深度生成的计算机视觉领域，没有一个模型能够真实的实时输出会说话的头部视频。因此，在实时的说头视频生成研究中，可以将ASR领域的流式解码器引入说头视频生成模型中，以降低视频生成的实时率。其中，实时率（RTF）是模型处理时间与音频之间的比值。例如，处理3秒的音频需要6秒，RTF = 6秒/3秒= 2。由于模型是对历史输入进行建模，因此历史输入将随着时间的推移继续增长，使模型的计算负载加倍，RTF也将相应增加。如果RTF > 1.0，则模型太迟，无法处理音频缓冲区。因此，可以通过将由讲话头部生成的视频的RTF减小到小于1.0来实现实时流输出。