【思路合集】talking head generation+stable diffusion

1 以DiffusionVideoEditing为baseline:

改进方向

针对于自回归训练方式可能导致的漂移问题:

  1. 训练时,在前一帧上引入小量的面部扭曲,模拟在生成过程中自然发生的扭曲。促使模型查看身份帧以进行修正。
  2. 在像VoxCeleb或LRS这样的具有不受限制条件的训练集中,训练更多样化的说话人数据。

针对训练速度慢,算力消耗大的问题:

作者尝试在潜空间中进行训练以加快训练速度,但是样本质量下降,因此在像素空间中操作,且只能训练128x128大小的数据。改进模型的训练速度对我们来说是首要任务,这将使我们能够在更大、更多样化的“野外”数据集上进行训练,如VoxCeleb [45]或LRS [12]。

希望尝试用LDM的方法训练,看如何在latent space训练且不降低样本质量。

语音条件:计划探索使用更广泛的语音特征作为模型条件的潜力,例如使用预训练的音频编码器,如Wav2Vec2 [3]、Whisper [52]或DeepSpeech2 [1]。相信结合这些特征可能会提高我们模型的唇部同步性能,并生成更逼真、表现力更强的唇部运动。

针对生成的说话头的抖动问题:

  1. 时间一致性:确保生成的说话头在时间上是连续和平滑的。在模型中引入时间依赖性,使用前一帧或前几帧的信息作为输入,增加生成的连贯性。
  2. 噪声注入:在输入数据中添加噪声或随机性,帮助减少生成结果中的抖动。通过在训练过程中或生成过程中引入适量的噪声,可以使模型更具鲁棒性。
  3. 重复惩罚:在生成过程中,通过记录已生成的特征或帧,并在后续生成中降低其权重,可以减少重复出现的特征或帧。这有助于生成更加平稳和多样化的说话头。
  4. 额外的约束或先验知识:对说话头进行进一步控制。例如,可以限制嘴唇形状的变化范围、语音速度的变化范围等,以减少不自然的抖动。
  5. 数据增强和多样性:用更多的训练数据、数据增强技术和多样性增强方法,使模型更好地学习说话头的多样性,并减少抖动。

用到的方法

1.Palette: Image-to-image diffusion models:通过将前一帧和身份帧连接到遮挡帧上,来训练模型生成所需的帧。

2.可以在我们的解决方案之上应用诸如[Learning trajectory-aware transformer for video superresolution]的视频超分辨率技术,以获得高分辨率的样本。

3.在U-Net内的条件残差块中发送音频特征,来驱动面部动画,对unet的改动详见[Diffused heads: Diffusion models beat gans on talking-face generation. ]

2 以DreamTalk为baseline:

改进方向

1. 风格与内容分离:研究如何将说话头的风格和内容进行有效地分离和控制。通过引入额外的约束或正则化项来实现,在保持风格一致的同时,灵活地修改或替换内容。

一种方法是条件生成模型,将风格信息作为附加输入,使模型能够根据给定的风格,生成相应说话头。通过调整风格输入,可以改变生成结果的风格,例如从正式到随意的转变。

另一种方法是风格迁移,通过将源样本(具有某种风格)与目标样本(希望采用的另一种风格)进行对齐和学习,从而将源样本的内容转移到目标样本的风格中,从而在不改变内容的情况下修改风格。

用到的方法

1.人脸运动由渲染器 [Pirenderer: Controllable portrait image generation via semantic neural rendering] 渲染成视频帧,并对其微调,使渲染器具有情感表达生成能力。还负责将将输出的人脸运动渲染为视频。

2. 人脸运动被参数化为来自3D可变形模型[A morphable model for the synthesis of 3d faces.]的表情参数序列。

3.仅使用标准扩散模型中的去噪损失,会导致不准确的唇部运动。补救方法:由预训练的唇部专家[A lip sync expert is all you need for speech to lip generation in the wild]提供唇动指导。(然而,唇部专家只关注一般的说话风格,这导致生成统一风格的面部运动。)

4.为了从人脸运动m中获取唇动信息,首先将m转换为相应的人脸网格,并选择嘴巴区域的顶点作为唇部运动表示[Styletalk: One-shot talking head generation with controllable speaking styles]。嘴唇运动和音频编码器分别主要由MLPs和1d卷积实现。

5.开发了一个去噪网络:创建富有表现力的、音频驱动的面部动作。风格感知嘴唇专家:优化口型同步,同时不影响风格表达。风格预测器:直接从音频中推断说话风格,从而消除了对视频参考的需要。

基线方法:MakeitTalk[105]、Wav2Lip[49]、PCAVS[104]、AVCT[84]、GC-AVT[37]、EAMM[30]、StyleTalk[46]、DiffTalk[58]、SadTalker[100]、PDFGC[78]和EAT[20]。

3 其他论文及方法

有效利用隐空间:DAE (Diffusion Autoencoder) ,DAE-Talker的前置文章。将DDIM的控制信息编码到类似StyleGAN的隐空间,借此实现与StyleGAN类似的可控图像生成。它将latent code分为两部分,分别是有语义意义的线性隐码和捕捉随机细节的“Noise”。 

DAE-talker:

  • 解决视频抖动的方法:使用相同噪声做起始点,保证latent code的平滑性。
  • 增强音频的表征能力:选择预训练Wav2vec 2.0提取音频特征。
  • 平滑latent code:使用堆叠的Comformer[7]来构建局部和全局的上下文关联,以生成变化更加平滑的latent code。
  • 学习音频和姿态之间的对应关系:在Conformer的Encoder和Decoder之间,加入了姿态控制器(Pose Adaptor),用来学习音频和姿态之间的对应关系。(语音驱动动画的问题是一个一对多的问题。在头部姿态的情况下尤其如此,同一段音频很容易对应许多不同的姿态。为了缓解这个问题,作者提出在speech2latent网络中添加一个特定的组件来建模姿态。姿态预测器从语音中预测姿态,而姿态投影器将姿态添加回网络的中间特征中。通过在此阶段添加姿态损失,可以更好地建模姿态。由于姿态被投影到特征中,可以使用预测的姿态或真实的姿态。)
  • 是否可以将latent code进一步拆分为id, pose, expression的latent representation?
  • 局限性:模型仅在单个演讲者的12分钟数据上进行训练,没有环境变化。实验仅限于一个数据集。除了奥巴马之外,没有其他人的实验结果。且不易训练。

LAUGHING MATTERS:

  • Video diffusion models:采用了可分解的时空U-Net架构,扩展了图像扩散模型中使用的标准2D U-Net。由四个通过残差连接连接的下采样和上采样块组成。
  • Make-a-video:用伪3d卷积层和注意力层来平衡计算效率和网络中的信息共享。对于每一层,不使用完整的3D卷积,而是对空间维度应用2D卷积,然后通过合并其他维度对时间维度应用1D卷积。对注意力层应用类似的策略。

提高分辨率:加入metaportrait之类的超分算法,或最后接gfpgan进行图像修复,高清细节恢复。 

插帧:RIFE,可以改善说话头生成效果:Real-Time Intermediate Flow Estimation for Video Frame Interpolation

利用面部先验:Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors

TH-PAD (zxyin.github.io)

端到端无监督运动迁移框架:Thin-Plate Spline Motion Model for Image Animation,TPSMM,code:GitHub - yoyo-nb/Thin-Plate-Spline-Motion-Model: [CVPR 2022] Thin-Plate Spline Motion Model for Image Animation.

高清:从GFPGAN 改为 ONNX / TensorRT.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/344463.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

学会使用ubuntu——ubuntu22.04使用WebCatlog

Ubuntu22.04使用WebCatlog WebCatlog是适用于Gnu / Linux,Windows或Mac OS X系统的桌面程序。 引擎基于铬,它用于在我们的桌面上处理Web服务。简单点就是把网页单独一个窗口出来显示,当一个app用。本文就是利用WebCatlog安装后的notion编写的…

知识图谱符号表示比较:特性图、RDF和OWL

目录 前言1 特性图:灵活的图结构表示1.1 优势与灵活性1.2 存储优化与查询优势1.3 挑战:缺乏工业标准支持 2 RDF(Resource Description Framework):面向Web的数据标准2.1 三元组结构的优势2.2 语义标准与词汇丰富性2.3 …

为你推荐十款顶级CAD制图软件,助力绘图工作更轻松!

市场上有各种各样的CAD绘图软件。国外和国内的相关软件都比较成熟,但目前CAD三维绘图还略有欠缺。这里推荐的10款非常好用的CAD绘图软件,包括支持2D和3D的,大部分都是免费的CAD绘图工具,还有一些功能完善的收费软件。点击下面的软…

增删改查接口

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! 增删改查 RestController RequestMapping("system/mappingCode") Slf4j Api(tags "系统管理 - 映射码") public class SystemMappingCodeEndpo…

设备通过GB28181注册到EasyCVR,平台看不到设备信息的排查方法汇总

智慧安防平台EasyCVR能在复杂的网络环境中(专网、局域网、广域网、VPN、公网等)将前端海量的设备进行统一集中接入与视频汇聚管理,平台支持设备通过4G、5G、WIFI、有线等方式进行视频流的接入与传输,支持的接入协议包括&#xff1…

【Elasticsearch篇】详解使用RestClient操作索引库的相关操作

文章目录 🍔什么是Elasticsearch🌺什么是RestClient🎆代码操作⭐初始化RestClient⭐使用RestClient操作索引库⭐使用RestClient删除索引库⭐使用RestClient判断索引库是否存在 🍔什么是Elasticsearch Elasticsearch是一个开源的分…

OpenCV第 1 课 计算机视觉和 OpenCV 介绍

文章目录 第 1 课 计算机视觉和 OpenCV 介绍1.机器是如何“看”的2.机器视觉技术的常见应用3.图像识别介绍4. 图像识别技术的常见应用5.OpenCV 介绍6.图像在计算机中的存储形式 第 1 课 计算机视觉和 OpenCV 介绍 1.机器是如何“看”的 我们人类可以通过眼睛看到五颜六色的世界…

【新闻感想】谈一下PandoraNext的覆灭(潘多拉Next-国内可访问的免费开放GPT共享站将于2024年1月30日关闭)

文章目录 悲报:TIME TO SAY GOODBYE!PandoraNext!PandoraNext作者言:你们赢了,但我却没有输我如何了解到PandoraNext的合照留念于是开始逆向! 悲报:TIME TO SAY GOODBYE!PandoraNext…

前端数据结构与算法总结<week three>

标题没有错哈哈 还多了零,想概括得更全面一点~ 零、String 字符串 0.1 验证回文串 0.1.1 思路 将原始字符串转化为只有小写字母和数字字符串,利用双指针进行比对 0.1.2 步骤 设置正则表达式进行匹配将不符合正则表达式的去掉头尾比较 0.1.3 代码 …

C++ STL之list的使用及模拟实现

文章目录 1. 介绍2. list类的使用2.1 list类对象的构造函数2.2 list类对象的容量操作2.3 list类对象的修改操作2.4 list类对象的访问及遍历操作 3. list类的模拟实现 1. 介绍 英文解释: 也就是说: list是可以在常数范围内在任意位置进行插入和删除的序列…

解决国内 github.com 打不开的准确方法

** 下载watt toolkit, 选择‘github’,点击‘一键加速’,很简单方便 **

第137期 Oracle的数据生命周期管理(20240123)

数据库管理137期 2024-01-23 第137期 Oracle的数据生命周期管理(20240123)1 ILM2 Heat Map3 ADO4 优点5 对比总结 第137期 Oracle的数据生命周期管理(20240123) 作者:胖头鱼的鱼缸(尹海文) Orac…

(学习日记)2024.01.22:各类型占用字节 与 指针

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

SSM:Spring + Spring MVC + MyBatis 的整合

SSM 前言整合 前言 在完成 Spring 、Spring MVC 与 MyBatis 基础知识的学习后,下面简单介绍 SSM 框架的整合使用。 整合 SSM,是 Java 开发中常用的一个 Web 框架组合,用于构建基于 Spring 和 MyBatis 的 Web 应用( Spring MVC …

Zabbix分布式监控系统

实验过程 ps: 阿里云盘Xnode1获取 xnode1 https://www.alipan.com/s/HgLXfoeBWG2 提取码: eb70 1、xnode1克隆两台虚拟机并修改ip zabbix-server192.168.224.3 zabbix-agent192.168.224.4 2、修改主机名 [rootlocalhost ~]# hostnamectl set-hostname zabbix-se…

旧衣服回收小程序开发

随着人们的消费理念逐渐提升,每个家庭的闲置衣物每年就能够达到30公斤左右,这也促进了我国旧衣回收行业的发展。近几年我国的旧衣回收市场规模在300-400亿元,发展潜力较大。 旧衣回收行业是当下的环保型商业模式,商业价值较为可观…

JavaScript递归函数如何匹配上下级id和pid的数据(for...of,foreach.reduce)

目录 一、for...of 二、forEach 三、reduce 递归函数是一种在编程中常用的方法,用于解决一些需要重复操作的问题。在JavaScript中,递归函数可以用来匹配上下级id和pid的数据结构,例如树形结构或者父子关系的数据。 一、for...of 首先…

ARM安装与项目结构

1. 安装环境 参考E:\peixunQianrushi\arm\ziliao\FS4412新版(学生资料)\环境相关资料 这边建议全部默认路径 安装注意事项: 1、在接下来的安装过程中,对于使用win10、win8的操作系统的用户,所有的安装请均以管理员身份…

【渗透测试】nmap基本使用方法整理

nmap作用介绍 nmap是一款工具,用于收集信息时使用。通过nmap可以快速的扫描目标的端口操作系统使用的服务等。以便于后续的渗透测试。 但是值得注意的是,nmap误报是个超正常的事情,还是要人为的去判断一下。 单机快速端口扫描 我们默认扫…

P9568 [SDCPC2023] Computational Geometry 题解

P9568 [SDCPC2023] Computational Geometry 题解 感谢战学长的帮助。 解法 本题的关键是将多边形 Q Q Q 分割为两部分,一部分是由点 a , b , c a,b,c a,b,c 组成的三角形,另一部分是由从 b b b 到 c c c 这 k 1 k 1 k1 个点组成的凸多边形。注…