【大模型系列篇】数字人音唇同步模型——腾讯开源MuseTalk

之前有一期我们体验了阿里开源的半身数字人项目EchoMimicV2,感兴趣的小伙伴可跳转至《AI半身数字人开箱体验——开源项目EchoMimicV2》,今天带大家来体验腾讯开源的数字人音唇同步模型MuseTalk。

MuseTalk 是一个实时高品质音频驱动的唇形同步模型,是在 ft-mse-vae 的潜在空间中进行训练,该模型:

  1. 能够根据输入的音频修改未知的面部动作,面部区域大小为 256 x 256

  2. 支持中文、英文和日文等多种语言的音频。

  3. 在 NVIDIA Tesla V100 上支持超过 30fps 的实时推理。

  4. 支持修改面部区域中心点,这对生成结果有显著影响。

  5. 在 HDTF 数据集上训练的模型checkpoint。

MuseTalk 是在潜在空间中进行训练,其中图像由冻结的 VAE 编码,音频由冻结的 whisper-tiny 模型编码。生成网络的架构借鉴了 stable-diffusion-v1-4 的 UNet,其中音频嵌入通过交叉注意力与图像嵌入融合。

注:尽管MuseTalk使用的架构与 Stable Diffusion 非常相似,但 MuseTalk 的独特之处在于它不是一个扩散模型。相反,MuseTalk 是通过在潜在空间中单步修复来操作。

安装部署

https://github.com/TMElyralab/MuseTalk

1. 构建基础环境

Python version=3.10
Cuda version=12.4

2. 安装依赖

pip install -r requirements.txt

  mmlab packages

pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0" 

 3. 安装ffmpeg-static

wget https://www.johnvansickle.com/ffmpeg/old-releases/ffmpeg-4.4-amd64-static.tar.xz
tar -xf ffmpeg-4.4-amd64-static.tar.xz
export FFMPEG_PATH=/path/to/ffmpeg-4.4-amd64-static

4. 安装MuseTalk权重

wget https://hf-mirror.com/TMElyralab/MuseTalk/resolve/main/musetalk/musetalk.json
wget https://hf-mirror.com/TMElyralab/MuseTalk/resolve/main/musetalk/pytorch_model.bin

5. 安装其他组件权重

  • sd-vae-ft-mse

  • whisper

  • dwpose

  • face-parse-bisent

  • resnet18

# sd-vae-ft-mse
git clone https://hf-mirror.com/stabilityai/sd-vae-ft-mse
# whisper
wget https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt
# dwpose
git clone https://hf-mirror.com/yzd-v/DWPose
# face-parse-bisent
git clone https://hf-mirror.com/ManyOtherFunctions/face-parse-bisent
# resnet18
wget https://download.pytorch.org/models/resnet18-5c106cde.pth

 模型权重路径结构

快速入门 

推理

python -m scripts.inference --inference_config configs/inference/test.yaml

configs/inference/test.yaml是推理配置文件的路径,包含视频路径(video_path)和音频路径(audio_path)。视频路径可以是视频文件、图像文件或者图像目录。 

建议输入帧率为25帧每秒的视频,这与训练模型时使用的帧率相同。如果你的视频帧率远低于25帧每秒,建议进行帧插值处理,或者直接使用ffmpeg将视频转换为25帧每秒。

使用bbox_shift来获得可调节的结果

我们发现遮罩的上边界对嘴巴张开程度有重要影响。因此,为了控制遮罩区域,建议使用bbox_shift参数。正值(朝下半部分移动)会增加嘴巴张开程度,而负值(朝上半部分移动)会减小嘴巴张开程度。

你可以先使用默认配置运行以获取可调节值的范围,然后在此范围内重新运行脚本。

例如,以孙新颖的情况为例,运行默认配置后,显示可调节值范围是[-9, 9]。然后,若要减小嘴巴张开程度,可将该值设为-7

python -m scripts.inference --inference_config configs/inference/test.yaml --bbox_shift -7

更多技术细节可在bbox_shift部分找到。

结合 MuseV和 MuseTalk

作为虚拟人物生成的完整解决方案,建议你首先参考相关内容使用“MuseV”来生成视频(文本转视频、图像转视频或姿态转视频)。建议进行帧插值以提高帧率。然后,你可以参考相关内容使用“MuseTalk”来生成唇形同步视频。 

实时推理

在此,我们提供推理脚本。该脚本会预先进行必要的预处理,如人脸检测、人脸解析以及变分自编码器(VAE)编码等操作。在推理过程中,仅涉及生成对抗网络(UNet)和变分自编码器解码器,这使得“MuseTalk”具备实时性。

python -m scripts.realtime_inference --inference_config configs/inference/realtime.yaml --batch_size 4

configs/inference/realtime.yaml是实时推理配置文件的路径,包含准备工作(preparation)、视频路径(video_path)、bbox_shift和音频片段(audio_clips)等内容。

❗️此处代码get_image_blending有些问题,我们回退这个函数。

https://github.com/TMElyralab/MuseTalk/issues/220

realtime.yaml中将preparation设为True,以便为新的虚拟形象准备素材。(如果bbox_shift发生了变化,也需要重新准备素材。)

之后,该虚拟形象将使用从音频片段中选取的一个音频片段来生成视频。

例如使用data/audio/yongen.wav进行推理。

在“MuseTalk”进行推理时,子线程可以同时将结果推送给用户。在英伟达特斯拉V100显卡上,生成过程能够达到30帧每秒及以上的帧率。

如果想使用同一个虚拟形象生成更多视频,可将preparation设为False并运行此脚本。

❗️实时推理注意事项

如果想用同一个虚拟形象/视频生成多个视频,也可以使用此脚本来大幅加快生成过程。

在前面的脚本中,生成时间也受输入/输出(例如保存图像)的限制。如果你只是想测试生成速度而不保存图像,可以运行以下命令:

python -m scripts.realtime_inference --inference_config configs/inference/realtime.yaml --skip_save_images 

启动app

#!/bin/bash

echo "entrypoint.sh"
whoami
which python
source /opt/conda/etc/profile.d/conda.sh
conda activate musev
which python
python app.py
sh entrypoint.sh

效果展示

现在就让我们来体验音唇同步的魅力。

任务1:我们将之前用EchoMimicV2生成的14s视频,融合两段不同的音频。

原视频:奋斗的路漫长,爱情是甜蜜的糖,两者交织的光,把生命都照亮。

音频1:地球已经存在45亿年,人类文明的存在对于地球来说只是眨眼间的时间。人类用了几万年的时间征服地球,毁灭只用了短短的几秒钟。核辐射污染了整个地球,使地球所有生命都即将殆尽。那些幸存的人类,也许在外太空找了几十年,也没有找到适合人类居住的行星。

音频2:我见过你最爱我的样子,所以当你开始敷衍我的时候,其实我心里早就明白,只是还放不下那段曾经。 享受了工作带来的薪酬和成长,就要接纳工作带来的委屈和辛苦。 每一刻疲惫的瞬间,我想的都是好好挣钱好好生活。

任务2:我们将MuseTalk自带的人物视频,融合EchoMimicV2官方介绍的音频(视频中提取)。

下面我们来看看MuseTalk给大家带来的效果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/954733.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

海云安开发者安全智能助手D10荣膺 “ AI标杆产品 ” 称号,首席科学家齐大伟博士入选2024年度 “ 十大杰出青年 ”

2024年12月27日,粤港澳大湾区AI领袖峰会在深圳成功举办,大会表彰了在人工智能技术创新、应用实践和产业发展等方面取得优异成绩的企业和个人,深圳海云安网络安全技术有限公司开发者安全智能助手D10荣膺“AI标杆产品”称号。同时,公…

Go基础之环境搭建

文章目录 1 Go 1.1 简介 1.1.1 定义1.1.2 特点用途 1.2 环境配置 1.2.1 下载安装1.2.2 环境配置 1.2.2.1 添加环境变量1.2.2.2 各个环境变量理解 1.2.3 验证环境变量 1.3 包管理工具 Go Modules 1.3.1 开启使用1.3.2 添加依赖包1.3.3 配置国内包源 1.3.3.1 通过 go env 配置1.…

基于 STM32 的多功能时间管理器项目

引言 在快节奏的生活中,时间管理显得尤为重要。本项目旨在通过 STM32 开发一个多功能时间管理器,功能包括计时器、闹钟和日历。用户可以方便地设置不同的提醒和计时任务,以更好地管理日常生活和工作。 项目名称 多功能时间管理器 环境准备 …

Windows上安装和配置Tabby终端工具并实现远程ssh连接内网服务器

文章目录 前言1. Tabby下载安装2. Tabby相关配置3. Tabby简单操作4. ssh连接Linux4.1 ubuntu系统安装ssh4.2 Tabby远程ssh连接ubuntu 5. 安装内网穿透工具5.1 创建公网地址5.2 使用公网地址远程ssh连接 6. 配置固定公网地址 前言 今天我要给大家分享一个非常实用且强大的开源跨…

国产Docker可视化面板Dpanel的安装与功能解析

国产Docker可视化面板Dpanel的安装及功能介绍 Docker 可视化面板系统,提供完善的 docker 管理功能。 支持查看基本信息、运行状态统计、网络统计、磁盘统计、用量统计等功能 ​​ ​​ 容器管理: ​​ 创建/修改容器 ​​ 支持基本配置、环境变量、…

平滑算法 效果比较

目录 高斯平滑 效果对比 移动平均效果比较: 高斯平滑 效果对比 右边两个参数是1.5 2 代码: smooth_demo.py import numpy as np import cv2 from scipy.ndimage import gaussian_filter1ddef gaussian_smooth_array(arr, sigma):smoothed_arr = gaussian_filter1d(arr, s…

蓝桥杯_B组_省赛_2022(用作博主自己学习)

题目链接算法11.九进制转十进制 - 蓝桥云课 进制转换 21.顺子日期 - 蓝桥云课 时间与日期 31.刷题统计 - 蓝桥云课 时间与日期 41.修剪灌木 - 蓝桥云课 思维 51.X 进制减法 - 蓝桥云课 贪心 61.统计子矩阵 - 蓝桥云课 二维前缀和 71.积木画 - 蓝桥云课 动态规划 82.扫雷 - 蓝桥…

Leetcode 2140. 解决智力问题 动态规划

原题链接&#xff1a;Leetcode 2140. 解决智力问题 class Solution { public:long long mostPoints(vector<vector<int>>& questions) {int n questions.size();vector<long long> dp(n, 0);for (int i n - 1; i > 0; i--) {int a questions[i][0]…

JavaScript-正则表达式方法(RegExp)

RegExp 对象用于将文本与一个模式匹配。 有两种方法可以创建一个 RegExp 对象&#xff1a;一种是字面量&#xff0c;另一种是构造函数。 字面量由斜杠 (/) 包围而不是引号包围。 构造函数的字符串参数由引号而不是斜杠包围。 new RegExp(pattern[, flags])一.符集合 1.选择…

网安——计算机网络基础

一、计算机网络概述 1、Internet网相关概念及发展 网络&#xff08;Network&#xff09;有若干结点&#xff08;Node&#xff09;和连接这些结点的链路&#xff08;link&#xff09;所组成&#xff0c;在网络中的结点可以是计算机、集线器、交换机或路由器等多个网络还可以通…

React第二十二章(useDebugValue)

useDebugValue useDebugValue 是一个专为开发者调试自定义 Hook 而设计的 React Hook。它允许你在 React 开发者工具中为自定义 Hook 添加自定义的调试值。 用法 const debugValue useDebugValue(value)参数说明 入参 value: 要在 React DevTools 中显示的值formatter?:…

Facebook 隐私风波:互联网时代数据安全警钟

在社交媒体飞速发展的今天&#xff0c;个人数据的隐私保护已成为全球关注的焦点。作为全球最大的社交平台之一&#xff0c;Facebook面临的隐私问题&#xff0c;尤其是数据泄露事件&#xff0c;频繁引发公众的广泛讨论。从用户信息被滥用到数据泄漏&#xff0c;Facebook的隐私挑…

HTML5 网站模板

HTML5 网站模板 参考 HTML5 Website Templates

Web前端对于登陆注册界面的实现

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>请注册登陆</title> </head> <body&…

Linux初识:【shell命令以及运行原理】【Linux权限的概念与权限管理】

目录 一.shell命令以及运行原理 二.Linux权限的概念与权限管理 2.1Linux权限的概念 sudo普通用户提权 2.2Linux权限管理 2.2.1文件访问者的分类&#xff08;人&#xff09; 2.2.2文件类型和访问权限&#xff08;事物属性&#xff09; 2.2.3文件权限值的表示方法 字符…

UML系列之Rational Rose笔记七:状态图

一、新建状态图 依旧是新建statechart diagram&#xff1b; 二、工作台介绍 接着就是一个状态的开始&#xff1a;开始黑点依旧可以从左边进行拖动放置&#xff1a; 这就是状态的开始&#xff0c;和活动图泳道图是一样的&#xff1b;只能有一个开始&#xff0c;但是可以有多个…

Java内存与缓存

Java内存管理和缓存机制是构建高性能应用程序的关键要素。它们之间既有联系又有区别&#xff0c;理解这两者对于优化Java应用至关重要。 Java 内存模型 Java内存模型&#xff08;JMM&#xff09;定义了线程如何以及何时可以看到其他线程修改过的共享变量的值&#xff0c;并且规…

带头双向循环链表(数据结构初阶)

文章目录 双向链表链表的分类概念与结构实现双向链表定义链表结构链表打印判空申请结点初始化头插尾插头删尾删查找指定位置插入和删除销毁链表 顺序表和链表的分析结语 欢迎大家来到我的博客&#xff0c;给生活来点impetus&#xff01;&#xff01; 这一节我们学习双向链表&a…

持续集成 01|Gitee介绍、Pycharm使用Gitee

目录 一、理论 二、 git的简介与安装 三、Gitee 1、注册网易163邮箱 2、注册Gitee账号 3、git和gitee管理代码工作原理 三、PyCharm安装配置Gitee 四、Pycharm使用Gitee插件的五种场景 1、将 Gitee的新仓库 Checkout&#xff08;检出&#xff09;到 Pycharm中 2、推送…

金融项目实战 05|Python实现接口自动化——登录接口

目录 一、代码实现自动化理论及流程 二、脚本实现的理论和准备工作 1、抽取功能转为自动化用例 2、搭建环境(测试工具) 3、搭建目录结构 三、登录接口脚本实现 1、代码编写 1️⃣api目录 2️⃣script目录 2、断言 3、参数化 1️⃣编写数据存储文件&#xff1a;jso…