谷歌推出多模态视频模型,自动生成丰富动作视频

谷歌的研究人员推出了一款多模态扩散模型——VLOGGER。

用户只需要向VLOGGER输入图像、语音,就能生成带语音、丰富动作的人物视频。VLOGGER基于扩散模型开发而成,并提出了一种全新的架构,将文本生成图像模型与空间、时间控制相结合,提升视频生成的逼真效果和丰富动作。

研究人员在HDTF、TalkingHead-1KH和MENTOR等多个数据集对VLOGGER进行了综合测试。结果显示,VLOGGER在视频质量、物体还原性和时序一致性等方面表现出色,同时还能生成丰富的上半身和手势动作。

技术报告:https://enriccorona.github.io/vlogger/paper.pdf

图片

随着数字化经济的飞速发展,各行业对虚拟数字人的需求越来越多。但要制作出逼真的人物动画视频需要大量的人工调整和修补才能获得真实感,不然会出现动作缺失、肢体动作僵硬、五官不协调等问题。

VLOGGER模型的创新之处在于,提出了全新的多阶段扩散模型架构:首先,通过使用随机扩散模型,根据输入语音生成对应的人体运动轨迹,包括表情、姿势、视线和眨眼细节。

然后,使用创新的时空扩散架构,将生成的人体运动轨迹及参考图像作为条件实现完整的人物视频合成。

此外,VLOGGER无需针对每个新人物重新训练模型,不依赖人脸检测框选区域,而是直接生成完整目标图像。更重要的是,VLOGGER考虑到了现实中复杂的交流场景,例如,可见躯干、不同身份等,这对正确合成有效交流的人物动作至关重要。

语音生成

第一阶段,VLOGGER使用了Transformer的神经网络用于接收音频波形输入,并生成一系列3D面部表情和身体姿势参数,用于控制虚拟人物在视频中的动作。

为了获得逼真的运动效果,该模型利用了一种统计的3D人体模型,能够精确捕捉面部表情、头部运动、眼球转动、眨眼以及手势等细节。通过预测基于参考图像的姿势残差,该模型可以针对特定身份生成个性化的运动序列。

图片

为了与基于CNN的架构相兼容,该模型将预测的3D参数渲染为密集的2D表示,包括身体的语义区域掩码和部分参考图像的扭曲视图。这些2D控制信号将在下一阶段用于指导视频生成过程。

人物生成

第二阶段,VLOGGER在空间和时间上进行条件控制,以生成高质量、任意长度的视频。该模块接收了来自第一阶段的2D控制信号作为输入,并以参考图像中的人物身份为条件,生成逼真的运动视频帧序列。

图片

VLOGGER基于成熟的文本到图像扩散模型,并通过一种新颖的架构对其进行扩展,增加了时域卷积层,使其能够处理时序数据。此外,VLOGGER还引入了一种"时序外推"的技术,允许模型迭代生成任意长度的视频片段,同时保持时序一致性

图片

为了提高生成效果,VLOGGER采用了级联扩散方法,对基础分辨率的视频进行超分辨重建,生成高达512x512分辨率的高质量影像。

VLOGGER数据集

为提高VLOGGER的泛化能力和安全性,研究人员构建了一个大规模训练数据集MENTOR。该数据集包含80万名不同身份的人物视频,视频长度总计超过2200小时,覆盖了不同年龄、肤色、体型和文化背景的人群。

图片

值得一提的是,数据集中的视频均捕捉了单个人物在相机前交流的场景,并提供了相应的3D姿势和表情标注,这对于训练VLOGGER的多模态能力发挥了重要作用。

本文素材来源VLOGGER论文,如有侵权请联系删除

END

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/520573.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

二叉树算法练习day.2

102.二叉树的层序遍历 链接:. - 力扣(LeetCode) 题目描述: 给你二叉树的根节点 root ,返回其节点值的 层序遍历 。 (即逐层地,从左到右访问所有节点)。 示例 1: 输入&a…

EFK(elasticsearch+filebeat+kibana)日志分析平台搭建

本文是记录一下EFK日志平台的搭建过程 项目背景: 此次搭建的日志分析平台主要是采集服务器上的java服务的log日志(输出的日志已经是json格式),这些日志都已经按照不同环境输出到/home/dev /home/test1 /home/test2 目录下了,按照不同的应…

百度松果菁英班——机器学习实践一:海量文件遍历

飞桨AI Studio星河社区-人工智能学习与实训社区 🦐在指定目录下显示目录结构 !tree -L 显示级数限制 指定目录 如: !tree -L 3 ./data/ 表示:在目录 ./data/ 下显示目录结构,限制显示到第三级子目录或文件。这个命令通常在命…

基于单片机冬季供暖室温调节控制系统

**单片机设计介绍,基于单片机冬季供暖室温调节控制系统 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的冬季供暖室温调节控制系统是一种集温度检测、控制和显示功能于一体的智能化系统。该系统以单片机为…

基于Springboot+Vue实现前后端分离社团管理系统

一、🚀选题背景介绍 📚推荐理由: 21世纪时信息化的时代,几乎任何一个行业都离不开计算机,将计算机运用于社团管理也是十分常见的。过去使用手工的管理方式对大学生社团进行管理,造成了管理繁琐、难以维护等…

图解大型网站多级缓存的分层架构

前言 缓存技术存在于应用场景的方方面面。从浏览器请求,到反向代理服务器,从进程内缓存到分布式缓存,其中缓存策略算法也是层出不穷。 假设一个网站,需要提高性能,缓存可以放在浏览器,可以放在反向代理服…

开源流程图表库(04):mxGraph,都是可视化编辑,导出使用。

mxGraph是一个用于创建和展示图形的JavaScript库。它提供了丰富的功能和工具,可以用于构建各种类型的图形应用程序,包括流程图、组织结构图、网络拓扑图等。 mxGraph的编辑器 一、mxGraph的特点和功能 以下是一些mxGraph的特点和功能: 强大…

ES10 学习

文章目录 1. Object.fromEntries()2. trimStart() 和 trimEnd()3. 数组的flat() 和flatMap()4. Symbol 对象的description 属性5. try ... catch(e){} 1. Object.fromEntries() Object.fromEntries() 方法允许你轻松地将键 值对列表转换为对象 let arr [["name",&qu…

Lanelets_ 高效的自动驾驶地图表达方式

Lanelets: 高效的自动驾驶地图表达方式 附赠自动驾驶学习资料和量产经验:链接 LaneLets是自动驾驶领域高精度地图的一种高效表达方式,它以彼此相互连接的LaneLets来描述自动驾驶可行驶区域,不仅可以表达车道几何,也可以完整表述车…

有效的括号--如果字符串没有左括号,或者字符串是右括号为开头,则存在括号不匹配和顺序不正确的情况公字符串无效

题目-有效的括号 ​ 一、分析题目 二、编写代码 typedef char STDataType;typedef struct Stack {STDataType* a; //int top; //相当于数组下标,注意栈为空时,top的值应该为?int capacity;//栈的容量 }ST;void STInit(ST* pst); void STD…

基于SSM框架就业管理系统

摘要 本论文主要讲述了基于SSM框架及MySQL数据库实现的就业管理系统的设计和开发过程。本论文中所讲的就业管理系统是通过所学的知识创办一个非商业性的网站平台,使所有想要就业信息查看的高校毕业生们与想要宣传自己公司的商家们都可以更方便快捷的进行就业和体验…

MobaXterm不显示隐藏文件

MobaXterm在左边显示隐藏文件,以.开头的文件,想让它不显示 点击方框圈中的不显示隐藏文件 隐藏文件不显示了

InterlliJ Debug方式启动 method breakpoints may dramatically show down debugging

使用idea在DEBUG的时候出现Method breakpoints may dramatically slow down debugging, 如图: 根据语义可能是断点打在方法上面了,导致在某个断点卡住了。 重启服务器和重启idea已然无解。 打开Breakpoints面板看看,(快捷键&…

【javaWeb Maven高级】Maven高级学习

Maven高级学习 分模块设计继承与聚合继承版本锁定聚合 私服资源的上传与下载本地私服配置 分模块设计 为什么需要进行分模块设计? 将项目按照功能拆分成若干个子模块,方便项目的管理维护,扩展,也方便模块间的相互调用&#xff0c…

电商技术揭秘六:前端技术与用户体验优化

文章目录 引言一、前端技术在电商中的重要性1.1 前端技术概述1.2 用户体验与前端技术的关系 二、响应式设计与移动优化2.1 响应式设计的原则2.2 移动设备优化策略2.3 响应式设计的工具和框架 三、交互设计与用户体验提升3.1 交互设计的重要性3.2 用户体验的量化与优化3.3 通过前…

【更新】中国区域创新能力指数数据集(无缺失值)(2001-2022年)

01、数据简介 中国区域创新能力指数是一个综合反映各地区在知识创造、知识获取、企业创新、创新环境和创新绩效等方面能力的指标。该指数基于一系列复杂的评价体系,包括多个层级的指标,以全面、准确地衡量中国各区域的创新能力。 《中国区域创新能力报…

在局域网内进行ARP欺骗攻击(Kali)_kali局域网攻击,从入门到真香

fping –asg 192.168.6.0/24 下图看到,同网段有四个活动IP 3、实施断网攻击 命令:arpspoof –i 网卡 –t 靶机IP地址 网关 -i 指定网卡 -t 持续不断攻击 我的命令:arpspoof –i eth0 –t 192.168.6.137 192.168.6.1 Kali中持续不断地发送arp应…

通信光缆主要敷设方式有哪些

由于建设条件和建设要求不同,通信光缆在不同场景下会采取不同的敷设方式,常见敷设方式包括:直埋、架空、管道、水底及局内等。 1 直埋敷设 直埋,也就是直接埋设,是指把光缆直接埋设于地下土壤中的敷设方式。通常&…

Oracle 中 where 和 on 的区别

1.Oracle 中 where 和 on 的区别 on:会先根据on后面的条件进行筛选,条件为真时返回该行,由于on的优先级高于left join,所以left join关键字会把左表中没有匹配的所有行也都返回,然后生成临时表返回,执行优先级高于…

sharding‐jdbc之分库分表实战

数据库表结构 店铺数据库 SET NAMES utf8mb4; SET FOREIGN_KEY_CHECKS 0;-- ---------------------------- -- Table structure for region -- ---------------------------- DROP TABLE IF EXISTS region; CREATE TABLE region (id bigint(20) NOT NULL COMMENT id,region_…