利用机器学习重构视频中的人脸

引言

中国与英国的研究团队携手合作,开创了一种创新的视频面孔重塑技术。这项技术能够以极高的一致性对视频中的面部结构进行逼真的放大和缩小,且避免了常见伪影的产生。

从研究人员选取的YouTube视频样例中可见,经过处理后,女演员詹妮弗·劳伦斯的面容显得更加瘦削(如图右方所示)。欲观看更高分辨率的示例,请参阅文章底部的嵌入式视频。该技术源自链接:[视频链接]

传统上,此类面部变换需要借助复杂的CGI方法实现,这不仅成本高昂,还涉及到繁琐的动作捕捉、绑定和纹理处理流程,以完整重建面部特征。

然而,这项新技术另辟蹊径,将CGI与神经网络管道相结合,作为参数化的3D面部信息处理的一部分。这种方法随后构成了机器学习工作流程的基础,为视频编辑和面部动画领域带来了革命性的变革。

传统的参数化面孔越来越多地被用作使用 AI 而不是 CGI 的变革过程的指导方针。 资料来源:https://arxiv.org/pdf/2205.02538.pdf

概述

传统的参数化面孔技术越来越多地被用作利用人工智能(AI)而非计算机生成图像(CGI)的变革性过程的指导原则。在这项研究中,作者们提出了一个目标:

“我们的目标是根据现实世界中的自然面部变形编辑人像面部的整体形状,生成高质量的人像视频重塑结果。这可用于诸如用于美化的匀称脸部生成和用于视觉效果的脸部夸张等应用。”

自从Photoshop这类图像编辑软件普及以来,消费者已经能够对2D图像进行面部扭曲和变形的操作。然而,这些操作有时会导致不自然甚至令人难以接受的结果,特别是当涉及到身体畸形的图像处理时。作者指出,尽管在静态图像上的应用相对成熟,但在视频上实现类似的面部变形技术,如果不借助CGI,仍然是一个挑战。这项研究的成果,旨在通过AI技术,使得在视频内容中进行面部重塑变得更加容易和高效,同时保持高质量和连贯性。

马克·扎克伯格的尺寸因中英技术而扩大和缩小。

形体重塑,或称为人体形态编辑,是计算机视觉领域中一个非常活跃的研究方向。它涉及到使用人工智能算法来修改和调整人体图像或视频中的形态特征,例如身高、体型或骨骼结构。这项技术在时尚电子商务中具有巨大的应用潜力,例如,允许顾客在购买前预览服装在不同体型上的效果。

然而,这项技术面临着一些挑战。例如,使某人看起来更高或改变其骨骼结构,需要在不扭曲背景或周围环境的情况下,对图像进行复杂的几何变换。这在技术上是非常困难的,因为需要考虑人体和服装的三维结构,以及它们与环境的交互。

关于使用人工智能技术重塑人体形态的研究。这项研究提出了一种新的方法,通过深度学习模型来改善人体形态的编辑,使得结果更加自然和逼真。

关于改变视频中头部形状的研究。这项工作尝试在视频序列中以一种连贯和令人信服的方式改变人物的头部形状,但可能会受到一些技术限制的影响。

关于新系统的训练环境和使用的技术的描述。这个系统在一台高性能的台式电脑上进行训练,使用了多种技术和工具,包括OpenCV库进行运动估计、结构流框架进行图像修复、面部对齐网络(FAN)进行面部特征点的检测,以及Ceres求解器进行优化问题求解。

这些技术结合起来,使得新系统能够处理更为复杂的任务,比如从静态图像编辑扩展到视频编辑,提高编辑结果的质量和真实感。随着技术的不断进步,我们可以期待在未来形体重塑技术将更加成熟,应用范围也会更加广泛。

这是新系统面部扩大的一个极端例子。

关于人脸

在新系统下,视频被提取为图像序列,并且首先估计每张脸的刚性姿势。 然后,联合估计代表性数量的后续帧,以沿着整个图像运行(即视频的帧)构建一致的身份参数。

面部扭曲系统的架构流程。

之后,对表达式进行求值,产生通过线性回归实现的重塑参数。接下来是一个新颖的有符号距离函数(自卫队)方法在重塑之前和之后构建了面部轮廓的密集二维映射。

最后,对输出视频执行内容感知的扭曲优化。

参数化面

该过程利用了 3D Morphable Face Model (3DMM),这是一种日益流行的技术。 流行的辅助语t 到基于神经和 GAN 的人脸合成系统,以及 相应 用于深度伪造检测系统。

不是来自论文,而是 3D Morphable 脸部模型 (3DMM) 的示例 - 新项目中使用的参数化原型脸部。 左上角,3DMM 面上的地标应用。 右上方是等位图的 3D 网格顶点。 左下角显示地标拟合; 中下,提取的面部纹理的等位图; 右下角是最终的装配和形状。 资料来源:http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

不是来自新论文,而是 3D Morphable 脸部模型 (3DMM) 的示例 - 新项目中使用的参数化原型脸部。 左上角,3DMM 面上的地标应用。 右上方是等位图的 3D 网格顶点。 左下角显示地标拟合; 中下,提取的面部纹理的等位图; 右下角是最终的装配和形状。_ 资料来源:http://www.ee.surrey.ac.uk/CVSSP/Publications/papers/Huber-VISAPP-2016.pdf

新系统的工作流程必须考虑遮挡的情况,例如主体将视线移开的情况。 这是 Deepfake 软件面临的最大挑战之一,因为 FAN 地标几乎没有能力解释这些情况,并且随着面部避开或被遮挡,质量往往会下降。

新系统能够通过定义一个 轮廓能量 它能够匹配 3D 人脸 (3DMM) 和 2D 人脸(由 FAN 地标定义)之间的边界。

优化

这种系统的一个有用部署是实现实时变形,例如在视频聊天过滤器中。 当前的框架无法实现这一点,并且所需的计算资源将使“实时”变形成为一个显着的挑战。

根据该论文,假设视频目标为 24fps,管道中的每帧操作表示每秒镜头的延迟为 16.344 秒,另外还有用于身份估计和 3D 面部变形的一次性命中(分别为 321 毫秒和 160 毫秒) 。

因此,优化是降低延迟方面取得进展的关键。 由于跨所有帧的联合优化会给过程增加严重的开销,并且初始化式优化(假设第一帧中说话者的后续身份一致)可能会导致异常,因此作者采用了稀疏模式来计算系数以实际间隔采样的帧数。

然后对该帧子集执行联合优化,从而实现更精简的重建过程。

脸部变形

该项目中使用的变形技术改编自作者 2020 年的作品 深邃匀称的肖像 (数字信号处理器)。

Deep Shapely Portraits,2020 年提交给 ACM Multimedia 的作品。 该论文由浙江大学-腾讯游戏与智能图形创新技术联合实验室的研究人员领导。 来源:http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

Deep Shapely Portraits,2020 年提交给 ACM Multimedia 的作品。 该论文由浙江大学-腾讯游戏与智能图形创新技术联合实验室的研究人员领导。 来源:http://www.cad.zju.edu.cn/home/jin/mm2020/demo.mp4

作者观察到 “我们将这种方法从重塑一个单眼图像扩展到重塑整个图像序列。”

检测

该论文指出,没有可比的现有材料来评估新方法。 因此,作者将扭曲视频输出的帧与静态 DSP 输出进行了比较。

针对 Deep Shapely Portraits 中的静态图像测试新系统。

作者指出,由于 DSP 方法使用了稀疏映射,因此出现了伪影,而新框架通过密集映射解决了这个问题。 此外,该论文还指出,DSP 制作的视频, 演示 缺乏流畅度和视觉连贯性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/712944.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LC1020:飞地的数量

题目 给你一个大小为 m x n 的二进制矩阵 grid ,其中 0 表示一个海洋单元格、1 表示一个陆地单元格。 一次 移动 是指从一个陆地单元格走到另一个相邻(上、下、左、右)的陆地单元格或跨过 grid 的边界。 返回网格中 无法 在任意次数的移动…

在ubuntu中启动docker的mysql8镜像

首先查看docker是否启动: docker ps #出现信息就是启动成功 启动命令: sudo systemctl start docker 设置开机自启: sudo systemctl enable docker 查询下载好的mysql8的镜像文件: docker images 在启动查询好的镜像文件&#…

Oracle--19C在Centos7上的静默安装(rpm版)

一、Oracle 19c Linux安装(Centos 7) 1.查看磁盘可用空间及配置ip地址 [rootlocalhost /]# df -h 文件系统 容量 已用 可用 已用% 挂载点 devtmpfs 1.4G 0 1.4G 0% /dev tmpfs 1.4G …

【Pytorch】一文向您详细介绍 model.eval() 的作用和用法

【Pytorch】一文向您详细介绍 model.eval() 的作用和用法 下滑查看解决方法 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985高校的普通本硕…

桂电人工智能学院大数据实验,使用 Docker 搭建 hadoop 集群

桂电人工智能学院大数据实验,使用 Docker 搭建 hadoop 集群 第一步 安装 Docker, Windows 上可以使用 Docker Desktop 下载地址:https://www.docker.com/products/docker-desktop/ 安装过程自行谷歌 安装好的标志:打开终端 运行docker p…

论文阅读:基于谱分析的全新早停策略

来自JMLR的一篇论文,https://www.jmlr.org/papers/volume24/21-1441/21-1441.pdf 这篇文章试图通过分析模型权重矩阵的频谱来解释模型,并在此基础上提出了一种用于早停的频谱标准。 1,分类难度对权重矩阵谱的影响 1.1 相关研究 在最近针对…

ERP、CRM、MRP、PLM、APS、MES、WMS、SRM系统介绍

一、ERP系统 ERP系统,即企业资源计划(Enterprise Resource Planning)系统,是一种集成管理软件系统,旨在帮助企业实现资源的有效管理和优化。以下是对ERP系统的详细介绍: 1、定义与功能 ERP是企业资源计划…

1832javaERP管理系统之车间计划管理Myeclipse开发mysql数据库servlet结构java编程计算机网页项目

一、源码特点 java erp管理系统之车间计划管理是一套完善的web设计系统,对理解JSP java编程开发语言有帮助采用了serlvet设计,系统具有完整的源代码和数据库,系统采用web模式,系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Mye…

PCIe总线-RK3588 PCIe子系统简介(八)

1.PCIe子系统 RK3588 PCIe子系统如下图所示。总共拥有5个PCIe控制器。PCIe30X4(4L)支持RC和EP模式,其他4个仅支持RC模式。ITS port 1连接PCIe30X4(4L)和PCIe30X2(2L)控制器,PCIe30X4(4L)和PCIe30X2(2L)控制器使用PCIe3.0 PIPE PHY。ITS port 0连接PCIe3…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 游戏表演赛分队(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 游戏表演赛分队(100分) 🌍 评测功能需要订阅专栏后私信联系…

uniapp使用css实现瀑布流

页面 <template><view><gj v-if"likeList.length 0"></gj><view v-else class"list"><view class"pbl" v-for"(item,index) in likeList" :key"index"><view class"image&quo…

Github 2024-06-15Rust开源项目日报Top10

根据Github Trendings的统计,今日(2024-06-15统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10TypeScript项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时 创建周期:2118 天开发语言:Rust, JavaScript协议类型:M…

Windows10 MySQL(8.0.37)安装与配置

一、MySQL8.0.37下载 官网下载链接&#xff1a; https://dev.mysql.com/downloads/ 解压文件&#xff0c;解压到你想要的位置 二、新建MySQL配置文件 右键新建文本文档 新建my.txt文件 编辑my.txt文件&#xff0c;输入以下内容 [mysqld] # 设置 3306 端口 port3306 # 设…

Agilent 安捷伦 N9342C 手持式频谱分析仪

Agilent 安捷伦 N9342C 手持式频谱分析仪 N9342C 手持式7GHz频谱分析仪专为现场测试而设计&#xff0c;无论是安装和维护射频系统&#xff0c;现场进行故障诊断&#xff0c;监测射频环境还是分析干扰&#xff0c;都可以为您提供快速、精确的测量。它具有同类最佳的显示平均噪声…

【面试干货】Integer 和 int 的区别

【面试干货】Integer 和 int 的区别 1、基本类型与包装类型2、内存占用3、自动装箱与拆箱4、null 值5、常量池6、总结 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在Java中&#xff0c;Integer 和 int 是两种不同类型的变量&#xff0c;…

<Linux>进程

进程 文章目录 进程PCBpid与ppidfork系统调用进程状态孤儿进程状态优先级环境变量进程地址空间虚拟地址 最直观的表示&#xff1a;启动一个软件&#xff0c;本质就是启动一个进程 PCB PCB是Process Control Block的简称&#xff0c;是用来描述进程状态信息的数据结构。 进程运…

STM32学习记录(五)————外部中断EXTI

文章目录 前言一、外部中断EXTI基础知识1.外部中断介绍2.外部中断框架2.1AFIO2. 2.STM32外部中断机制框架 总结 前言 一个学习STM32的小白~ 有问题私信或评论区指出~ 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、外部中断EXTI基础知识 1.外部中…

CSS加载动画1

3个圈圈加载的动画 CSS结构 #app-loading {position: relative;top: 45vh;margin: 0 auto;color: #409eff;font-size: 12px;}#app-loading,#app-loading::before,#app-loading::after {width: 2em;height: 2em;border-radius: 50%;animation: 2s ease-in-out infinite app-loa…

GraphQL(7):ConstructingTypes

1 使用GraphQLObjectType 定义type&#xff08;类型&#xff09; 不使用ConstructingTypes定义方式如下&#xff1a; 使用ConstructingTypes定义方式如下&#xff1a; 更接近于构造函数方式 var AccountType new graphql.GraphQLObjectType({name: Account,fields: {name: …

使用Redis将单机登录改为分布式登录

使用Redis将单机登录改为分布式登录 1. 背景 ​ 现在大多数的应用程序登录的方式都是必须满足分布式登录的效果&#xff0c;比如我们在一个客户端登录之后可以在另一个客户端上面共享当前用户的信息&#xff0c;这样在另一个客户端登录的时候就不用用户再次输入自己的账号密码…