FlashFace技术是由香港大学、阿里巴巴集团、蚂蚁集团共同研发的一项实用工具,用户可以通过提供一张或几张参考面部图像和文本提示,就可以轻松地即时个性化自己的相片。
与现有的人像定制方法相比,FlashFace方法具有更高保真度的身份保留xi性。能够精确地保留参考人脸的特征,包括纹身、疤痕等。
这意味着,无论是真实人物还是虚拟角色,FlashFace都能够准确地捕捉到他们独特的面部特征,如罕见的脸型等。
下面展示一些FlashFace的效果:
人像个性化结果
FlashFace可以产生多样的人像个性化结果。
-
在很大程度上保留参考面孔的身份(例如,纹身、疤痕,甚至是虚拟人物罕见的脸型)
-
准确地遵循指示,特别是当文本提示与参考图像相矛盾时(例如,将成人定制为儿童或老人)。
改变年龄或性别
虚拟角色生成真人
真人生成艺术品
身份混合
语言控制面部交换
相关链接
-
项目地址:https://jshilong.github.io/flashface-page/
-
论文链接:https://arxiv.org/abs/2312.02928
-
Demo链接:https://github.com/XavierCHEN34/LivePhoto
-
Code地址:https://github.com/jshilong/FlashFace
论文阅读
高保真身份保存的人类形象个性化
摘要
这项工作展示了FlsahFace这是一个实用的工具,用户可以通过提供一个或几个参考面图像和一个文本提示,轻易地将自己的照片个性化。
我们的方法不同于人类现有的照片定制方法,从高忠诚身份保存和更好的指导从两个微妙的设计中获益。
首先,我们将面孔标识编码成一系列特征映射,而不是像以前的艺术中那样使用一个图像标记,这样模型就可以保留更多的参考面孔细节(例如疤痕,纹身,面部形状)。
其次,我们引入了一个解纠缠整合策略,在文本到图像生成过程中平衡文本和图像引导,缓解参考面和文本提示之间的冲突(例如:将成年人个性化为"儿童"或"老人")。
广泛的实验结果证明了该方法在各种应用中的有效性,包括人类形象的个性化、语言提示下的面部交换、虚拟人物的真实化等。
方法
FlashFace的整体pipeline:
在训练过程中,随机选择B ID聚类,从每个聚类中选择N+1张图像。从N幅图像中裁剪人脸区域作为参考,并留下一张作为目标图像。该目标图像用于计算损失。Face ReferenceNet的输入潜函数的形状为(B*N) × 4 × h × w。
将自注意层之后的参考人脸特征存储在中间块和解码器块中。将人脸位置掩码连接到目标潜影以指示所生成的人脸的位置。
在目标潜信号通过U-Net中相应位置转发的过程中,使用额外的参考注意层合并参考特征。在推理过程中,用户可以通过提供人脸位置(可选)、人物的参考图像和所需图像的描述来获得所需图像。
.面部参考项的输入潜藏有形状 (b*n)x4xHxW.在自我注意层之后,我们在中间块和解码块中存储参考面特征。一个面位掩码连接到目标潜伏,以指示生成的面的位置。在通过U网的相应位置转发目标的过程中,我们使用额外的参考注意层来整合参考特性。在推理过程中,用户可以通过提供一个面部位置(可选)、一个人的参考图像和一个对所需图像的描述来获得所需的图像。