GAN反演+老照片修复

在这里插入图片描述
关于老照片修复~~~~~上图为运行腾讯ARC的模型之后的效果图

其使用的模型,GFP-GAN,Towards Real-World Blind Face Restoration with Generative Facial Prior,理解记录如下:

Abstract:

In this work, we propose GFP-GAN that leverages rich and diverse priors encapsulated in a pretrained face GAN for blind face restoration.
提出了GFP-GAN,利用丰富多样的先验,将其封装在一个预训练的人脸中,用于模糊人脸修复。

This Generative Facial Prior (GFP) is incorporated into the face restoration process via spatial feature transform layers, which allow our method to achieve a good balance of realness and fidelity.
这种生成性面部先验(GFP)通过空间特征转换层被纳入面部修复过程,这使得我们的方法在真实性和保真度之间取得了良好的平衡。

Thanks to the powerful generative facial prior and delicate designs, our GFP-GAN couldjointly restore facial details and enhance colors with just a single forward pass, while GAN inversion methods require image-specific optimization at inference.
得益于强大的生成性面部先验和精细的设计,GFP-GAN可以通过一次前向传递来联合恢复面部细节和增强颜色,而GAN反演方法需要在推理时对图像进行特定的优化。

Introduction

StyleGAN 等,这些人脸GANs,能够生成具有高度可变性的忠实人脸,从而提供丰富多样的先验, 如几何学、面部纹理和颜色,使得联合恢复面部细节和增强颜色成为可能;

然而,将这种生成性先验因素纳入修复过程是具有挑战性的。

以前 通常使用 GAN inversion


关于GAN反演:

给定一张灰度图像,如何利用预训练好的GAN恢复它的颜色呢?一个自然的想法是在GAN的图像空间寻找一张灰度化后与目标图片一致的图片,由于GAN倾向于输出自然的图片,因此找到的这张图会有自然的颜色。

上述方案要求用GAN的生成器G准确重建一张目标图片。针对该任务,传统的做法是优化生成器输入的隐向量z,又称作GAN inversion。

预训练GAN通常能够生成非常逼真和多样的图像,通过反演找到与特定输入图像对应的潜在代码,我们可以利用GAN的生成先验来执行各种任务,如图像编辑、风格迁移或图像超分辨率等。

用GAN模型近似表征自然图像分布,在恢复图像时,对于失真图,要恢复它,其实就是要在GAN表征的自然图分布中找到一个跟失真图最相似的图。

即,如果我们要复原图像A,则可以训练GAN网络,使其生成一个跟图像A的GroundTruth相似度很高很高的图像,该生成图像即为我们修复后的图像;

在这里插入图片描述
如上图,找相似图的过程是:

比如想复原失去色彩的图像 φ(x),其中 x 指原图Ground Truth,φ 指退化函数,如失去色彩、加噪声……

首先,由GAN生成近似的自然图像 G(z; θ),z 是服从高斯分布的随机向量;

然后对近似自然图 G(z; θ) 进行退化操作 φ,退化结果是 φ(G(z; θ));

那么我们选择一个跟要复原图像 φ(x) 最相似的退化图 φ(G(z; θ)),那退化前的近似自然图G(z; θ)自然可以近似 x。

一般来说,目标函数通常包含两个部分:一是判别器对于生成样本的评价结果;二是输入样本与生成样本之间的差异度量;


此文作者表示,GAN Inversion 尽管有视觉上的真实输出,但是因为低维潜在代码不足以指导准确的修复,通常产生低保真度的图像。

GFP-GAN 网络模型如下:
在这里插入图片描述

It consists of a degradation removal module (U-Net) and a pretrained face GAN as facial prior (such as StyleGAN2).
GFP-GAN包括一个退化消除模块,和一个预训练的面部GAN作为面部先验。

They are bridged by a latent code mapping and several Channel-Split Spatial Feature Transform(CS-SFT) layers.
它们通过一个直接的潜在代码映射和几个通道分割空间特征变换(CS-SFT)层以粗到细的方式连接起来。

Specifically, the degradation removal module is designed to remove complicated degradation, and extract two kinds of features, i.e.

  1. latent features F l a t e n t F_{latent} Flatent to map the input image to the closest latent code in StyleGAN2,
  2. multi-resolution spatial features F s p a t i a l F_{spatial} Fspatial for modulating the StyleGAN2 features.

在这里插入图片描述

A pre-trained face GAN captures a distribution over faces in its leaned weights of convolutions, namely, generative prior.
一个预训练过的人脸GAN在其倾斜的卷积权重中捕捉到了人脸的分布,即生成性先验。

We leverage such pretrained face GANs to provide diverse and rich facial details for our task.
我们利用这种预训练的人脸GANs为我们的任务提供多样化和丰富的面部细节。

A typical way of deploying generative priors is to map the input image to its closest latent codes Z, and then generate the corresponding output by a pretrained GAN.
部署生成式先验的典型方法是将输入图像映射到其最接近的潜在代码Z,然后通过预训练的GAN生成相应的输出。

However, these methods usually require time-consuming iterative optimization for preserving fidelity.
然而,这些方法通常需要耗费时间的迭代优化来保持保真度。

Instead of producing a final image directly, we generate intermediate convolutional features F G A N F_{GAN} FGAN of the closest face, as it contains more details and could be further modulated by input features for better fidelity (see Sec. 3.4).
我们没有直接生成最终图像,而是生成最接近的人脸的中间卷积特征 F G A N F_{GAN} FGAN,因为它包含更多的细节,可以通过输入特征进一步调制以获得更好的保真度。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


关于 modulate

StyleGAN2 通过使用一种称为“风格调制”(style modulation)的技术来改进图像生成过程。

在这种技术中,生成器网络的不同层接收来自一个或多个“风格代码”(style codes)的输入,这些代码控制生成图像的各种属性,如颜色、纹理和形状。

将多分辨率空间特征集成到 StyleGAN2 的风格调制过程中,这可以通过将 F s p a t i a l F_{spatial} Fspatial 与 StyleGAN2 生成器网络中的相应特征图相结合来实现,从而在空间域中调制风格代码的影响。

这种方法的潜在好处是,它可以允许生成器在生成图像时考虑更多的空间上下文信息。通过在不同空间尺度上引入额外的特征,生成器可以生成更真实、更复杂的图像,这些图像在细节和结构上更加接近真实世界的图像。


GFP-GAN 四大损失:

  1. reconstruction loss: constraints the outputs y ^ \hat{y} y^ close to the ground-truth y y y,

  2. adversarial loss for restoring realistic textures,

  3. proposed facial component loss to further enhance facial details,
    带有局部判别器的面部成分损失,以进一步增强面部细节的感知性;

  4. identity preserving loss.
    身份保护损失,来进一步提高保真度;

参考链接:

  1. https://github.com/TencentARC/GFPGAN
  2. paper: Towards Real-World Blind Face Restoration with Generative Facial Prior
  3. paper: Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation
  4. https://zhuanlan.zhihu.com/p/270932356
  5. https://arc.tencent.com/zh/ai-demos/faceRestoration
  6. https://zhuanlan.zhihu.com/p/609795548

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/552896.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

m4p转换mp3格式怎么转?3个Mac端应用~

M4P文件格式的诞生伴随着苹果公司引入FairPlay版权管理系统,该系统旨在保护音频的内容。M4P因此而生,成为受到FairPlay系统保护的音频格式,常见于苹果设备的iTunes等平台。 MP3文件格式的多个优点 MP3格式的优点显而易见。首先,其…

微服务分布式缓存:无法反序列化 Cannot deserialize;

问题描述 在拆分SpringBoot项目搭建微服务的过程中,需要配置分布式缓存,对redis进行配置,配置完成后,在启动Knife4j文档界面时报错,发现是redis无法反序列化的问题,但是报错中所指出的类com.jhin.jhinoj.m…

Prometheus + Grafana 搭建监控仪表盘

目标要求 1、需要展现的仪表盘: SpringBoot或JVM仪表盘 Centos物理机服务器(实际为物理分割的虚拟服务器)仪表盘 2、展现要求: 探索Prometheus Grafana搭建起来的展示效果,尽可能展示能展示的部分。 一、下载软件包 监控系统核心…

OpenHarmony实战开发-NAPI封装ArkTS接口案例。

介绍 部分应用的主要开发语言为C/C,但是HarmonyOS的部分接口仅以ArkTS的形式暴露,因此需要将ArkTS的接口封装为Native接口。本例以DocumentViewPicker的Select方法为例,提供了Napi封装ArkTS API的通用方法,本例包含内容如下&…

ElasticSearch有账号密码时: kibana配置

上一篇文章我们介绍过ElasticSearch关闭账号密码的的方式: config/elasticsearch.yml文件中 xpack.security.enabled: false 当我们关闭 账号密码,kibana是可以直接访问ElasticSearch的。 真实项目中,我们是不允许数据库裸跑的,所…

vue elmentui 可编辑table 实现

废话不多说上图: 1.可编辑input 2.可编辑下来框 3.点击chechbox 4.可编辑radio 其实后面两种可以直接显示值 需要修改直接改就行 保持风格统一所以就做了点击之后出现修改功能 上代码,不要哔哔 哈哈 粗暴 真得是曲不离口 拳不离手, 几天…

Linux下:指令的理解、本质、shell

文章目录 理解文件的属性目录结构快捷键上下historytable两下CTRL CCTRL D关机命令 文件互传shell命令及其运行原理指令的本质命令whoamiwhopwdlsclearcdtreectrl ctouchstatmkdirrmdir && rmmancpmvwhichalisacattacecho> 输出重定向>> 追加重定向< 输…

如何在Windows安装Ollama大语言模型工具并实现无公网IP异地远程使用

文章目录 前言1. 运行Ollama2. 安装Open WebUI2.1 在Windows系统安装Docker2.2 使用Docker部署Open WebUI 3. 安装内网穿透工具4. 创建固定公网地址 前言 本文主要介绍如何在Windows系统快速部署Ollama开源大语言模型运行工具&#xff0c;并安装Open WebUI结合cpolar内网穿透软…

数字乡村创新实践探索农业现代化路径:科技赋能农业产业升级、提升乡村治理效能与农民幸福感

随着信息技术的快速发展和数字化时代的到来&#xff0c;数字乡村建设正成为推动农业现代化、提升农业产业竞争力、优化乡村治理以及提高农民幸福感的重要途径。本文将围绕数字乡村创新实践&#xff0c;探讨其在农业现代化路径中的积极作用&#xff0c;以及如何通过科技赋能实现…

立创-IS61LV5128AL-10TLI功能参数及连接方法

IS61LV5128AL-10TLI功能和参数介绍-公司新闻-配芯易-深圳市亚泰盈科电子有限公司 制造商:ISSI 产品品种:静态随机存取存储器 RoHS:是 存储容量:4 Mbit 安排:512 k x 8 访问时刻:10 ns 最大时钟频率:100 MHz 接口类型:Parallel 电源电压-最大:3.63 V 电源电压-最小:3.135 V 电源…

eNSP-OSPF综合实验

目录 实验要求 配置IP 构建外部RIP协议用户组 配置公网通 构建MGRE隧道 创建隧道 配置下一跳解析协议&#xff08;NHRP&#xff09; OSPF私网通 area 0&#xff08;公网区域不宣告&#xff09;&#xff1a; area 1&#xff1a; area 2&#xff1a; area 3&#xff…

案例实践 | InterMat:基于长安链的材料数据发现与共享系统

案例名称&#xff1a;InterMat-基于区块链的材料数据发现与共享系统 ■ 建设单位 北京钢研新材科技有限公司 ■ 用户群体 材料数据上下游单位 ■ 应用成效 已建设10共识节点、50轻节点&#xff0c;1万注册用户 案例背景 材料是构成各种装备和工程的物质载体&#xff0c…

【C++题解】1345. 玫瑰花圃

问题&#xff1a;1345. 玫瑰花圃 类型&#xff1a;基本运算、小数运算 题目描述&#xff1a; 有一块nn&#xff08;n≥5&#xff0c;且 n 是奇数&#xff09;的红玫瑰花圃&#xff0c;由 nn 个小正方形花圃组成&#xff0c;现要求在花圃中最中间的一行、最中间的一列以及 4 个…

cesium加载倾斜影像数据(模拟雨、雪、雾、无人机飞行、测距、箭头标绘、电子围栏等)

实现效果如下&#xff1a; 功能菜单如下&#xff1a; 加载倾斜影像核心代码&#xff1a; var palaceTileset new Cesium.Cesium3DTileset({url: http://127.0.0.1:9002/tileset.json,//控制切片视角显示的数量&#xff0c;可调整性能maximumScreenSpaceError: 0.1,maximumNum…

Real3DPortrait照片对口型,数字人,音频/视频驱动数字人

先看效果 上传一张图片和一段音频&#xff0c;照片如下&#xff1a; 合成后效果如下&#xff1a; 照片对口型-音频驱动 支持音频驱动和视频驱动&#xff0c;视频可以使照片有参照视频中的口型和和动作。 项目地址 https://github.com/yerfor/Real3DPortrait 我的环境 win…

CentOS-Stream-9升级openssh9.7p

CentOS Stream 9 ssh -V需要的RPM包 openssh-9.7p1-1.el9.x86_64.rpm openssh-clients-9.7p1-1.el9.x86_64.rpm openssh-server-9.7p1-1.el9.x86_64.rpm 编译openssh openssh官方只提供源码包&#xff0c;我们选择自己将源码编译为rpm包来升级环境的openssh&#xff0c;需要…

UE5 C++ 使用TimeLine时间轴实现开关门

一.添加门头文件 和 声明 #include "Components/TimelineComponent.h" #include"Components/BoxComponent.h" UPROPERTY(EditAnywhere,BlueprintReadWrite,Category "MyCurve")UCurveFloat* MyCurveFloat;UPROPERTY(EditAnywhere, BlueprintR…

前端网络---http缓存

什么是http缓存&#xff1f; 1、HTTP 缓存会存储与请求关联的响应&#xff0c;并将存储的响应复用于后续请求。 2、缓存的原理是在首次请求后保存一份请求资源的响应副本&#xff0c;当用户再次发起相同请求时&#xff0c;判断缓存是否命中&#xff0c;如果命中则将前面的响应…

如何保障UDP传输中数据文件不丢失?

UDP协议因其低时延和高速传输的特性&#xff0c;在实时应用和大量数据传输领域中发挥着不可或缺的作用。但是&#xff0c;由于UDP是一种无连接的通讯协议&#xff0c;它并不确保数据包的顺序、完整性和可靠性。 为了解决UDP传输中数据一致性的问题&#xff0c;技术专家们进行了…

HTML不常用的文本标签

1.标签如下&#xff1a; 代码及相关内容 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>不常用的文…