超分之DeSRA

  • Desra: detect and delete the artifacts of gan-based real-world super-resolution models.
  • DeSRA:检测并消除基于GAN的真实世界超分辨率模型中的伪影
  • Xie L, Wang X, Chen X, et al.
  • arXiv preprint arXiv:2307.02457, 2023.

摘要

  1. 背景
    • GAN-SR模型虽然可以恢复图像的真实细节,但是不可避免的会产生伪影。
  2. 目前的研究方法与不足
    • 在训练阶段通过额外的损失惩罚来抑制伪影。
    • 它们只适用于训练期间生成的伪影类型,对于实际的真实测试图像,重建图像仍然会存在伪影。
  3. 提出了本文的方法—DeSRA
    • 首先测量 MSE-SR 结果和 GAN-SR 结果的相对局部方差距离,并根据上述距离和语义感知阈值定位问题区域。
    • 在检测到伪影区域后,本文开发了一个微调程序,以使用少量样本改进GAN-SR 模型。

1. 引言

  1. 目前GAN-SR模型的真实世界推理:

    • 对于GAN-SR模型产生的伪影,在训练期间LDL使用局部判别损失惩罚,但是对于真实世界图像推理时,重建图像仍然会存在伪影。
      在这里插入图片描述
  2. 本文将GAN-SR伪影出现的不同阶段分类:
    (1)GAN训练伪影:在模型训练时不稳定优化产生的伪影。(LDL惩罚损失,缓解伪影)
    (2) GAN推理伪影:在使用真实世界图像的推理过程中产生的伪影。(训练集未出现)

  • 针对GAN推理伪影:
    1. 检测伪影区域:
      1. 通过计算局部方差来测量基于 MSE 和基于 GAN 的模型生成的结果之间的纹理差异。
      2. 进一步引入语义感知调整,以放大感知伪影敏感区域(例如建筑物、海洋)的差异,同时抑制纹理区域(例如树叶、动物毛皮)的差异。
    2. 制作伪GT图像并微调GAN-SR模型:
      1. 收集少量带有伪影的基于 GAN 的结果,并根据二值化检测掩码将伪影区域替换为基于 MSE 的结果。
      2. 使用组合结果作为伪 GT 来构建训练对,以在极短的迭代周期内对模型进行微调。
  1. 总结:
    • 本文首次尝试分析在推理过程中通常出现在没有真实数据的未见测试数据上的 GAN 推理伪影。
    • 基于本文的分析,本文设计了一种方法来有效地检测具有 GAN 推理伪影的区域。
    • 本文进一步提出了一种微调策略,只需要少量的伪影图像就可以消除相同类型的伪影,这弥补了将 SR 算法应用于实际场景的差距。
    • 与以前的工作相比,本文的方法能够更准确地检测未见的伪影,并更有效地缓解 GAN-SR 模型在真实世界测试数据中产生的伪影

2. 相关工作

  1. MSE-based Super-Resolution.
    • 本质:通过最小化 SR 输出与 HR 真实值之间的像素距离( l 1 l_1 l1 l 2 l_2 l2距离)来恢复高保真结果。
    • 缺点:优化像素距离不可避免地会导致缺乏精细细节的平滑重建。
    • 代表模型:SRCNN、VDSR、EDSR、 RCAN
  2. GAN-based Super-Resolution
    • 本质: 通过GAN的生成器与判别器交替博弈,来提高 SR 结果的感知质量。
    • 缺点:GAN-SR重建的图像会产生伪影。
    • 代表模型:SRGAN、ESRGAN、 BSRGAN、Real-ESRAGN、RealBasicVSR、FastRealVSR、SPSR 、LDL

3. 方法论

3.1 GAN-SR
  • 现有的GAN-SR方法,都是使用三种损失的加权和进行训练:
    ![[Pasted image 20250306183613.png|500]]

  • 为了解决GAN训练的不稳定性,首先仅使用 l r e c o n s l_recons lrecons进行预训练,生成MSE-SR模型;然后使用$l_GAN对MSE-SR模型进行微调,来得到最终的GAN-SR模型

  • 通过下图可以看到,含有伪影的GAN-SR结果的视觉质量甚至比MSE-SR结果更差。并且GAN-SR伪影类型复杂,特征各异,且随图像内容不同而不同。
    ![[Pasted image 20250306183818.png]]

因此本文的目的就是检测出GAN-SR生成图像的伪影区域,并使用MSE-SR生成图像来替换此伪影区域。

3.2 检测伪影区域

本文主要解决的GAN-SR推理伪影:
(1)伪影不会出现在预训练的MSE-SR模型:在模型训练时不稳定优化产生的伪影。(确保伪影是由于GAN引起)
(2)伪影明显, 面积较大。

  1. 计算局部纹理的复杂性 : (局部区域 P 内像素强度的标准差)
    ![[Pasted image 20250306184351.png|400]]

  2. 计算MSE-SR与GAN-SR块之间的局部纹理差异:
    ![[Pasted image 20250306184443.png|200]]

![[Pasted image 20250306184622.png|300]]

  • 从上图可以看到
    • 对于相似语义块;d越大,GAN伪影越明显
    • 对于不同语义块:d不能直接反应GAN伪影现象
  1. 因此要改进纹理差异为相对值:
    ![[Pasted image 20250306184527.png|200]]||500

  2. 纹理差异归一化:
    ![[Pasted image 20250306184836.png|300]]

  3. 分母优化:
    ![[Pasted image 20250306184900.png|200]]

![[Pasted image 20250310160028.png|300]]

经过上述操作后,可以看到图中最后一列已经能够分辨出GAN-SR相较于MSE-SR产生的伪影,但是任然存在细微的差异,因此进行进一步的优化。
6. SegFormer分割不同区域:
![[Pasted image 20250310160326.png|300]]

  1. 分区域区分伪影: (threshold=0.7):
    ![[Pasted image 20250310160400.png|300]]

![[Pasted image 20250310160430.png|300]]

经过更细致的优化,可以从图中的最右侧看出,已经完全区分了GAN-SR相较于MSE-SR产生的伪影,并且也不会对MSE-SR的相应区域进行细微的惩罚。

3.3 改进GAN-SR模型

通过上述3.2检测的伪影区域,本文得到了一个结论:

  • 没有伪影的弱恢复甚至比带有伪影的强恢复更好
    因此使用MSE-SR替换GAN-SR中伪影的区域:
    ![[Pasted image 20250310161219.png|300]]

![[Pasted image 20250310161237.png|300]]

3.4 小结
  1. 将推理的真实世界图像通过MSE-SR模型生成伪GT图像;
  2. 使用低分辨率LR图像与伪GT图像进行微调训练,重建出伪影较少的超分辨率SR图像。

4. 实验

4.1可视化分析

![[Pasted image 20250310161440.png|500]]在这里插入图片描述

4.2 用户调研分析

在这里插入图片描述

  1. 相较于GAN-SR模型,验证DeSRA模型是否减少伪影
    • 20组随机打乱的图像对,15人参与调研,选择认为伪影较少的图像。
  2. 相较于MSE-SR模型,验证DeSRA模型是否重建更多的纹理细节
    • 20组随机打乱的图像对,15人参与调研,选择认为更多细节的图像。

5. 结论

  1. 分析GAN-SR伪影,并提出了检测和删除伪影的DeSRA模型:

    • 首先测量MSE-SR 和 GAN-SR重建图像的相对局部方差,然后根据距离图和语义区域定位伪影区域。在检测到有伪影的区域后,我们使用基于 MSE 的结果作为伪GT图像来微调模型。
  2. SOTA:

    • 实验表明,DeSRA能够有效的检测和删除伪影,并且显著提高了GAN-SR模型在真实世界超分辨率技术的实际应用能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/984595.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

UIToolkit(一)

1 前言 UI Toolkit 是一种基于 Web 技术的 GUI 框架,是为了解决 UGUI 效率问题而设计的新一代 UI 系统(UGUI 的介绍详见→UGUI概述)。与 UGUI 不同,UI Toolkit 没有采用 GameObject 的方式,而是参考了 Web 技术的 XML …

Unsloth - 微调 Phi-4 + 修复 Bug

文章目录 Phi-4 错误修复1、分词器错误修复2、微调错误修复3、聊天模板问题 💡 我们的问题修复有效吗?🦙 Llama-fication🦥 动态 4 位量化🛠️ Finetuning Phi-4性能基准测试 本文翻译自:Phi-4 Finetuning …

多视图几何--对极几何--从0-1理解对极几何

1对极几何 1.1本质矩阵 1.1.1几何约束与推导 如图所示,物体点 P P P,图像点 p 1 , p 2 p_1,p_2 p1​,p2​,相机中心 o 1 , o 2 o_1,o_2 o1​,o2​五点共面的关系称为对极几何。 o 1 , o 2 o_1,o_2 o1​,o2​连线称为基线,其与图像的交点称为…

SpringBoot3.3.0集成Knife4j4.5.0实战

原SpringBoot2.7.18升级至3.3.0之后,Knife4j进行同步升级(Spring Boot 3 只支持OpenAPI3规范),从原3.0.3(knife4j-spring-boot-starter)版本升级至4.5.0(knife4j-openapi3-jakarta-spring-boot-starter),以下是升级过程与注意事项等 版本信息…

一招解决Pytorch GPU版本安装慢的问题

Pytorch是一个流行的深度学习框架,广泛应用于计算机视觉、自然语言处理等领域。安装Pytorch GPU版本可以充分利用GPU的并行计算能力,加速模型的训练和推理过程。接下来,我们将详细介绍如何在Windows操作系统上安装Pytorch GPU版本。 查看是否…

Linux——system V共享内存

共享内存区是最快的IPC(进程内通信)形式,不再通过执行进入内核的系统调用来传递彼此的数据 1.共享内存的原理 IPC通信的本质是让不同的进程先看到同一份资源,然后再进行通信,所以想要通过共享内存进行通信,那么第一步一定是让两个…

初识数组

数组的大概内容(自学)上篇 数组的创建和赋值 创建: int [] name new int [5]; int name [] new int [5]; int [] name {1,2.3,4,5}; 赋值: int [] score {1,2,3}; int [] score new int [] {1,2,3}; int [] score;//声明 score new int []…

OSPF-单区域的配置

一、单区域概念: 单区域OSPF中,整个网络被视为一个区域,区域ID通常为0(骨干区域)。所有的路由器都在这个区域内交换链路状态信息。 补充知识点: OSPF为何需要loopback接口: 1.Loopback接口的…

c++介绍锁二

锁主要在两个以上的线程中使用&#xff0c;当多个线程访问共享资源时&#xff0c;我们需要使用锁&#xff0c;开保证共享资源的唯一性。 当两个线程访问不带锁的共享资源时&#xff0c;如下代码 #include<array> #include<thread> #include<iostream> usin…

Ubuntu系统部署.NET 8网站项目

一、使用XShell连接 Ubuntu系统初次连接时默认的用户名为&#xff1a;ubuntu&#xff0c;使用此用户名与系统登录密码进行连接。 登录成功效果如下图&#xff1a; 二、root用户登录 linux下有超级用户&#xff08;root&#xff09;和普通用户&#xff0c;普通用户不能直接操…

学习资料电子版 免费下载的网盘网站(非常全!)

我分享一个私人收藏的电子书免费下载的网盘网站&#xff08;学习资料为主&#xff09;&#xff1a; link3.cc/sbook123 所有资料都保存在网盘了&#xff0c;直接转存即可&#xff0c;非常的便利&#xff01; 包括了少儿&#xff0c;小学&#xff0c;初中&#xff0c;中职&am…

图形编辑器基于Paper.js教程24:图像转gcode的重构,元素翻转,旋转

前段时间在雕刻图片时&#xff0c;旋转图片&#xff0c;翻转图片后&#xff0c;发现生成准确的gcode&#xff0c;虽然尺寸对&#xff0c;但是都是以没有旋转&#xff0c;没有翻转的图片进行生成的。后来思考了一下&#xff0c;发现这真是一个大bug&#xff0c;无论图片如何选择…

无公网IP也能远程控制Windows:Linux rdesktop内网穿透实战

文章目录 前言1. Windows 开启远程桌面2. Linux安装rdesktop工具3. Win安装Cpolar工具4. 配置远程桌面地址5. 远程桌面连接测试6. 设置固定远程地址7. 固定地址连接测试 前言 如今远程办公已经从一种选择变成了许多企业和个人的必修课&#xff0c;而如何在Linux系统上高效地访…

一文了解汽车图像传感器

2024年底,安森美做了题为"How Automotive Image Sensors Transform the Future of Autonomous Driving"的演讲,这里结合其内容对自动驾驶图像传感器做一个介绍。 当前的自动驾驶感知技术主要有两大技术路线:一种是仅使用摄像头作为传感器进行信息采集的纯…

Talking Head Review (数字人算法综述)

文章目录 引言3D Model basedGeneFace背景方案实验 GeneFace背景方案实现细节实验 Real3D-Portrait背景方案实现细节实验 MimicTalk背景方案实现细节实验 face-vid2vid背景方案实现细节实验 MegaPortraits背景方案实现细节实验 VASA-1背景方案实现细节实验 LivePortrait背景方案…

DeepSeekR1之四_在RAGFlow中配置DeepSeekR1模型

DeepSeekR1之四_在RAGFlow中配置DeepSeekR1模型 文章目录 DeepSeekR1之四_在RAGFlow中配置DeepSeekR1模型1. 通过Ollama下载模型1. 下载DeepSeekR1模型2. 下载嵌入模型 2. 查看本地的Ollama模型3. 模型提供商中添加模型1. 打开模型提供商2. 选择Ollama待添加模型3. 添加DeepSee…

【 <一> 炼丹初探:JavaWeb 的起源与基础】之 JavaWeb 项目的部署:从开发环境到生产环境

<前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、开发环境…

可视化图解算法:反转链表

1. 题目 描述 给定一个单链表的头结点pHead(该头节点是有值的&#xff0c;比如在下图&#xff0c;它的val是1)&#xff0c;长度为n&#xff0c;反转该链表后&#xff0c;返回新链表的表头。 数据范围&#xff1a; 0<≤n≤1000 要求&#xff1a;空间复杂度 O(1) &#xf…

P8685 [蓝桥杯 2019 省 A] 外卖店优先级--优先队列“数组”!!!!!

P8685 [蓝桥杯 2019 省 A] 外卖店优先级 题目 解析优先队列如何判断是否使用优先队列&#xff1f;省略规则优先队列常用操作大顶堆 vs 小顶堆定义队列h队列数组 代码 题目 解析 每个外卖店会在不同的时间点收到订单&#xff0c;我们可以看见测试用例的时间顺序是不同的&#x…

使用苹果M芯片打包Docker Image无法在amd64环境下运行

问题所在 使用苹果M芯片打包Docker Image无法在amd64环境下运行&#xff0c;因为arm环境下打包docker默认打包为arm格式&#xff0c;可以使用以下命令查看&#xff1a; docker inspect <ImageID>找到Architecture&#xff0c;可以发现 解决方法 在docker-compose.ym…