CycleGAN-Turbo：CycleGAN结合扩散模型，一步图像到图像转换方法

CycleGAN-Turbo：CycleGAN结合扩散模型，一步图像到图像转换方法

提出背景
子解法1：直接对条件信息进行编码
子解法2：整合三个独立模块
子解法3：保留高频细节

相关工作
例子：日转夜图像转换
现有方法
我们的方法：CycleGAN-Turbo

方法
解法1：添加条件输入
解法2：保留输入细节
解法3：非成对训练
扩展

总结
解法：一步图像到图像转换方法
子解法1：端到端网络结构
子解法2：保留高频细节
子解法3：非成对训练适应性

扩展解法：应对多样化的图像生成需求
子解法4：成对训练的适应性
子解法5：生成多样化输出

论文：https://arxiv.org/pdf/2403.12036.pdf

代码：https://github.com/GaParmar/img2img-turbo

在这项工作中，我们解决了现有条件扩散模型的两个局限性：由于迭代去噪过程，推断速度慢，以及对成对数据进行模型微调的依赖。

为了解决这些问题，我们引入了一种通用方法，通过对抗学习目标来适应新任务和领域的单步扩散模型。

具体来说，我们将标准潜在扩散模型的各个模块合并为一个单一的端到端生成网络，具有小的可训练权重，增强了其保持输入图像结构的能力，同时减少了过拟合。

我们证明，对于非配对设置，我们的模型CycleGAN-Turbo在各种场景转换任务中超越了现有的基于GAN和基于扩散的方法，如日转夜转换以及添加/移除雾、雪和雨等天气效果。

我们将我们的方法扩展到配对设置，其中我们的模型pix2pix-Turbo与最近的作品如ControlNet for Sketch2Photo和Edge2Image相媲美，但具有单步推断。

这项工作表明，单步扩散模型可以作为各种GAN学习目标的强大基础。

你想把一张晴天的照片转换成雨天的场景。

传统的方法可能需要大量成对的数据，即成千上万的晴天和雨天图片对，以此来训练一个模型学习这种转换。这种方法不仅耗时耗力，而且在很多情况下，找到精确匹配的成对图片是不可能的。

我们提出的方法，CycleGAN-Turbo，就是为了解决这个问题。它不需要成对的数据来学习将晴天转换为雨天的转换。相反，它通过一种叫做对抗学习的技术，让模型学习两种场景之间的差异。

模型包括两部分：一个生成器和一个判别器。生成器尝试从晴天图片生成雨天图片，而判别器则尝试区分生成的图片和真实的雨天图片。通过这种方式，生成器不断改进，最终能够生成非常真实的雨天效果图片。

此外，我们的方法只需要一步就能完成这种转换，这与传统的迭代去噪扩散模型相比，大大加快了推理速度。这意味着用户可以几乎实时地看到转换结果，而不是等待几分钟或更长时间。

例如，你有一张公园的照片，想看看雨天的样子。使用我们的CycleGAN-Turbo模型，你只需将这张晴天的公园照片输入模型，模型就会立即生成一张雨天效果的图片。

这个过程不需要寻找或提供一张相同场景的雨天图片作为参考，也不需要等待长时间的处理。

在这里插入图片描述

提出背景

针对条件扩散模型在图像生成应用中遇到的两个具体问题，本研究提出了一个一步图像到图像转换方法。

这个方法既适用于成对数据设置也适用于非成对数据设置，能够产生与现有条件扩散模型相媲美的视觉结果，同时将推理步骤减少到1步。

重要的是，我们的方法可以在没有成对图像的情况下训练。

子解法1：直接对条件信息进行编码

问题特征：标准扩散适配器直接应用于一步设置效果不佳，因为噪声图直接影响输出结构，导致网络接收到冲突信息。
解决方案：我们将条件信息直接馈送到UNet的噪声编码分支。这样，网络可以直接适应新的控制信号，避免噪声图和输入控制之间的冲突。
示例：在将晴天图片转换为雨天图片的任务中，我们直接将“雨天”这一条件信息编码进模型，而不是同时处理噪声图和“晴天”图像，这避免了生成过程中可能出现的信息冲突，使转换更加准确和自然。

子解法2：整合三个独立模块

问题特征：多阶段管道（编码器-UNet-解码器）导致图像细节丢失，尤其是在输入为真实图像时。
解决方案：我们将编码器、UNet和解码器三个分离的模块合并为一个单一的端到端可训练架构。使用LoRA技术调整原始网络以适应新的控制信号和领域，这样减少了过拟合和微调时间。
示例：在进行日转夜图像转换时，通过整合这三个模块，我们能够保留更多的图像细节，比如云层的纹理和光线的变化，从而生成更加逼真和细腻的夜景图像。

子解法3：保留高频细节

问题特征：原有模型在图像到图像转换过程中丢失高频细节。
解决方案：我们通过在编码器和解码器之间加入跳过连接（使用零卷积技术），来保留输入图像的高频细节。
示例：在给图像添加或去除雨效果时，保留了雨滴对光线的微妙影响和地面反射等高频细节，使得转换后的图像更加栩栩如生。

这个一步图像到图像转换方法的提出，是基于条件扩散模型在实时交互式应用（如Sketch2Photo）和需要大规模成对数据集训练的应用中面临的限制。

通过上述子解法的组合，我们不仅解决了推理速度慢和数据成对要求高的问题，还实现了在无需成对数据的情况下进行训练，大大拓宽了模型的应用范围和灵活性。

方法

这一部分提出了将预训练的文本到图像模型转化为图像到图像翻译模型的方法，专注于如何解决细节丢失问题和进行非成对训练。我们还探讨了扩展到成对设置和生成随机输出的可能性。以下是对方法的具体问题与解法的逻辑拆解：

解法1：添加条件输入

问题特征：在一步模型中，噪声图直接控制生成图像的布局和姿态，经常与输入图像的结构矛盾。
子解法1：直接向网络馈送条件输入，而不是使用额外的编码器。这是因为预训练模型生成的图像结构显著受到噪声图的影响。
示例：在将日间驾驶图像转换为夜间的任务中，我们直接将“夜间”这一条件信息编码进模型，避免了由于引入额外编码器而造成的结构冲突。

生成器架构。

它将文本到图像模型整合到一个端到端的网络中，具有可调整的权重，在转换过程中保持输入图像结构。

模型利用LoRA适配器和零卷积进行微调，只需很小的权重改变。文本输入被编码，并与图像输入一起被模型处理，生成转换后的图像，如“夜间驾驶”的例子所示。

在这里插入图片描述

解释了向单步模型添加条件编码器分支的挑战。

左侧显示了标准的单步扩散模型将输入噪声转换为连贯的输出图像。

右侧说明了如何添加具有不同布局的条件编码器可能导致与输入噪声的冲突，影响输出图像的质量。

解法2：保留输入细节

问题特征：图像编码器的设计虽然加快了训练和推理速度，但在图像翻译任务中，这种设计可能不理想，因为它不利于保留输入图像的细节。
子解法2：在编码器和解码器网络之间添加跳过连接。这样可以在图像翻译过程中保留细腻的细节。
示例：将白天的驾驶场景图像转换为夜晚，通过使用跳过连接的架构，可以显著地保留如文本、路标和远处汽车等细节。

在这里插入图片描述
强调了在转换过程中保留细节的跳过连接的重要性。

它提供了一个有无跳过连接的模型训练结果的比较，清晰地显示跳过连接有助于从输入的白天图像保留细节到转换后的夜晚图像。

解法3：非成对训练

问题特征：现有的GAN基础或扩散基础方法通常需要在新领域上从头开始训练。
子解法3：使用修改后的CycleGAN公式进行非成对翻译，同时利用预训练的扩散模型。
示例：在没有成对数据集的情况下，将白天的图像转换为夜晚，我们的方法可以通过非成对的方式学习这种转换，同时保持循环一致性和对抗损失，确保翻译的质量。

扩展

成对训练：我们适应我们的翻译网络G到成对设置，例如将边缘或草图转换为图像。
生成多样化输出：通过在预训练模型的特征和模型权重之间进行插值，生成多样化的输出。

在这里插入图片描述
将提出的方法CycleGAN-Turbo与其他基于GAN的和基于扩散的方法进行了比较。

它展示了提出的方法在保持图像质量和结构上的优越性，跨越各种任务，如将马转换成斑马，或改变季节景色从夏天到冬天和冬天到夏天。

通过上述方法的组合，我们不仅解决了图像到图像翻译过程中的细节丢失问题，而且还实现了在没有成对数据的情况下进行训练，扩大了模型的应用范围和灵活性。

总结

解法：一步图像到图像转换方法

结合了CycleGAN的非成对图像翻译概念和Diffusion模型的强大生成能力，创造了CycleGAN-Turbo和Pix2Pix-Turbo这两个新模型。

在本文中，作者团队解决了条件扩散模型存在的两个问题：推理速度慢和对成对数据的依赖。

他们通过引入单步扩散模型来适应新任务和领域的方法，成功地整合了传统的CycleGAN和pix2pix模型的优点到扩散模型框架中。

这不仅提升了推理速度，还允许在无需成对数据的情况下进行训练。

CycleGAN-Turbo：本文中提到的CycleGAN-Turbo解决了传统CycleGAN需要循环一致性且训练周期长的问题，通过利用单步推理的Diffusion模型，提高了效率，并在非成对的场景转换任务中取得了良好的表现。
Pix2Pix-Turbo：类似地，Pix2Pix-Turbo改善了传统pix2pix模型需要成对数据并且转换速度慢的限制，通过采用单步推理扩散模型，实现了快速且准确的图像翻译。

“Turbo”则暗示了模型在效率和速度上的显著提升。