浅析扩散模型与图像生成【应用篇】(十三)——PITI

13. Pretraining is All You Need for Image-to-Image Translation

  该文提出一种基于预训练扩散模型的图像转换方法,称为PITI。其思想并不复杂,就是借鉴现有视觉和NLP领域中常见的预训练方法,考虑预先在一个大规模的任务无关数据集上对扩散模型进行预训练,使其具备一个高度语义化的空间。然后,再针对特定任务对模型进行微调训练,此时微调过程只需要关注与任务相关的输入信息,而困难的图像生成工作,比如渲染一个合理布局和真实的纹理,将根据预训练时得到的知识来完成。
在这里插入图片描述

  在本文中,作者采用GLIDE模型作为基础模型,在一个包含67M个文本-图像对的数据集上进行预训练。使用基础模型进行图像生成的过程,可以看作是对原始输入 x 0 \boldsymbol{x}_{0} x0和条件 y \boldsymbol{y} y进行编码和解码的过程 x t = D ~ ( E ~ ( x 0 , y ) ) \boldsymbol{x}_{t}=\tilde{\mathcal{D}}\left(\tilde{\mathcal{E}}\left(\boldsymbol{x}_{0}, \boldsymbol{y}\right)\right) xt=D~(E~(x0,y))其中 D ~ \tilde{\mathcal{D}} D~ E ~ \tilde{\mathcal{E}} E~分别表示解码和编码器。微调训练包含两个阶段,第一阶段时锁定解码器的参数,只对编码器进行训练;第二阶段是对两者进行联合训练。
  由于扩散模型生成的结果通常分辨率较低,如64*64,因此作者也采用了一个基于扩散模型的上采样器,对生成结果进行分辨率提升。然而,作者发现提升的结果存在过度平滑的问题,因此作者又引入了GAN中常见的感知损失和对抗损失,如下式 L perc  = E t , x 0 , ϵ ∥ ψ m ( x ^ 0 t ) − ψ m ( x 0 ) ∥ , L a d v = E t , x 0 , ϵ [ log ⁡ D θ ( x ^ 0 t ) ] + E x 0 [ log ⁡ ( 1 − D θ ( x 0 ) ) ] \begin{aligned} \mathcal{L}_{\text {perc }} & =\mathbb{E}_{t, \boldsymbol{x}_{0}, \boldsymbol{\epsilon}}\left\|\boldsymbol{\psi}_{m}\left(\hat{\boldsymbol{x}}_{0}^{t}\right)-\boldsymbol{\psi}_{m}\left(\boldsymbol{x}_{0}\right)\right\|, \\ \mathcal{L}_{\mathrm{adv}} & =\mathbb{E}_{t, \boldsymbol{x}_{0}, \boldsymbol{\epsilon}}\left[\log D_{\theta}\left(\hat{\boldsymbol{x}}_{0}^{t}\right)\right]+\mathbb{E}_{\boldsymbol{x}_{0}}\left[\log \left(1-D_{\theta}\left(\boldsymbol{x}_{0}\right)\right)\right] \end{aligned} Lperc Ladv=Et,x0,ϵ ψm(x^0t)ψm(x0) ,=Et,x0,ϵ[logDθ(x^0t)]+Ex0[log(1Dθ(x0))]其中 x ^ 0 t = ( x t − 1 − α t ϵ θ ( x t , y , t ) ) / α t \hat{\boldsymbol{x}}_{0}^{t}=\left(\boldsymbol{x}_{t}-\sqrt{1-\alpha_{t}} \boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t}, \boldsymbol{y}, t\right)\right) / \sqrt{\alpha_{t}} x^0t=(xt1αt ϵθ(xt,y,t))/αt 表示预测得到的生成结果。
  最后,作者发现在常规的无分类器引导的扩散模型CDM中 ϵ ^ θ ( x t ∣ y ) = ϵ θ ( x t ∣ y ) + w ⋅ ( ϵ θ ( x t ∣ y ) − ϵ θ ( x t ∣ ∅ ) ) \hat{\boldsymbol{\epsilon}}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)=\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)+w \cdot\left(\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)-\boldsymbol{\epsilon}_{\theta}\left(\boldsymbol{x}_{t} \mid \emptyset\right)\right) ϵ^θ(xty)=ϵθ(xty)+w(ϵθ(xty)ϵθ(xt))条件的引入会导致估计噪声的均值和方差发生漂移,如下 μ ^ = μ + w ( μ − μ ∅ ) \hat{\mu}=\mu+w\left(\mu-\mu_{\emptyset}\right) μ^=μ+w(μμ) σ ^ 2 = ( 1 + w ) 2 σ 2 + w 2 σ ∅ 2 \hat{\sigma}^{2}=(1+w)^{2} \sigma^{2}+w^{2} \sigma_{\emptyset}^{2} σ^2=(1+w)2σ2+w2σ2并且这个偏移会随着迭代去噪过程逐渐累积,最终导致生成图像过饱和或者过度平滑。为此,作者提出一种规则化处理方式,如下式 ϵ ~ θ ( x t ∣ y ) = σ σ ^ ( ϵ ^ θ ( x t ∣ y ) − μ ^ ) + μ \tilde{\boldsymbol{\epsilon}}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)=\frac{\sigma}{\hat{\sigma}}\left(\hat{\boldsymbol{\epsilon}}_{\theta}\left(\boldsymbol{x}_{t} \mid \boldsymbol{y}\right)-\hat{\mu}\right)+\mu ϵ~θ(xty)=σ^σ(ϵ^θ(xty)μ^)+μ
  作者在"掩码到图像"、"轮廓到图像"和”几何体到图像“等图像转换任务中,对本文提出的方法进行了测试,其效果如下
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/493165.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

基于java+springboot+vue实现的校园二手交易系统(文末源码+Lw+ppt)23-336

摘 要 自从新冠疫情爆发以来,各个线下实体越来越难做,线下购物的人也越来越少,随之带来的是一些不必要的浪费,尤其是即将毕业的大学生,各种用品不方便携带走导致被遗弃,造成大量的浪费。本系统目的就是让…

浏览器如何渲染页面

浏览器渲染页面的过程是一个多步骤的复杂流程,下面我将通过一个简单的例子来逐步说明这一过程: 以下是浏览器渲染该页面的主要步骤: 请求HTML文档: 用户在浏览器中输入URL并回车,浏览器向服务器发送HTTP请求。 服务器…

【Java多线程】1——多线程知识回顾

1 多线程知识回顾 ⭐⭐⭐⭐⭐⭐ Github主页👉https://github.com/A-BigTree 笔记仓库👉https://github.com/A-BigTree/tree-learning-notes 个人主页👉https://www.abigtree.top ⭐⭐⭐⭐⭐⭐ 如果可以,麻烦各位看官顺手点个star…

测试开发工程师(QA)职业到底需要干些什么?part6:数据测试工程师QA

常见任务和工作内容 作为数据测试工程师QA(Quality Assurance),您的主要职责是确保数据的质量、准确性和一致性。以下是数据测试工程师QA的一些常见任务和工作内容: 数据验证和准确性测试:您将负责验证数据的准确性和…

数论问题代码模板

文章目录 一、质数1.1、质数筛(筛1~n中的所有质数)1.2、判断一个数是否为质数1.3、对一个数进行质因数分解 二、快速幂2.1、费马小定理——乘法逆元2.2、快速幂 三、约数3.1、N个数的正约数集合3.2、一个数的正约数集合 四、欧拉函数(互质数数…

洗地机好用吗?哪款型号值得推荐?看完本文你就知道

在如今社会生活节奏不断加快的情况下,洗地机已经成为众多家庭的必备的清洁设备,面对市面上种类繁多的洗地机,我们常常会发出感叹“洗地机好用吗?洗地机哪个型好用?”等的疑问,今天,为了帮助大家…

一文搞定用python实现终身免费的听书工具

你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益: 了解大厂经验拥有和大厂相匹配的技术等 希望看什么,评论或者私信告诉我! 文章目录 一…

C语言程序练习——汉诺塔递归

1. 题目 在终端输入汉诺塔层数n&#xff0c;实现将n层汉诺塔通过三座塔座A、B、C进行排列 2. 代码 #include <stdio.h>int hannuota(int len, int str, int tmp, int dst) {if (1 len){printf("%c -> %c\n", str, dst);}else{hannuota(len-1, str, dst, …

好展位、抢先订!2024第二十二届上海国际涂料展|上海涂料展

致/To: 展会负责人、 市场部、 企划部、 销售部负责人 2024中国国际涂料博览会暨第二十二届中国国际涂料展览会 时间&#xff1a;2024年8月7-9日 地点&#xff1a;上海新国际博览中心 主办方&#xff1a; 中国涂料工业协会 承办方&#xff1a; 北京涂博国际展览有限公司 …

javaSwing坦克大战游戏

在游戏开发领域&#xff0c;坦克大战是一款经典的游戏&#xff0c;其简单而又耐玩的玩法吸引了无数玩家。而今&#xff0c;在Java编程技术的支持下&#xff0c;我们可以用Java Swing技术轻松实现这款经典游戏。本文将介绍如何使用Java Swing技术编写坦克大战游戏&#xff0c;并…

某对象存储元数据集群改造流水账

软件产品&#xff1a;某厂商提供的不便具名的对象存储产品&#xff0c;核心底层技术源自HDFS和Amazon S3&#xff0c;元数据集群采用了基于MongoDB的NOSQL数据库产品和MySQL数据库产品相结合。 该产品的元数据逻辑示意图如下&#xff1a; 业务集群现状&#xff1a;当前第3期建…

Qt 窗口MainWindow(上)

Qt 窗口是通过 QMainWindow 类来实现的。 QMainWindow 是一个为用户提供主窗口程序的类&#xff0c;继承自 QWidget 类&#xff0c;并且提供了⼀个预定义的布局。QMainWindow 包含一个菜单栏&#xff08;menubar&#xff09;、多个工具栏(toolbars)、多个浮动窗口&#xff08;…

JVM第八讲:GC - Java 垃圾回收基础知识

GC - Java 垃圾回收基础知识 本文是JVM第八讲&#xff0c; Java 垃圾回收基础知识。垃圾收集主要是针对堆和方法区进行&#xff1b;程序计数器、虚拟机栈和本地方法栈这三个区域属于线程私有的&#xff0c;只存在于线程的生命周期内&#xff0c;线程结束之后也会消失&#xff0…

Vue3尚硅谷张天禹笔记

1. Vue3简介 2020年9月18日&#xff0c;Vue.js发布版3.0版本&#xff0c;代号&#xff1a;One Piece&#xff08;n 经历了&#xff1a;4800次提交、40个RFC、600次PR、300贡献者 官方发版地址&#xff1a;Release v3.0.0 One Piece vuejs/core 截止2023年10月&#xff0c;最…

Java零基础入门到精通_Day 3

37 switch default&#xff1a; 后面的break;可以省略 38 春夏秋冬 注意事项:在switch语句中&#xff0c;如果case控制的语句体后面不写break&#xff0c;将出现穿透现象&#xff0c;在不判断下一个case值的情况下&#xff0c;向下运行 直到遇到break&#xff0c;或者整体swi…

在Python中进行封装

在Python中&#xff0c;封装是一种面向对象编程&#xff08;OOP&#xff09;的特性&#xff0c;它允许我们将数据&#xff08;属性&#xff09;和操作这些数据的方法&#xff08;函数&#xff09;捆绑在一起&#xff0c;形成一个独立的对象。封装的主要目的是隐藏对象的内部状态…

如何保证缓存与数据库的双写一致性?

如何保证缓存与数据库的双写一致性&#xff1f; 概述同步策略更新缓存还是删除缓存&#xff1a;先操作数据库还是缓存&#xff1a;案例一、先删除缓存&#xff0c;在更新数据库案例二 先操作数据库&#xff0c;再删除缓存 延时双删策略&#xff08;不推荐&#xff09;使用分布式…

Java拆装箱及128陷阱

有以下一段代码&#xff1a; Integer a 123; Integer b 123; int c 123; int d 123; System.out.println(c d); System.out.println(a b); System.out.println(a c); 这段代码运行的结果是什么呢&#xff1f; c d 一定为True。 由于Java中存在自动拆装箱&#xff0…

刷到一个问题还请道友们解疑

问题如上&#xff0c;题目挺简单的&#xff0c;就是插入后排序的思路&#xff0c;我的代码如下&#xff1a; #include <bits/stdc.h>using namespace std; int f(int x,int y){return x < y;//其实要这个没有用&#xff0c;默认是就是从小到大排序 }int main(){int n…

【MySQL】详谈约束

&#x1f466;个人主页&#xff1a;Weraphael ✍&#x1f3fb;作者简介&#xff1a;目前学习计网、mysql和算法 ✈️专栏&#xff1a;MySQL学习 &#x1f40b; 希望大家多多支持&#xff0c;咱一起进步&#xff01;&#x1f601; 如果文章对你有帮助的话 欢迎 评论&#x1f4ac…