(2024,DDDM,ODE,少量步生成,迭代生成)直接去噪扩散模型

Directly Denoising Diffusion Model

公众号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 直接去噪扩散模型

3.1. 迭代求解

4. Psuedo-LPIPS 指标

5. 实验

7. 讨论和局限性


0. 摘要

本文介绍了直接去噪扩散模型(Directly Denoising Diffusion Model,DDDM):一种简单且通用的方法,采用少步采样生成逼真的图像,同时保留了多步采样以获得更好的性能。DDDM 不需要精心设计的采样器,也不需要在预训练的蒸馏模型上进行蒸馏。DDDM 在估计的目标上训练扩散模型,该目标是由自身之前训练迭代生成的。为了生成图像,还考虑了来自上一个时间步长的样本,通过迭代地引导生成过程。我们进一步提出了 Pseudo-LPIPS,一种更稳健的度量损失,能够更好地适应各种超参数值。尽管方法简单,但在基准数据集上表现出了强大的性能。我们的模型在 CIFAR-10 数据集上实现了 FID 分数分别为 2.57 和 2.33,在一步和两步采样中,超过了来自 GAN 和基于蒸馏的模型获得的分数。通过将采样扩展到 1000 步,我们将 FID 分数进一步降低到 1.79,与文献中最先进的方法保持一致。对于 ImageNet 64x64,我们的方法与领先的模型相比具有竞争力。 

(2021|ICLR,扩散先验,VE-SDE,逼真和忠实的权衡)SDEdit:使用随机微分方程引导图像合成和编辑(2024|ICLR,DDBM,基于分数的 ODE 和 SDE,Doob 的 h 变换)去噪扩散桥模型 

3. 直接去噪扩散模型

求解概率流(PF)常微分方程(ODE)等价于计算以下积分:

其中 x_{T} 从正态分布 N(0, I) 初始化。 为了从 DM 生成样本,我们提出了直接去噪扩散模型(DDDM),这是一个用于改进 x_{0} 估计的迭代过程。首先,我们将 f(x_{0}, x_{t}, t) 定义为从初始时间 t 到最终时间 0 的 PF ODE 的解(附录 A.1):

其中 x_{t} 从

中抽取。随后,我们引入了函数 F(x_{0}, x_{t}, t) 的定义如下:

因此,我们有:

通过近似 f,我们可以恢复原始图像 x_{0}。我们定义一个由神经网络参数化的函数 f_θ,用于估计 PF ODE 的解,从而在时间 0 恢复原始图像状态。预测模型表示为:

其中 F_θ 是由权重 θ 参数化的神经网络函数。为了实现对初始状态 x_{0} 的良好恢复,需要确保

3.1. 迭代求解

方程 (3) 表明,我们的神经网络 F_θ 需要 x_0 作为输入,但这在样本生成过程中不适用。为了在同一框架内统一训练和推断,我们提出了一个迭代更新规则来估计动态系统的初始状态 x_0。这个迭代过程由以下更新方程正式定义:

其中 x^(n)_0 表示第 n 个训练周期或第 n 次采样迭代的估计地面真实数据 x_0。每次更新都会调整此估计以试图收敛到真实的初始状态。为了有效地量化 DDDM 中第 n 次估计 x^(n)_0 与真实初始状态 x_0 之间的差异,我们采用以下损失函数。

定义 3.1. 第 n 次迭代中 DDDM 的损失函数定义为:

其中 U[1, T] 表示整数集合 [1, 2, ..., T] 上的均匀分布。d(·, ·) 是一个满足对于所有向量 x 和 y,d(x, y)>=0 并且 d(x, y) = 0 当且仅当 x = y 的度量函数。因此,常用的度量方法如 L_1、L_2 等可以被利用。我们将在第 4 节讨论我们选择的 d(·, ·) 。这个定义封装了估计状态 x^(n)_0 与真实初始状态 x_0 之间的预期差异,整合了数据和时间域的概率模型。

训练。每个数据样本 x_0 都是从数据集中随机选择的,遵循概率分布 p_data (x_0)。这个初始数据点构成了生成轨迹的基础。接下来,我们随机抽样一个时间步 t ∼ U[1, T],并从分布

中获取其噪声变体 x_t。我们使用重新参数化技巧来重新表示

对于当前训练周期 n,我们的模型接收噪声数据 x_t 和时间步 t,以及来自上一个周期的相应估计目标 x^(n-1)_0 作为输入,预测一个新的近似值 x^(n)_0,它将在下一个训练周期中用于相同的目标样本。DDDM 通过最小化方程 5 的损失来进行训练。DDDM 的完整训练过程总结在算法 1 中。

采样。样本的生成通过一个训练良好的 DDDM 来实现,记为 fθ(·, ·).。该过程从初始高斯分布抽样开始,其中 x^(0)_0 和 x^(T)_0 都从 N(0, I) 中抽样。随后,这些噪声向量和 T 的嵌入被通过 DDDM 模型,以获得 x^est_0 = fθ(x^(0)_0 , x_T , T)。这种方法值得注意的是其效率,因为它只需要对模型进行一次前向传播。我们的模型还支持多步采样过程,以提高样本质量。详细信息可以在算法 2 中找到。 在这里,我们提供了我们方法收敛的理论证明(见原论文)

4. Psuedo-LPIPS 指标

在图像生成中,图像质量的评估变得越来越关键。可学习感知图像补丁相似度(LPIPS,Zhang 等人(2018))指标已经成为提高生成图像质量的重要工具。然而,在实践中,LPIPS 仍然不足以应对异常值。受 Song & Dhariwal (2023) 最近使用 Psuedo-Huber 损失显著提高训练一致性模型鲁棒性的启发,我们提出了 LPIPS 指标的修改版本,称为 Psuedo-LPIPS: 

其中 c 是一个可调节的超参数。与 Psuedo-Huber 指标类似,Psuedo-LPIPS 指标中的项 c^2 和随后的平方根转换旨在提供更平衡和感知上一致的度量。这种方法减轻了对较大误差的过度强调,并增加了度量在识别图像感知差异方面的灵敏度和准确性。Psuedo-LPIPS 指标的优点如下:

  • 对感知差异的敏感度增强:修改后的指标对轻微的感知差异进行了精细调整,这些差异常常被传统指标忽略。在需要高精度图像质量的领域,如医学成像或高保真渲染中,这种敏感性尤为宝贵。
  • 平衡的错误强调:它在各种错误大小上提供了更公平的强调,与 L2 范数倾向于过度惩罚较大误差形成对比。
  • 适应性:常数 c 的引入使得该指标具有灵活性,使得该指标适用于不同的情景和数据集。
  • 提高的稳健:该指标对异常值和异常情况更具稳健性,通过平方根转换,解决了 Psuedo-Huber 损失中的一个常见缺陷。

与 L2 范数和 Psuedo-Huber 损失相比,修改后的 LPIPS 与人类感知判断更为接近。L2 范数在数学形式上虽然简单,但通常无法准确地代表人类视觉。Psuedo-Huber 损失虽然试图将 L1 范数和 L2 范数的优点合并起来,但有时在提供平衡的感知质量表示方面存在不足。通过其细致的制定,Psuedo-LPIPS 有效地弥合了这些差距,提供了一种既具有感知意义又在数学上合理的指标。

5. 实验

7. 讨论和局限性

由于 DDDM 为数据集中的每个样本跟踪 x^(n)_0,在训练过程中会消耗额外的内存。具体来说,它需要额外的 614MB 用于 CIFAR-10 和 29.5GB 用于 ImageNet 64x64。尽管可以通过使用 FP16 数据类型将内存需求减半,但这种内存需求对于更大数据集或高分辨率图像数据集来说仍可能是一个挑战。

我们还注意到,评估过程中可能存在偏差,因为在 LPIPS 和用于 FID 的 Inception 网络中都使用了 ImageNet。LPIPS 中 ImageNet 特征的意外泄露可能会导致 FID 得分的虚高。需要采用其他评估指标,如人工评估,以进一步验证我们的模型。此外,研究针对 DDDM 的无偏损失也是未来研究的一个有趣方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/651418.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大模型时代的具身智能系列专题(二)

李飞飞团队 李飞飞是华人在AI领域最具影响力的学者之一,她是斯坦福大学人工智能实验室(SAIL)教授,美国国家工程院院士,知名CV数据集ImageNet的牵头人,斯坦福视觉与学习实验室(SVL)的…

2024.05.27学习记录

1、面经复习: 实际工作经验章节 2、代码随想录刷题:动态规划剩下部分和单调栈 3、rosebush 组件库完成Input 和 AutoComplete部分内容

长难句打卡5.27

In fact, allowing non-lawyers to own shares in law firms would reduce costs and improve services to customers, by encouraging law firms to use technology and to employ professional managers to focus on improving firms’efficiency. 事实上,这通过…

can设备调试 - linux driver

这篇文章主要介绍can设备的调试相关信息,不具体介绍驱动的实现。 如果驱动写完,对can设备进行验证,可能会出现很多不可预见的问题。下面说说验证步骤 验证can设备可以使用工具can-utils。这个工具包中会有cansend candump等程序。可以直接通…

视频监控技术前沿探索:智能化趋势与EasyCVR视频汇聚技术应用

在数字化时代的浪潮中,视频监控技术以其独特的优势,正在安防领域书写着新的篇章。它不仅为公共安全部门提供了强大的技术支持,还深入到教育、政府、娱乐、医疗、酒店、运动等多个领域,成为维护社会秩序、保障人民安全的重要工具。…

python爬虫学习(2)——requests模块

520那天我向心仪的女孩要微信:“女神,能给我你的微信号吗?” 女神:“给我——爬!!!!” 从那天开始,我就决定要学好爬虫,爬到女神微信号!&#xff…

分布式锁的原理和实现(Go)

文章目录 为什么需要分布式锁?go语言分布式锁的实现Redis自己的实现红锁是什么别人的带红锁的实现 etcdzk的实现 面试问题什么是分布式锁?你用过分布式锁吗?你使用的分布式锁性能如何,可以优化吗?怎么用Redis来实现一个…

CHI Read传输——CHI(3)

目录 一、Read操作概览 二、DMT(Direct Memory Transfer) 三、DCT (Direct Cache Transfer) 四、without Direct Data Transfer 五、ReadNoSnp and ReadOnce* structure with DMT 本篇我们来介绍一下CHI传输类型中的Read 一、Read操作概览 read操作有以下几种&#xff1…

详解CSS(二)

目录 1.背景属性 1.1背景颜色 1.2背景图片 1.3背景平铺 1.4背景位置 1.5背景尺寸 2.圆角矩形 3.元素的显示模式 3.1行内元素/内联元素(Inline element) 3.2块级元素(Block-level element) 3.3行内块元素(In…

css-垂直居中的几种写法

图示 1、使用line-height属性(当div有固定高度时) 2、使用flexbox布局

AGV与智能仓储的应用案例

背景介绍 该企业的智能工厂专注于高端家用电器的生产与研发,包括电子坐便盖、电子坐便器、吸尘器、洗碗机等,覆盖8条关键产线。面对日益增长的市场需求和生产节奏的加快,传统的物流方式已无法满足高效、精准的生产要求。为此,企业…

报名倒计时!「飞天技术沙龙-CentOS 迁移替换专场」参会指南

为帮助广大用户诊断 CentOS 迁移替换过程中的疑难杂症,「飞天技术沙龙-CentOS 迁移替换专场」将于 5 月 29 日(周三)在北京举办,将围绕如何在确保服务的连续性和稳定性的前提下实现平滑迁移及如何最大限度地利用现有资源前提下确保…

【LeetCode】【9】回文数(1047字)

文章目录 [toc]题目描述样例输入输出与解释样例1样例2样例3 提示进阶Python实现 个人主页:丷从心 系列专栏:LeetCode 刷题指南:LeetCode刷题指南 题目描述 给一个整数x,如果x是一个回文整数,返回true;否…

春秋云境CVE-2018-7422

简介 WordPress Plugin Site Editor LFI 正文 1.进入靶场 2.漏洞利用 /wp-content/plugins/site-editor/editor/extensions/pagebuilder/includes/ajax_shortcode_pattern.php?ajax_path/../../../../../../flag看别人wp做的。不懂怎么弄的,有没有大佬讲一下的

科技引领未来:高速公路可视化

高速公路可视化监控系统利用实时视频、传感器数据和大数据分析,通过图扑 HT 可视化展示交通流量、车速、事故和路况信息。交通管理人员可以实时监控、快速响应突发事件,并优化交通信号和指挥方案。这一系统不仅提高了道路安全性和车辆通行效率&#xff0…

由于找不到d3dx9_39.dll,无法继续执行代码的5种解决方法

在现代科技发展的时代,电脑已经成为我们生活中不可或缺的一部分。然而,由于各种原因,我们可能会遇到一些电脑问题,其中之一就是“d3dx9_39.dll丢失”。这个问题可能会导致我们在运行某些游戏或应用程序时遇到错误提示,…

第53期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…

07_Servlet

Servlet 一 Servlet简介 1.1 动态资源和静态资源 静态资源 无需在程序运行时通过代码运行生成的资源,在程序运行之前就写好的资源. 例如:html css js img ,音频文件和视频文件 动态资源 需要在程序运行时通过代码运行生成的资源,在程序运行之前无法确定的数据,运行时动态生成…

洛谷 CF1209D Cow and Snacks

题目来源于:洛谷 题目本质:并查集 解题思路: 我们以每种化为一个点,以每个客人喜欢的两朵花给两朵花连一条无向边。则会出现一定数目的连通块,连通块总个数为 ans。 对每个连通块进行分析:第一个客人买走…

重大新闻! AUS GLOBAL 上线积分商城

AUS Global Mall:概述 AUS Global Mall是由AUS Global ,一家外汇经纪公司推出的令人兴奋的新在线商店。作为一个尊贵的客户,你现在可以获得广泛的产品和服务,可以通过积分兑换。通过AUS Global Mall,我们旨在为您提供…