扩散模型荣获CVPR2024最佳论文奖,最新成果让评估和改进生成模型更加效率!

CVPR 2024最佳论文奖新鲜出炉

其中一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型。

作者提出了收集丰富的细粒度人类反馈信息,用于更好地评估和改进生成模型。

论文链接:https://arxiv.org/abs/2312.10240

图片

【Diffusion Models】在近年来的深度学习领域中备受关注,它通过模拟数据逐步演化的过程来生成高质量的样本,提升了模型在图像生成、语音合成和自然语言处理等任务中的表现。Diffusion Models技术能够在数据生成和重建方面取得优异的效果,成为生成模型中的新兴热点。其独特的方法和卓越的表现使其成为研究热点之一。

为了帮助大家全面掌握Diffusion Models的方法并寻找创新点,追寻顶会大佬的步伐,本文总结了最近两年【Diffusion Models】相关的20篇顶会论文的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“扩散模型20”即可全部领取

三篇详述:

1、InstanceDiffusion: Instance-level Control for Image Generation

图片

-这篇文章介绍了一种名为InstanceDiffusion的新型图像生成模型,它通过提供精确的实例级控制,显著提升了文本到图像扩散模型的生成质量。InstanceDiffusion模型能够处理自由形式的语言条件,允许用户通过简单的点、涂鸦、边界框或复杂的实例分割掩模,以及这些方式的组合来灵活指定实例的位置。这种灵活性使得模型在设计和数据生成等领域具有广泛的应用潜力。

-文章首先指出了现有文本到图像扩散模型的局限性,即它们虽然能够生成高质量的图像,但在控制图像中个别实例的精确性和直观性方面存在不足。为了解决这个问题,作者提出了InstanceDiffusion,它通过三个主要的改进来实现精确的实例级控制:UniFusion模块、ScaleU模块和多实例采样器。UniFusion模块能够将各种形式的实例级条件投影到同一特征空间,并注入到视觉标记中;ScaleU模块通过重新校准UNet模型中的主要特征和跳跃连接特征的低频分量,增强了模型遵循指定布局条件的能力;多实例采样器则减少了多个实例条件之间的信息泄露和混淆。

-作者还构建了一个使用预训练模型生成的实例级标注数据集,并提出了一套新的评估基准和指标,用于衡量基于位置的图像生成的性能。InstanceDiffusion在多个数据集上的表现超越了先前专门针对特定实例条件的最先进的模型。特别是在COCO数据集上,InstanceDiffusion在边界框输入的情况下,APbox 50指标比之前的最佳模型提高了20.4%,在掩模输入的情况下,IoU指标提高了25.4%。

-文章还详细介绍了InstanceDiffusion的工作原理,包括如何将不同的实例条件格式化为2D点集,并通过不同的方式将这些条件融合到生成过程中。此外,作者还展示了InstanceDiffusion在处理具有挑战性的输入,如密集的小对象和各种位置条件时的能力。

-最后,文章通过一系列实验验证了InstanceDiffusion的性能,并与其他方法进行了比较。实验结果表明,InstanceDiffusion在遵循实例级文本提示的属性指定方面具有显著优势,例如在实例颜色准确性上比之前的方法提高了25.2个百分点,在纹理准确性上提高了9.2个百分点。作者还对InstanceDiffusion的各个组件进行了消融研究,以评估它们对生成图像的影响,并讨论了模型的潜在应用,如迭代图像生成,这允许用户在保留先前生成对象的完整性的同时,有选择性地插入新对象。

-尽管InstanceDiffusion在图像生成方面取得了显著进展,但文章也指出了其在生成小对象和纹理绑定方面的局限性,并提出了未来研究的方向,以进一步提高实例条件的生成质量。

2、Residual Denoising Diffusion Models

图片

-这篇文章提出了一种新型的图像生成和修复模型,名为残差去噪扩散模型(Residual Denoising Diffusion Models,简称RDDM)。RDDM通过一种新颖的双重扩散过程,将传统的单去噪扩散过程分解为残差扩散和噪声扩散,从而扩展了去噪扩散模型的应用范围,并提高了其在图像生成和修复任务中的解释性。

-文章首先指出,在现实生活场景中,扩散过程通常是复杂且多方面的,例如多种气体的分散或不同类型的波或场的传播。这启发了作者思考现有的基于去噪的扩散模型在专注于去噪时可能存在的局限性。为了解决这个问题,文章提出了RDDM,该模型通过引入残差来解决单一去噪过程在图像修复中的非解释性问题。在RDDM中,残差扩散代表了从目标图像到条件输入图像的方向性扩散,并明确指导图像修复的逆生成过程,而噪声扩散代表了扩散过程中的随机扰动。

-文章详细介绍了RDDM的理论基础和方法论,包括前向扩散过程的定义、生成过程和训练目标,以及采样方法的选择策略。RDDM的前向扩散过程通过逐步添加残差和噪声到目标图像中来模拟图像质量的逐渐降低和噪声的增加。逆过程则涉及估计前向过程中注入的残差和噪声。文章提出了三种采样方法:仅预测残差(SM-Res)、仅预测噪声(SM-N)以及同时预测残差和噪声(SM-Res-N)。

-文章还探讨了RDDM与现有去噪扩散模型(如DDPM和DDIM)的兼容性,通过系数转换证明了RDDM的采样过程与DDPM和DDIM的采样过程是一致的。此外,文章提出了一种部分路径独立的生成过程,通过调整系数计划,可以在不影响图像生成结果的情况下,更好地理解逆过程。

-在实验部分,作者展示了RDDM在图像生成、修复、修复、翻译等不同任务上的应用,并与现有最先进方法进行了比较。实验结果表明,RDDM在图像修复任务上能够与最先进的方法相媲美,并且在图像生成任务上也表现出色。特别是在使用通用UNet网络和L1损失函数,批量大小为1的情况下,RDDM能够在少于5个采样步骤内实现与现有方法相当的性能。

-文章的贡献可以总结为:提出了一种新颖的双重扩散框架,通过引入残差来解决单一去噪过程在图像修复中的非解释性问题;引入了部分路径独立的生成过程,突出了残差和噪声在控制方向性残差偏移(确定性)和随机扰动(多样性)中的作用;设计了自动目标选择算法,用于为未知新任务选择预测残差或噪声;广泛的实验表明,RDDM能够适应不同的任务,无论是关注确定性还是多样性,无论是成对数据还是非成对数据。

-最后,文章讨论了RDDM的局限性,并提出了未来可能的研究方向,如深入分析RDDM与曲线/多变量积分之间的关系,开发能够处理多种不同任务的扩散模型,实施自适应学习系数计划以减少采样步骤并提高生成图像的质量,构建可解释的多维潜在扩散模型用于多模态融合等。

需要的同学扫码添加我

回复“扩散模型20”即可全部领取

3、DeepCache: Accelerating Diffusion Models for Free

图片

-这篇文章介绍了一种名为DeepCache的新型训练无关范式,旨在加速扩散模型的推理过程。扩散模型因其在图像合成领域的卓越生成能力而受到广泛关注,但它们的计算成本较高,主要由于逐步去噪过程和模型体积庞大。DeepCache通过利用扩散模型中观察到的时序冗余,缓存并跨相邻去噪阶段检索特征,从而减少冗余计算,显著提高了模型的运行速度。

-文章首先指出,尽管扩散模型在多种应用中表现出色,但其推理速度慢是一个主要障碍。为了解决这一问题,DeepCache采用了一种新颖的策略,即在不增加额外训练负担的情况下,通过模型架构的角度加速扩散模型。具体来说,DeepCache利用了U-Net结构的属性,在每个去噪步骤中以非常低的成本更新低级特征,同时重用高级特征。这种方法使得Stable Diffusion v1.5的速度提高了2.3倍,CLIP分数仅下降了0.05,而LDM-4-G的速度提高了4.1倍,在ImageNet上的FID仅下降了0.22。

-文章详细介绍了DeepCache的工作原理,包括其如何通过缓存机制减少计算量,以及如何通过1:N策略适应长时间缓存间隔。此外,文章还展示了DeepCache在多个数据集上的性能,包括CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt,并在DDPM、LDM和Stable Diffusion等模型下进行了测试。实验结果表明,DeepCache在保持相同吞吐量的情况下,与DDIM或PLMS相比,能够实现相当甚至略微改进的结果。

-文章还探讨了DeepCache与现有剪枝和蒸馏方法的比较,这些方法需要重新训练,而DeepCache则显示出其优越性。此外,文章还对DeepCache的实现细节进行了讨论,包括模型训练、数据集选择、评估指标和实验设置。作者提供了详细的实验结果和可视化图像,展示了DeepCache在不同配置下的性能。

-最后,文章讨论了DeepCache的局限性,包括其对预训练扩散模型结构的依赖,以及在更大的缓存步骤下可能遇到的性能下降问题。尽管存在这些限制,作者认为DeepCache为扩散模型的加速提供了一种新的视角,并在多个数据集和扩散模型上展示了其有效性。文章还提供了DeepCache的代码,以鼓励进一步的探索、应用和发展这一创新框架。

需要的同学扫码添加我

回复“扩散模型20”即可全部领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/726742.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深度优先遍历-在二叉树中找到两个节点的最近公共祖先

一、问题描述 二、解题思路 使用深度递归的方式,如果当前结点val为o1时,返回1,如果当前结点是val为o2时,返回2; 1.当前结点的左右子树结点返回值分别为1和2时,说明该结点是最近的公共祖先结点 2.当前结点…

联邦学习——学习笔记1:FedAvg算法

文章目录 本笔记参考自b站up主:丸一口 原视频链接 如上图,现有6个医院:眼科、儿科、妇科、骨科、综合医院1、综合医院2。中间节点为政府。 现政府要求用各个医院的数据训练某个模型,希望对某些疾病进行一些预测,数据…

【Linux】—在Linux中搭建Python环境

文章目录 前言一、检查Linux系统是否自带Python版本。二、安装依赖包(重要)三、下载Python-3.9.5安装包四、下载完成后,通过xftp6上传到Linux服务器上五、解压Python安装包六、编译安装Python七、配置Python环境变量八、运行Python,查看是否可用九、pyth…

图像处理与视觉感知复习--频率域图像增强图像变换

文章目录 图像变换与信号分解正弦信号与傅里叶级数傅里叶变换离散傅里叶变换(DFT)频率域滤波 图像变换与信号分解 空间域:就是像素域,在空间域的处理是在像素级的处理,如像素级的叠加。 频率域:任何一个波形都可以分解用多个正弦…

AI交互数字人如何赋能数智教育?

随着AI交互数字人技术的飞速发展,教育领域正经历着前所未有的变革。AI交互数字人为教育领域注入了全新活力,重塑着教学模式,为学生带来沉浸式学习体验。 AI交互数字人在教育领域中,可以应用在: 1、个性化学习教学指导…

APM Profile 在系统可观测体系中的应用

引言 应用程序性能分析(Application Performance Management,APM)是一个广泛的概念,涉及应用程序运行时各种性能指标的监测、诊断和优化。在可观测体系建设中,APM 是保障系统业务运行性能的关键技术,确保用…

递归算法:代码迷宫中的无限探索

✨✨✨学习的道路很枯燥,希望我们能并肩走下来! 目录 前言 一 深入理解递归 二 迭代VS递归 三 递归算法题目解析 3.1 汉诺塔问题 3.2 合并两个有序链表 3.3 反转链表 3.4 两两交换链表中的节点 3.5 Pow(x,n)(快速幂)…

CRMEB-PHP多商户版安装系统配置清单

系统在安装完成之后,需要对系统进行一系列的配置,才能正常使用全部的功能,以下是官方整理的配置清单 平台后台 商户后台

计算机SCI期刊,中科院3区,易过审,专业认可度不错

一、期刊名称 Journal of Cloud Computing-Advances Systems and Applications 二、期刊简介概况 期刊类型:SCI 学科领域:计算机科学 影响因子:4 中科院分区:3区 三、期刊征稿范围 Journal of Cloud Computing:A…

MyBatis 动态 SQL怎么使用?

引言:在现代的软件开发中,数据库操作是任何应用程序的核心部分之一。而在 Java 开发领域,MyBatis 作为一款优秀的持久层框架,以其简洁的配置和强大的灵活性被广泛应用。动态 SQL 允许开发人员根据不同的条件和场景动态地生成和执行…

Flutter 简化线程Isolate的使用

文章目录 前言一、完整代码二、使用示例1、通过lambda启动线程2、获取线程返回值3、线程通信4、结束isolate 总结 前言 flutter的线程是数据独立的,每个线程一般通过sendport来传输数据,这样使得线程调用没那么方便,本文将提供一种支持lambd…

CIRCOS圈图绘制 - circos安装

Circos是绘制圈图的神器,在http://circos.ca/images/页面有很多CIRCOS可视化的示例。 Circos可以在线使用,在线使用时是把表格转为圈图,不过只允许最大75行和75列;做一些简单的示意图会比较好,最后时会介绍下在线的tab…

vue大屏适配方案

前言 开发过大屏的铁汁们应该知道,前期最头疼的就是大屏适配,由于大屏项目需要在市面上不是很常见的显示器上进行展示,所以要根据不同的尺寸进行适配,今天我将为大家分享的我使用的大屏适配方案,话不多说,直…

MySQL Server和Server启动程序(一)

MySQL Server mysqld,也称为MySQL Server,是一个单线程多任务的程序,它在MySQL安装中执行大部分工作。它不会生成额外的进程。MySQL Server管理对包含数据库和表的MySQL数据目录的访问。数据目录也是其他信息(如日志文件和状态文…

Windows Server配置iSCSI,做ESXI共享存储

1:使用一台Windows Server2022主机配置iSCSI,准备给ESXI8.0做共享存储使用。有一些ESXI的功能必须使用共享存储才行,比如HA的功能。 2:登录系统,点击添加角色和功能。 3:之后一路下一步,在选择…

健身器械行业外贸ERP管理降本增效解决方案

随着经济的迅速发展,以及健身锻炼的普及,人们对健身器材的需求量也在大幅度增加。欧美市场增长迅猛,家用健身器材热度飙升,尤其是跑步机、健身单车等轻便型家用健身器材,备受消费者青睐。 出口的主要国家包括&#xf…

Git 和 TortoiseGit 安装和配置(图文详解)

使用git,需要在Windows上需要安装两个软件:1)Git 2)TortoiseGit 若需要,可以下载TortoiseGit汉化语言包。 注意:tortoiseGit是在安装了Git的基础上运行的,所以需要先安装Git,后安装…

智慧校园导航系统:技术驱动下的校园管理与师生体验革新

随着智慧校园建设的不断推进,校园导航系统作为提升校园管理效率、优化师生出行体验的重要工具,正逐渐成为各大高校的标配。本文将重点介绍维小帮智慧校园导航系统,如何通过创新的设计和功能,解决校园导航中的种种难题,…

1分钟带你部署本地Llama3大模型

介绍 LLaMa 3由Meta于2024年4月18日正式发布,这一版本是对先前LLaMa系列的重大升级。新发布的模型包括8B(80亿参数)和70B(700亿参数)两个版本,这两个版本在一系列行业标准基准测试中展示了最先进的性能。 从…

低版本火狐浏览器报错:class is a reserved identifier

低版本火狐浏览器报错:class is a reserved identifier 原因:react-dnd,dnd-core 等node包的相关依赖有过更新,使得在低版本火狐浏览器中不支持 class 解决方法:在使用webpack打包构建时,编译排除node_modu…