CVPR 2024最佳论文奖新鲜出炉
其中一篇是Rich Human Feedback for Text-to-Image Generation,受大模型中的RLHF技术启发,团队用人类反馈来改进Stable Diffusion等文生图模型。
作者提出了收集丰富的细粒度人类反馈信息,用于更好地评估和改进生成模型。
论文链接:https://arxiv.org/abs/2312.10240
【Diffusion Models】在近年来的深度学习领域中备受关注,它通过模拟数据逐步演化的过程来生成高质量的样本,提升了模型在图像生成、语音合成和自然语言处理等任务中的表现。Diffusion Models技术能够在数据生成和重建方面取得优异的效果,成为生成模型中的新兴热点。其独特的方法和卓越的表现使其成为研究热点之一。
为了帮助大家全面掌握Diffusion Models的方法并寻找创新点,追寻顶会大佬的步伐,本文总结了最近两年【Diffusion Models】相关的20篇顶会论文的研究成果,这些论文的文章、来源以及论文的代码都整理好了,希望能为各位的研究工作提供有价值的参考。
需要的同学扫码添加我
回复“扩散模型20”即可全部领取
三篇详述:
1、InstanceDiffusion: Instance-level Control for Image Generation
-这篇文章介绍了一种名为InstanceDiffusion的新型图像生成模型,它通过提供精确的实例级控制,显著提升了文本到图像扩散模型的生成质量。InstanceDiffusion模型能够处理自由形式的语言条件,允许用户通过简单的点、涂鸦、边界框或复杂的实例分割掩模,以及这些方式的组合来灵活指定实例的位置。这种灵活性使得模型在设计和数据生成等领域具有广泛的应用潜力。
-文章首先指出了现有文本到图像扩散模型的局限性,即它们虽然能够生成高质量的图像,但在控制图像中个别实例的精确性和直观性方面存在不足。为了解决这个问题,作者提出了InstanceDiffusion,它通过三个主要的改进来实现精确的实例级控制:UniFusion模块、ScaleU模块和多实例采样器。UniFusion模块能够将各种形式的实例级条件投影到同一特征空间,并注入到视觉标记中;ScaleU模块通过重新校准UNet模型中的主要特征和跳跃连接特征的低频分量,增强了模型遵循指定布局条件的能力;多实例采样器则减少了多个实例条件之间的信息泄露和混淆。
-作者还构建了一个使用预训练模型生成的实例级标注数据集,并提出了一套新的评估基准和指标,用于衡量基于位置的图像生成的性能。InstanceDiffusion在多个数据集上的表现超越了先前专门针对特定实例条件的最先进的模型。特别是在COCO数据集上,InstanceDiffusion在边界框输入的情况下,APbox 50指标比之前的最佳模型提高了20.4%,在掩模输入的情况下,IoU指标提高了25.4%。
-文章还详细介绍了InstanceDiffusion的工作原理,包括如何将不同的实例条件格式化为2D点集,并通过不同的方式将这些条件融合到生成过程中。此外,作者还展示了InstanceDiffusion在处理具有挑战性的输入,如密集的小对象和各种位置条件时的能力。
-最后,文章通过一系列实验验证了InstanceDiffusion的性能,并与其他方法进行了比较。实验结果表明,InstanceDiffusion在遵循实例级文本提示的属性指定方面具有显著优势,例如在实例颜色准确性上比之前的方法提高了25.2个百分点,在纹理准确性上提高了9.2个百分点。作者还对InstanceDiffusion的各个组件进行了消融研究,以评估它们对生成图像的影响,并讨论了模型的潜在应用,如迭代图像生成,这允许用户在保留先前生成对象的完整性的同时,有选择性地插入新对象。
-尽管InstanceDiffusion在图像生成方面取得了显著进展,但文章也指出了其在生成小对象和纹理绑定方面的局限性,并提出了未来研究的方向,以进一步提高实例条件的生成质量。
2、Residual Denoising Diffusion Models
-这篇文章提出了一种新型的图像生成和修复模型,名为残差去噪扩散模型(Residual Denoising Diffusion Models,简称RDDM)。RDDM通过一种新颖的双重扩散过程,将传统的单去噪扩散过程分解为残差扩散和噪声扩散,从而扩展了去噪扩散模型的应用范围,并提高了其在图像生成和修复任务中的解释性。
-文章首先指出,在现实生活场景中,扩散过程通常是复杂且多方面的,例如多种气体的分散或不同类型的波或场的传播。这启发了作者思考现有的基于去噪的扩散模型在专注于去噪时可能存在的局限性。为了解决这个问题,文章提出了RDDM,该模型通过引入残差来解决单一去噪过程在图像修复中的非解释性问题。在RDDM中,残差扩散代表了从目标图像到条件输入图像的方向性扩散,并明确指导图像修复的逆生成过程,而噪声扩散代表了扩散过程中的随机扰动。
-文章详细介绍了RDDM的理论基础和方法论,包括前向扩散过程的定义、生成过程和训练目标,以及采样方法的选择策略。RDDM的前向扩散过程通过逐步添加残差和噪声到目标图像中来模拟图像质量的逐渐降低和噪声的增加。逆过程则涉及估计前向过程中注入的残差和噪声。文章提出了三种采样方法:仅预测残差(SM-Res)、仅预测噪声(SM-N)以及同时预测残差和噪声(SM-Res-N)。
-文章还探讨了RDDM与现有去噪扩散模型(如DDPM和DDIM)的兼容性,通过系数转换证明了RDDM的采样过程与DDPM和DDIM的采样过程是一致的。此外,文章提出了一种部分路径独立的生成过程,通过调整系数计划,可以在不影响图像生成结果的情况下,更好地理解逆过程。
-在实验部分,作者展示了RDDM在图像生成、修复、修复、翻译等不同任务上的应用,并与现有最先进方法进行了比较。实验结果表明,RDDM在图像修复任务上能够与最先进的方法相媲美,并且在图像生成任务上也表现出色。特别是在使用通用UNet网络和L1损失函数,批量大小为1的情况下,RDDM能够在少于5个采样步骤内实现与现有方法相当的性能。
-文章的贡献可以总结为:提出了一种新颖的双重扩散框架,通过引入残差来解决单一去噪过程在图像修复中的非解释性问题;引入了部分路径独立的生成过程,突出了残差和噪声在控制方向性残差偏移(确定性)和随机扰动(多样性)中的作用;设计了自动目标选择算法,用于为未知新任务选择预测残差或噪声;广泛的实验表明,RDDM能够适应不同的任务,无论是关注确定性还是多样性,无论是成对数据还是非成对数据。
-最后,文章讨论了RDDM的局限性,并提出了未来可能的研究方向,如深入分析RDDM与曲线/多变量积分之间的关系,开发能够处理多种不同任务的扩散模型,实施自适应学习系数计划以减少采样步骤并提高生成图像的质量,构建可解释的多维潜在扩散模型用于多模态融合等。
需要的同学扫码添加我
回复“扩散模型20”即可全部领取
3、DeepCache: Accelerating Diffusion Models for Free
-这篇文章介绍了一种名为DeepCache的新型训练无关范式,旨在加速扩散模型的推理过程。扩散模型因其在图像合成领域的卓越生成能力而受到广泛关注,但它们的计算成本较高,主要由于逐步去噪过程和模型体积庞大。DeepCache通过利用扩散模型中观察到的时序冗余,缓存并跨相邻去噪阶段检索特征,从而减少冗余计算,显著提高了模型的运行速度。
-文章首先指出,尽管扩散模型在多种应用中表现出色,但其推理速度慢是一个主要障碍。为了解决这一问题,DeepCache采用了一种新颖的策略,即在不增加额外训练负担的情况下,通过模型架构的角度加速扩散模型。具体来说,DeepCache利用了U-Net结构的属性,在每个去噪步骤中以非常低的成本更新低级特征,同时重用高级特征。这种方法使得Stable Diffusion v1.5的速度提高了2.3倍,CLIP分数仅下降了0.05,而LDM-4-G的速度提高了4.1倍,在ImageNet上的FID仅下降了0.22。
-文章详细介绍了DeepCache的工作原理,包括其如何通过缓存机制减少计算量,以及如何通过1:N策略适应长时间缓存间隔。此外,文章还展示了DeepCache在多个数据集上的性能,包括CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt,并在DDPM、LDM和Stable Diffusion等模型下进行了测试。实验结果表明,DeepCache在保持相同吞吐量的情况下,与DDIM或PLMS相比,能够实现相当甚至略微改进的结果。
-文章还探讨了DeepCache与现有剪枝和蒸馏方法的比较,这些方法需要重新训练,而DeepCache则显示出其优越性。此外,文章还对DeepCache的实现细节进行了讨论,包括模型训练、数据集选择、评估指标和实验设置。作者提供了详细的实验结果和可视化图像,展示了DeepCache在不同配置下的性能。
-最后,文章讨论了DeepCache的局限性,包括其对预训练扩散模型结构的依赖,以及在更大的缓存步骤下可能遇到的性能下降问题。尽管存在这些限制,作者认为DeepCache为扩散模型的加速提供了一种新的视角,并在多个数据集和扩散模型上展示了其有效性。文章还提供了DeepCache的代码,以鼓励进一步的探索、应用和发展这一创新框架。
需要的同学扫码添加我
回复“扩散模型20”即可全部领取