论文阅读:《High-Resolution Image Synthesis with Latent Diffusion Models》

High-Resolution Image Synthesis with Latent Diffusion Models

论文链接
代码链接

What’s the problem addressed in the paper?(这篇文章究竟讲了什么问题?比方说一个算法,它的 input 和 output 是什么?问题的条件是什么)

  • 这篇文章提出了一种合成高分辨率图片的潜在空间扩散模型(LDM),解决了在像素空间中优化Diffusion Models时面临的高计算开销问题。
  • 下图是LDM的结构流程图,从左到右的三个模块分别是:感知图片压缩(Perceptual Image Compression),潜在扩散模型(Latent Diffusion Model),和条件机制模块(Condition mechanism)。首先,原始图片 x x x在像素空间中被感知压缩模型压缩为潜在空间特征 z z z,然后,Unet通过扩散过程(向 z z z中添加噪声和去除噪声)重构了潜在空间特征 z t z_t zt,其被解码为输出图片 x ~ \tilde{x} x~。在这个过程中,条件机制将输入的条件(例如,文本,图片等)编码为文本嵌入。然后,利用cross-attention机制将条件输入注入到Unet结构中。
    LDM的模型结构

Is it a new problem? If it is a new problem, why does it matters? 新问题的话有意义吗?重要吗? If it is not an entirely new problem, why does it still matter? 为什么要研究这个问题/为什么这个问题是重要的

  • 不是新问题,但是仍然很重要
  • 因为在高分辨率图片数据上进行训练时梯度的计算量很大,而现有的采样和层级化策略无法解决这个问题。

What is the scientific hypothesis that the paper is trying to verify? 这篇文章觉得自己发现了什么新的知识?

  • 在一个压缩的潜在空间(compressed latent space)上优化的一个潜在扩散模型,可以高效和低开销地合成高分辨率的图片,在和cross-attention机制结合后,LDM可以有效应用于条件生成任务,包括文本生成图片等任务。

What are the key related works and what are the key people working in this topic?

  • Diffusion Models(DMs) & UNet:
    Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. CoRR, abs/1503.03585, 2015.
  • cross attentions
    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
  • UNet:
    Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NIPS, pages 5998–6008, 2017
  • image compression
    Patrick Esser, Robin Rombach, and Bj¨orn Ommer. Taming transformers for high-resolution image synthesis. CoRR,abs/2012.09841, 2020

What’s the key of the proposed solution in the paper? 所提解决方案的关键

  • 将在像素空间上优化扩散模型转变为在一个低维潜在空间上优化模型

How are experiment designed?

  • 1、分析不同downsampling factors f 对LDMs性能的影响,包括FID,IS等指标(On Perceptual Compression Tradeoffs)
    不同f的影响

  • 2、无条件图片合成评估:在不同数据集上,像素空间上训练的DMs和LDM在图片质量(FID)和有效性(Precision和Recall)上进行比较 (Image Generation with Latent Diffusion)
    无条件图片合成

  • 3、条件图片合成评估(text-to-image, class-to-image, layout-to-image, image-to-image)(Conditional Latent Diffusion)
    布局生成图片
    类生成图片

文生图

  • 4、超分辨率图片合成(在低分辨率数据集上训练的模型可以生成高分辨率图片)(Super-Resolution with Latent Diffusion)
    超分辨率图片合成

  • 5、图片修复任务(Inpainting with Latent Diffusion)
    图片修复效率
    超分辨率图片合成和图片修复任务的用户偏好调查

What datasets are used for quantatitiave evaluation? Is the code open sourced?

  • 数据集:unconditional:CelebA-HQ [39], FFHQ [41], LSUN-Churches and Bedrooms [102],and ImageNet [12];conditional:LAION-400M [78]
  • 评估标准:FID、IS、Precision-and-Recall等
  • 代码:https://github.com/CompVis/latent-diffusion
  • 基准方法

Is the scientific hypothesis well supported by evidence in the experiments?

  • 是。LDM相较于像素空间训练的DMs,大大降低了计算开销,并且在无条件和条件图片合成任务中表现得更好。

What are the contributions of this paper? (try to summarize in your own words)

  • 压缩的低维度潜在空间相较于像素空间,在高分辨率图片合成时更能减少计算和时空开销,同时保证图片质量
  • 潜在扩散模型(LDM)能够在多种图片合成任务上取得优异的变现(包括无条件和条件生成)
  • 开源可复用的代码

What should do next? 这篇文章局限性在哪里,接着它还能怎么做?

  • 尽管LDM比基于像素空间的DMs减少了很多计算开销,但是它的序列采样过程仍然比GAN慢
  • LDM在像素空间上需要高细粒度精度的任务,LDM仍然存在不足

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/412305.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Nginx的核心配置指令及调优

目录 Nginx 核心配置指令 一、Nginx配置文件详解 1、配置文件目录 2、配置文件结构 二、调优 1、在全局域进行的调优 1.1线程池指令 1.2 工作进程数指令 1.3工作进程优先级指令 1.4 工作进程 CPU 绑定指令 1.5 调试可打开的文件个数 1.6 调试文件大小指令 1.7 只运…

【Docker】03 容器操作

文章目录 一、流转图二、基本操作2.1 查看本地容器进程2.2 启动容器2.2.1 交互式启动容器2.2.2 后台启动容器 2.3 进入容器2.4 停止启动重启容器2.5 退出容器2.6 删除容器2.7 提交容器(打包成镜像)2.8 拷贝文件2.8.1 拷贝容器内文件到宿主机2.8.2 拷贝宿…

2024.2.29 模拟实现 RabbitMQ —— 项目展示

目录 项目介绍 核心功能 核心技术 演示直接交换机 演示扇出交换机 演示主题交换机 项目介绍 此处我们模拟 RabbitMQ 实现了一个消息队列服务器 核心功能 提供了 虚拟主机、交换机、队列、绑定、消息 概念的管理九大核心 API 创建队列、销毁队列、创建交换机、销毁交换机、…

react useMemo 用法

1,useCallback 的功能完全可以由 useMemo 所取代,如果你想通过使用 useMemo 返回一个记忆函数也是完全可以的。 usecallback(fn,inputs)is equivalent to useMemo(()> fn, inputs). 区别是:useCallback不会执行第一个参数函数,而是将它返…

自定义Chrome的浏览器开发者工具DevTools界面的字体和样式

Chrome浏览器开发者工具默认的字体太小,想要修改但没有相关设置。 外观——字体可以自定义字体,但大小不可以调整。 github上有人给出了方法 整理为中文教程: 1.打开浏览器开发者工具,点开设置——实验,勾上红框设…

网络技术ensp 一个简单的交换机配置案例

由于工作调岗,转战网络运维了,第一次网络笔记 1.,目的:2台主机相互可以ping通,并且可以ping通网关地址,设备:2台主机,2台交换机 2网络拓扑图如下 3.主机pc1的配置信息 ip&#xff…

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了,针对特定领域较小的语言模型是否与较大的模型同样有效?

轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了,针对特定领域较小的语言模型是否与较大的模型同样有效? 当大家都在研究大模型(LLM)参数规模达到百亿甚至千亿级别的同时,小巧且兼具高性能的小…

Springboot应用执行器Actuator源码分析

文章目录 一、认识Actuator1、回顾Actuator2、Actuator重要端点 二、源码分析1、Endpoint自动装配(1)自动配置入口(2)普通Endpoint自动装配(3)配置Web - Endpoint(4)注册Endpoint为M…

微信小程序-全局配置

个人笔记,仅供参考。 1.entryPagePath 代码: "entryPagePath": "pages/index/index" 具体用法: 2.pages 小程序中新增/减少页面,都需要对 pages 数组进行修改。 代码: "pages": [&…

设计模式系列文章-7个创建型模式更新已完结

其实从2019年开始就有些一套关于设计模式的系列文章,但是因为种种原因一直搁置到现在。直到2024年才又恢复更新。 24年1月份上旬一直在弄博客站:https://jaune162.blog 的搭建 24年1月份下旬弄专题站:https://books.jaune162.blog 的搭建。…

设计模式(十) - 工厂方式模式

前言 在此前的设计模式(四)简单工厂模式中我们介绍了简单工厂模式,在这篇文章中我们来介绍下工厂方法模式,它同样是创建型设计模式,而且又有些类似,文章的末尾会介绍他们之间的不同。 1.工厂方法模式简介 …

每日五道java面试题之spring篇(七)

目录: 第一题. 什么是Spring beans?第二题. 一个 Spring Bean 定义 包含什么?第三题. 如何给Spring 容器提供配置元数据?Spring有几种配置方式?第四题. Spring基于xml注入bean的几种方式?第五题:你怎样定义类的作用域…

性能优化问题思考总结

INP 是什么? Interaction to Next Paint (INP) INP是一项指标,通过观察用户在访问网页期间发生的所有点击、点按和键盘互动的延迟时间,评估网页对用户互动的总体响应情况。 互动是指在同一逻辑用户手势期间触发的一组事件处理脚本。例如&a…

酷开科技,让酷开系统成为现代生活的变革者

电视,从问世就一直受到人们的追捧。还记得小时候一家人围坐在电视机前的场景,小小的黑白屏幕,牢牢的吸引着大家的目光。随着科技的不断进步,我们的生活也发生了翻天覆地的变化。而电视,也从笨重的黑白电视变成了轻薄的…

jenkins + gitlab + nginx 自动部署(webhook)

一、意义 当代码仓库被更新时,Jenkins会自动拉取代码进行构建。 适用于测试环境 二、jenkins gitlab nginx 自动部署(webhook) 1.准备服务器 ①安装Jenkins(Java17,tomcat9) ②安装gitlab (16) ③…

深入理解Python中的JSON模块:基础大总结与实战代码解析【第102篇—JSON模块】

深入理解Python中的JSON模块:基础大总结与实战代码解析 在Python中,JSON(JavaScript Object Notation)模块是处理JSON数据的重要工具之一。JSON是一种轻量级的数据交换格式,广泛应用于Web开发、API通信等领域。本文将…

2023 re:Invent 用 Amazon Q 打造你的知识库

前言 随着 ChatGPT 的问世,我们迎来了许多创新和变革的机会。一年一度的亚马逊云科技大会 re:Invent 也带来了许多前言的技术,其中 Amazon CEO Adam Selipsky 在 2023 re:Invent 大会中介绍 Amazon Q 让我印象深刻,这预示着生成式 AI 的又一…

【wu-acw-client 使用】案例

wu-acw-client 使用 项目介绍,使用acw-client,创建对应Java项目的增删改查(ORM:Lazy ORM、mybatis),项目模块架构:mvc、feign、ddd 演示项目环境:idea 、mac、mysql、jdk17 spring …

geotools解析shp 提示 opengis.*.SimpleFeatureType‘ 不在其界限内

问题:( geotools.version:31-SNAPSHOT) 解析shp文件时提示类型SimpleFeatureType不在其界限内 解决: 在引用处将org.opengis.feature.simple.SimpleFeatureType 改为 org.geotools.api.feature.simple.SimpleFeatureType

qt-C++笔记之使用QProcess去执行一个可执行文件时指定动态库所存放的文件夹lib的路径

qt-C笔记之使用QProcess去执行一个可执行文件时指定动态库所存放的文件夹lib的路径 参考博文: 1.C笔记之执行一个可执行文件时指定动态库所存放的文件夹lib的路径 2.Linux笔记之LD_LIBRARY_PATH详解 3.qt-C笔记之使用QProcess去执行一个可执行文件时指定动态库所存放…