【Diffusion】李宏毅2023机器学习Diffusion笔记

文章目录

  • 1 想法概述
  • 2 实际过程
    • 阶段1 Add Noise
    • 阶段2 Denoise
  • 3 数学原理
  • 4 为什么推理时要额外加入noise
  • 5 一些不知道对不对的Summary

1 想法概述

从一张充满噪声的图中不断denoise,最终得到一张clear的图片。为了确定当前图片中噪声占比的大小,同时输入原图片和参数 t t t,参数 t t t用于标识一张图片中的噪声占比含量。

显然迭代第1次时图片的噪声含量和迭代第999次是不同的,因此需要输入这种信息t来进行标识。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7CjpzYoX-1692290104065)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230814190229199.png)]

2 实际过程

阶段1 Add Noise

首先,准备好一组确定的参数 α 1 ˉ , α 2 ˉ , … , α T ˉ \bar{\alpha_1},\bar{\alpha_2},\dots,\bar{\alpha_T} α1ˉ,α2ˉ,,αTˉ,用以表示时间步 t t t下样本和噪声的混合情况, t t t越大,噪声占比越高。然后重复以下过程直至收敛:

  1. 采样

    1. 从真实样本集中取出一个样本 x 0 x_0 x0

    2. [ 1 , T ] [1,T] [1,T]的整数中采样出 t t t来表示时间步

    3. 从标准正态分布中采样出噪声 ϵ \epsilon ϵ

  2. 构造带噪声样本 x = α t ˉ x 0 + 1 − α t ˉ ϵ x=\sqrt{\bar{\alpha_t}}x_0+ \sqrt{1-\bar{\alpha_t}} \epsilon x=αtˉ x0+1αtˉ ϵ

  3. 将构造样本 x x x和时间步 t t t一同输入噪声预测器 ϵ θ ( ) \epsilon_\theta() ϵθ(),得到预测噪声 ϵ θ ( x , t ) \epsilon_\theta(x,t) ϵθ(x,t)

  4. 目标函数为 ϵ θ ( x , t ) \epsilon_\theta(x,t) ϵθ(x,t)和采样出的真实噪声 ϵ \epsilon ϵ M S E MSE MSE

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-D7mqKw6q-1692290104066)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230814194524251.png)]

阶段2 Denoise

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-21zUXHgj-1692290104066)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230814201251917.png)]

3 数学原理

  1. 极大似然估计近似等价于最小化KL散度(表示两个分布的相似性):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S3lKC0VE-1692290104066)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817221857642.png)]

  1. 对任何分布 q ( z ∣ x ) q(z|x) q(zx),有:

log ⁡ P θ ( x ) ≥ ∫ z q ( z ∣ x ) log ⁡ P ( z , x ) q ( z ∣ x ) d z = E q ( z ∣ x ) [ log ⁡ P ( z , x ) q ( z ∣ x ) ] \log P_\theta(x) \ge \int_{z}q(z|x)\log \frac{P(z,x)}{q(z|x)}dz = E_{q(z|x)}[\log \frac{P(z,x)}{q(z|x)}] logPθ(x)zq(zx)logq(zx)P(z,x)dz=Eq(zx)[logq(zx)P(z,x)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EMBIDtfT-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817222057765.png)]

  1. 所以对DDPM来说:

log ⁡ P θ ( x ) ≥ E q ( x 1 : x T ∣ x 0 ) [ log ⁡ P ( x 0 : x T ) q ( x 1 : x T ∣ x 0 ) ] \log P_\theta(x) \ge E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}] logPθ(x)Eq(x1:xTx0)[logq(x1:xTx0)P(x0:xT)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FqgMWPQQ-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817222642961.png)]

  1. 结合正态分布的可加性:做N次独立的正态sampling,可能通过一次的sampling就能解决。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oyzChf3t-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817225900399.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w4gtTsG6-1692290104067)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817231727538.png)]

  1. 对式3不断变换,最后可得(这个式子的过程可以不用看,也并不复杂,但是麻烦,理解结论就好):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SY9fKeIh-1692290104068)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817232929967.png)]

然后再经过一系列的运算求出来 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1|x_t,x_0}) q(xt1∣xt,x0)依然是高斯分布,表示首尾 x 0 , x T x_0,x_T x0,xT固定住,产生 x t − 1 x_{t-1} xt1的概率,是一个和network无关的分布。而 P ( x t − 1 ∣ x t ) P(x_{t-1}|x_t) P(xt1xt)是由网络决定的,我们不考虑它的variance,只考虑mean。如果我们希望这两个分布越接近越好,那就想办法让两个分布的mean越接近越好。
在这里插入图片描述

化简:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B0OFKfc5-1692290104068)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817233152037.png)]

实际需要预测出的部分:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OpE6Y02O-1692290104069)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817234731710.png)]

4 为什么推理时要额外加入noise

李宏毅老师的一点Guess,生成式任务,概率最大的结果,未必就是最好的结果。人写的文章用词可能更suprising。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BxAIdBaQ-1692290104069)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817235534101.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w8wYcaVO-1692290104069)(【Diffusion】李宏毅2023机器学习Diffusion笔记/image-20230817235706919.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vmK39t6D-1692290104069)(【Diffusion】李宏毅2023机器学习Diffusion笔记/ab7e3c6482dc90f4bfc5857991f4375.jpg)]

5 一些不知道对不对的Summary

  • 希望近似 P d a t a ( x ) P_{data}(x) Pdata(x) P θ ( x ) P_\theta(x) Pθ(x)的分布,而对给定的 x x x,使 P θ ( x ) P_\theta(x) Pθ(x)最大化可以转换为使其下界最大化,从而转换为使 E q ( x 1 : x T ∣ x 0 ) [ log ⁡ P ( x 0 : x T ) q ( x 1 : x T ∣ x 0 ) ] E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}] Eq(x1:xTx0)[logq(x1:xTx0)P(x0:xT)]最大化。

  • 在假设 x t = β t x t − 1 + 1 − β t z t − 1 x_t=\sqrt{\beta_t}x_{t-1}+\sqrt{1-\beta_t}z_{t-1} xt=βt xt1+1βt zt1的前提下,可以推出 x t = α t ˉ x 0 + 1 − α t ˉ z x_t=\sqrt{\bar{\alpha_t}}x_{0}+\sqrt{1-\bar{\alpha_t}}z xt=αtˉ x0+1αtˉ z

  • 从而可以进一步化简 E q ( x 1 : x T ∣ x 0 ) [ log ⁡ P ( x 0 : x T ) q ( x 1 : x T ∣ x 0 ) ] E_{q(x_1:x_T|x_0)}[\log \frac{P(x_0:x_T)}{q(x_1:x_T|x_0)}] Eq(x1:xTx0)[logq(x1:xTx0)P(x0:xT)]为三项,其余两项与Network无关,可只考虑中间一项,该项由 q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1|x_t,x_0}) q(xt1∣xt,x0) P ( x t − 1 ∣ x t ) P(x_{t-1}|x_t) P(xt1xt)的KL散度之和组成,

  • q ( x t − 1 ∣ x t , x 0 ) q(x_{t-1}|x_t,x_0) q(xt1xt,x0)表示首尾 x 0 , x T x_0,x_T x0,xT固定住产生 x t − 1 x_{t-1} xt1的概率,可求得是一个和network无关的高斯分布,均值可以表示为:

  • P ( x t − 1 ∣ x t ) P(x_{t-1}|x_t) P(xt1xt)是由网络决定的,我们不考虑它的variance,只考虑mean。

  • 如果我们希望这两个分布越接近越好,那就想办法让两个分布的mean越接近越好。而上式中,仅有 ϵ \epsilon ϵ需要确定,因此我们希望网络能够预测这个值,从而完成推理。预测出这一项 ϵ \epsilon ϵ的过程,可以看作为从 x 0 x_0 x0 x t x_t xt预测出 x t − 1 x_{t-1} xt1的过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/80400.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微服务-Nacos(注册中心)

Nacos是SpringCloud的一个功能非常强大的组件,想比eureka的功能更加丰富 官方的nacos简介 Nacos(全称:Naming and Configuration Service)是一个开源的动态服务发现、配置管理和服务管理平台。它由阿里巴巴集团开发并贡献给开源…

使用PostgreSQL构建强大的Web应用程序:最佳实践和建议

PostgreSQL是一个功能强大的开源关系型数据库,它拥有广泛的用户群和活跃的开发社区。越来越多的Web应用选择PostgreSQL作为数据库 backend。如何充分利用PostgreSQL的特性来构建健壮、高性能的Web应用?本文将给出一些最佳实践和建议。 一、选择合适的PostgreSQL数据类型 Pos…

SAP ABAP 直接把内表转换成PDF格式(smartform的打印函数输出OTF格式数据)

直接上代码: REPORT zcycle055.DATA: lt_tab TYPE TABLE OF zpps001. DATA: ls_tab TYPE zpps001.ls_tab-werks 1001. ls_tab-gamng 150.00. ls_tab-gstrp 20201202. ls_tab-aufnr 000010000246. ls_tab-auart 标准生产. ls_tab-gltrp 20201205. ls_tab-matn…

idea中Maven报错Unable to import maven project: See logs for details问题的解决方法

idea中Maven报错Unable to import maven project: See logs for details问题的解决方法。 在查看maven的环境配置和idea的maven配置后,发现是idea 2020版本和maven 3.9.3版本的兼容性问题。在更改为Idea自带的maven 3.6.1版本后问题解决,能成功下载jar包…

【MATLAB基础绘图第16棒】绘制热图(Heatmap)

热图(Heatmap) 热图的主要作用是直观展示重点研究对象的差异情况,多用于经济学与工学差异性分析之中。 heatmap函数创建热图 语法 hheatmap(tbl,xvar,yvar) hheatmap(tbl,xvar,yvar,ColorVariable,cvar) hheatmap(cdata) hheatmap(xvalue…

产品经理必知必会0.2

Q1:产品经理需要具备的能力? A:硬实力:产品设计、需求分析、竞品分析、数据分析、撰写文档 软实力:沟通能力、学习能力、用户思维、主动性、好奇心、同理心、责任心、抗压能力、目标导向.... 扩展能力:商业思维、市场敏感度... Q…

【C++】STL---list

STL---list 一、list 的介绍二、list 的模拟实现1. list 节点类2. list 迭代器类(1)前置(2)后置(3)前置- -、后置- -(4)! 和 运算符重载(5)* 解引用重载 和 …

RocketMQ 消息消费 轮询机制 PullRequestHoldService

1. 概述 先来看看 RocketMQ 消费过程中的轮询机制是啥。首先需要补充一点消费相关的前置知识。 1.1 消息消费方式 RocketMQ 支持多种消费方式,包括 Push 模式和 Pull 模式 Pull 模式:用户自己进行消息的拉取和消费进度的更新Push 模式:Broker…

LLM应用的例子LLM use cases and tasks

您可能会认为LLMs和生成性AI主要关注聊天任务。毕竟,聊天机器人非常受到关注并且备受瞩目。下一个词的预测是许多不同功能背后的基本概念,从基本的聊天机器人开始。 但是,您可以使用这种概念上简单的技术执行文本生成中的其他各种任务。例如…

于vue3+vite+element pro + pnpm开源项目

河码桌面是一个基于vue3viteelement pro pnpm 创建的monorepo项目,项目采用的是类操作系统的web界面,操作起来简单又方便,符合用户习惯,又没有操作系统的复杂! 有两个两个分支,一个是web版本,…

DevOps系列文章 之 Gitlab+Docker自动部署SpringBoot

1.环境要求 以下服务器的操作系统均为Centos7 服务器A:Gitlab服务器B:GitlabRunner、Docker、docker-compose、Java1.8、maven3.6.3、git ps:这里可以把服务器B的GitlabRunner、Java1.8、maven3.6.3、git单独提出来,独立部署&a…

Elasticsearch:如何在 Ubuntu 上安装多个节点的 Elasticsearch 集群 - 8.x

Elasticsearch 是一个强大且可扩展的搜索和分析引擎,可用于索引和搜索大量数据。 Elasticsearch 通常用于集群环境中,以提高性能、提供高可用性并实现数据冗余。 在本文中,我们将讨论如何在 Ubuntu 20.04 上安装和配置具有多节点集群的 Elast…

java语言B/S架构云HIS医院信息系统源码【springboot】

医院云HIS全称为基于云计算的医疗卫生信息系统( Cloud- Based Healthcare Information System),是运用云计算、大数据、物联网等新兴信息技术,按照现代医疗卫生管理要求,在一定区域范围内以数字化形式提供医疗卫生行业数据收集、存储、传递、…

Ubuntu20.04安装Nvidia显卡驱动教程

1、禁用nouveau 1、创建文件,如果没有下载vim编辑器,将vim换成gedit即可 $ sudo vim /etc/modprobe.d/blacklist-nouveau.conf 2、在文件中插入以下内容,将nouveau加入黑名单,默认不开启 blacklist nouveau options nouveau m…

C++ 面向对象三大特性——继承

✅<1>主页&#xff1a;我的代码爱吃辣 &#x1f4c3;<2>知识讲解&#xff1a;C 继承 ☂️<3>开发环境&#xff1a;Visual Studio 2022 &#x1f4ac;<4>前言&#xff1a;面向对象三大特性的&#xff0c;封装&#xff0c;继承&#xff0c;多态&#xff…

多功能数据采集主机——数据集中采集

无论是机房监控系统还是仓库监控系统&#xff0c;又或者是其他大型场所的监控系统都会用的一个设备——多功能数据采集主机。 在环境监控系统中会用到温湿度、水浸、烟感等多种传感器&#xff0c;时时监测周围环境&#xff0c;这些传感器都可以通过多功能数据采集主机&#xff…

Python学习之操作XML文件详解

概要 我们经常需要解析用不同语言编写的数据&#xff0c;Python 提供了许多第三方库来解析或拆分用其他语言编写的数据&#xff0c;今天我们来学习下 Python XML 解析器的相关功能。 什么是 XML&#xff1f; XML 是可扩展标记语言&#xff0c;它在外观上类似于 HTML&#xff…

基于IDE Eval Resetter延长IntelliJ IDEA等软件试用期的方法(包含新版本软件的操作方法)

本文介绍基于IDE Eval Resetter插件&#xff0c;对集成开发环境IntelliJ IDEA等JetBrains公司下属的多个开发软件&#xff0c;加以试用期延长的方法。 我们这里就以IntelliJ IDEA为例&#xff0c;来介绍这一插件发挥作用的具体方式。不过&#xff0c;需要说明使用IDE Eval Rese…

CentOS系统环境搭建(五)——Centos7安装maven

centos系统环境搭建专栏&#x1f517;点击跳转 Centos7安装maven 下载压缩包 maven下载官网 解压 压缩包放置到/usr/local tar -xvf apache-maven-3.9.2-bin.tar.gz配置环境变量 vim /etc/profile在最下面追加 MAVEN_HOME/usr/local/apache-maven-3.9.2 export PATH${MAV…

vscode ssh 远程 gdb 调试

一、点运行与调试&#xff0c;生成launch.json 文件 二、点添加配置&#xff0c;选择GDB 三、修改启动程序路径