DiT论文精读Scalable Diffusion Models with Transformers CVPR2023

Scalable Diffusion Models with Transformers CVPR2023

Abstract

idea
将UNet架构用Transformer代替。并且分析其可扩展性。
并且实验证明通过增加transformer的宽度和深度,有效降低FID
我们最大的DiT-XL/2模型在classconditional ImageNet 512、512和256、256基准上的性能优于所有先前的扩散模型,在后者上实现了2.27的最先进FID。

在这里插入图片描述

Related Work

本文的相关工作,作者分别介绍了一下Transformer和Unet结构

Transformer

UNet架构

在这里插入图片描述

在评估图像生成文献中的架构复杂性时,通常的做法是使用参数计数。一般来说,参数计数不能很好地代表图像模型的复杂性,因为它们不能考虑图像分辨率等对性能有显著影响的因素。
相反,本文中的大部分分析都是通过计算的视角进行的。
这使我们与架构设计文献保持一致,在这些文献中,失败被广泛用于衡量复杂性。在实践中,黄金度量标准将取决于特定的应用程序场景。改进扩散模型的开创性工作与us-there最为相关,他们分析了U-Net架构类的可扩展性属性。在本文中,我们主要关注变压器类。

Diffusion Transformers

Diffusion formulation

前向扩散过程是将x0逐步加噪

q(xt|x0)是已知的

在这里插入图片描述

在这里插入图片描述
是一个超参数

在这里插入图片描述

根据t,x0求xt的过程也叫做采样

关于后验p也就是神经网络需要进行预测的内容

在这里插入图片描述
在这里插入图片描述

逆向过程是用x0的对数似然的变分下界来训练。

该模型可以使用预测的噪声(xt)与实际抽样的高斯噪声(Lsimple)之间的简单均方误差进行训练

在这里插入图片描述

Classifier-free guidance

条件扩散模型将额外的信息作为输入,例如类标签c

此条件下,反向网络需要学习p(xt-1|xt,xc)

LDM

3.2Diffusion Transformer Design Space

他的目的是将transformer用在潜空间中;

DiT也是在Vit基础上进行的

接下来就是描述Dit的forward部分

在这里插入图片描述

总体来说作者的模型是一种混合模型

使用现成的卷积VAE和基于Transformer的DDPMS

在这里插入图片描述

也可以说,DiT仅在DDPM方面做优化

VAE的编码器对img进行压缩后 --> Z–>Noised Latent

在这里插入图片描述

关于Dit的输入规范

在这里插入图片描述

**输入前的Z是32,32,4 I,I,C表示
patch size p,p
最终得到的序列长度为I/p * I/p ,dim dim是自己初始化随机设置即可
Patchify
img大小256,256,3
Z大小32,32,4
它将空间输入转换成T个符号的序列,每个符号都是d维的,
位置编码使用正余弦版本

关于位置编码,RetNet使用旋转空间编码能否优化?

关于patch大小设置
T为序列token长度**

在这里插入图片描述

p减半,T大四倍

对model计算效率影响巨大,改变p对下游参数计数没有任何显著影响

P设计遵从2,4,8

Gflops一种计算资源的表述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

使用标记t和c两个额外的输入到seq,最为vit的cls,

在这里插入图片描述

可以理解为cls为2 length-two

在这里插入图片描述

在这里插入图片描述

交叉注意力机制多15的Gflops

在这里插入图片描述

在这里插入图片描述

adaLN可以取代Transformer中的层归一化层
随着自适应归一化层在gan和UNet骨干扩散模型中的广泛使用,我们探索用自适应层范数(adaLN)取代变压器块中的标准层范数层。我们不是直接学习维度尺度和移位参数$和%,而是从t和c的嵌入向量的总和中回归它们。在我们探索的三个块设计中,adaLN添加的Gflops最少,因此计算效率最高。
它也是唯一一种限制于将相同函数应用于所有令牌的条件调节机制。

adaLN-Zero block

ResNets 验证:将每个残差块初始化恒等函数是有益的
例如,Goyal等人发现,在监督学习设置下,对每个块中的最终批范数尺度因子$进行零初始化可以加速大规模训练[13]。

其他改进,将γ,β用于回归缩放参数

模型的尺寸。我们采用一系列N个DiT块,每个块在隐藏维度大小d处运行。在ViT之后,我们使用标准变压器配置,共同缩放N, d和注意头[10,63]。具体来说,我们使用四种配置:DiT-S、DiT-B、DiT-L和DiT-XL。它们涵盖了广泛的模型大小和触发器分配,从0.3到118.6 Gflops,允许我们衡量缩放性能。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/573944.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

switch语句深讲

一。功能 1.选择,由case N:完成 2.switch语句本身没有分支功能,分支功能由break完成 二。注意 1.switch语句如果不加break,在一次判断成功后会执行下面全部语句并跳过判断 2.switch的参数必须是整形或者是计算结果为整形的表达式,浮点数会…

centos 7 yum install -y nagios

centos 7 systemctl disable firewalld --now vi /etc/selinux/config SELINUXdisabled yum install -y epel-release httpd nagios yum install -y httpd nagios systemctl enable httpd --now systemctl enable nagios --now 浏览器 IP/nagios 用户名:…

stack,queue的模拟实现以及优先级队列

这篇博客用来记录stack&#xff0c;queue的学习。 stack的模拟实现 stack的模拟实现比较简单&#xff0c;先上代码 #pragma once #include<vector> #include<list> #include<deque> #include<iostream> using std::deque; using namespace std;name…

【STM32HAL库】外部中断

目录 一、中断简介 二、NVIC 1.寄存器 2.工作原理 3.优先级 4.使用NVIC 三、EXTI 1.简介 2.AFIO&#xff1a;复用功能IO&#xff0c;主要用于重映射和外部中断映射配置​编辑 3. 中断使用 4.HAL库配置使用 一、中断简介 中断的意义&#xff1a;高效处理紧急程序&#xff0c;不会…

树莓派学习笔记--串口通信(配置硬件串口进行通信)

树莓派串口知识点 树莓派4b的外设一共包含两个串口&#xff1a;硬件串口&#xff08;/dev/ttyAMA0&#xff09;,mini串口&#xff08;/dev/ttyS0&#xff09; 硬件串口由硬件实现&#xff0c;有单独的波特率时钟源&#xff0c;性能高&#xff0c;可靠&#xff1b;而mini串口性能…

Java-AQS的原理

文章目录 基本概述1. 设计思想2. 基本实现 一些关键词语以及常用术语&#xff0c;主要如下&#xff1a; 信号量(Semaphore): 是在多线程环境下使用的一种设施&#xff0c;是可以用来保证两个或多个关键代码段不被并发调用&#xff0c;也是作系统用来解决并发中的互斥和同步问题…

数据挖掘 | Count数据去除批次效应后不是整数甚至还出现负值导致无法进行差异分析怎么办?

之前咱们介绍过数据挖掘 | 批次效应的鉴定与处理 | 附完整代码 注释 | 看完不会来揍我&#xff0c;但是很多小伙伴遇到了Count数据批次处理后不是整数甚至还出现负值的问题&#xff0c;这就导致无法使用某些包包进行差异分析&#xff08;对差异分析感兴趣的小伙伴可以查看&…

MySQL中如何随机获取一条记录

点击上方蓝字关注我 随机获取一条记录是在数据库查询中常见的需求&#xff0c;特别在需要展示随机内容或者随机推荐的场景下。在 MySQL 中&#xff0c;有多种方法可以实现随机获取一条记录&#xff0c;每种方法都有其适用的情况和性能特点。在本文中&#xff0c;我们将探讨几种…

word添加行号

打开页面设置&#xff0c;找到行号

2018-2023年上市公司富时罗素ESG评分数据

2018-2023年上市公司富时罗素ESG评分数据 1、时间&#xff1a;2018-2023年 2、来源&#xff1a;整理自WIND 3、指标&#xff1a;证券代码、简称、ESG评分 4、范围&#xff1a;上市公司 5、指标解释&#xff1a; 富时罗素将公司绿色收入的界定和计算作为公司ESG 评级打分结…

「白嫖」开源的后果就是供应链攻击么?| 编码人声

「编码人声」是由「RTE开发者社区」策划的一档播客节目&#xff0c;关注行业发展变革、开发者职涯发展、技术突破以及创业创新&#xff0c;由开发者来分享开发者眼中的工作与生活。 面对网络安全威胁日益严重的今天&#xff0c;软件供应链安全已经成为开发者领域无法避免的焦点…

OpenWRT设置自动获取IP,作为二级路由器

前言 上一期咱们讲了在OpenWRT设置PPPoE拨号的教程&#xff0c;在光猫桥接的模式下&#xff0c;OpenWRT如果不设置PPPoE拨号&#xff0c;就无法正常上网。 OpenWRT设置PPPoE拨号教程 但现在很多新装的宽带&#xff0c;宽带师傅为了方便都会把光猫设置为路由模式。如果你再外…

【A-024】基于SSH的房屋租赁管理系统(含论文)

【A-024】基于SSH的房屋租赁管理系统&#xff08;含论文&#xff09; 开发环境&#xff1a; Jdk7(8)Tomcat7(8)MySQLIntelliJ IDEA(Eclipse) 数据库&#xff1a; MySQL 技术&#xff1a; SpringStruts2HiberanteBootstrapJquery 适用于&#xff1a; 课程设计&#xff0c;毕…

半波整流220V转正5V负-5V100mA恒压WT5101A

半波整流220V转正5V负-5V100mA恒压WT5101A WT5101A 是一款专为 Buck 和 Buck-Boost 拓扑而设计的高效、具有成本优势的离线恒压稳压器&#xff0c;内嵌有500V MOSFET。在降低系统成本的同时&#xff0c;这款稳压器只需少量的外部元件就能输出默认的5V电压。在轻负载条件下&…

Sping源码(七)—context: component-scan标签如何扫描、加载Bean

序言 简单回顾一下。上一篇文章介绍了从xml文件context component-scan标签的加载流程到ConfigurationClassPostProcessor的创建流程。 本篇会深入了解context component-scan标签底层做了些什么。 component-scan 早期使用Spring进行开发时&#xff0c;很多时候都是注解 标…

智能算法 | Matlab基于CBES融合自适应惯性权重和柯西变异的秃鹰搜索算法

智能算法 | Matlab基于CBES融合自适应惯性权重和柯西变异的秃鹰搜索算法 目录 智能算法 | Matlab基于CBES融合自适应惯性权重和柯西变异的秃鹰搜索算法效果一览基本介绍程序设计参考资料效果一览 基本介绍 Matlab基于CBES融合自适应惯性权重和柯西变异的秃鹰搜索算法 融合自适应…

ds18b20温度传感器驱动程序

ds18b20驱动程序 有了之前延时的方法&#xff0c;那么实现一个单总线数据传输的传感器驱动程序就非常简单了。下面我们套用杂项驱动框架来编写ds18b20驱动程序。 实现需要明确的是&#xff1a;**ds18b20驱动的本质是通过2440的gpio&#xff0c;通过给定的时序对ds18b20的读写数…

【介绍下WebStorm开发插件】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

保护你的网站:了解5种常见网络攻击类型及其防御方法

随着互联网的迅猛发展&#xff0c;针对网站的各种类型的网络攻击随之增加&#xff0c;网络攻击事件层出不穷&#xff0c;由此&#xff0c;如何保护网站安全成为每个网站所有者的重要议题。在下面的内容中&#xff0c;我们将探讨5种常见网络攻击类型及其防御方法&#xff0c;以帮…

SNETCracker--超级弱口令检查工具简介

一、简介 SNETCracker 超级弱口令检查工具是一款Windows平台的弱口令审计工具&#xff0c;支持批量多线程检查&#xff0c;可快速发现弱密码、弱口令账号&#xff0c;密码支持和用户名结合进行检查&#xff0c;大大提高成功率&#xff0c;支持自定义服务端口和字典。 二、SNE…