Stable Diffusion1.5网络结构-超详细原创

Stable Diffusion1.5网络结构-超详细原创

article2025/3/11 3:23:44/文章来源:https://blog.csdn.net/xd_wjc/article/details/134441396

目录

1 Unet

1.1详细整体结构

1.2 缩小版整体结构

1.3 时间步编码

1.4 CrossAttnDownBlock2D

1.4.1 ResnetBlock2D

1.4.2 Transformer2DModel

1.4.2.1 BasicTransformerBlock

1.4.2.1.1 SelfAttention

1.4.2.1.2 CrossAttention

2 VAE

3 CLIP

绘制软件：ProcessOn，以下图片保存可高清查看

1 Unet

1.1详细整体结构

1.2 缩小版整体结构

1.3 时间步编码

1.4 CrossAttnDownBlock2D

每个ResnetBlock2D的输入有两个

1，一个是来自上一层的输出lattent,

2，另一个来自时间步编码模块的输出time_embeds ( shape=[2, 1280], 后面省略说明，默认[2, 1280]这种写法是tersor的形状)

每个Transformer2DModel输入有两个

１，上一层的输出

２， CLIP text_encoder的文本编码text embedding，或者叫提示词编码prompt embedding，其shape=[2, 77, 768]

后面凡是有ResnetBlock2D和Transformer2DModel的模块，其输入形式都是如此，为了方便，后面有些模块的time_embeds和prompt embedding这两个输入就默认不画了，例如UnetMidBlock2DCrossAttn、UpBlock2D、CrossAttnUpBlock2D

1.4.1 ResnetBlock2D

需要注意的点

1, ResnetBlock2D的输入有两个，一个是来自上一层的lattent，另一个来自时间步编码模块的输出time_embeds ( shape=[2, 1280], 后面省略说明，默认[2, 1280]这种写法是tersor的形状)

2, Conv3x3和Linear的输入输出Channel，不同层会不一样

3, 输入输出通道数不一致的时候，残差连接会用一个1x1的卷积

1.4.2 Transformer2DModel

Transformer2DModel输入有两个

１，上一层的输入

２， CLIP text_encoder的文本编码text embedding，或者叫提示词编码prompt embedding，其shape=[2, 77, 768]

1.4.2.1 BasicTransformerBlock

1.4.2.1.1 SelfAttention

1.4.2.1.2 CrossAttention

1.4.2.1.3 FeedForward

1.4.3 DownSample2D

1.5 DownBlock2D

1.6

2 VAE

3 CLIP

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/155898.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Linux操作系统基础 – 正则表达式快速入门

Linux操作系统基础 – 正则表达式快速入门

Linux操作系统基础 – 正则表达式快速入门 Linux Operating System Essentials - Introduction to Regular Expressions 通常在计算机科学领域，正则表达式被解释为对字符串操作的一种逻辑公式，即用事先定义好的特定字符及其组合组成所谓的“规则字符串”…

阅读更多...

深度学习之基于YoloV5血红细胞检测识别系统

深度学习之基于YoloV5血红细胞检测识别系统

欢迎大家点赞、收藏、关注、评论啦 ，由于篇幅有限，只展示了部分核心代码。文章目录一项目简介二、功能三、系统四. 总结一项目简介深度学习已经在许多领域中得到了广泛的应用，包括医疗健康领域。其中，YOLO（You O…

阅读更多...

UE基础篇四：地形基础概念

UE基础篇四：地形基础概念

导语：视频文档在文末一、从引擎中导入高度图高度图是灰度图，并且每个像素有16位的深度，支持这种格式的是.png 和.raw格式高度图可以自己绘制，或者通过许多网站下载那些复制现实世界地点的图片，许多网站也有免费资源下载二、草地和石头混合图层创建一个混合材质,…

阅读更多...

龙迅LT8912B 单通道MIPIDSI桥接LVDS+HDMI（1.4）同显点屏LVDS，加环出一路HDMI

龙迅LT8912B 单通道MIPIDSI桥接LVDS+HDMI（1.4）同显点屏LVDS，加环出一路HDMI

龙迅LT8912B 描述: Lontium LT8912B MIPIDSI到LVDS和HDMI桥采用单通道MIPID-PHY接收器前端配置，每个通道有4个数据通道，每个数据通道运行1.5Gbps，最大输入带宽可达6Gbps。对于屏幕应用，该桥解码MIPIDSI 18bpp RGB666和24bpp RGB…

阅读更多...

系列四、JVM的内存结构【本地接口（Native Interface）】

系列四、JVM的内存结构【本地接口（Native Interface）】

一、组成本地接口由本地方法栈（Native Method Stack）、本地方法接口（Native Interface）、本地方法库组成。二、本地接口的作用本地接口的作用是融合不同的编程语言为Java所用，它的初衷是融合C/C程序，Jav…

阅读更多...

【ARM Trace32(劳特巴赫) 使用介绍 5 -- Trace32 scan dump 详细介绍】

【ARM Trace32(劳特巴赫) 使用介绍 5 -- Trace32 scan dump 详细介绍】

文章目录 1.1 JTAG 测试逻辑架构1.2 D型扫描触发器1.2.1 全扫描介绍1.3 IR 寄存器1.4 TDR(Test data registers)1.4.1 TDR 的实现1.4.1.1 Bypass Register1.4.1.2 Boundary-scan register1.5 Scan Dump1.5.1 soft fusion1.1 JTAG 测试逻辑架构图 1-1 片上测试逻辑概念图如前面…

阅读更多...

YOLOv8-Seg改进：检测头全新创新篇 | S_improve_Segment结构创新

YOLOv8-Seg改进：检测头全新创新篇 | S_improve_Segment结构创新

🚀🚀🚀本文改进：S_improve_Segment全新的分割结构头创新，适配各个YOLO 🚀🚀🚀 S_improve_Segment在各个场景都能够有效涨点 🚀🚀🚀YOLOv8-seg创新专栏：http://t.csdnimg.cn/KLSdv 学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研； 1）手把手教你…

阅读更多...

数据结构链表

数据结构链表

单链表：单链表用来写邻接表，邻接表用来存储图和树双链表：用来优化某些问题单链表链式存储 #include<stdio.h> #include<stdlib.h> int cont 0; //结构体 typedef struct List { int data; //数据域 struct List* next; //…

阅读更多...

Freeswitch中CHANNEL_HANGUP外呼挂断事件

Freeswitch中CHANNEL_HANGUP外呼挂断事件

1.CHANNEL_HANGUP外呼挂断事件事件详细 ################## 外呼挂断：############################# [EslMessage{contentTypecommand/reply, headers3, body0 lines}] 2023-11-16T03:41:33.5140800 INFO c.e.c.v.s.c.i.FsServerEventHandler - eventReceived:…

阅读更多...

vue2 mixin的方式大屏适配（缩放居中的方式）

使用要求：指定容器的 id 为 bigScreenContainer 一、效果图不管你的屏幕多大都会根据设计稿 1920*1080 进行缩放图一：缩小的效果图二：放大的效果二、使用方式 <template><div id"bigScreenContainer" ref"big…

阅读更多...

【Proteus仿真】【Arduino单片机】HC05蓝牙通信

【Proteus仿真】【Arduino单片机】HC05蓝牙通信

文章目录一、功能简介二、软件设计三、实验现象联系作者一、功能简介本项目使用Proteus8仿真Arduino单片机控制器，使用PCF8574、LCD1602液晶、HC05蓝牙传感器等。主要功能： 系统运行后，LCD1602显示蓝牙接收数据。二、软件设计 /* 作者…

阅读更多...

axios升级依赖版本后报错SyntaxError: Cannot use import statement outside a module

axios升级依赖版本后报错SyntaxError: Cannot use import statement outside a module

Axios构建为ES模块，而不是在Node中运行时的CommonJs。Jest的问题是它在Node中运行代码。这就是为什么告诉Jest转换Axios有效的原因。 Axios SDK附带了一个用于Node env的内置CommonJs文件。因此，我们可以通过将以下内容添加到您的package.json来修复它&a…

阅读更多...

微服务架构之路7，Nacos配置中心的Pull原理，附源码

微服务架构之路7，Nacos配置中心的Pull原理，附源码

目录一、本地配置二、配置中心1、以Nacos为例：2、Pull模式3、也可以通过Nacos实现注册中心三、配置中心提供了哪些功能四、如何操作配置中心1、配置注册2、配置反注册3、配置查看4、配置变更订阅五、主流的微服务注册中心有哪些，如何选择？…

阅读更多...

C# 图解教程第5版 —— 第15章事件

C# 图解教程第5版 —— 第15章事件

文章目录 15.1 发布者和订阅者15.2 源代码组件概览15.3 声明事件15.4 订阅事件15.5 触发事件15.6 标准事件的用法15.6.1 通过扩展 EventArgs 来传递数据15.6.2 移除事件处理程序 15.7 事件访问器 15.1 发布者和订阅者发布者 / 订阅者模式：发布者定义了一系列事…

阅读更多...

Transformer

Transformer

1. 整体架构 2. Encoder 1）输入部分：Embeding 位置编码位置编码没搞懂

阅读更多...

小程序转换工具—Antmove 使用教学

小程序转换工具—Antmove 使用教学

自从微信小程序问世以后，字节、阿里、百度巨头们都各自搞各自的小程序平台，各有各的技术标准。基础技术都大差不差，但就是没法统一。搞得我们这些对接各平台的程序猿们苦不堪言。虽说uniapp、Taro、Mpvue、Weex、Flutter都支持跨平台小程序…

阅读更多...

LeetCode | 232. 用栈实现队列

LeetCode | 232. 用栈实现队列

LeetCode | 232. 用栈实现队列 OJ链接解题思路： 此题可以用两个栈实现，一个栈进行入队操作，另一个栈进行出队操作出队操作： 当出队的栈不为空是，直接进行出栈操作，如果为空，需要把入队的…

阅读更多...

HarmonyOS 实战项目

HarmonyOS 实战项目

引言本章将介绍如何在 HarmonyOS 上进行实际项目开发。我们将从项目需求分析开始，逐步完成项目的设计、开发、测试和上线过程。目录项目需求分析项目设计项目开发项目测试项目上线总结 1. 项目需求分析项目需求分析是项目开发的关键阶段之一，它…

阅读更多...

C#，数值计算——插值和外推，Base_interp的计算方法与源程序

C#，数值计算——插值和外推，Base_interp的计算方法与源程序

1 文本格式 using System; namespace Legalsoft.Truffer { /// <summary> /// Abstract base class used by all interpolation routines in this chapter. /// Only the routine interp is called directly by the user. /// </summary> pu…

阅读更多...

Digicert证书：您的网络安全守护神

在当今数字化的世界中，网络安全已经成为每一个企业和个人必须面对的问题。而Digicert品牌证书，就是您网络安全的最佳选择。它不仅具有强大的安全性和稳定性，还能广泛应用于各种场景，为您提供全方位的保护。首先，我们要…

阅读更多...

最新文章