stable diffusion简介和原理

Stable Diffusion中文的意思是稳定扩散,本质上是基于AI的图像扩散生成模型。
Stable Diffusion是一个引人注目的深度学习模型,它使用潜在扩散过程来生成图像,允许模型在生成图像时考虑到文本的描述。这个模型的出现引起了广泛的关注和讨论,不仅因为它在技术上的创新,还因为它在应用领域的广泛适用性。本文将详细介绍Stable Diffusion的背景、技术原理、应用场景以及其优缺点。

stable-diffusion

一、背景介绍

随着深度学习技术的不断发展,文本到图像生成已经成为了研究的热点领域。过去几年中,出现了许多文本到图像的生成模型,如GANs、VQ-VAE等。这些模型在生成图像时,通常需要使用大量的数据和计算资源,并且生成的图像质量也参差不齐。因此,开发一种更加稳定、高效且能够生成高质量图像的文本到图像生成模型成为了当务之急。

在这个背景下,Stable Diffusion应运而生。该模型由CompVis、Stability AI和LAION的研究人员和工程师共同开发,于2022年发布。与其他文本到图像生成模型相比,Stable Diffusion具有更高的稳定性和生成质量,同时使用了一种创新的潜在扩散过程来生成图像。

在这里插入图片描述

图1 stable diffusion绘画例子

二、技术原理

Stable Diffusion 技术,作为 Diffusion 改进版本,通过引入隐向量空间来解决 Diffusion 速度瓶颈,除了可专门用于文生图任务,还可以用于图生图、特定角色刻画,甚至是超分或者上色任务。作为一篇基础原理介绍,这里着重解析最常用的“文生图(text to image)”为主线,介绍 stable diffusion 计算思路以及分析各个重要的组成模块。

下图是一个基本的文生图流程,把中间的 Stable Diffusion 结构看成一个黑盒,那黑盒输入是一个文本串“paradise(天堂)、cosmic(广阔的)、beach(海滩)”,利用这项技术,输出了最右边符合输入要求的生成图片,图中产生了蓝天白云和一望无际的广阔海滩。

在这里插入图片描述

图2 Stable Diffusion组成

Stable Diffusion 的核心思想是,由于每张图片满足一定规律分布,利用文本中包含的这些分布信息作为指导,把一张纯噪声的图片逐步去噪,生成一张跟文本信息匹配的图片。它其实是一个比较组合的系统,里面包含了多个模型子模块,接下来把黑盒进行一步步拆解。stable diffusion 最直接的问题是,如何把人类输入的文字串转换成机器能理解的数字信息。这里就用到了文本编码器 text encoder(蓝色模块),可以把文字转换成计算机能理解的某种数学表示,它的输入是文字串,输出是一系列具有输入文字信息的语义向量。有了这个语义向量,就可以作为后续图片生成器 image generator(粉黄组合框)的一个控制输入,这也是 stable diffusion 技术的核心模块。图片生成器,可以分成两个子模块(粉色模块+黄色模块)来介绍。下面介绍下 stable diffusion 运行时用的主要模块:

(1) 文本编码器(蓝色模块),功能是把文字转换成计算机能理解的某种数学表示,在第三部分会介绍文本编码器是怎么训练和如何理解文字,暂时只需要了解文本编码器用的是 CLIP 模型,它的输入是文字串,输出是一系列包含文字信息的语义向量。

(2) 图片信息生成器(粉色模块),是 stable diffusion 和 diffusion 模型的区别所在,也是性能提升的关键,有两点区别:

② Diffusion 模型一般都是直接生成图片,不会有中间生成低维向量的过程,需要更大计算量,在计算速度和资源利用上都比不过 stable diffusion;

那低维空间向量是如何生成的?是在图片信息生成器里由一个 Unet 网络和一个采样器算法共同完成,在 Unet 网络中一步步执行生成过程,采样器算法控制图片生成速度,下面会在第三部分详细介绍这两个模块。Stable Diffusion 采样推理时,生成迭代大约要重复 30~50 次,低维空间变量在迭代过程中从纯噪声不断变成包含丰富语义信息的向量,图片信息生成器里的循环标志也代表着多次迭代过程。

(3) 图片解码器(黄色模块),输入为图片信息生成器的低维空间向量(粉色 4*4 方格),通过升维放大可得到一张完整图片。由于输入到图片信息生成器时做了降维,因此需要增加升维模块。这个模块只在最后阶段进行一次推理,也是获得一张生成图片的最终步骤。

那扩散过程发生了什么?

扩散过程发生在图片信息生成器中,把初始纯噪声隐变量输入到 Unet 网络后结合语义控制向量,重复 30~50 次来不断去除纯噪声隐变量中的噪声,并持续向隐向量中注入语义信息,就可以得到一个具有丰富语义信息的隐空间向量(右下图深粉方格)。采样器负责统筹整个去噪过程,按照设计模式在去噪不同阶段中动态调整 Unet 去噪强度。
更直观看一下,如图 3 所示,通过把初始纯噪声向量和最终去噪后的隐向量都输到后面的图片解码器,观察输出图片区别。从下图可以看出,纯噪声向量由于本身没有任何有效信息,解码出来的图片也是纯噪声;而迭代 50 次去噪后的隐向量已经耦合了语义信息,解码出来也是一张包含语义信息的有效图片。
在这里插入图片描述

图3 可视化输出图片变化

到这里,我们大致介绍了 Stable Diffusion 是什么以及各个模块思路,并且简单介绍了 stable diffusion 的扩散过程。第三部分我们继续分析各个重要组成模块的运行机制,更深入理解 Stable Diffusion 工作原理。

github开源地址

三、应用场景

Stable Diffusion具有广泛的应用场景。首先,它可以应用于文本生成图像领域。通过输入一段文字描述,Stable Diffusion可以生成一张符合描述的清晰图像。这种应用场景非常适合于创意设计、艺术创作等领域。例如,设计师可以通过文字描述来设计一张海报或者服装图案,然后使用Stable Diffusion来生成符合描述的图像。

其次,Stable Diffusion还可以应用于图像修复、超分辨率重建等领域。在这些领域中,Stable Diffusion可以通过对图像进行编码和解码来修复图像中的缺陷或者提高图像的分辨率。这种应用场景非常适合于数字图像处理、计算机视觉等领域。

此外,Stable Diffusion还可以应用于视频制作、游戏设计等领域。在这些领域中,可以使用Stable Diffusion来生成视频中的动态图像或者游戏中的场景和角色。这种应用场景非常适合于影视制作和游戏开发等领域。

github开源地址 https://github.com/CompVis/stable-diffusion

stable-diffusion-ui

由于Stable Diffusion只是针对开发者的程序,需要通过接口或者命令程序去使用生成图片,对普通人非常不友好,所有一款面向普通人UIweb应用出现了,它就是开源项目stable-diffusion-ui。
Stable Diffusion Web UI是一个基于Stable Diffusion模型的应用程序接口,它利用gradio模块搭建出交互程序,可以在低代码GUI中立即访问Stable Diffusion。Stable Diffusion是一个画像生成AI,能够模拟和重建几乎任何可以以视觉形式想象的概念,而无需文本提示输入之外的任何指导。

Stable Diffusion Web UI提供了多种功能,如txt2img、img2img、inpaint等,还包含了许多模型融合改进、图片质量修复等附加升级。用户可以通过调节不同参数生成不同效果,根据自己的需要和喜好进行创作。在界面Extras(更多)中,用户可以找到优化(清晰、扩展)图像的功能;在Settings中,用户可以修改默认参数。
在这里插入图片描述

Stable Diffusion web UI GitHub 地址:https://github.com/AUTOMATIC1111/stable-diffusion-webui

Midjourney和Stable Diffusion

作为目前市场两个主流的AI绘画工具,简单介绍一下他们的共同点和不同点,还有各自的优缺点。

共同点和不同点

Midjourney和Stable Diffusion都是AI绘画工具,它们有一些共同点,但也有很多不同之处。

共同点

  • 都是基于AI技术的绘画工具。
  • 都可以通过输入文字或文本提示来生成图像。
  • 都可以用于创作各种类型的艺术作品,包括插画、漫画、摄影、设计等。

不同点

  • 生成图像的算法不同:Midjourney主要使用的是扩散模型(diffusion model),而Stable Diffusion则基于Latent Diffusion Model(LDM)。
  • 使用的技术栈不同:Midjourney使用了DALL·E模型,而Stable Diffusion则使用了CLIP ViT-L/14文本编码器。
  • 输出图像的质量不同:Midjourney的输出图像质量相对较高,而Stable Diffusion的输出图像质量相对较低。
  • 使用难度不同:Midjourney的使用难度相对较高,需要一定的学习和实践才能掌握,而Stable Diffusion则相对较容易上手。
  • 功能不同:Midjourney具有更多的功能和插件,可以用于创作各种类型的艺术作品,而Stable Diffusion则主要专注于图像生成。
  • 总的来说,Midjourney和Stable Diffusion都是非常优秀的AI绘画工具,它们各有所长,可以根据自己的需求选择合适的工具进行创作。

优缺点

Midjourney的优点

  • 输出图像质量高
  • 功能丰富:Midjourney具有较多的功能和插件,可以用于创作各种类型的艺术作品,例如插画、漫画、摄影、设计等。
  • 支持多种输入方式:Midjourney支持输入文字、图像、视频等多种形式的输入,方便用户进行创作。

Midjourney的缺点:

  • 使用难度较高
  • 需要科学上网
  • 需要付费

Stable Diffusion的优点:

  • 稳定性好
  • 细节表现好
  • 对硬件要求较低:Stable Diffusion对硬件的要求较低,可以在普通的PC上运行。
  • 免费本地使用

Stable Diffusion的缺点

  • 输出图像质量不稳定:Stable Diffusion的输出图像质量有时会不稳定,需要一定的实践和调整才能得到满意的图像。
  • 功能相对较少:Stable Diffusion的功能相对较少,主要专注于图像生成,不如Midjourney那样具有较多的功能和插件。

总的来说,Midjourney和Stable Diffusion都是非常优秀的AI绘画工具,它们各有所长,可以根据自己的需求选择合适的工具进行创作。
Midjourney具有较高的输出图像质量和丰富的功能,但使用难度较高且对硬件要求较高;而Stable Diffusion具有较好的稳定性和细节表现力,但对训练数据要求较高且功能相对较少。

总结

Stable Diffusion是一个引人注目的文本到图像生成模型,具有广泛的应用前景和潜在的发展空间。该模型使用潜在扩散过程来生成图像,具有很高的生成质量和稳定性。它可以应用于文本生成图像、图像修复、超分辨率重建等多个领域,并且具有开源的预训练模型方便用户使用。然而,由于潜在扩散过程的复杂性以及数据和计算资源的限制,Stable Diffusion仍然存在一些挑战和问题需要进一步研究和解决。

后续会讲解Stable Diffusion web UI的安装和使用,教你如何使用Stable Diffusion制作出,你想要它制作的图片!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/106817.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JAVA实现智能停车场管理系统 开源

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、研究内容A. 车主端功能B. 停车工作人员功能C. 系统管理员功能1. 停车位模块2. 车辆模块3. 停车记录模块4. IC卡模块5. IC卡挂失模块 三、界面展示3.1 登录注册3.2 车辆模块3.3 停车位模块3.4 停车数据模块3.5 IC卡档案模块3.6 IC卡挂…

香港服务器如何做负载均衡?

​  在现代互联网时代,随着网站访问量的不断增加,服务器的负载也越来越重。为了提高网站的性能和可用性,负载均衡成为了一种常见的解决方案。 什么是负载均衡? 负载均衡是一种技术解决方案,用于在多个服务器之间分配负载&#…

数据结构绪论,基本概念

目录 1.什么是数据结构? 2.三种数据结构: 3.第一章绪论 了解概念 1.几个概念 2.数据存储方式: 3.算法的五个重要特性: 4.算法设计的要求: 1.什么是数据结构? 数据 数据,是对客观事物的符号表示,在计…

Go 开发IDE全览:GoLand VS VSCode全面解析

一、引言 在软件开发的世界里,开发环境的选择与配置是成功项目的基础之一。特别是在Go(又名Golang)这样一个逐渐获得主流认同、在微服务和云计算领域有着广泛应用的编程语言中,选择合适的开发工具就显得尤为重要。虽然Go语言自身…

Hbase基本使用,读写原理,性能优化学习

文章目录 HBase简介HBase定义HBase数据模型**HBase** **逻辑结构****HBase** **物理存储结构****HBase** **基本架构** HBase 入门**HBase** **安装部署****HBase** 配置文件**HBase** 启动停止**HBase** **访问页面****HBase** **高可用****HBase Shell****HBase API**HBaseCo…

面向对象(类/继承/封装/多态)详解

简介: 面向对象编程(Object-Oriented Programming,OOP)是一种广泛应用于软件开发的编程范式。它基于一系列核心概念,包括类、继承、封装和多态。在这篇详细的解释中,我们将探讨这些概念,并说明它们如何在P…

JavaScript基础知识18——逻辑运算符之短路运算

哈喽,大家好,我是雷工。 本节学习JavaScript基础知识——逻辑运算符中的短路运算,以下为学习笔记。 规则: 1、如果是&&运算,只要遇到false,就立即短路,不会再执行了,直接返回…

应用案例|基于高精度三维机器视觉引导机器人自动分拣包裹的应用

Part.1 行业背景 近年来,电商高速发展,百万件日订单处理的超大型分拣中心模式日益普及,传统的人工供包模式效率低,难以满足高超大分拣中心对分拣包裹的需求。随着科技的进步,自动供包系统进入大众视野,成为…

基于机器视觉的火车票识别系统 计算机竞赛

文章目录 0 前言1 课题意义课题难点: 2 实现方法2.1 图像预处理2.2 字符分割2.3 字符识别部分实现代码 3 实现效果最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基于机器视觉的火车票识别系统 该项目较为新颖,适合作为竞赛…

反恐精英CS1.6forMac/win中文版:动作射击游戏的巅峰之作

的游戏爱好者们,今天我们要向大家推荐一款让人热血沸腾的第一人称动作射击游戏——反恐精英CS1.6!这款游戏承载了无数玩家的童年记忆,更是射击游戏领域中的佼佼者。 一、还原度极高的场景与道具 反恐精英CS1.6在场景和道具的还原度上做到了极…

在Mac上安装MongoDB 5.0

MongoDB 5.0安装 1、环境描述 操作系统:macOS 14.0 (23A344) 2、安装MongoDB 2.1、tar解压包安装 下载地址:Download MongoDB Community Server | MongoDB 创建一个目录,以便数据库将文件放入其中。(默认情况下,数据…

【axios】axios的基本使用

一、 Axios简介 1、 Axios是什么? Axios是一个基于promise的HTTP库,类似于jQuery的ajax,用于http请求。可以应用于浏览器端和node.js,既可以用于客户端,也可以用于node.js编写的服务端。 2.、Axios特性 支持Promis…

王道p149 7.二叉树按二叉链表形式存储,写一个判别给定二叉树是否是完全二叉树的算法(c语言代码实现)

采用层次遍历算法,将所有结点加入队列(包括空结点)。 如果没有左孩子,就看有没有右孩子,如果有右孩子,那么不为完全二叉树。 如果有左孩子,且之前不存在缺孩子的结点,左孩子进队,如果有右孩子…

零售数据分析模板分享(通用型)

零售数据来源多,数据量大,导致数据的清洗整理工作量大,由于零售的特殊性,其指标计算组合更是多变,进一步导致了零售数据分析工作量激增,往往很难及时分析数据,发现问题。那怎么办?可…

FL Studio21.2中文版多少钱?值得下载吗

水果,全称Fruity Loop Studio,简称FL Studio。是一款全能的音乐制作软件,经过二十多年的演化更迭,其各项功能非常的先进。其开创性的Pat\song模式,也为初学者的学习提供了便利。那么水果音乐制作软件需要多少钱呢&…

JAVA实现校园二手交易系统 开源

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 二手商品档案管理模块2.3 商品预约管理模块2.4 商品预定管理模块2.5 商品留言板管理模块2.6 商品资讯管理模块 三、实体类设计3.1 用户表3.2 二手商品表3.3 商品预约表3.4 商品预定表3.5 留言表3.6 资讯…

【0基础学Java第一课】-- 初始Java

目录 1. 初识java1.1 Java是什么1.2 Java应用领域1.3 Java语言发展简史1.4 Java语言特性1.5 JRE与JDK1.6 Java开发环境1.6.1 安装JDK1.6.2 配置环境变量 1.7 初始Java中main函数1.7.1 JDK、JRE、JVM之间的关系 1.8 注释1.9 标识符1.10 关键字 1. 初识java 1.1 Java是什么 Jav…

计算机操作系统重点概念整理-第二章 进程管理【期末复习|考研复习】

第二章 进程管理 【期末复习|考研复习】 计算机操作系统系列文章传送门: 第一章 计算机系统概述 第二章 进程管理 第三章 进程同步 第四章 内存管理 第五章 文件管理 第六章 输出输出I/O管理 文章目录 第二章 进程管理 【期末复习|考研复习】前言二、进程管理2.1进…

Leetcode—66.加一【简单】

2023每日刷题(十一) Leetcode—66.加一 实现代码1 /*** Note: The returned array must be malloced, assume caller calls free().*/ int* plusOne(int* digits, int digitsSize, int* returnSize){int num 0;int i 0;int arr[110] {0};// 进位标识…

Spring 更简单的读取和存储对象

引言 在上一章节中,我们通过设置配置文件的方式简单实现了 Spring 中 Bean 对象的存取,但是相比之下,每次进行对象的注册和获取还是相对麻烦的,那么有没有更简单优雅的方式呢?答案当然是有的:在 Spring 中…