政安晨:演绎在KerasCV中使用Stable Diffusion进行高性能图像生成

小伙伴们好,咱们今天演绎一个使用KerasCV的StableDiffusion模型生成新的图像的示例。

考虑计算机性能的因素,这次咱们在Colab上进行,Colab您可以理解为在线版的Jupyter Notebook,还不熟悉Jupyter的的小伙伴可以去看一下我以前的文章:

政安晨的机器学习笔记——示例讲解机器学习工具Jupyter Notebook入门(超级详细)icon-default.png?t=N7T8https://blog.csdn.net/snowdenkeke/article/details/135880886

概述

在本篇中,我们将展示如何使用stability.ai的text-to-image模型Stable Diffusion基于文本提示生成新图像,咱们这里使用的是KerasCV的实现。

Stable Diffusion是一个强大的开源文本到图像生成模型。虽然存在多个开源实现可以轻松地从文本提示创建图像,但KerasCV的实现具有一些明显的优势。其中包括XLA编译和混合精度支持,这两者共同实现了最先进的生成速度。

在本指南中,我们将探索KerasCV的Stable Diffusion实现,展示如何使用这些强大的性能提升,并探索它们所提供的性能优势。

开始前,咱们安装一些依赖项并整理一些导入模块:

pip install tensorflow keras_cv --upgrade --quiet

(注意:要在torch后端上运行此指南,请在所有地方将设置jit_compile=False。目前,Stable Diffusion的XLA编译无法与torch一起使用。)

我这里因为使用的是Colab,所以我跳过上述的tensorflow依赖安装(colab自带):

安装好依赖后,咱们导入:

import time
import keras_cv
from tensorflow import keras
import matplotlib.pyplot as plt

稍微罗嗦一下

与大多数讲解文章不同的是,一般讲解都是首先解释一个主题,然后展示如何实现它,但是对于文本到图像生成,展示比讲解更简单。

现在快来看看 keras_cv.models.StableDiffusion() 的强大之处。

首先,我们构建一个模型:

model = keras_cv.models.StableDiffusion(img_width=512, img_height=512)

这里有一段提示:
By using this model checkpoint, you acknowledge that its usage is subject to the terms of the CreativeML Open RAIL-M license at https://raw.githubusercontent.com/CompVis/stable-diffusion/main/LICENSE

说明模型咱们创建成功。

接下来,我们给它一个提示词:

images = model.text_to_image("photograph of an astronaut riding a horse", batch_size=3)


def plot_images(images):
    plt.figure(figsize=(20, 20))
    for i in range(len(images)):
        ax = plt.subplot(1, len(images), i + 1)
        plt.imshow(images[i])
        plt.axis("off")


plot_images(images)

我在Colab上运行了差不多6分钟:

真的特别棒!

但这种模型能做的远不止如此。让我们尝试一个更复杂的提示:

images = model.text_to_image(
    "cute magical flying dog, fantasy art, "
    "golden color, high quality, highly detailed, elegant, sharp focus, "
    "concept art, character concepts, digital painting, mystery, adventure",
    batch_size=3,
)
plot_images(images)

这个可能性真的是无穷无尽的(至少Stable Diffusion潜力挖掘是无穷无尽的)。

这一切是如何工作的?

StableDiffusion 实际上当然并不依靠魔法运行,它是一种"扩散模型"。我们来深入了解一下这是什么意思。

你可能对超分辨率的概念比较熟悉:可以训练一个深度学习模型来去噪输入图像,从而将其转变为更高分辨率的版本。这个深度学习模型并不是通过神奇地恢复从噪声、低分辨率输入中丢失的信息来实现的,而是利用其训练数据分布来幻觉出在给定输入下最可能存在的视觉细节。

要了解更多关于超分辨率的内容,你可以查看以下 Keras.io 教程:

Image Super-Resolution using an Efficient Sub-Pixel CNNKeras documentationicon-default.png?t=N7T8https://keras.io/examples/vision/super_resolution_sub_pixel/Enhanced Deep Residual Networks for single-image super-resolutionKeras documentationicon-default.png?t=N7T8https://keras.io/examples/vision/edsr/

当你将这个想法推向极限时,你可能会开始问自己——如果我们只在纯噪声上运行这样的模型会怎样?模型将会"去除噪声"并开始产生全新的图像。通过多次重复这个过程,你可以将一个小块噪声转化为越来越清晰和高分辨率的人工图片。

这是2020年《使用潜在扩散模型进行高分辨率图像合成》中提出的潜在扩散的关键思想。

https://arxiv.org/abs/2112.10752icon-default.png?t=N7T8https://arxiv.org/abs/2112.10752要深入了解扩散,您可以查看Keras.io教程《去噪扩散隐式模型》。

Denoising Diffusion Implicit ModelsKeras documentationicon-default.png?t=N7T8https://keras.io/examples/generative/ddim/

现在,要从潜在的扩散转变为文本到图像系统,仍然需要添加一个关键特性:通过提示关键词控制生成的视觉内容的能力。这通过"条件化"实现,这是一种经典的深度学习技术,它包括将表示一小段文本的向量连接到噪声图像块上,然后在一个{图像:标题}对的数据集上训练模型。

这就产生了稳定扩散架构。稳定扩散由三部分组成:

文本编码器,将您的提示转换为潜在向量。 扩散模型,反复对一个64x64的潜在图像块进行"去噪"。 解码器,将最终的64x64潜在图块转换为更高分辨率的512x512图像。 首先,您的文本提示通过文本编码器投影到潜在向量空间中,这只是一个预训练的、冻结的语言模型。然后,该提示向量与随机生成的噪声图像块连接在一起,通过扩散模型在一系列"步骤"上反复进行"去噪"(步骤越多,图像越清晰、更好 - 默认值为50步)。

最后,64x64的潜在图像被发送到解码器中,以正确地渲染出高分辨率的图像。

总的来说,这是一个相当简单的系统——Keras实现仅包含四个文件,总共不到500行代码:

text_encoder.py:87行代码

diffusion_model.py:181行代码

decoder.py:86行代码

stable_diffusion.py:106行代码

但是,一旦你在数十亿张图片及其标题上进行训练,这个相对简单的系统就会变得像魔术一样。正如费曼所说的关于宇宙的事物:“它并不复杂,只是有很多而已!

KerasCV的好处

为什么应该使用keras_cv.models.StableDiffusion?

除了易于使用的API之外,KerasCV的稳定扩散模型具有一些强大的优势,包括:

  1. 图模式执行
  2. 通过jit_compile=True进行XLA编译
  3. 支持混合精度计算

当这些优势结合在一起时,KerasCV稳定扩散模型的运行速度比朴素实现快上数个数量级。本节介绍如何启用所有这些功能,并展示使用它们所带来的性能提升。

为了进行比较,我们进行了基准测试,比较了HuggingFace diffusers实现的StableDiffusion与KerasCV实现之间的运行时间。两种实现都被要求为每个图像生成50个步骤的3个图像。在这个基准测试中,我们使用了一个Tesla T4 GPU。

咱们所有的基准测试都是在GitHub上公开的开源项目,并且可以在Colab上重新运行以复现结果。以下表格显示了基准测试的结果:

GPUModelRuntime
Tesla T4KerasCV (Warm Start)28.97s
Tesla T4diffusers (Warm Start)41.33s
Tesla V100KerasCV (Warm Start)12.45
Tesla V100diffusers (Warm Start)12.72

在Tesla T4上的执行时间提升了30%!尽管在V100上的改进要小得多,但我们通常预计基准测试结果在所有NVIDIA GPU上都会持续支持KerasCV。

为了完整起见,我们报告了冷启动和热启动的生成时间。冷启动执行时间包括模型创建和编译的一次性成本,因此在生产环境中可以忽略不计(在该环境中,您会多次重用同一模型实例)。无论如何,这是冷启动的数据:

GPUModelRuntime
Tesla T4KerasCV (Cold Start)83.47s
Tesla T4diffusers (Cold Start)46.27s
Tesla V100KerasCV (Cold Start)76.43
Tesla V100diffusers (Cold Start)13.90

尽管运行此指南的运行时结果可能会有所不同,但在我们的测试中,使用KerasCV实现的Stable Diffusion比其PyTorch版本要快得多。这可能主要归因于XLA编译。

注意:每个优化的性能增益在不同的硬件设置之间可能存在显著差异。

未优化模型的基准测试

在继续开始之前,让我们首先对我们的未优化模型进行基准测试:

benchmark_result = []
start = time.time()
images = model.text_to_image(
    "A cute otter in a rainbow whirlpool holding shells, watercolor",
    batch_size=3,
)
end = time.time()
benchmark_result.append(["Standard", end - start])
plot_images(images)

print(f"Standard model: {(end - start):.2f} seconds")
keras.backend.clear_session()  # Clear session to preserve memory.

这次咱们用了一分钟:

混合精度

“混合精度”是指使用float16精度进行计算,同时使用float32格式存储权重。这样做是为了利用现代NVIDIA GPU上float16操作背后比其float32对应操作更快的内核。

在Keras中启用混合精度计算(因此也适用于keras_cv.models.StableDiffusion)只需要调用:

keras.mixed_precision.set_global_policy("mixed_float16")

就这样,开箱即用。

model = keras_cv.models.StableDiffusion()

print("Compute dtype:", model.diffusion_model.compute_dtype)
print(
    "Variable dtype:",
    model.diffusion_model.variable_dtype,
)
By using this model checkpoint, you acknowledge that its usage is subject to the terms of the CreativeML Open RAIL-M license at https://raw.githubusercontent.com/CompVis/stable-diffusion/main/LICENSE
Compute dtype: float16
Variable dtype: float32

正如您所看到的,上面构建的模型现在使用了混合精度计算;利用float16操作的速度进行计算,同时以float32精度存储变量。

# Warm up model to run graph tracing before benchmarking.
model.text_to_image("warming up the model", batch_size=3)

start = time.time()
images = model.text_to_image(
    "a cute magical flying dog, fantasy art, "
    "golden color, high quality, highly detailed, elegant, sharp focus, "
    "concept art, character concepts, digital painting, mystery, adventure",
    batch_size=3,
)
end = time.time()
benchmark_result.append(["Mixed Precision", end - start])
plot_images(images)

print(f"Mixed precision model: {(end - start):.2f} seconds")
keras.backend.clear_session()

XLA编译

TensorFlow内置了XLA:加速线性代数编译器。 keras_cv.models.StableDiffusion在开箱即用时支持jit_compile参数。将此参数设置为True可以启用XLA编译,从而实现显著加速。

使用如下:

# Set back to the default for benchmarking purposes.
keras.mixed_precision.set_global_policy("float32")

model = keras_cv.models.StableDiffusion(jit_compile=True)
# Before we benchmark the model, we run inference once to make sure the TensorFlow
# graph has already been traced.
images = model.text_to_image("An avocado armchair", batch_size=3)
plot_images(images)

这次咱们用了2分多钟。

让我们来对我们的 XLA 模型进行基准测试:

start = time.time()
images = model.text_to_image(
    "A cute otter in a rainbow whirlpool holding shells, watercolor",
    batch_size=3,
)
end = time.time()
benchmark_result.append(["XLA", end - start])
plot_images(images)

print(f"With XLA: {(end - start):.2f} seconds")
keras.backend.clear_session()

在A100 GPU上,我们获得了大约2倍的加速。太棒了!

融合一起

现在咱们将所有这些都放在一起。

现在咱们看看如何组装世界上性能最佳的StableDiffusion推理流程?

执行下述代码:

keras.mixed_precision.set_global_policy("mixed_float16")
model = keras_cv.models.StableDiffusion(jit_compile=True)

接下来可以自己尝试一下(我这里就不赘述了):

# Let's make sure to warm up the model
images = model.text_to_image(
    "Teddy bears conducting machine learning research",
    batch_size=3,
)
plot_images(images)
start = time.time()
images = model.text_to_image(
    "A mysterious dark stranger visits the great pyramids of egypt, "
    "high quality, highly detailed, elegant, sharp focus, "
    "concept art, character concepts, digital painting",
    batch_size=3,
)
end = time.time()
benchmark_result.append(["XLA + Mixed Precision", end - start])
plot_images(images)

print(f"XLA + mixed precision: {(end - start):.2f} seconds")

可以这样查看结果:

print("{:<22} {:<22}".format("Model", "Runtime"))
for result in benchmark_result:
    name, runtime = result
    print("{:<22} {:<22}".format(name, runtime))

这里咱们受限于资源没有执行优化,其实经过全面优化的模型只需要几秒钟就能够在A100 GPU上从一个文本提示中生成一组图像。

结论

KerasCV提供了Stable Diffusion的先进实现,并通过使用XLA和混合精度。

如果您拥有自己的NVIDIA GPU或最新的MacBookPro等,您也可以在本地计算机上运行模型。(请注意,在MacBookPro上运行时,不应启用混合精度,因为它有可能未得到苹果的良好支持。)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/376679.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

web前后端小坑记录

游戏服务器过年这段时间忙完了&#xff0c;好久没看web了&#xff0c;重温一下。发现竟然没有文章记录这些修BUG的过程&#xff0c;记录一下。 目录 如何处理F5刷新&#xff1f; 如何处理F5刷新&#xff1f; 后端应该发现路由不存在&#xff0c;直接返回打包好的index.html就…

软件22-上午题-树与二叉树1

一、树 树形结构&#xff0c;非线性结构。 树是n个节点的有限集合。 树的定义是递归的。 1-1、树的基本概念 1、结点的度&#xff1a;一个结点的子树个数。 2、树的度&#xff1a;树中最大的结点的度数。 3、叶子结点&#xff1a;度为0的结点。 4、分支结点&#xff1a;度…

this指针详细总结 | static关键字 | 静态成员

文章目录 1.this指针引入2.this指针的特性3.静态成员3.1.C语言中static的基本用法3.2.C中的static关键字 1.this指针引入 class student { public:student(const string& name){ _name name; }void print(){// _name<>this->_name<>(*this)._name// 说一下…

多路服务器技术如何处理大量并发请求?

在当今的互联网时代&#xff0c;随着用户数量的爆炸性增长和业务规模的扩大&#xff0c;多路服务器技术已成为处理大量并发请求的关键手段。多路服务器技术是一种并行处理技术&#xff0c;它可以通过多个服务器同时处理来自不同用户的请求&#xff0c;从而显著提高系统的整体性…

零基础学Python(7)— 基本输入与输出

前言&#xff1a;Hello大家好&#xff0c;我是小哥谈。从第一个Python程序开始&#xff0c;我们一直在使用print()函数向屏幕上输出一些字符&#xff0c;这就是Python的基本输出函数。除了print()函数&#xff0c;Python还提供了一个用于进行标准输入的input()函数&#xff0c;…

成员对象与封闭类

1. 成员对象与封闭类 类里有其他对象则该对象叫成员对象&#xff1b;有成员对象的类叫 封闭类&#xff1b;上例中&#xff0c;如果CCar类不定义构造函数&#xff0c;则会使用默认的无参构造函数&#xff0c;那么下面的语句会编译出错: 因为编译器不明白CCar类中的tyre成员对象…

node.js后端+小程序前端+mongoDB(增删改查)

前言 今天我对比了以下node.js的express与python的fastAPI&#xff0c;我决定我还是出一期关于node.jsmangoDB小程序的小案例吧。 不是python的fastAPI不好用&#xff0c;因为fastAPI是python较新的技术&#xff0c;我不敢果断发出教学文章&#xff08;这件事情还是留着给pyt…

《幻兽帕鲁》攻略:0基础入门及游戏基础操作 幻兽帕鲁基础设施 幻兽帕鲁基础攻击力 Mac苹果电脑玩幻兽帕鲁 幻兽帕鲁加班加点

今天就跟大家聊聊《幻兽帕鲁》攻略&#xff1a;0基础入门及游戏基础操作。 如果想在苹果电脑玩《幻兽帕鲁》记得安装CrossOver哦。 以下纯干货&#xff1a; CrossOver正版安装包&#xff08;免费试用&#xff09;&#xff1a;https://souurl.cn/Y1gDao 一、基础操作 二、界面…

生成式学习,特别是生成对抗网络(GANs),存在哪些优点和缺点,在使用时需要注意哪些注意事项?

生成对抗网络&#xff08;GANs&#xff09; 1. 生成对抗网络&#xff08;GANs&#xff09;的优点&#xff1a;2. 生成对抗网络&#xff08;GANs&#xff09;的缺点&#xff1a;3. 使用生成对抗网络&#xff08;GANs&#xff09;需要注意的问题 1. 生成对抗网络&#xff08;GANs…

RabbitMQ的延迟队列实现[死信队列](笔记二)

上一篇已经讲述了实现死信队列的rabbitMQ服务配置&#xff0c;可以点击: RabbitMQ的延迟队列实现(笔记一) 目录 搭建一个新的springboot项目模仿订单延迟支付过期操作启动项目进行测试 搭建一个新的springboot项目 1.相关核心依赖如下 <dependency><groupId>org.…

设计模式理解:单例模式+工厂模式+建设者模式+原型模式

迪米特法则&#xff1a;Law of Demeter, LoD, 最少知识原则LKP 如果两个软件实体无须直接通信&#xff0c;那么就不应当发生直接的相互调用&#xff0c;可以通过第三方转发该调用。其目的是降低类之间的耦合度&#xff0c;提高模块的相对独立性。 所以&#xff0c;在运用迪米特…

【机器学习】机器学习流程之收集数据

&#x1f388;个人主页&#xff1a;甜美的江 &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;机器学习 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进步…

有趣的CSS - 旋转的太极图

目录 整体效果核心代码html 代码css 部分代码 完整代码如下html 页面css 样式页面渲染效果 整体效果 使用 :before 、:after 伪元素以及 animation 属性画一个顺时针旋转的太极图。 核心代码部分&#xff0c;简要说明了写法思路&#xff1b;完整代码在最后&#xff0c;可直接复…

PKI - 03 密钥管理(如何进行安全的公钥交换)

文章目录 Pre密钥管理面临的挑战安全密钥管理的几种方式手动密钥交换与确认受信任的介绍 Pre PKI - 02 对称与非对称密钥算法 密钥管理面临的挑战 密钥管理面临的挑战主要包括以下几点&#xff1a; 安全的公钥交换&#xff1a;在使用基于非对称密钥算法的服务之前&#xff0c…

Hadoop3.x基础(4)- Yarn

来源&#xff1a;B站尚硅谷 目录 Yarn资源调度器Yarn基础架构Yarn工作机制作业提交全过程Yarn调度器和调度算法先进先出调度器&#xff08;FIFO&#xff09;容量调度器&#xff08;Capacity Scheduler&#xff09;公平调度器&#xff08;Fair Scheduler&#xff09; Yarn常用命…

回归预测 | Matlab实现ABC-BP人工蜂群算法优化BP神经网络多变量回归预测

回归预测 | Matlab实现ABC-BP人工蜂群算法优化BP神经网络多变量回归预测 目录 回归预测 | Matlab实现ABC-BP人工蜂群算法优化BP神经网络多变量回归预测预测效果基本描述程序设计参考资料 预测效果 基本描述 1.Matlab实现ABC-BP人工蜂群算法优化BP神经网络多变量回归预测&#x…

盘点Java集合(容器)概览,Collection和Map在开发中谁用的最多?

写在开头 在Java的世界里万物皆对象。但我认为是万物皆数据&#xff0c;世界由各种各样数据构建起来&#xff0c;我们通过程序去实现数据的增删改查、转入转出、加减乘除等等&#xff0c;不同语言的实现方式殊途同归。由此可见&#xff0c;数据对于程序语言的重要性。 这段话…

Spring Boot 001 环境配置以及初始化项目

知识储备 后端&#xff1a;JavaSE, SSM&#xff08;SpringSpringMVCMyBatis&#xff09; 前端&#xff1a;HTML, CSS, Javascript 环境准备 JDK17下载 Java Downloads | Oracle 安装方式 JDK17在Windows安装以及环境变量配置&#xff08;超详细的教程&#xff09;_jdk17安装…

功能强大的国外商业PHP在线教育系统LMS源码,直播课程系统

源码介绍 Proacademy是在线教育一体化的解决方案&#xff0c;用于创建类似于Udemy、Skillshare、Coursera这种在线教育市场。 这个平台提供在线课程&#xff0c;现场课程&#xff0c;测验等等&#xff0c;并有一个基于实际业务需要的高级认证插件&#xff0c;程序基于Laravel…

NLP中的嵌入和距离度量

本文将深入研究嵌入、矢量数据库和各种距离度量的概念&#xff0c;并提供示例和演示代码。 NLP中的嵌入 嵌入是连续向量空间中对象、单词或实体的数值表示。在NLP中&#xff0c;词嵌入捕获词之间的语义关系&#xff0c;使算法能够更好地理解文本的上下文和含义。 让我们试着用…