使用Kohya_ss训练Stable Diffusion Lora

Stable Diffusion模型微调方法

Stable Diffusion主要有 4 种方式:Dreambooth, LoRA, Textual Inversion, Hypernetworks。

Textual Inversion (也称为 Embedding),它实际上并没有修改原始的 Diffusion 模型, 而是通过深度学习找到了和你想要的形象一致的角色形象特征参数,通过这个小模型保存下来。这意味着,如果原模型里面这方面的训练缺失的,其实你很难通过嵌入让它“学会”,它并不能教会 Diffusion 模型渲染其没有见过的图像内容。

Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型,在它的基本上可以做任何事情。缺点是,训练它需要大量 VRAM, 目前经过调优后可以在 16GB 显存下完成训练。

LoRA (Low-Rank Adaptation of Large Language Models) 也是使用少量图片,但是它是训练单独的特定网络层的权重,是向原有的模型中插入新的网络层,这样就避免了去修改原有的模型参数,从而避免将整个模型进行拷贝的情况,同时其也优化了插入层的参数量,最终实现了一种很轻量化的模型调校方法, LoRA 生成的模型较小,训练速度快, 推理时需要 LoRA 模型+基础模型,LoRA 模型会替换基础模型的特定网络层,所以它的效果会依赖基础模型。

Hypernetworks 的训练原理与 LoRA 差不多,与 LoRA 不同的是,Hypernetwork 是一个单独的神经网络模型,该模型用于输出可以插入到原始 Diffusion 模型的中间层。 因此通过训练,我们将得到一个新的神经网络模型,该模型能够向原始 Diffusion 模型中插入合适的中间层及对应的参数,从而使输出图像与输入指令之间产生关联关系。

硬件配置

显卡选择建议:显存在10GB以上,也就是RTX3060等级以上的GPU。

准备训练数据

图片收集

  • 训练用的图片最少最少要准备10张。
  • 分辨率适中,勿收集极小图像。
  • 数据集需要统一的主题和风格的内容,图片不宜有复杂背景以及其他无关人物。
  • 图像人物尽量多角度,多表情,多姿势。
  • 凸显面部的图像数量比例稍微大点,全身照的图片数量比例稍微小点。

图片预处理

(1)裁切图片

下载图片后,要将训练图片裁切成512x512像素。你可以选择用SD WebUI自动裁切,或是手动裁切。

  1. 将要裁切的图片放到同一个目录下。
  2. 打开SD WebUI,进到Train → Preprocess images页面。
  3. 第一个字段Source directory填写原始图片的路径。
  4. 第二个字段Destination directory填写输出路径。
  5. Width和Height设置为512x512。
  6. 点击Preprocess ,图片即会自动裁切。在那之后原始图片就可以删除,只留下裁切后的图片。
(2)预先给图片上提示词(图片打标)

接着要给图片预先上提示词,这样AI才知道要学习哪些提示词。

  1. 启动SD WebUI,进入Train页面。
  2. 进入Preprocess页面,Source输入裁切图片的路径,Destination填处理后图片输出的路径。
  3. 接着勾选Create Flipped Copies,创建翻转图片提升训练数量。
  4. 然后用Stable Diffusion训练真实图片的勾选Use BLIP for caption;训练动漫人物改勾选Use DeepBooru for caption。
  5. 点击Preprocess,约几分钟后便会处理完成。输出的目录里面会含有每张图片对应的提示词txt档。
  6. 图片标注完成之后,会在图像文件夹里生成与图片同名的txt文件。点击打开txt文件,将觉得无关,多余的特征都给删除掉。

安装kohya_ss

环境准备

安装 Python 3.10,git

拉取代码

git clone https://github.com/bmaltais/kohya_ss

进入kohya_ss目录

cd kohya_ss

运行设置脚本

.\setup.bat

启动GUI

gui.bat

允许远程访问

gui.bat --listen 0.0.0.0 --server_port 7860 —headless

配置路径

需要配置以下三个目录:

  • image folder:存放训练集
  • logging folder:存放日志文件
  • output folder:存放训练过的模型

首先在image文件夹中新建一个名为100_xxxx的文件夹,100用来表示单张图片训练100次。然后将之前标注好的训练数据都放入文件夹中。

详细的配置如下:


​​​​​​​

配置训练参数:

kohya_ss提供了很多可以调节的参数,比如batchsize,learning rate, optimizer等等。可以根据自己实际情况进行配置。 

参数说明:

  • train_batch_size:训练批处理大小,指定同时训练图像的数量,默认值1,数值越大,训练时间越短,消耗内存越多。
  • Number of CPU threads per core:训练期间每个CPU核心的线程数。基本上,数字越高,效率越高,但有必要根据规格调整设置。
  • epoch:训练周期,假设想通过10次阅读50张图片来学习。在这种情况下,1个周期是50x10=500个训练。如果是2个周期,这将重复两次,因此它将是500x2=1000次学习。对于LoRA来说,2-3个时期的学习就足够了
  • Save every N epochs:每隔N个周期保存一次,如果不需要创建中间LoRA,将值设置为与“Epoch”相同。
  • Mixed precision:指定训练期间权重数据的混合精度类型。权重数据最初以32位为单位,但如有必要,通过混合16位单位数据进行学习将节省大量内存并加快速度。fp16是精度为其一半的数据格式,bf16是设计用于处理与32位数据相同的数字宽度的数据格式。可以在fp16上获得足够高的准确度。
  • Save precision:指定要保存在LoRA文件中的权重数据的类型。float为32位,fp16和bf16为16位单元。默认值为fp16。
  • Learning rate:学习率,稍微改变权重,以融入更多的给定图片。默认值为0.0001。
  • LR Scheduler:调度器是关于如何改变学习速率的设置,默认值为cosine。

LR Scheduler取值说明:

  • adafactor:一边学习,一边根据情况自动调整学习率以保存VRAM
  • constant:学习率从头到尾都没有变化
  • constant_with_warmup:从0的学习率开始,在热身时逐渐向学习率的设定值增加,在主学习时使用学习率的设置值。
  • cosine:在绘制余弦曲线时,逐渐将学习率降低到0
  • cosine _with_restarts:多次重复余弦
  • linear:线性,从学习率设置开始,并向0线性下降
  • polynomial:多项式,与线性行为相同,但减少起来有点复杂

完整的训练参数参考:

LoRA training parameters · bmaltais/kohya_ss Wiki · GitHubContribute to bmaltais/kohya_ss development by creating an account on GitHub.icon-default.png?t=N7T8https://github.com/bmaltais/kohya_ss/wiki/LoRA-training-parameters

适配Intel显卡

kohya_ss最新版本在Linux/WSL上添加Intel ARC GPU支持与IPEX支持

  • Mixed precision选择BF16
  • Optimizer选择AdamW(或任何其他非8位)
  • CrossAttention选择SDPA

 

运行setup.sh:

./setup.sh --use-ipex

运行gui.sh:

./gui.sh --use-ipex

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/153736.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Sonar生成PDF错误Can‘t get Compute Engine task status.Retry..... HTTP error: 401

报错及修改: 报错:INFO: Can’t get Compute Engine task status.Retry… org.sonarqube.ws.connectors.ConnectionException: HTTP error: 401, msg: , query: org.apache.commons.httpclient.methods.GetMethod7a021f49 ERROR: Problem generating PD…

Python-pptx教程之二操作已有PPT模板文件

文章目录 简单的案例找到要修改的元素修改幻灯片中的文本代码使用示例 修改幻灯片的图片代码使用示例 删除幻灯片代码使用示例 获取PPT中所有的文本内容获取PPT中所有的图片总结 在上一篇中我们已经学会了如何从零开始生成PPT文件,从零开始生成较为复杂的PPT是非常消…

基于边缘智能网关的冬季管网智能监测应用

随着我国北方全面进入到冬季,多日以来严寒、降雪天气频发,民生基础设施也迎来冬季考验。尤其是民众生活仰赖的水、电、气管网,面临极端冰雪天气时易存在各种风险,包括管道水/气泄露损耗、低温冻裂、积雪压塌压损、冻结受阻等。 针…

前端常用的几种加密方法

文章目录 前端常用的几种加密方法md5 加密(不可逆)base64 位加密(可加密可解密)RSA 加密(公钥加密,私钥解密)AES 加密(需要密钥才能解密)CryptoJS 常用的加密方式--demo ✒️总结 前端常用的几种加密方法 在信息安全越来越受重视的今天,JS 安全一直是前端…

无需API实现MySQL与巨量引擎的对接

通过数环通,您可以使用不到几分钟的时间即可实现MySQL与巨量引擎的对接与集成,从而高效实现工作流程自动化,降本增效! 1.产品介绍 巨量引擎是字节跳动旗下的营销服务品牌,它整合了字节跳动旗下的产品及海量内容&#…

asp.net购物网站源码-系统销售毕业设计

采用典型的三层架构进行开发,包含购物车、登陆注册、个人中心、留言板、新闻系统,前台页面、后台管理等主要技术:基于asp.net架构和sql server数据库 功能模块: 本源码是一个三层购物网站源码,功能齐全,界面…

【PyQt小知识 - 4】:QGroupBox分组框控件 - 边框和标题设置

QGroupBox QGroupBox 是 PyQt 中的一个小部件,用于创建一个带有标题的组框。 可以使用 QGroupBox 将相关控件分组并添加一个标题。 以下是一个使用 QGroupBox 的示例代码(示例一): from PyQt5.QtWidgets import * import sysa…

Linux_虚拟机常用目录汇总

根目录(cd /):/ 表示根目录,cd和 / 之间有个空格! 用户目录(cd ~):~ 表示用户目录,也称为家目录。cd 和 ~ 之间有个空格! 当前路径:执行 pwd 指令…

linux运行java程序

这个帖子实现的是linux上运行java代码 文章目录 前言一、pandas是什么?二、使用步骤 1.引入库2.读入数据总结 前言 事情发生的原因是博洋需要知道海外城市的数量,我一开始准备将全量数据拉取到本地,用代码遍历一遍。但是打包好全量数据&…

SystemVerilog学习 (9)——随机化

目录 一、概述 二、随机化 2.1、如何简单地产生一个随机数 2.1.1 利用系统函数产生随机数 2.1.2 urandom() 2.2、什么需要随机化 2.3、随机约束 2.3.1 rand 和 randc 2.3.2 随机约束的使用 2.3.3 约束块 三、总结 一、概述 随着设计变得越来越大,要产生一个完整的激…

vivado产生报告阅读分析6-时序报告2

1、复查时序路径详情 单击“ OK ”运行报告命令后 , 将打开一个新窗口。这样您即可复查其中内容。在其中可查看执行选定的每种类型 (min/max/min_max ) 的分析之后所报告的 N 条最差路径。 下图显示的“Report Timing ” ( 时序报告 ) 窗口…

知识梳理到了领域榜一,意外,开心。

我的护城河 就是掌握的不断更新的技术。 一直被认可的能力。 完美的项目交付。 写的文章得到了读者们的认可。 希望我做的努力被更多的人看到。 分享的代码片可以解决他人的问题。 很惊喜,今早我的文章被数据结构和算法领域内容榜排到了第一名。 被认可的感觉很棒。…

基于IGT-DSER实现工业触摸屏与PLC设备之间WIFI无线通讯

本文是基于IGT-DSER系列智能网关设备实现工业触摸屏与PLC设备之间WIFI无线通讯的案例。PLC之间无线通讯的案例 网络结构如下图,触摸屏通过网线连接IGT-DSERWIFI智能网关,实现WIFI的AP功能;一台串口型PLC和一台网口型PLC分别通过IGT-WSER智能网…

接口自动化测试面试题

前言 前面总结了一篇关于接口测试的常规面试题,现在接口自动化测试用的比较多,也是被很多公司看好。那么想做接口自动化测试需要具备哪些能力呢? 也就是面试的过程中,面试官会考哪些问题,知道你是不是真的做过接口自动…

【第2章 Node.js基础】2.7 Node.js 的流(一)可写流

🌈可写流 🚀什么是可写流 可写流是对数据被写入的目的地的一种抽象。 所有可写流都实现了 stream.Writable类定义的接口。 可写流的例子包括,也都是实现了可写流接口的双工流 客户端的 HTTP 请求、服务器的HTTP 响应、fs 的写入流、zlib…

JUNIT使用和注意、以及断言的介绍使用、SpringBoot Test测试类的使用、maven配置使用junit详细介绍

参考文章: https://www.cnblogs.com/zhukaile/p/14514238.html,https://blog.csdn.net/qq_36448800/article/details/126438339 一、什么是单元测试 在平时的开发当中,一个项目往往包含了大量的方法,可能有成千上万个。如何去保…

最小生成树

目录 带权图 带权图java代码实现 最小生成树 Kruskal算法 ​切分定理 Kruskal算法的java代码实现 Prim算法 Prim算法的java代码实现 总结 带权图 边上的权是附加的额外信息,可以代表不同公路的收费等你需要的信息。 带权图java代码实现 port java.io.File…

mysql---squid代理服务器

squid代理服务器 nginx也可以代理:反向代理--------负载均衡 squid:正向代理服务器。例:vpn squid :正向代理,缓存加速,acl过滤控制 代理的工作机制 1、代替客户端向网站请求数据,不需要访问代理的IP地址…

AI时代,如何防范诈骗的建议

以下是一些防范AI诈骗的方法: 认知教育:了解AI技术的应用和局限性,学习如何识别虚假信息和诈骗手段。保护个人信息:不要轻易泄露个人信息,尤其是身份证号码、银行卡号等敏感信息。谨慎对待陌生人的联系和信息&#xf…

前后端分离项目在Linux的部署方法、一台Nginx如何部署多个Web应用

需求场景:目前有三个前后端分离项目(vue+springboot),Linux服务器一台,nginx一个,比如服务器地址为www.xxxxxxx.com 我想通过80端口访问服务①(即访问www.xxxxxxx.com);通过81端口访问服务②(即www.xxxxxxx.com:81);通过82端口访问服务③(即www.xxxxxxx.com:82) ①部…