零基础学习图生图

目录

  • 一、图生图是什么
  • 二、安装秋叶整合包
    • 2.1 秋叶包安装
    • 2.2 秋叶包拓展安装:
    • 2.3 ckpt配置:
    • 2.4 界面常用功能配置:
  • 三、图生图基本功能展示
    • 3.1 图生图的界面
    • 3.2 重要的参数设置:
    • 3.3 涂鸦功能
    • 3.4 局部重绘功能
    • 3.5 涂鸦重绘
    • 3.6 上传重绘蒙版


一、图生图是什么

之前一直介绍文生图的若干技巧,例如训练属于自己的LoRA模型,作为一个微调的模型,可以较快实现生成内容的指定编辑。但是,有些情况下,无法用文字准确描述的时候,提示词的作用无法发挥出来,这个时候可以借助其他图的结构,来生成我们指定的图片内容,这就是图生图的原始思想。
举个例子:
给出一张示例图如下:
在这里插入图片描述
我们给出的提示词:蓝色眼睛。通过图生图的效果如下:
在这里插入图片描述

二、安装秋叶整合包

2.1 秋叶包安装

硬件环境:电脑处理器是13th Gen Intel® Core™ i9-13900K,3000 Mhz,24 个内核,32 个逻辑处理器,显卡NVIDIA GeForce RTX 4090;
软件环境:驱动版本是Nvidia 版本 546.17 (Game Ready 驱动程序),参考下图,选择pyTorch 版本为Torch2.2.0(CUDA11.8)+xFormers 0.0.24
安装提示:因为一直提示解压密码错误(使用的密码是:bilibili@秋葉aaaki (但是一直报错)),因此使用绘世启动器下载地址是:
https://www.bilibili.com/video/BV1ne4y1V7QU
具体为:下载之后,只从解压包里选择双击绘世启动,单独放到空文件夹,然后基本上从零开始安装各种库包,其中pyTorch怎么选择可以参考如下:

在这里插入图片描述

2.2 秋叶包拓展安装:

安装完之后,双击绘世启动器启动,按照下面图片的顺序安装相关扩展
在这里插入图片描述
需要安装的扩展就是下面这些:

a1111-sd-webui-tagcomplete
adetailer
multidiffusion-upscaler-for-automatic1111
sd-dynamic-thresholding
sd-webui-controlnet
sd-webui-infinite-image-browsing
sd-webui-lora-block-weight
sd-webui-model-converter
sd-webui-openpose-editor
sd-webui-prompt-all-in-one
sd-webui-segment-anything
sd-webui-supermerger
stable-diffusion-webui-model-toolkit
stable-diffusion-webui-wd14-tagger
ultimate-upscale-for-automatic1111
stable-diffusion-webui-localization-zh_Hans

2.3 ckpt配置:

可以选择已下载好的大模型(ckpt或safetensors文件)
在这里插入图片描述
这些完成了之后就一键启动(因为要加载SD-WebUI界面所以要一定时间),进入UI界面之后点击设置。
Tips:加载过程一般比较慢,如果无法加载成功,有可能需要更新显卡驱动。

2.4 界面常用功能配置:

例如SD、VAE或Clip步数等,都可以通过用户界面进行配置。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

像图片界面一样进行配置,配置完之后就先点击保存设置,然后重启网页UI。最后等一段时间加载完数据就可以正常使用了,为了验证是否可以用一般我们还会进测试,如下图所示进行文生图。
在这里插入图片描述

在这里插入图片描述
如果浏览器不断断开连接,需要不断刷新,可以检查自己显卡驱动是不是最新的。

三、图生图基本功能展示

3.1 图生图的界面

在这里插入图片描述

3.2 重要的参数设置:

重绘幅度:代表ai绘画参与的程度,数字越小越接近原图,0就是原图;1的话,表示100%重画,更改幅度最大。
在这里插入图片描述
重绘值:0,即图片与原图没有什么区别,只是尺度不一样。
在这里插入图片描述
分辨率设置:一般默认为512x512
在这里插入图片描述

也可在原图的分辨率设置倍数:如果想生成与原来图片一样大小的图片可以选择重绘尺度倍数,1就是原来大小,2就俩倍大依次类推。
在这里插入图片描述

参数:缩放模式,一共有4种,如下图所示:
在这里插入图片描述

  • 仅调整大小,对图像进行缩放,到目标分辨率。
  • 裁剪后缩放,对图像进行裁剪到目标尺度,再缩放大小。
  • 缩放后填充空白,对图像进行缩放,短边不足的部分会补充与背景相同的部分。如下图所示。
  • 调整大小 (潜空间放大),这个主要是在原始图像进入潜空间之后对图像进行缩放,类似于对每个像素进扩大,,所以一般重绘幅度要大于0.5(越高效果越好),不然画质会很模糊,其主要是用来建立不同风格但是有点类似的图片。上图所示就是重绘程度0.93的效果图。

在这里插入图片描述
在这里插入图片描述
图生图的功能主要有:

  • 涂鸦
  • 局部重绘
  • 涂鸦重绘
  • 上传重绘蒙版
    在这里插入图片描述

3.3 涂鸦功能

涂鸦功能,体现在:一个最好是纯白色背景的图片,然后使用鼠标选择画笔与颜色进行涂鸦绘画,然后通过提示词,即可生成与涂鸦内容相似的内容。

比方说,本人的涂鸦绘画如下所示:
在这里插入图片描述

给出提示词,比方说:a tree, wind
基于以上两点,生成的涂鸦定制图片如下所示:
在这里插入图片描述

3.4 局部重绘功能

局部重绘,字面意思一样,即通过鼠标画笔将局部像素抹掉。然后根据提示词,来生成抹掉部分的内容。它主要用在修改细节部分,即图片整体不错但有瑕疵时用到。
在这里插入图片描述

如上图所示用画笔选择好自己修改的地方后,可以写好自己想要的内容,然后选择重绘程度,还是和之前一样0.5是临界值低于0.5就和原图比较像,高于0.5则反之。

输入提示词为:lip stick, closed mouth.
写入相应的提示词如上图所示,点击生成,就可以得到自己想要的图片如下图所示。

观察生成的图片,可以明显看到:除了用画笔标记的嘴唇部位,其他区域没有发生变化。

3.5 涂鸦重绘

结合的涂鸦功能,以及重绘的功能,将二者结合到一起,发挥效能如何呢?

涂鸦重绘字面意思,你可以根据自己的意愿用画笔去改变图片,如下图所示
在这里插入图片描述
提示词为:tie
涂鸦重绘的效果图如下所示:
在这里插入图片描述
生成的图像,基本符合提示词的内容,局部细节保留了一些涂鸦的颜色。

3.6 上传重绘蒙版

重绘蒙版,一般需要通过鼠标即时的来操作,可以提前预设一些蒙版,在生成图片内容的过程中直接使用预设好的模板。
1、提前预设好的蒙版:
在这里插入图片描述
2、提示词
in spring

3、原图展示为:
在这里插入图片描述
4、通过上传重绘蒙版的效果图如下:
在这里插入图片描述
可以看到,在头像周围添加了一个带有春天元素的边框。这个的作用是我们不用再手动绘画蒙版具体功能,而是可以通过其他软件来制造蒙版,完成更加细致的修改,然后在输入相对应的提示词,对蒙版区域内的内容进行修改,最好不要用纯色蒙版。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/660432.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

microk8s 报错tls: failed to verify certificate: x509:

问题: ssh命令出现如下图所示 输入任何microk8s的容器命令几乎都是x509报错 kubectl get pods -ALL 原因: 证书过期 相关文档: MicroK8s - 服务和端口 Microk8S v1.24 - refresh-certs 似乎无法刷新证书 问题 #3241 规范/microk8s Git…

二叉树介绍及堆

文章目录 树 概念及结构 二叉树 概念及结构 特殊的二叉树 完全二叉树 满二叉树 性质 储存 顺序存储 链式储存 堆 概念及结构 小堆 大堆 建堆 向上调整建堆 向下调整建堆 TOPK问题 法一: 法二: 树 概念及结构 树是一种非线性的数据…

[图解]企业应用架构模式2024新译本讲解02-表数据入口

1 00:00:00,420 --> 00:00:04,330 这个案例,我们就是用书上的案例了 2 00:00:06,080 --> 00:00:08,860 收入确认的一个案例 3 00:00:09,510 --> 00:00:11,100 书上讲了,收入确认 4 00:00:13,330 --> 00:00:15,270 就是说,你给…

5月岚庭工人大会“安全就是效率、形象即是品质”

2024年5月18日、19日岚庭一月一期的“产业工人大会”和“工程大会”圆满举行初夏正当时,此次大会主要围绕“安全”与“形象”展开六场专题培训只为精益求精产业工人和装修管家全体到场。 岚庭 以绝对【安全】护家护园 安全就是生命,违章就是事故&#x…

Javaweb基础之Filter

大家好,这里是教授.F 引入: 为什么需要过滤器???我们在访问一个项目的时候,常常有很多页面,如果没有过滤器,则我们需要在用户访问一个页面的时候,都要进行一个校验&…

OrangePi AIpro 快速上手初体验——接口、样例和目标检测

​ 一、 开发板简介 OrangePi AIpro开发板是香橙派联合华为精心打造的高性能 AI 开发板,其搭载了昇腾 AI 处理器,可提供 8TOPS INT8 的计算能力,内存提供了 8GB 和 16GB两种版本。可以实现图像、视频等多种数据分析与推理计算,可…

合约之间调用-如何实现函数静态调用?

合约之间的函数调用 EOA,external owned account,外部账号,例如metamask调用最终总是由EOA发起的合约之间的调用使得一次完整的调用成为一个调用链条 合约间调用过程 调用者须持有被调用合约的地址得到被调用合约的信息将地址重载为被调用合…

母亲的爱与妻子的爱,同为“爱“。不同感受!

母亲的爱与妻子的爱,虽然都是一个女人给予男人的爱,却有着本质的不同! 天下父母对儿女的爱大多相同。在母亲眼中,儿女无论是多大年龄,无论你是否长大成人,也无论你做多大的官,有多么大的成就&am…

【深度学习】吸烟行为检测软件系统

往期文章列表: 【YOLO深度学习系列】图像分类、物体检测、实例分割、物体追踪、姿态估计、定向边框检测演示系统【含源码】【深度学习】YOLOV8数据标注及模型训练方法整体流程介绍及演示【深度学习】行人跌倒行为检测软件系统【深度学习】火灾检测软件系统【深度学…

KDD 2024|基于隐空间因果推断的微服务系统根因定位

简介:本文介绍了由清华大学、南开大学、eBay、微软、中国科学院计算机网络信息中心等单位共同合作的论文《基于隐空间因果推断的受限可观测性场景的微服务系统根因定位》。该论文已被KDD 2024会议录用。 论文标题:Microservice Root Cause Analysis Wit…

数据与结构——红黑树

目录 红黑树的概念 性质 结点的定义 插入 验证 查找 删除 红黑树与AVL树的比较 红黑树的概念 红黑树是一种自平衡二叉搜索树(Binary Search Tree, BST),其每个节点带有颜色属性,可以是红色或黑色。红黑树通过约束节点颜色…

盲盒小程序开发,为市场带来的新机遇

近年来,盲盒市场一直处于热门行业中,发展非常快速。在互联网的支持下,也衍生出了线上盲盒小程序,实现了线上线下双发展的态势。 盲盒小程序作为一种新的盲盒购物方式,受到了盲盒消费者的喜爱,为盲盒行业的…

Matlab 结构光相移法(单频多相)

文章目录 一、简介1、基于点的测距2、基于条纹的测距二、条纹编码2.1 二进制编码2.2相移法三、实现代码参考文献一、简介 在介绍相移法之前,我们需要先了解一下为啥会有相移法,了解了其来龙去脉,则更容易去应用它。 1、基于点的测距 首先我们从点的测距开始,这有点类似于立…

香港优才计划找中介是否是智商税,靠谱中介又该如何找?

关于香港优才计划的申请,找中介帮助还是自己DIY,网络上充斥的声音太多,对不了解的人来说,难以抉择的同时还怕上当受骗。 这其中很容易误导人的关键在于——信息差! 今天这篇文章的目的就是想让大家看清一些中介和DIY…

2024-05-29 blue-VH-driver-对外接口的并行调用-设计与思考

摘要: VH的driver的对外接口, 要做到可以并行,也就是两个不同的线程,分别调用,不能互相阻塞。 本文记录对其的思考和设计。 上下文: 2024-05-28 blue-VH-driver-需求分析及问题分析-CSDN博客 2024-05-27 blue-vh-问题点-CSDN博客 2024-05…

【开发利器】使用OpenCV算子工作流高效开发

学习《人工智能应用软件开发》,学会所有OpenCV技能就这么简单! 做真正的OpenCV开发者,从入门到入职,一步到位! OpenCV实验大师Python SDK 基于OpenCV实验大师v1.02版本提供的Python SDK 实现工作流导出与第三方应用集…

革新风暴来袭:报事报修系统小程序如何重塑报事报修体验?

随着数字化、智能化的发展,已经应用在我们日常生活和工作的方方面面。那么,你还在为物业报修而头疼吗?想象一下,家里的水管突然爆裂,你急忙联系物业,时常面临物业电话忙音、接听后才进行登记繁琐的报修单、…

Sytem.getenv的作用和意义介绍

Sytem.getenv的作用和意义介绍!在实际的项目开发中,我们经常需要获取一些系统自身的环境变量,为此,java官方提供的这个系统环境变量,自带了一个方法,就可以直接拿到系统的环境变量值了。 下面是一个简单的…

一个全面了解Xilinx FPGA IP核的窗口:《Xilinx系列FPGA芯片IP核详解》(可下载)

随着摩尔定律的逐渐放缓,传统的芯片设计方法面临着越来越多的挑战。而FPGA以其并行处理能力和可编程性,为解决复杂问题提供了新的途径。它允许设计者在同一个芯片上实现多种不同的功能模块,极大地提高了资源的利用率和系统的综合性能。 FPGA…