comfyui精准作图之gligen

comfyui精准作图之gligen

article2025/1/11 18:03:13/文章来源:https://blog.csdn.net/qq_42691309/article/details/145059501

简介

在 Stable Diffusion（SD）中，GLIGEN 是一种用于增强文本到图像生成模型可控性的技术。它通过在现有的预训练扩散模型（如 Stable Diffusion）基础上，引入额外的定位输入（如边界框、关键点或参考图像），从而实现对生成图像中对象位置的精确控制。以下是 GLIGEN 的核心特点和工作原理的详细说明：

GLIGEN 的核心功能

定位控制：GLIGEN 允许用户通过边界框、关键点或参考图像等定位输入，精确控制生成图像中对象的位置和布局。
开放集生成：它支持生成训练数据中未见过的新概念和空间配置，具有较强的泛化能力。
多模态输入：除了文本描述，GLIGEN 还支持图像、边界框、关键点等多种输入模态，增强了生成的可控性和灵活性。

GLIGEN 的工作原理

冻结预训练模型：GLIGEN 保留了 Stable Diffusion 等预训练模型的权重，避免知识遗忘，同时通过新增的可训练层（如门控 Transformer 层）注入定位信息。
门控机制：通过门控自注意力机制，GLIGEN 将定位信息（如边界框）与文本描述结合，生成符合用户需求的图像。
渐进式训练：在训练过程中，GLIGEN 逐步融合定位信息，确保生成图像既符合定位条件，又保持高质量。

GLIGEN 的优势

高精度控制：相比仅依赖文本输入的生成模型，GLIGEN 能够更精确地控制生成图像中对象的位置和布局。
零样本性能：在 COCO 和 LVIS 等数据集上的零样本生成性能优于现有的有监督布局到图像生成模型。
灵活扩展：GLIGEN 的设计允许扩展到其他定位条件（如深度图、语义分割图等），进一步增强了其适用性。

GLIGEN 的应用场景

艺术创作：通过精确控制对象位置，生成符合艺术设计需求的图像。

如控制玻璃瓶与阳光的位置坐标

在这里插入图片描述

广告设计：快速生成符合特定布局要求的广告图像。

控制商品布局

在这里插入图片描述

虚拟现实：在虚拟场景中生成符合空间布局的对象。

GLIGEN 与 ControlNet 的区别

定位输入：GLIGEN 主要依赖边界框、关键点等定位输入，而 ControlNet 更侧重于通过边缘图、深度图等控制生成过程。
训练方式：GLIGEN 通过冻结预训练模型并新增可训练层来实现定位控制，而 ControlNet 则通过微调整个模型来实现

相关文献

论文地址
github

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/951863.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

【学习资源】MBSE和工业软件

【学习资源】MBSE和工业软件

工业软件从业者，需要学习与应用MBSE方法论，解决复杂问题的有效手段。笔者做一个简单介绍。 1 什么是MBSE？ MBSE（Model-Based Systems Engineering，基于模型的系统工程）是一种系统工程方法论，其…

阅读更多...

ue5 蒙太奇，即上半身动画和下半身组合在一起，并使用。学习b站库得科技

ue5 蒙太奇，即上半身动画和下半身组合在一起，并使用。学习b站库得科技

本文核心正常跑步动画端枪动画跑起来也端枪正常跑步动画端枪动画的上半身跑起来也端枪三步走： 第一步制作动画蒙太奇和插槽第二步动画蓝图选择使用上半身动画还是全身动画，将上半身端枪和下半身走路结合第三步使用动画蒙太奇 1.开始把&a…

阅读更多...

【Docker】docker compose 安装 Redis Stack

【Docker】docker compose 安装 Redis Stack

注：整理不易，请不要吝啬你的赞和收藏。前文 Redis Stack 什么是？ 简单来说，Redis Stack 是增强版的 Redis ，它在传统的 Redis 数据库基础上增加了一些高级功能和模块，以支持更多的使用场景和需求。Redis…

阅读更多...

视频转码对画质有影响吗？视频融合平台EasyCVR支持哪些转码格式？

视频转码对画质有影响吗？视频融合平台EasyCVR支持哪些转码格式？

视频转码过程是将视频文件从一种编码格式转换为另一种格式的过程，这一过程在现代数字媒体中扮演着至关重要的角色。众所周知，视频转码不仅仅是简单的格式转换，它涉及多个关键参数的改变，例如视频编码格式、比特率、分辨率以及帧率…

阅读更多...

vscode开启调试模式,结合Delve调试器调试golang项目详细步骤

vscode开启调试模式,结合Delve调试器调试golang项目详细步骤

1.前期准备 (1).在vs code中的扩展程序中搜索并安装Go扩展程序 (2).安装 Delve 调试器 go install github.com/go-delve/delve/cmd/dlvlatest (3).打开vs code的命令面板，输入Go: Install/Update Tools，并单击该命令执行，安装或更新Go语…

阅读更多...

springboot和vue配置https请求

springboot和vue配置https请求

项目场景： 代码发布到线上使用https请求需要配置ssl证书，前后端都需要修改。问题描述如图，我们在调用接口时报如下错误，这就是未配置ssl但是用https请求产生的问题。解决方案： 前端：在vite.config.js文…

阅读更多...

每日学习30分轻松掌握CursorAI：Cursor基础设置与配置

每日学习30分轻松掌握CursorAI：Cursor基础设置与配置

Cursor基础设置与配置一、基础设置概览 1. 设置项分类表设置类别主要功能重要程度语言设置界面及AI交互语言配置★★★★★快捷键配置自定义操作快捷键★★★★☆外观设置主题、字体、颜色方案★★★☆☆编辑器设置缩进、换行、代码风格★★★★☆AI功能设置AI响应灵敏度、…

阅读更多...

设计模式（观察者模式）

设计模式（观察者模式）

设计模式（观察者模式） 第三章设计模式之观察者模式观察者模式介绍观察者模式（Observer Design Pattern） 也被称为发布订阅模式。模式定义：在对象之间定义一个一对多的依赖，当一个对象状态改变的时候…

阅读更多...

QT 下拉菜单设置参数起始端口/结束端口/线程数量端口扫描4

QT 下拉菜单设置参数起始端口/结束端口/线程数量端口扫描4

上篇文章QT实现端口扫描暂停和继续功能 3-CSDN博客双击添加对话框类界面设计由于主体代码已经写完，只需要更改参数的获取即可获取起始端口结束端口的输入槽函数给主界面类添加调用对话框类的功能实现功能：点击菜单项可以弹出对话框窗体增加槽…

阅读更多...

Unity自定义编辑器：基于枚举类型动态显示属性

Unity自定义编辑器：基于枚举类型动态显示属性

1.参考链接 2.应用 target并设置多选编辑添加[CanEditMultipleObjects] using System.Collections; using System.Collections.Generic; using UnityEngine; using UnityEditor;[CustomEditor(typeof(LightsState))] [CanEditMultipleObjects] public class TestInspector :…

阅读更多...

《代码随想录》Day31打卡！

《代码随想录》Day31打卡！

《代码随想录》贪心算法：合并区间本题的完整题目如下所示： 本题的完整思路如下所示： 1.本题依然是先对数组的左边界进行排序。将数组的第一个元素赋值给current。 2.遍历数组，判断current中的右边界和当前元素的左边界是否有重叠…

阅读更多...

灵活运用事务回滚，快捷处理多张数据表格

灵活运用事务回滚，快捷处理多张数据表格

各位编程宝子们（尤其是对MySQL了解不多的宝子们）在使用关系表处理时，有时候会希望简单一次性解决多张表的数据处理，但又有时候无从下手。其实有时候掌握数据的事务和回滚便可以简单解决这些事情，接下来我将以一个学生信…

阅读更多...

Github提交Pull Request教程 Git基础扫盲（零基础易懂）

Github提交Pull Request教程 Git基础扫盲（零基础易懂）

1 PR是什么？ PR，全称Pull Request（拉取请求），是一种非常重要的协作机制，它是 Git 和 GitHub 等代码托管平台中常见的功能，被广泛用于参与社区贡献，从而促进项目的发展。 PR的整个过…

阅读更多...

kvm 解决安装windows 虚拟机cpu 核数问题

kvm 解决安装windows 虚拟机cpu 核数问题

通过lscpu命令查到我本机的cpu信息如下 CPU(s): 12 —— 系统的总逻辑处理单元数量（包括所有核心和逻辑处理器）。Thread(s) per core: 2 —— 每个物理核心支持 2 个线程（表示启用了超线程技术）。Core(s) per socket: 6 —— 每个…

阅读更多...

面向对象分析与设计Python版面向对象分析方法

面向对象分析与设计Python版面向对象分析方法

文章目录前言一、名词法二、名词法-案例三、CRC卡片法四、分析模型法（了解） 前言面向对象分析的目标：发现对象、定义对象之间的关系和属性。常用的面向对象分析方法有三种： 名词法CRC卡片法分析模型法一、名词法大型复杂系…

阅读更多...

python基础和redis

python基础和redis

1. Map函数 2. filter函数 numbers generate_numbers() filtered_numbers filter(lambda x: x % 2 0, numbers) for _ in range(5):print(next(filtered_numbers)) # 输出: 0 2 4 6 83. filter map 和 reduce 4. picking and unpicking 5. python 没有函数的重载&#xff0…

阅读更多...

Vue2：el-table中的文字根据内容改变颜色

Vue2：el-table中的文字根据内容改变颜色

想要实现的效果如图，【级别】和【P】列的颜色根据文字内容变化 1、正常创建表格 <template><el-table:data="tableData"style="width: 100%"><el-table-column prop="id" label="ID"/> <el-table-column …

阅读更多...

git提交

git提交

基本流程：新建分支 → 分支上开发(写代码) → 提交 → 合并到主分支拉取最新代码因为当前在 master 分支下，你必须拉取最新代码，保证当前代码与线上同步（最新），执行以下命令：bashgit pull orig…

阅读更多...

Airflow：TimeSensor感知时间条件

Airflow：TimeSensor感知时间条件

在数据管道工作流中，任务可能需要在特定的时间执行，或者在继续之前等待一定的时间。为了满足这些需求，Apache Airflow提供了TimeSensor，这是一种内置Sensor，可以监控当前时间，并在达到指定时间时触发后续任…

阅读更多...

JS爬虫实战演练

JS爬虫实战演练

在这个小红书私信通里面进行一个js的爬虫文字发送 async function sendChatMessage(content) {const url https://pro.xiaohongshu.com/api/edith/ads/pro/chat/chatline/msg;const params new URLSearchParams({porch_user_id: 677e116404ee000000000001});const messageD…

阅读更多...

最新文章