英伟达推出免训练,可生成连贯图片的文生图模型

目前,多数文生图模型皆使用的是随机采样模式,使得每次生成的图像效果皆不同,在生成连贯的图像方面非常差。

例如,想通过AI生成一套图像连环画,即便使用同类的提示词也很难实现。虽然DALL·E 3和Midjourney可以对图像实现连贯的生成控制,但这两个产品都是闭源的。

因此,英伟达和特拉维夫大学的研究人员开发了免训练一致性连贯文生图模型——ConsiStory。(即将开源)

论文地址:https://arxiv.org/abs/2402.03286

图片

目前,文生图模型在生成内容一致性方面比较差的原因主要有两个:1)无法识别和定位图像中的共同主体,文生图像模型没有内置的对象检测或分割模块,很难自动识别不同图像中的相同主体;

2)无法在不同图像中保持主体的视觉一致性,即使定位到主体,也很难使不同步骤中独立生成的主体在细节上保持高度相似。

主流解决这两种难题的方法是,基于个性化和编码器的优化方法。但这两类方法都需要额外的训练流程,例如,针对特定主体微调模型参数,或使用目标图像训练编码器作为条件。

即便使用了这种优化方法,训练周期较长难以扩展到多个主体,且容易与原始模型分布偏离。

而ConsiStory提出了一种全新的方法,通过共享和调整模型内部表示,可以在无需任何训练或调优的情况下实现主体的一致性

值得一提的是,ConsiStory可以作为一种插件,帮助其他扩散模型提升文生图的一致性和连贯性。

主体驱动自注意力(SDSA)

SDSA是ConsiStory的核心模块之一,可以在生成的图像批次中共享主体相关的视觉信息,使不同图像中的主体保持一致的外观。

SDSA主要扩大了扩散模型中自注意力层,允许一个图像中的“提示词”不仅可以关注自己图像的输出结果,还可以关注批次中其他图像的主体区域的输出结果

这样主体的视觉特征就可以在整个批次中共享,不同图像中的主体互相"对齐"。

图片

为了防止背景区域之间的敏感信息泄露,该模块使用主体分割蒙版来进行遮蔽——每个图像只能关注批次中其他图像主体区域的输出结果。

图片

主体蒙版是通过扩散模型本身的交叉注意力特征自动提取。

特征注入

为了进一步增强主体不同图像之间细节层面的一致性,“特征注入”基于扩散特征空间建立的密集对应图,可以在图像之间共享自注意力输出特征。

同时图像中一些相似的优化地方之间共享自注意力特征,这可以有效确保主体相关的纹理、颜色等细节特征在整个批次中互相"对齐"

图片

特征注入也使用主体蒙版进行遮蔽,只在主体区域执行特征共享。同时还设置相似度阈值,只在足够相似的优化之间执行。

锚图像和可重用主体

ConsiStory中的锚图像提供了主题信息的参考功能,主要用于引导图像生成过程,确保生成的图像在主题上保持一致。

锚图像可以是用户提供的图像,也可以是从其他来源获取的相关图像。在生成过程中,模型会参考锚图像的特征和结构,并尽可能地生成与一致性的图像。

图片

可重用主体是通过共享预训练模型的内部激活,来实现主题一致性的方法。在图像生成过程中,模型会利用预训练模型的内部特征表示来对生成的图像进行对齐,而无需进一步对齐外部来源的图像。

图片

也就是说生成的图像可以相互关注、共享特征,这使得ConsiStory实现了0训练成本,避免了传统方法中需要针对每个主题进行训练的难题。

本文素材来源ConsiStory论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/401927.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何修改unity的背景颜色

要在Unity中将背景颜色设为黑色,可以按照以下步骤进行: 1、在Unity编辑器中,选择你想要修改背景颜色的摄像机对象(一般是Main Camera)。 2、在Inspector面板中,找到"Clear Flags"(清…

掌握Redis核心:常用数据类型的高效运用秘籍!

在数据驱动的时代,高效地存储和处理数据成为了开发者们的重要任务。Redis,作为一个开源的高性能键值对(key-value)数据库,以其独特的数据结构和丰富的功能,成为了众多项目的首选。 今天,我们就…

高精度双向计量旋翼干式脉冲水表

在现代社会,水资源的合理利用与精确管理至关重要。随着科技的不断进步,水表技术也在迭代升级。今天,我们将探讨一种高科技水表——高精度双向计量旋翼干式脉冲水表,它如何改变我们的用水习惯,提升水资源管理的效率。 1…

Stable Diffusion 模型分享:FenrisXL(芬里斯XL)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 文章目录 模型介绍生成案例案例一案例二案例三案例四案例五案例六案例七案例八案例九案例十 下载地址 模型介绍 FenrisXL 是一个拟人化的 SDXL 模型,可以为动物们穿上人类的衣服&…

吴恩达机器学习全课程笔记第三篇

目录 前言 P42-P48 神经元和大脑 神经网络中的层 更复杂的神经网络 前向传播(做出预测) P49-P53 代码中的推理 构建一个神经网络 P54-P60 矩阵乘法 TensorFlow框架实现神经网络 前言 这是吴恩达机器学习笔记的第三篇,第二篇笔记…

苍穹外卖学习-----2024/02/21

1.新增员工 /*** 处理SQL异常* param sqlIntegrityConstraintViolationException* return*/ExceptionHandlerpublic Result exceptionHandler(SQLIntegrityConstraintViolationException sqlIntegrityConstraintViolationException){//String message sqlIntegrityConstraintV…

IDEA启动Springboot报错:无效的目标发行版:17 的解决办法

无效的目标发行版:17 的解决办法 一般有两个原因,一可能是本地没有安装JDK17,需要安装后然后在IDEA中选择对应版本;二可能是因为IDEA版本太低,不支持17,需要升级IDEA版本。然后在File->Project Struct…

Zabbix 6.2.1 安装

目录 1、监控介绍 监控的重要性 网站的可用性 监控范畴 如何监控 2、Zabbix 介绍 zabbix 简介 zabbix 主要功能 zabbix 监控范畴 Zabbix 监控组件 zabbix 常见进程 zabbix agentd 工作模式 zabbix 环境监控中概念 3、搭建LNMP 拓扑规划 安装MySQL 安装 Nginx …

libpng编译-android端(libpng官网下载是没有android编译脚本)

libpng编译-android端(libpng官网下载是没有android编译脚本) 环境配置(mac的原理一样可以自己配置,我在linux编译) 配置ubuntu的ndk环境 1、执行 sudo vim /etc/profile,对Path的路径文件进行更改&…

python(23)——while循环

前言 在Python中,while 循环用于重复执行一段代码块,只要指定的条件保持为真(True)。一旦条件变为假(False),循环就会终止。while 循环通常用于在不知道循环将执行多少次的情况下进行迭代。 w…

linux下开发,stm32和arduino,我该何去何从?

linux下开发,stm32和arduino,我该何去何从? 在开始前我有一些资料,是我根据网友给的问题精心整理了一份「stm3的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共…

React 模态框的设计(一)拖动组件的设计

春节终结束了,忙得我头疼。终于有时间弄自己的东西了。今天来写一个关于拖动的实例讲解。先看效果: 这是一个简单的组件设计,如果用原生的js设计就很简单,但在React中有些事件必须要多考虑一些。这是一个系列的文章,…

Megalinter 初体验

简介 MegaLinter 是一个多语言、多工具的集成代码检查工具,它能够通过一个统一的工作流来运行多个静态代码分析工具,从而提供全面的代码质量检查。 官网:https://megalinter.io/latest/ MegaLinter 的特点: 多语言支持&#x…

深入理解指针(c语言)

目录 一、使用指针访问数组二、数组名的理解1、数组首元素的地址2、整个数组 三、一维数组传参的本质四、冒泡排序五、二级指针六、指针数组 一、使用指针访问数组 可以使用指针来访问数组元素。例如,可以声明一个指针变量并将其指向数组的第一个元素,然…

QT-模拟电梯上下楼

QT-模拟电梯上下楼 一、演示效果二、核心程序三、下载链接 一、演示效果 二、核心程序 #include "ElevatorController.h" #include <QGridLayout> #include <QLabel> #include <QGroupBox> #include <QGridLayout> #include <QPushButto…

2024「诺奖风向标」斯隆奖出炉:杨笛一、杜少雷、清华校友姜楠、北大校友金驰等入选​

今天&#xff0c;斯隆基金会公布了 2024年度斯隆研究奖&#xff08;Sloan Research Fellowship&#xff09;获得者名单&#xff0c;本次斯隆研究奖共颁发给了126 人&#xff0c;其中计算机科学领域 共有 7名华人学者当选。 包括斯坦福大学杨笛一&#xff08;上海交大ACM班校友…

2.5《Python3 网络爬虫开发实战》学习之实例实战1

目录 1 实战内容 2 确定思路 3 代码实操 3.1 实现一个个网页的爬取 3.2 爬取每一个网页的电影详情页url ​编辑 3.3 连接链接&#xff0c;针对每个详情页链接进行爬取、汇总内容 3.4 存储在txt文件中 4 结尾&#xff1a;整体代码 1 实战内容 爬取Scrape | Movie中所有…

24款奔驰S400L升级原厂360全景影像 效果分享

今天给大家分享一款 接近百万豪车 奔驰S400L商务版 连360 小柏林都没有&#xff0c;奔驰果然是不坑穷人的&#xff0c;所以很多车主一提到车就升级成豪华型的配置&#xff0c;你说五米多才的车 没有原厂360全景影像 是多么的难受 倒车和狭窄路段很麻烦&#xff0c;所以车主找到…

基于EasyCVR视频汇聚系统的公安网视频联网共享视频云平台建设思路分析(一)

随着社会的发展和科技的进步&#xff0c;视频监控系统在各个领域的应用越来越广泛&#xff0c;视频云平台建设已经成为了行业数字化转型的重要一环。公安网视频汇聚联网共享云的建设需要充分考虑技术、架构、安全、存储、计算等多方面因素&#xff0c;以确保平台的稳定性和可用…

基于ExtendSim的半导体制造工厂仿真

这是一个离散事件模型&#xff0c;使用ExtendeSim “高级资源管理&#xff08;ARM&#xff09;”功能来组织和分配资源。 此模型使用离散事件仿真和高级资源管理&#xff08;ARM&#xff09;功能。ARM是一个集成系统&#xff0c;用于组织资源、区分资源并在整个模型中分配资源。…