阿里提出MS-Diffusion:一键合成你喜爱的所有图像元素,个性化生成新思路!

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:

  • 需要根据文本描述准确维护每个参考主题的细节;

  • 难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

针对这些问题,阿里联合浙大提出了MS-Diffusion,MS-Diffusion 框架有助于在单主题场景(上图)和多主题上下文(下图)中实现个性化。值得注意的是,在保留主题细节的复杂性的同时,MS-Diffusion 实现了文本保真度的显著提升。

相关链接

项目主页:https://ms-diffusion.github.io/

论文地址:https://arxiv.org/pdf/2406.07209.pdf

代码地址:https://github.com/MS-Diffusion/MS-Diffusion

论文阅读

MS-Diffusion:具有布局指导的多主题零样本图像个性化

摘要

文本到图像生成模型的最新进展极大地增强了从文本提示生成照片级逼真图像的能力,从而增加了人们对个性化文本到图像应用的兴趣,尤其是在多主题场景中。然而,这些进步受到两个主要挑战的阻碍:

  • 需要根据文本描述准确维护每个参考主题的细节;

  • 难以在不引入不一致的情况下在单个图像中实现多个主题的连贯表示。

为了解决这些问题,我们的研究引入了 MS-Diffusion 框架,用于布局引导的多主题零样本图像个性化。这种创新方法将基础标记与特征重采样器相结合,以保持主题之间的细节保真度。在布局指导下,MS-Diffusion 进一步改进了交叉注意力以适应多主题输入,确保每个主题条件作用于特定区域。所提出的多主题交叉注意力在保留文本控制的同时协调了和谐的跨主题构图。全面的定量和定性实验证实,该方法在图像和文本保真度方面均超越现有模型,促进了个性化文本到图像生成的发展。

方法

MS-Diffusion 为模型引入了两项关键增强功能:基础重采样器和多主体交叉注意机制。首先,基础重采样器能够熟练地吸收视觉信息,并将其与特定实体和空间约束相关联。随后,有针对性的交叉注意机制促进了图像条件与多主体注意层内潜在的扩散之间的精确交互。在整个训练阶段,预先存在的扩散模型的所有组件都保持冻结状态。

效果

单主题个性化

MS-Diffusion 在所有主题中都表现出极佳的文本保真度,同时保留了主题细节,尤其是活体(狗)。可以注意到,由于在生成过程中参考了整个图像,因此背景中的一些元素(第三行和第四行)也出现在结果中(草和茶壶架)。它们的作用范围取决于输入边界框。在实际应用中,建议使用蒙版图像作为条件。

多主题个性化

多主题结果涵盖了丰富的组合类型,充分体现了MS-Diffusion的通用性和鲁棒性。当场景根据文本自由变化时,主题的细节得以保留而不受影响。除了常见的平行组合,MS-Diffusion在具有一定重叠区域的组合的个性化生成中也表现出色,例如“生活+穿搭”、“物品+场景”。

布局控制能力

MS-Diffusion 关于布局控制能力的定性示例。不同颜色的边界框对应具有不同颜色边框的主体。可以证明 MS-Diffusion 可以生成符合布局条件的图像,即使是同一类别的两个实例也是如此。但是,生成的位置并不完全准确,尤其是在“草地上的一只猫和一只猫”中,说明与个性化任务中的文本和图像提示相比,布局条件相对较弱。

与 ControlNet 集成

整合不同控制条件时的生成结果。整合的控制网络由深度、Canny Edge 和 Openpose 组成。

主题插值

多主题生成中的主题插值。我们选择两只狗和两顶帽子进行线性插值,文本设置为“沙滩上戴着帽子的狗”。

结论

本研究通过开发 MS-Diffusion 为 P-T2I 扩散模型领域做出了重大贡献。这种零样本框架擅长捕捉复杂的主体细节,并将多个主体平滑地融合成单个连贯的图像。我们的模型配备了创新的 Grounding 重采样器和多主体交叉注意机制,有效地克服了常见的多主体个性化问题,例如主体忽视和冲突。与现有模型相比,广泛的消融研究强调了 MS-Diffusion 在图像合成保真度方面的增强性能。对于无需微调且需要布局指导的 P-T2I 应用程序来说,它是一种突破性的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/747589.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch8.X查询DSL语法案例进阶实战

什么是Query DSL Query DSL主要由两部分组成:查询和过滤。 查询部分:用于指定搜索条件和匹配规则。例如,可以使用match查询进行全文检索,term查询进行精确匹配,range查询进行范围匹配等。过滤部分:用于对查…

怎么使用python进行整除取余求幂

怎么使用python进行整除取余求幂? 整除法是//,称为地板除,两个整数的除法仍然是整数。 10//33 3 求模运算是%,相当于mod,也就是计算除法的余数。 5%2 1 求幂运算使用两个连续的*,幂运算符比取反的优先级高…

一码多址与同义词解决方案

随着地址库中的数据不断的丰富,地址库中一码多址和同义词的数据也会越来越多,一码多址和同义词在统一地址管理平台中的概念并不相同。 一码多址指的是多个地址编码相同,例如通过民政地址找到编码,再通过编码找到房产地址描述。 本…

meizu M10 魅蓝 10 mblu10 root 解锁 安装LSPosed框架 紫光展锐改串 AT命令 一键新机 改机软件 硬改 改参数

meizu M10 魅蓝 10 mblu10 root 解锁 安装LSPosed框架 紫光展锐改串 AT命令 一键新机 改机软件 硬改 改参数 ro.system.build.version.release11 ro.system.build.version.release_or_codename11 ro.system.build.version.sdk30 ro.system.custom.versionAndroid_M01 ro.prod…

苹果Mac安装adobe软件报错“installer file may be damaged”解决方案

最近Mac电脑系统的有小伙伴在安装PS、AI、AE、PR等软件,出现了一个错误,让人头疼不已,苦苦找寻,也找不到完美的解决方法。让我们来一起看看吧! 很多小伙伴都喜欢苹果电脑,但是在安装外来软件时,…

AI Agent实战:智能检索在Kingbase数据库管理中的优势应用

前言 在信息技术飞速发展的今天,数据库管理已成为IT专业人员日常工作中不可或缺的一部分。然而,面对复杂的SQL问题,传统的web搜索往往难以提供精准的答案,尤其是在针对特定数据库系统,如金仓数据库时,这种…

eventbus和vuex

EventBus和Vuex EventBus 工作原理 创建一个vue实例,然后通过空的vue实例作为组件之间的桥梁,进行通信,利用到的设计模式有发布订阅模式 Vuex 工作原理 维护了一个state树,是独立的状态树,有明显的层级关系。不论…

数据资产与云计算深度融合:借助云计算技术,优化数据存储、高效处理并创新应用,驱动企业数字化转型

目录 一、引言 二、数据资产与云计算深度融合的必要性 1、数据资产的重要性 2、云计算技术的优势 三、云计算技术在数据资产管理中的应用 1、数据存储的优化 2、数据处理的高效性 3、数据应用的创新 四、云计算驱动企业数字化转型的实践案例 案例一:金融行…

YCSB基准测试

1、Redis: 下载成功后,加载数据,运行 启动redis: /usr/local/redis/bin/redis-server ./bin/ycsb load redis -P workloads/workloade -p redis.hostlocalhost -p redis.port6379 -p recordcount10000 -p operationcount10000 -threads 32 ./bin/y…

【数据库】Oracle安装报错(口令设置问题)

目录 一、问题场景: 二、问题描述 三、原因分析: 四、解决方案: 方法一: 方法二: 一、问题场景: Oracle安装 二、问题描述 Oracle安装意外中断导致【口令管理】用户没有取消勾选/修改密码 三、原因…

【React】ref

概述 使用 ref 引用值 – React 中文文档 希望组件“记住”某些信息,但又不想让这些信息更新时 触发新的渲染 时,可以使用 ref 。 也就是说 ref 对象 包裹的值 React 追踪不到的,他像是用来存储组件信息的秘密“口袋”。 与 state 相同的是…

web前端——javaScript

目录 一、javaScript概述 1.javaScript历史 2.JavaScript与html,css关系 二、基本语法 ①放在head中 ②放在 body中 ③写在外部的.js文件中 1.变量 2.数据类型 3.算术运算符 4.逻辑运算符 5.赋值运算 6.逻辑运算符 7.条件运算符 8.控制语句 三、函数 1…

《数字图像处理》实验报告六

一、实验任务与要求 比较采用不同的色彩空间对彩色图像处理的效果,处理包括: a)直方图均衡化 b)图像增强 二、实验报告 (一)RGB色彩空间的直方图均衡化 / 锐化处理 1、matlab 实现代码: %…

Vue中数组的【响应式】操作

在 Vue.js 中,当你修改数组时,Vue 不能检测到以下变动的数组: 当你利用索引直接设置一个项时,例如:vm.items[indexOfItem] newValue当你修改数组的长度时,例如:vm.items.length newLength 为…

谷歌上搞下来的,无需付费,可以收藏!

在数字化时代,我们越来越依赖于智能设备来获取信息和知识。中国智谋App正是这样一款应用,它将中国古代的智慧与谋略书籍带入了我们的移动设备,让我们能够随时随地学习和领悟。而且提供文言文的原文和译文。 软件下载方式:谷歌上搞…

39.右键弹出菜单管理游戏列表

上一个内容:38.控制功能实现 以 ​​​​​​​ 38.控制功能实现 它的代码为基础进行修改 效果图: 点击设置之后的样子 点击删除 点击删除之后的样子 实现步骤: 首先添加一个菜单资源,右击项目资源选择下图红框 然后选择Menu 然…

Docker(九)-Docker运行redis6.0.8容器实例

1.宿主机新建目录存放redis.conf文件 目的:运行redis容器实例时使用自己的配置文件2.运行redis容器实例 docker run -d -p 6379:6379 --privilegedtrue -v 【宿主机配置文件目录】:/etc/redis/redis.conf -v 【宿主机数据目录】:/data --nameredis6.0.8 redis:6.0…

Keka for Mac:轻量级压缩解压神器

Keka for Mac是一款专为Mac用户打造的轻量级压缩解压软件,凭借其强大的功能和简洁易用的界面,赢得了众多用户的喜爱。无论是日常办公还是学习娱乐,Keka都能为您提供高效、安全的文件压缩和解压体验。 Keka for Mac v1.4.2中文版下载 产品特点…

记录一次CMS的代码审计

本次代码审计使用了白加黑的手法,用黑盒的视角测试功能点,用白盒的方式作为验证。 0x1 XSS guestbook处,可以看到有一个留言板 idea搜索guestbook。发现代码如下,其中的getModel是获取数据的方法。Guestbook.class就是具体要获取…

MySQL索引优化解决方案--索引介绍(1)

什么是索引 MySQL官方对于索引的定义:索引是帮助MySQL高效过去数据的数据结构。 MySQL在存储数据之外,数据库系统中还维护着满足特定查找算法的数据结构,这些数据结构以某种引用(指向)表中的数据,这样我们…