SEELE框架:图像中主体重定位的创新方法

现有的图像编辑工具多集中于静态调整,如替换图像中的特定区域或改变整体风格,对于动态调整——特别是图像中主体的位置变化则显得力不从心。这种局限性激发了对更加先进和灵活的图像编辑技术的探索。复旦大学数据科学学院的研究团队提出了一种名为SEELE的框架,用于实现图像中主体的动态重定位。SEELE框架通过统一的提示引导修复过程,使用单一的扩散模型有效处理主体移除、完成和协调等子任务,为图像编辑带来了新的可能性。

Fig. 1描述了使用SEELE框架与Google Magic Editor在主体重定位方面的比较。展示了SEELE在主体移除、完成和协调方面的应用效果,并通过统一的提示引导修复过程,由单一的扩散模型驱动

方法

SEELE通过动态地重新定位图像中的主体,同时保持图像的完整性和真实感,实现了一种全新的视觉呈现方式。SEELE框架的核心在于它能够理解用户意图,识别出图像中的主体,并根据用户的指令将其移动到期望的位置。这一过程中,SEELE不仅要考虑主体的新位置,还要处理因主体移动而产生的空白区域,以及主体可能被遮挡的部分。SEELE通过先进的算法,能够智能地填补空白,重建遮挡部分,并确保主体在新位置上与周围环境协调一致。

用户在主体重定位的每个阶段所需的输入,如选择主体、指定移动方向等

SEELE框架是针对图像中主体重定位问题提出的一整套解决方案。它通过创新性地分解任务、引入任务反转技术,以及精心设计的预处理和后处理步骤,实现了对图像中主体的精准操控。

SEELE框架处理主体重定位任务的流程

图 2 展示了SEELE框架在处理主体重定位(SubRep)任务时的流程。这一流程包括三个关键步骤:预处理、操作和后处理。SEELE框架通过单一的扩散模型来解决所有生成子任务,确保了处理过程的高效性和一致性。

预处理阶段: 在预处理阶段,SEELE框架的首要任务是精确识别图像中的主体。这一过程依赖于用户输入的条件,如简单的点选、绘制的边框,或是文本描述,SEELE都能够据此定位主体。接着,SEELE会分析主体间的遮挡关系,这是确保重定位后图像自然性和连贯性的关键。例如,如果一个人物主体被树木遮挡,SEELE需要识别出这种遮挡,并在后续步骤中适当处理,以保持场景的真实性。此外,如果需要,SEELE还会调整主体的大小,以符合透视关系,确保在新位置上主体的比例和场景相匹配。

操作阶段: 操作阶段是SEELE框架的核心,涉及到主体的移除、填补和重建。首先,SEELE会填充主体移位后留下的空白区域,这一步骤需要创造性地生成与周围环境相融合的内容,避免出现不自然或突兀的视觉效果。其次,如果主体在移动后被部分遮挡,SEELE将使用用户指定的不完整掩码来重建被遮挡的主体部分,确保主体的完整性。这一阶段的关键在于使用单一的扩散模型,通过不同的任务提示来指导模型完成不同的生成任务,从而实现主体的有效重定位。

后处理阶段: 后处理阶段的目的是确保重新定位的主体与新环境之间的无缝衔接。SEELE会处理由于主体移动带来的任何视觉上的不一致性,包括调整光照、颜色和纹理,以匹配新背景。SEELE还会特别关注局部协调,确保主体的边界和周围环境自然过渡,没有明显的边界痕迹。如果主体在新位置上需要阴影效果,SEELE也能够根据场景的光照条件生成逼真的阴影,增强主体的立体感和融入感。通过这些细致的调整,SEELE能够生成高质量、高保真的重定位图像。

SEELE框架通过这三个阶段的紧密协作,实现了对图像中主体的精准操控和自然重定位,为用户提供了一种高效、直观且强大的图像编辑工具。

任务反转是SEELE框架中的一个关键创新点,它使得单一的扩散模型能够适应多种不同的图像生成任务。这一技术的核心在于将传统的文本到图像的生成过程转变为基于任务指令的生成过程,从而提高了模型的灵活性和适应性。

在任务反转中,SEELE不是简单地使用现成的文本提示来引导图像生成,而是通过训练学习到的潜在嵌入(latent embeddings)来指导扩散模型。这些嵌入作为替代文本条件,能够根据具体的任务指令来调整模型的生成方向。这种方法的优势在于,它允许SEELE在不改变模型架构的情况下,通过调整任务级别的"文本"提示来适应不同的图像生成任务。

任务反转的实现涉及到以下几个关键步骤:

  1. 生成特定任务的掩码:为了训练模型识别和响应不同的任务,SEELE首先需要为每个任务生成特定的掩码。例如,在主体移除任务中,掩码会模拟主体被移除后留下的空白区域。

  2. 学习任务特定的提示:通过训练过程,SEELE学习到与特定任务相关的提示,这些提示能够指导扩散模型生成符合任务需求的图像内容。例如,"complete the subject"(完成主体)这样的提示会引导模型填充被遮挡的主体部分。

  3. 保持模型主干固定:在任务反转的训练过程中,SEELE保持了扩散模型的主干部分不变,只有任务提示的嵌入向量是可学习的参数。这减少了模型训练的复杂性,并保持了原有模型的稳定性。

  4. 适应不同生成路径:由于不同的子任务可能需要不同的生成逻辑,任务反转允许SEELE通过学习到的任务提示来选择最合适的生成路径。这样,无论是填补空白、重建遮挡部分,还是协调主体与环境的一致性,SEELE都能够灵活应对。

4a 比较了任务反转与其他技术的不同,展示了SEELE的独特之处
4b 展示了生成的掩膜,用于训练任务反转,处理不同的任务

学习任务反转是SEELE框架中的一个核心过程,它使得模型能够理解和执行特定的图像编辑任务。这一过程涉及到训练模型以识别和响应各种任务指令,而不是简单地依赖于固定的文本提示。以下是学习任务反转的几个关键方面:

  1. 任务特定掩码的生成:为了训练模型识别不同的图像编辑任务,SEELE首先需要创建与任务相关的掩码。例如,在主体移除任务中,需要生成一个掩码来表示主体被移除后留下的空间。在主体完成任务中,掩码则表示被遮挡的主体部分,需要模型来填充和重建。

  2. 任务指令的嵌入学习:SEELE通过训练学习到与特定任务相关的潜在嵌入向量,这些嵌入向量作为任务指令,指导扩散模型的生成过程。这一学习过程涉及到优化模型,使其能够根据任务指令生成符合预期的图像内容。

  3. 冻结模型主干:在学习任务反转的过程中,SEELE框架保持了扩散模型的主干部分不变,只有与任务相关的嵌入向量是可训练的参数。这种设计允许模型在不牺牲原有能力的前提下,获得执行特定任务的能力。

  4. 适应多样化的任务需求:通过学习任务反转,SEELE能够适应不同的图像编辑任务,如主体移除、主体完成和主体协调等。这种适应性是通过调整任务级别的提示来实现的,而不是通过改变模型的架构。

  5. 优化和评估:在学习过程中,SEELE使用特定的损失函数来优化任务指令的嵌入向量。这些损失函数衡量了生成图像与预期结果之间的差异。通过最小化这些损失,SEELE能够提高任务执行的准确性和可靠性。

  6. 灵活性和扩展性:任务反转的学习方法为SEELE提供了极高的灵活性和扩展性。随着新任务类型的出现,SEELE可以通过学习新的任务指令来适应这些任务,而无需进行大规模的模型重构。

实验

实验中,SEELE框架在10242张真实世界图像上进行了主体重定位任务。结果表明,SEELE能够在多样化的场景中灵活地重新定位主体,并且生成的图像具有高保真度。这些示例证明了SEELE在处理复杂图像时的能力,包括不同光照条件、背景和主体类型。

SEELE在10242张真实世界图像上进行主体重定位的效果

由于Google Photos的Magic Editor不公开,无法直接与SEELE进行比较。因此,实验主要将SEELE与原始的Stable Diffusion(SD)修复模型进行了比较。SD模型使用了不同的提示来进行主体移除和完成任务。实验还集成了其他几种修复算法到SEELE中,以评估其性能。

通过视觉比较,SEELE在主体移除和完成方面表现出色。特别是在处理不精确的掩码时,SEELE能够减少不清晰边缘的影响,并且更好地平滑区域。与其他方法相比,SEELE在保持主体完整性和周围环境一致性方面具有明显优势。

SEELE与其他方法在ReS数据集上的定性比较结果

为了更客观地评估SEELE的性能,研究团队使用了Learned Perceptual Image Patch Similarity (LPIPS)作为定量指标,并进行了用户研究来评估用户对结果的偏好。用户研究涉及100份匿名调查,结果显示SEELE在所有指标上都显著优于其他方法,尤其是在图像操作的质量与周围区域的一致性方面。

SEELE与其他方法在ReS数据集上的定量比较和用户研究结果

为了进一步验证任务反转的有效性,SEELE在Places2数据集上进行了标准修复任务的实验,并与Flickr-Scenery数据集上的其他修复算法进行了比较。结果表明,任务反转在标准修复和扩展任务中均表现出色。

SEELE在标准图像修复和扩展任务上的性能比较

实验还探讨了不同任务提示对SEELE生成方向的影响。结果表明,使用错误的提示可能会导致模型生成不良的结果,这验证了SEELE学习到的任务提示在引导特定生成方向方面的能力。

为了评估SEELE中本地协调子任务的有效性,进行了消融研究。结果表明,结合和谐提示和LoRA参数可以有效地解决本地协调问题。

 7a 展示了使用不同任务提示导致的不同生成结果
 7b 展示了局部和谐化子任务的消融研究

最后,实验还评估了SEELE中各个组件的有效性。结果表明,每个组件都对生成图像的保真度和一致性有重要影响。

SEELE中使用特定组件对生成图像的一致性的影响

通过这些详细的实验结果和分析,SEELE框架证明了其在图像中主体重定位任务中的高效性和可靠性。随着技术的不断发展,SEELE有望在图像编辑和内容创作领域发挥更大的作用。

论文链接:https://arxiv.org/abs/2401.16861

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/775496.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jmeter-beanshell学习1-vars使用获取变量和设置变量

最近又开始了用jmeter做自动化,不管怎么实现,都逃离不了用beanshell,最后把所有校验都放在了beanshell判断,效果还不错。 首先jmeter有很多beanshell相关的元件,取样器、前置处理器、后置处理器、断言,暂时…

把Windows打造成一个NTP网络时间服务器,为网关提供校时服务

把Windows打造成一个NTP网络时间服务器,为网关提供校时服务。主要目的是为了解决:当网关不能上外网的时候,可以使用局域网的电脑来当做NTP服务器,实现校时功能。 跟着小编来看,如何使用NTP网络时间服务器来同步时间。 …

推荐3款Windows系统的神级软件,免费、轻量、绝对好用!

DiskView DiskView是一款用于管理和查看磁盘空间的工具,它集成了于微软的Windows操作系统资源管理器中,以显示直观的磁盘空间使用情况。该软件通过生成图形化地图,帮助用户组织和管理大量文件和文件夹,从而高效地管理磁盘空间。用…

数字信号处理及MATLAB仿真(2)——离散系统

上回书说到如何来编写一些简单的离散时间序列,今天咱们就来谈谈一些关于常系数差分方程的操作吧。 说到这里咱们对于常系数差分方程可能最关心的就是怎么去求解了。 其中最关键的部分就是filter函数,可以用来计算系统在输入信号为x的输出信号y。大家学过…

【C++】日期类

鼠鼠实现了一个日期类,用来练习印证前几篇博客介绍的内容!! 目录 1.日期类的定义 2.得到某年某月的天数 3.检查日期是否合法 4.(全缺省)构造函数 5.拷贝构造函数 6.析构函数 7.赋值运算符重载 8.>运算符重…

elasticsearch-users和elasticsearch-reset-password介绍

elasticsearch 内置 elastic, kibana, logstash_system,beats_system 共4个用户,用途如下: elastic 账号:内置的超级用户,拥有 superuser 角色。 kibana 账号:用来连接 elasticsearch 并与之通信。Kibana 服务器以该用…

分享超级实用的3款AI工具,让工作效率轻松翻倍

Hey,职场小伙伴们!每天被堆积如山的工作压得喘不过气?加班成了日常,效率却不见提高?别急,今天就让我来给你们揭秘3款AI神器,它们将是你职场上的得力助手,让你的工作效率轻松翻倍&…

政务单位网站SSL证书选择策略

在数字化快速发展的今天,政务单位网站作为政府与公众沟通的重要桥梁,其安全性和可信度显得尤为重要。SSL证书作为保障网站安全的重要手段,其选择对于政务单位网站来说至关重要。本文将探讨政务单位网站在选择SSL证书时应该考虑的因素&#xf…

2024暑假集训第四次考试(终极测试)

作者的话 虽然这是最后一次考试,也是10天暑假集训的终极测试,但是题目难度反而没那么高,这里的难度是思考深度,但是主要是广范围的考所学知识的简单应用(也就是基本都是模版题的应用,只不过知识面广&#x…

国际水务交流 | 一带一路沿线水环境考察暨中马水务合作论坛

从具体区域来看,“一带一路"沿线国家环境问题复杂而多样,各国生态环境特征差异明显 东南亚尤其是东盟地区受热带季风影响,降水较多,洪水高发,也是世界生物最为多样最为丰富的地区之一,这一区域面临森…

WBCE CMS v1.5.2 远程命令执行漏洞(CVE-2022-25099)

前言 CVE-2022-25099 是一个影响 WBCE CMS v1.5.2 的严重安全漏洞,具体存在于 /languages/index.php 组件中。该漏洞允许攻击者通过上传精心构造的 PHP 文件在受影响的系统上执行任意代码。 技术细节 受影响组件:/languages/index.php受影响版本&…

欧洲智慧能源展揭幕,海博思创闪耀登场展示储能创新

近日,备受瞩目的欧洲智慧能源展(The Smarter E Europe)盛大开幕,吸引了全球能源行业的目光。在这场国际性的盛会中,中国储能行业的领军企业海博思创凭借卓越的技术实力和创新的解决方案,成为展会上一颗耀眼…

性能压测 -优化 Nginx的动静分离

两件事情 1.以后将所有的项目的静态资源都应该放在nginx里面 2.nginx 规则:/static/***所有请求都有nginx直接返回 nginx 配置一下配置文件,然后把html 的静态资源,绑定好是Nginx优先级高的静态资源路径,就去交给nginx静态资源…

电子发票时代企业如何实现电子发票无纸化管理?

“全电发票”、“报销入账归档”、“无纸化办公”与“金税四期”一道,成为数智化时代当之无愧的热词。2012年起,我国不断出台政策推动电子发票及电子会计档案,2020年更是连续出台《关于规范电子会计凭证报销入账归档的通知》,全电…

2024第二届电子通信与计算机科学技术国际会议(ICECCST 2024)

2024第二届电子通信与计算机科学技术国际会议(ICECCST 2024) 会议简介 2024第二届电子通信与计算机科学技术国际会议(ICECCST 2024)是一次重要的学术盛会,将在中国厦门举行。会议的主要目的是为全球的电子通信和计算机科学技术领域的专家、…

【信息学奥赛】CSP-J/S初赛07 排序算法及其他算法在初赛中的考察

本专栏👉CSP-J/S初赛内容主要讲解信息学奥赛的初赛内容,包含计算机基础、初赛常考的C程序和算法以及数据结构,并收集了近年真题以作参考。 如果你想参加信息学奥赛,但之前没有太多C基础,请点击👉专栏&#…

【车载开发系列】GIT安装详细教程

【车载开发系列】GIT安装详细教程 【车载开发系列】GIT安装详细教程 【车载开发系列】GIT安装详细教程一. GIT软件概念二. GIT安装步骤三. GIT安装确认三. GIT功能使用1)Git Bash2)Git CMD3)Git FAQs4)Git GUI 一. GIT软件概念 G…

【YOLOv5/v7改进系列】改进池化层为ASPP

一、导言 Atrous Spatial Pyramid Pooling (ASPP)模块是一种用于多尺度特征提取的创新技术,旨在提升深度学习模型在语义图像分割任务中的表现。ASPP模块通过在不同的采样率下应用空洞卷积,可以捕获不同大小的对象以及图像的上下文信息,从而增…

JMH320【亲测】【御剑九歌】唯美仙侠手游御剑九歌+WIN学习手工端+视频教程+开服清档+运营后台+授权GM物品充值后台

资源介绍: 这也是仙梦奇缘的一个游戏 注意:外网14位IP或域名 ———————————————————————————————————– ps后台介绍: 1区运营后台:http://ip:9981/admin/admintool/ 2区运营后台:http://ip…

小阿轩yx-LVS+Keepalived群集

小阿轩yx-LVSKeepalived群集 Keepalived 双机热备份基础知识 起初是专门针对 LVS 设计的一款强大的辅助工具主要用来提供故障切换(Failover)和健康检査(HealthChecking)功能—判断LVS 负载调度器、节点服务器的可用性当 master 主机出现故障及时切换到backup 节点保证业务正常…