【可控图像生成系列论文（一）】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

【可控图像生成系列论文（一）】MimicBrush 港大、阿里、蚂蚁集团合作论文解读

article2025/1/10 11:24:23/文章来源:https://blog.csdn.net/weixin_44212848/article/details/139664567

在这里插入图片描述
背景：考虑到用户的不同需求，图像编辑是一项实用而富有挑战性的任务，其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。

创新点：在本文作者提出了一种新的编辑形式，称为模仿编辑，以帮助用户更方便地发挥他们的创造力。

具体地说，为了编辑感兴趣的图像区域，用户可以自由地直接从一些野生参考中获得灵感（例如，一些在线的相对图片），而不必处理参考和来源之间的匹配问题。
这样的设计要求系统自动地从参考中找出期望执行编辑的内容。
为此，作者提出了一种称为 MimicBrush 的生成训练框架，该框架从视频剪辑中随机选择两个帧，屏蔽一个帧的一些区域，并使用另一帧的信息学习恢复屏蔽的区域。
这样，该模型从扩散模型的先验知识发展而来，能够以自我监督的方式捕捉单独图像之间的语义对应关系。

结论：作者通过实验证明了该的方法在各种测试用例下的有效性，以及它相对于现有替代方案的优越性。作者还构建了一个基准，以便于进一步研究。

与前人工作的区别

在这里插入图片描述
如图2所示：不同管道的概念比较。要编辑局部区域，除了获取源图像和源掩码（指示要编辑的区域）外，

修复（Inpainting）模型还使用文本提示来指导生成。
图像合成（Composition）方法采用参考图像和掩模/框来裁剪出特定的参考区域。
不同的是，本方法只是需要一张参考图像，参考区域由模型本身自动发现。

具体方法

为了实现模仿编辑，作者设计了一个名为 MimicBrush 的框架，它使用双扩散 UNet 来处理源图像和参考图像。

更具体地说，作者以自监督的方式训练它，从视频中随机取两个帧来模拟源图像和参考图像。由于视频帧同时包含语义对应和视觉变化，MimicBrush 学习自动发现参考区域并将其重新绘制到源图像中，并与其周围环境自然融合。

在 MimicBrush 中，作者将带 Mask 的源图像送入 Imitative U-Net，将参考图送入 Reference U-Net。然后将Reference U-Net 的注意力键和值注入到 Imitative U-Net 中，这有助于重建 Mask 区域。如图 1 所示，MimicBrush 克服了源图像和参考图像在不同姿势、光照甚至类别上的差异。生成区域高度保留了参考图像中视觉概念的细节，并与背景和谐互动。
在这里插入图片描述
图3 所示：MimicBrush 的训练过程。

首先，作者从视频序列中随机抽取两帧作为参考图像和源图像。
然后对源图像进行掩蔽 Mask ，并对源图像进行数据增强。
然后，再将源图像的噪声图像潜像、掩模、背景潜像和深度潜像输入到 Imitative U-Net中。
参考图像也被增强并发送到 Reference U-Net。
训练双U-Nets以恢复源图像的掩蔽区域。
其中，Reference U-Net的注意力键和值（Key、Query）与 Imitative U-Net连接，以帮助合成掩蔽区域。

任务定义和评估标准

在这里插入图片描述
图4展示了本文的基准示例。它涵盖了部分合成 Part Composition（第一行）和纹理迁移 Texture Transfer（第二行）的任务。每个任务都包括一个内部ID和内部ID track。在示例图像旁边示出了每个 track 的注释数据和评估度量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/716149.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

post为什么会发送两次请求详解

post为什么会发送两次请求详解

文章目录导文跨域请求的预检复杂请求的定义服务器响应预检请求总结导文在Web开发中，开发者可能会遇到POST请求被发送了两次的情况，如下图： 尤其是在处理跨域请求时。这种现象可能让开发者感到困惑，但实际上它是浏览器安全机制…

阅读更多...

AI数据分析：根据Excel表格数据进行时间序列分析

AI数据分析：根据Excel表格数据进行时间序列分析

ChatGPT中输入提示词： 你是一个Python编程专家，要完成一个Python脚本编写的任务，具体步骤如下： 读取Excel表格："F:\AI自媒体内容\AI行业数据分析\toolify月榜\toolify2023年-2024年月排行榜汇总数据.xlsx"…

阅读更多...

SQL 表连接(表关联)

SQL 表连接(表关联)

目录一、INNER JOIN（内连接,等值连接） 二、LEFT JOIN（左连接） 三、RIGHT JOIN（右连接）： 一、INNER JOIN（内连接,等值连接） 用途：获取两个表中字段能匹配上…

阅读更多...

【stable diffusion】ComfyUI扩展安装以及”127.0.0.1拒绝了我们的连接请求“解决记录

【stable diffusion】ComfyUI扩展安装以及”127.0.0.1拒绝了我们的连接请求“解决记录

目录扩展安装”127.0.0.1拒绝了我们的连接请求“解决记录操作1操作2操作3操作4总结扩展安装虽然大家都推荐将扩展包直接放到extension文件夹的方式，但我还是推荐直接在sd webui的扩展处下载，酱紫比较好维护一点，我个人感觉。按照上图顺序点击会出现”URLError: <url…

阅读更多...

[自动驾驶 SoC]-3 英伟达Orin

[自动驾驶 SoC]-3 英伟达Orin

NVIDIA Jetson AGX OrinTM series (资料来源：nvidia-jetson-agx-orin-technical-brief.pdf) 1 整体介绍 1) Orin SoC结构 Orin SoC，如下图所示，由一个NVIDIA Ampere architecture GPU, Arm Cortex-A78AE CPU, 下一代深度学习核视觉处理加速…

阅读更多...

python相关知识-logging日志、property属性、上下文管理器、生成器等

python相关知识-logging日志、property属性、上下文管理器、生成器等

1.logging日志目的： 1.可以很方便的了解程序的运行情况 2.可以分析用户的操作行为、喜好等信息 3.方便开发人员检查bug 级别介绍： 1.DEBUG：程序调试bug时使用 2.INFO：程序正常运行时使用 3.WARNNING：程序未按…

阅读更多...

学会python——读取大文本文件（python实例六）

学会python——读取大文本文件（python实例六）

目录 1、认识Python 2、环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3、读取大文本文件 3.1 代码构思 3.2 代码示例 3.3 运行结果 4、总结 1、认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强…

阅读更多...

基于机器学习的变频器故障诊断方法（MATLAB，Python）

基于机器学习的变频器故障诊断方法（MATLAB，Python）

变频器故障数据由MATLAB Simulink生成。 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns from sklearn.neighbors import KNeighborsClassifier from sklearn.svm import SVC from sklearn.ensemble import RandomForestClass…

阅读更多...

UniVue更新日志：使用Carousel组件实现轮播图效果

UniVue更新日志：使用Carousel组件实现轮播图效果

github仓库稳定版本仓库：https://github.com/Avalon712/UniVue 开发版本仓库：https://github.com/Avalon712/UniVue-Develop UniVue扩展框架-UniVue源生成器仓库：https://github.com/Avalon712/UniVue-SourceGenerator 更新说明今天的更…

阅读更多...

【面试干货】String、StringBuilder、StringBuffer 的区别

【面试干货】String、StringBuilder、StringBuffer 的区别

【面试干货】String、StringBuilder、StringBuffer 的区别 1、String2、StringBuffer3、StringBuilder4、性能对比5、使用建议 💖The Begin💖点点关注，收藏不迷路💖 在Java中，String、StringBuilder和StringBuffer是用…

阅读更多...

是否要把展会客户引到国际站等付费平台？

是否要把展会客户引到国际站等付费平台？

有人问我：那些在展会来的客户，如果让我们发网站链接，是否要发公司的付费平台，比如阿里，中国制造网等？ 我的建议是不要发，最好是发公司的官网链接。接着她说公司在付费平台上更新得比较频繁&…

阅读更多...

湖北省小学毕业学籍照片采集流程及教师手机拍摄方法说明

湖北省小学毕业学籍照片采集流程及教师手机拍摄方法说明

随着教育信息化的不断推进，学籍管理也越来越规范和便捷。湖北省小学毕业学籍照片采集作为学籍管理的重要组成部分，对于确保学生信息的准确性和完整性具有重要意义。本文将详细介绍湖北省小学毕业学籍照片采集的流程，并提供教师使用手机拍摄照…

阅读更多...

KKT基础知识

KKT基础知识

KKT条件定义 KKT条件(Karush–Kuhn–Tucker conditions)是最优化（特别是非线性规划）领域最重要的成果之一，是判断某点是极值点的必要条件。最优化问题要选择一组参数（变量），在满足一定的限制条件&…

阅读更多...

个人云服务器已经被安全合规等卡脖子建议不要买买了必定后悔安全是个大问题没有能力维护

个人云服务器已经被安全合规等卡脖子建议不要买买了必定后悔安全是个大问题没有能力维护

我的想法自己买一个云服务器，先自己边做边学习，向往硅谷精神，财富与自由。如果能赚钱，就开个公司。这次到期就放弃了。我前前后后6年花6000多元买云服务器。业余花了无数的精力，从2018到现在 ，也没有折…

阅读更多...

【代码随想录——动态规划——第三周】

【代码随想录——动态规划——第三周】

1.目标和这里设置背包的最大长度为2100即可，因为题目中有说数组之和小于1000.但考虑到我们需要实行jnums[i]所以保守起见我们设置的数应该稍大于2000即可，这里我们设置为2100。 1.1 我的解法（粗糙了） func findTargetSumWays(n…

阅读更多...

VMware安装Debian,Debian分区,虚拟机使用NAT模式联网，Linux设置静态IP

VMware安装Debian,Debian分区,虚拟机使用NAT模式联网，Linux设置静态IP

官网 https://www.debian.org/download stable是稳定版 win下amd64就行，macOs装arm架构的安装Debian虚拟机教程里没有的只管往下点就完了哪个都行选镜像选安装位置别超过宿主机内核就行看你需求 NAT模式虚拟看你需求其他的也检查一下图形安装选中文继…

阅读更多...

MoneyPrinterPlus:AI自动短视频生成工具,详细使用教程

MoneyPrinterPlus:AI自动短视频生成工具,详细使用教程

MoneyPrinterPlus是一款使用AI大模型技术,一键批量生成各类短视频,自动批量混剪短视频,自动把视频发布到抖音,快手,小红书,视频号上的轻松赚钱工具。之前有出过一期基本的介绍，但是后台收到有些小伙伴说，不知道如何使用。今天我将会手把手的详细介绍…

阅读更多...

1.动手学习深度学习课程安排及深度学习数学基础

1.动手学习深度学习课程安排及深度学习数学基础

视频资源B站：动手学习深度学习——李沐目录目标内容将学到什么1.N维数组样例2.访问2维数组元素3.数据操作4.线性代数5.矩阵计算6.自动求导目标介绍深度学习景点和最新模型 LeNet AlexNet VGG ResNet LSTM BERT… 机器学习基础损失函数，目标函数&a…

阅读更多...

抖音矩阵系统搭建，AI剪辑短视频，一键管理矩阵账号

抖音矩阵系统搭建，AI剪辑短视频，一键管理矩阵账号

目录前言： 一、抖音矩阵系统有哪些功能？ 1.AI智能文案 2.多平台账号授权 3.多种剪辑模式 4. 矩阵一键发布，智能发布 5.抖音爆店码功能 6.私信实时互动 7.去水印及外链二、抖音矩阵系统可以解决哪些问题？ 总结&#xff…

阅读更多...

如何将接口返回/n替换为react.js中的换行符

如何将接口返回/n替换为react.js中的换行符

将每个/n替换为ReactJS中的一个<br>标记。cpa_ability为后端返回的字段名

阅读更多...

最新文章