论文题目:
Transparent Image Layer Diffusion using Latent Transparency
论文链接:https://arxiv.org/abs/2402.17113
代码仓库: GitHub - layerdiffusion/LayerDiffuse: Transparent Image Layer Diffusion using Latent Transparency
目前,视觉扩散生成模型(如Stable Diffusion等)在常规图像生成任务上获得了非常好的效果,但是在内容制作的专业领域,例如对图像进行透明分层制作,现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作,本文提出了一种名为LayerDiffuse的新型扩散方法,LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。
本文探索了一种“latent transparency”(隐透明度)的概念,通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中,并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空间的分布进行了微小的修改,这样可以保留预训练扩散隐空间的图像生成质量。作者表示,LayerDiffuse可以应用在多种不同的开源图像生成模型中,来实现图像前景/背景条件层生成、结构引导生成等复杂的功能。
此外,本文的实验结果也表明,相比普通做法(先生成图像再抠图),LayerDiffuse直接生成的透明图层图像在大多数情况下(97%)更受用户欢迎。并且作者还将LayerDiffuse与专业的商业透明资源网站Adobe Stock相比,本文方法生成的图像也具有一定的竞争力。
01. 引言
目前,绝大多数图像内容编辑软件和工作流程都基于图层进行设计,但现有的图像生成大模型仍然不具备这方面的能力,这一现象与庞大的市场需求形成了鲜明的对比。本文提出的LayerDiffuse应运而生,本文作者了解到,制作可以训练图层生成模型的数据集成本非常高昂,互联网上的高质量透明图像元素往往都有很高的下载费用,这不像普通的配对文本图像数据集(例如LAION)那样好获取。
此外,对于大多数开源的图像生成模型,例如Stable Diffusion。即使仅用少量的训练数据对其微调,也会对其潜在空间带来巨大的偏差,从而严重降低微调性能。为此,本文作者提出了一种latent transparency(潜在透明度)方法,可以将图像透明度编码为潜在偏移量,该偏移量经过明确调节可以防止对已有扩散模型的潜在分布造成破坏。LayerDiffuse的生成效果如上图所示,用户可以通过输入文本来生成图像,并且实现前景和背景的分离。
为了降低LayerDiffuse的整体质量和训练成本,作者还引入了共享注意力机制来确保图像层之间的一致性,并且使用LoRA框架对模型进行训练。值得一提的是,本文的两位作者Lvmin Zhang和Maneesh Agrawala同样也是ICCV 2023最佳论文《ControlNet》的作者,在图像生成领域有着丰富的经验。
02. 本文方法
2.1 潜在透明度(latent transparency)
2.2 加入latent transparency的扩散过程
2.3 实现图层之间的扩散
在扩散模型具有理解latent transparency概念之后,就可以实现图层之间的分层扩散。作者使用注意力共享机制和低秩LoRA策略将基础模型扩展为多层模型,如下图所示。
2.4 数据集准备和模型训练
本文使用了基于人机交互的方法来收集透明图像数据集进行训练,该数据集的初始版本是从在线图像库购买和免费下载的 20k 个高质量透明 PNG 图像。首先使用初始数据集微调SDXL扩散模型使其具有理解latent transparency的能力。随后使用该模型根据随机文本提示进行图像生成,生成结束后,人工挑选其中的1000个样本添加回训练数据集,并使用LAION美学阈值[2]进行筛选,重复执行25轮以增加样本数量,对于每个生成图像,作者还使用开源的多模态大模型LLaVA[3]生成图像caption来作为文本提示。
随后作者开始构建多图层训练数据集,如上图(b)所示,数据集格式从上一步的{文本,透明图像}扩展为{文本,前景层,背景层},作者首先使用ChatGPT和LLaMA模型对给定图像的前景和背景生成结构化的提示对,例如上图左侧的前景提示为“一只可爱的猫”,中间的整体图像提示为“花园里的猫”,右侧的背景提示为“花园里什么都没有”。在得到提示后,可以使用上一步训练好的透明扩散模型分别生成前景和背景图层。本文的训练设备为4xA100(80G NV-link),整体的训练时间为一周。
03. 实验效果
下图展示了本文方法的扩散生成效果,LayerDiffuse模型实现了近乎完美的透明图像感知效果,包括高质量的玻璃透明度、头发、毛皮和半透明效果,如发光、火焰、魔法效果等,同时具有泛化到不同场景不同主题中的能力。
此外,作者还展示了LayerDiffuse的前景和背景条件生成效果,如下图所示,模型能够生成具有几何对称和光线一致的前背景构图。以下图第二行中的“教堂中的灯泡”为例,模型具有基础的对称审美特点。第一行的“坐在长凳上”的例子也表明,LayerDiffuse能够推断出前景和背景之间的相互作用,从而提高图像的层次感。
除了可视化效果,作者还从视觉感知层面对本文方法进行了评估,作者设置了一个完善的用户评估方法,具体来说,用户评估共有14人参与,其中11人为网络众包工作者,1人为计算机专业学生,2人为专业内容创作者。作者将LayerDiffuse与SD+方法(SD+表示先使用Stable Diffusion生成RGB图像,然后进行抠图)进行对比,用户需要对100个图像样本进行主观偏好打分,随后计算平均偏好率进行对比,结果如下表group1所示,可以看到,LayerDiffuse在97%的情况下均优于其他方法。
此外,作者还进行了一个group2实验,使用与group1相同的评价指标,但是对比样本是从商业网站Adobe Stock上下载得到的,从上表的对比结果可以看出,本文方法的用户偏好率非常接近于商业网站(45.3%vs.54.7%)。
04. 总结
本文在现有扩散模型的基础上引入了一种全新的概念,称为“潜在透明度”(latent transparency),其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现,保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法,提高了整体的训练效率。
参考
[1] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.
[2] C. Schuhmann, R. Beaumont, R. Vencu, C. W. Gordon, R. Wightman, and J. Jitsev. LAION-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.
[3] H. Liu, C. Li, Q. Wu, and Y. J. Lee. Visual instruction tuning. In NeurIPS, 2023.
关于TechBeat人工智能社区
▼
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区