CVPR 2024 | 长时舞蹈生成:数秒钟可生成极长的3D舞蹈

1bac49ddff114067881a0be351781a7a.png

 

论文题目:

Transparent Image Layer Diffusion using Latent Transparency
论文链接: 

https://arxiv.org/abs/2402.17113
代码仓库: GitHub - layerdiffusion/LayerDiffuse: Transparent Image Layer Diffusion using Latent Transparency

目前,视觉扩散生成模型(如Stable Diffusion等)在常规图像生成任务上获得了非常好的效果,但是在内容制作的专业领域,例如对图像进行透明分层制作,现有的方法仍然缺乏这种功能。本文介绍一篇来自斯坦福大学的工作,本文提出了一种名为LayerDiffuse的新型扩散方法,LayerDiffuse允许我们大规模预训练扩散模型来生成专业的透明图层。

本文探索了一种“latent transparency”(隐透明度)的概念,通过将alpha通道的透明度编码到预训练扩散模型的隐空间流形中,并将对透明度的调节设置为对隐空间流形的偏移量。LayerDiffuse仅对基础预训练隐空间的分布进行了微小的修改,这样可以保留预训练扩散隐空间的图像生成质量。作者表示,LayerDiffuse可以应用在多种不同的开源图像生成模型中,来实现图像前景/背景条件层生成、结构引导生成等复杂的功能

此外,本文的实验结果也表明,相比普通做法(先生成图像再抠图),LayerDiffuse直接生成的透明图层图像在大多数情况下(97%)更受用户欢迎。并且作者还将LayerDiffuse与专业的商业透明资源网站Adobe Stock相比,本文方法生成的图像也具有一定的竞争力。

01. 引言

目前,绝大多数图像内容编辑软件和工作流程都基于图层进行设计,但现有的图像生成大模型仍然不具备这方面的能力,这一现象与庞大的市场需求形成了鲜明的对比。本文提出的LayerDiffuse应运而生,本文作者了解到,制作可以训练图层生成模型的数据集成本非常高昂,互联网上的高质量透明图像元素往往都有很高的下载费用,这不像普通的配对文本图像数据集(例如LAION)那样好获取。

461d56e6a01a4d0b9df60b8b931230e6.png

 

此外,对于大多数开源的图像生成模型,例如Stable Diffusion。即使仅用少量的训练数据对其微调,也会对其潜在空间带来巨大的偏差,从而严重降低微调性能。为此,本文作者提出了一种latent transparency(潜在透明度)方法,可以将图像透明度编码为潜在偏移量,该偏移量经过明确调节可以防止对已有扩散模型的潜在分布造成破坏。LayerDiffuse的生成效果如上图所示,用户可以通过输入文本来生成图像,并且实现前景和背景的分离。

b14b4122e39c4b4f8a60aca8c3b74bd7.png

 

为了降低LayerDiffuse的整体质量和训练成本,作者还引入了共享注意力机制来确保图像层之间的一致性,并且使用LoRA框架对模型进行训练。值得一提的是,本文的两位作者Lvmin Zhang和Maneesh Agrawala同样也是ICCV 2023最佳论文《ControlNet》的作者,在图像生成领域有着丰富的经验。

02. 本文方法

590ad51b04814734ab2adec588ac7d5c.png

 

2.1 潜在透明度(latent transparency)

2.2 加入latent transparency的扩散过程

0d85db68dd2e42c3a4d90aa3435c933f.png

2.3 实现图层之间的扩散

在扩散模型具有理解latent transparency概念之后,就可以实现图层之间的分层扩散。作者使用注意力共享机制和低秩LoRA策略将基础模型扩展为多层模型,如下图所示。

7b56c491811c4b2ea7492c1f6cca76c5.png

 

2.4 数据集准备和模型训练

本文使用了基于人机交互的方法来收集透明图像数据集进行训练,该数据集的初始版本是从在线图像库购买和免费下载的 20k 个高质量透明 PNG 图像。首先使用初始数据集微调SDXL扩散模型使其具有理解latent transparency的能力。随后使用该模型根据随机文本提示进行图像生成,生成结束后,人工挑选其中的1000个样本添加回训练数据集,并使用LAION美学阈值[2]进行筛选,重复执行25轮以增加样本数量,对于每个生成图像,作者还使用开源的多模态大模型LLaVA[3]生成图像caption来作为文本提示。

b79d597c40fa46f9bc062c114b22f071.png

 

随后作者开始构建多图层训练数据集,如上图(b)所示,数据集格式从上一步的{文本,透明图像}扩展为{文本,前景层,背景层},作者首先使用ChatGPT和LLaMA模型对给定图像的前景和背景生成结构化的提示对,例如上图左侧的前景提示为“一只可爱的猫”,中间的整体图像提示为“花园里的猫”,右侧的背景提示为“花园里什么都没有”。在得到提示后,可以使用上一步训练好的透明扩散模型分别生成前景和背景图层。本文的训练设备为4xA100(80G NV-link),整体的训练时间为一周

03. 实验效果

下图展示了本文方法的扩散生成效果,LayerDiffuse模型实现了近乎完美的透明图像感知效果,包括高质量的玻璃透明度、头发、毛皮和半透明效果,如发光、火焰、魔法效果等,同时具有泛化到不同场景不同主题中的能力。

e5af1859a51449b5bc7a94ae58c52b92.png

 

此外,作者还展示了LayerDiffuse的前景和背景条件生成效果,如下图所示,模型能够生成具有几何对称和光线一致的前背景构图。以下图第二行中的“教堂中的灯泡”为例,模型具有基础的对称审美特点。第一行的“坐在长凳上”的例子也表明,LayerDiffuse能够推断出前景和背景之间的相互作用,从而提高图像的层次感

741c4c929aff40ee9fecdf18acbe2bff.png

 

除了可视化效果,作者还从视觉感知层面对本文方法进行了评估,作者设置了一个完善的用户评估方法,具体来说,用户评估共有14人参与,其中11人为网络众包工作者,1人为计算机专业学生,2人为专业内容创作者。作者将LayerDiffuse与SD+方法(SD+表示先使用Stable Diffusion生成RGB图像,然后进行抠图)进行对比,用户需要对100个图像样本进行主观偏好打分,随后计算平均偏好率进行对比,结果如下表group1所示,可以看到,LayerDiffuse在97%的情况下均优于其他方法

4d68e4531d5a4a33be3ff61766bd3a90.png

 

此外,作者还进行了一个group2实验,使用与group1相同的评价指标,但是对比样本是从商业网站Adobe Stock上下载得到的,从上表的对比结果可以看出,本文方法的用户偏好率非常接近于商业网站(45.3%vs.54.7%)

04. 总结

本文在现有扩散模型的基础上引入了一种全新的概念,称为“潜在透明度”(latent transparency),其可以将透明alpha通道编码到扩散模型的潜在分布中。这一过程可以通过调节添加在潜在空间的偏移量来实现,保证了原有大规模预训练扩散模型的高质量生成能力。作者还提出了一种人机交互训练集构建方法,提高了整体的训练效率。

参考

[1] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021.

[2] C. Schuhmann, R. Beaumont, R. Vencu, C. W. Gordon, R. Wightman, and J. Jitsev. LAION-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2022.

[3] H. Liu, C. Li, Q. Wu, and Y. J. Lee. Visual instruction tuning. In NeurIPS, 2023.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/478030.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PR无法在指定轨道上粘贴

在Adobe Premier Pro 2022中,按照视频教程复制(Ctrl C)、粘贴(Ctrl V)一段视频素材时,不能粘贴到点亮的轨道上,尝试了几次都不行。 最后找到了原因。 在快捷键设置中,发现CtrlV快捷键对应的是,粘贴到同一轨道&…

在线教育资源管理系统|基于JSP技术+ Mysql+Java的在线教育资源管理系统设计与实现(可运行源码+数据库+设计文档)

推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 2024年56套包含java,ssm,springboot的平台设计与实现项目系统开发资源(可…

一文了解AI长文本工具:Kimi Chat;与ChatGPT比较对比

一文了解AI长文本工具:Kimi Chat;与ChatGPT比较对比 在人工智能领域,ChatGPT、Claude2.1和Kimi Chat都是备受关注的大型模型。它们在文本生成、理解和处理方面展现了强大的能力。本文将深入探讨这三个工具的核心功能、优劣势以及适用场景&am…

人工智能驱动的对话背后的魔力

未来交流革命:了解对话式AI的关键优势 在不断发展的技术世界中,人工智能驱动的对话处于创新的前沿,改变了企业与客户互动和管理关系的方式。 这篇博文深入探讨了对话式人工智能的迷人世界,探讨了其当前的趋势、应用程序以及它在重…

聚焦“新质职校“发展,企业力量赋新能

聚焦"新质职校"发展 一、什么是“新质生产力” 新质生产力自2023年9月被首次提出后,便成为经济热词。在最近的全国“两会”中,新质生产力这一议题引起了广泛关注。新质生产力,作为对传统生产力概念的全面升级,是对当前…

《数字集成电路物理设计》学习笔记(持续更新中)

参考书籍: 《数字集成电路物理设计》pdf下载百度云链接: 链接: https://pan.baidu.com/s/1jOD54q_f9KLhfX6InabTRA?pwd8888 提取码: 8888 复制这段内容后打开百度网盘手机App,操作更方便哦 --来自百度网盘超级会员v8的分享 目录 第1章 集…

STM32关于使用定时器触发ADC转换的理解

以STM32 ADC的常规通道为例(注入通道类似): 如上图,STM32 ADC的常规通道可以由以上6个信号触发任何一个,我们以使用TIM2_CH2触发ADC1,独立模式,每次仅测一条通道,则ADC的配置如下&am…

个人信息-求职[web前端]

我有近近10年开发及6年的管理经验Web前端,所负责的技术团队经历了 Web 前端几代技术变革,参与了几乎,在性能优化、开发效率、所有前端相关项目工程化架构选型上都有丰厚的产出。在上家致力于数据安全前端的相关工作,专注于Vue.js技术栈来推进…

慎投!新增5本期刊被剔除!数据库期刊目录更新

毕业推荐 SSCI(ABS一星) • 社科类,3.0-4.0,JCR2区,中科院3区 • 13天录用,28天见刊,13天检索 SCIE: • 计算机类,6.5-7.0,JCR1区,中科院2区…

Docker jupyter 容器中添加matplotlib 中文支持

本教程基于 jupyter/datascience-notebook,适用其他容器。 # 查看所有 Docker 容器 docker ps -a # 进入已经运行的 Jupyter 容器 docker exec -it CONTAINER_ID bash 本例中CONTAINER_ID为2e # 切换到 matplotlib 的字体目录(find / -name "…

基于springboot+vue的民族婚纱预定系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

Linux部署MySQL

Linux部署MySQL5.7.17 mkdir /opt/mysql cd /opt/mysql#mysql下载官网: #https://downloads.mysql.com/archives/community/ #下载server、client、lib和common wget https://downloads.mysql.com/archives/get/p/23/file/mysql-community-server-5.7.17-1.el7.…

JavaScript高级(十七)---异步函数await-async

异步函数 async function 异步函数的内部代码执行过程和普通的函数是一致的,默认情况下也是会被同步执行。 async function foo() {console.log("foo function start~")console.log("内部的代码执行1")console.log("内部的代码执行2&quo…

ISIS骨干网连续性简述

默认情况下, 一、L1路由器是ISIS 普通区域内部路由器,只能与L1和L1-2路由器建立邻接关系,不能与L2路由器建立邻接关系。 二、L2路由器是骨干区域的路由器,L2路由器只能与其他 L2路由器同处一个区域,可与本区域的L2路由…

数值分析(三) Lagrange(拉格朗日)插值法及Matlab代码实现

目录 前言一、Lagrange(拉格朗日)插值1. 线性插值2. 抛物插值3. 拉格朗日插值多项式 二、Lagrange插值算法及matlab代码1. Lagrange 插值算法matlab实现2 实例3. 线性插值示意图代码4. 抛物插值示意图代码 三、总结四、插值法专栏 前言 本篇为插值法专栏…

生产计划数据模型,实现能源企业数字化高效管理

随着市场经济的快速发展,能源企业在经济发展中的地位也随之提高。但由于能源企业在生产计划经济管理上存在指标不平衡、市场观念落后和环保意识欠缺等问题,导致企业的经济效益降低。目前,提高企业的生产计划管理是改善能源企业现状最有利的途…

【合合TextIn】深度解析智能文档处理技术与应用

目录 一、智能文档处理介绍 二、文档格式解析 三、图像增强技术解析 四、传统文字识别OCR技术解析 五、深度学习OCR技术解析 六、深度学习版面分析技术解析 七、文档分类 八、信息抽取 九、系统集成:将IDP处理后的数据集成到企业系统 结论 一、智能文档处…

【复杂网络建模】——建模工具Matlab入门

目录 一、认识MATLAB 二、认识工具箱 三、基本操作和函数 3.1 算术操作符 3.2 数学函数 3.3 矩阵操作 3.4 索引和切片 3.5 逻辑操作 3.6 控制流程 3.7 数据输入输出 四、变量和数据类型 4.1 数值类型 4.2 整型 4.3 复数 4.4 字符串 4.5 逻辑类型 4.6 结构体&a…

手机怎么恢复出厂设置?1分钟教会你!

有时候我们可能会遇到一些问题,例如苹果手机系统崩溃、软件故障或者准备出售手机等情况,这时候恢复出厂设置就成了解决问题的一种方法。 然而,许多用户可能认为恢复出厂设置的过程复杂且耗时,因此不愿意尝试。但实际上&#xff0…

JVM类加载过程

过程:加载、验证、准备、解析、初始化 加载阶段 1.通过一个类的全限定名来获取定义此类的二进制字节流。 2.将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构。 3.在Java堆中生成一个代表这个类的java.lang.class对象,作为方法区这些数…