Divide and Conquer: Language Models can Plan and Self-Correct for Compositional Text-to-Image Generation
公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
目录
0. 摘要
3. 方法
3.1 LLM 代理
3.2 无调整多概念定制
3.3 布局到图像生成
3.4 局部图像编辑
4. 结果
0. 摘要
尽管在文本生成高质量图像的模型方面取得了显著进展,但在复杂文本提示的情况下,这些方法仍然难以确保对图像的可控性,特别是在保留对象属性和关系方面。在这篇论文中,我们提出了CompAgent,这是一种无需训练的组合文本生成图像的方法,其核心是一个大型语言模型(LLM)代理。CompAgent 的基本思想是基于一种分而治之(divide-and-conquer)的方法。给定一个包含多个概念(包括对象、属性和关系)的复杂文本提示,LLM 代理首先对其进行分解,这包括提取单个对象、它们关联的属性以及预测一个连贯的场景布局。然后,这些单独的对象可以独立地被处理。随后,代理通过分析文本进行推理,规划并使用工具来组合这些孤立的对象。最后,我们将验证和人工反馈机制合并到我们的代理中,以进一步纠正潜在的属性错误并完善生成的图像。在 LLM 代理的指导下,我们提出了一个无微调多概念定制模型和一个布局到图像生成模型作为概念组合的工具,以及一个局部图像编辑方法作为与代理交互的工具进行验证。场景布局在这些工具之间控制图像生成过程,以防止在多个对象之间产生混淆。大量实验证明了我们的组合文本生成图像方法的优越性:CompAgent 在 T2I-CompBench 上实现了超过 10% 的改进,这是一个用于开放式世界组合 T2I 生成的综合基准。对各种相关任务的扩展也说明了我们的 CompAgent 在潜在应用方面的灵活性。
项目页面:https://zhenyuw16.github.io/CompAgent/
3. 方法
我们的 CompAgent 概述如图 3 所示。LLM 代理协调整个框架。它对复杂文本提示进行分解,分析文本中的属性,并设计要使用的工具的计划。最终,它调用工具来进行组合文本生成图像。
3.1 LLM 代理
我们的 LLM 代理的主要职责围绕执行任务,包括分解、规划、工具使用以及验证和反馈的实施。
3.2 无调整多概念定制
在本节中,我们主要介绍我们的无调整多概念定制工具。其概述如图 4 所示。训练无调整定制图像生成模型通常需要进行大规模的预训练以进行主题表示学习。目前,已经有支持单概念定制的无调整方法可用。对于我们的方法,我们基于现有的单概念定制模型,BLIP-Diffusion [Li et al. 2023a],并通过引入场景布局扩展其能力,以适应多个概念。值得注意的是,我们通过融合场景布局,消除了对大规模上游预训练的需求,直接构建了一个无调整的多概念定制模型,以保持对象属性的完整性。
具体来说,对于每个概念,我们使用 BLIP-2 编码器和多模态编码器 [L i et al. 2023b] 提取其主题提示嵌入。为了全面了解准确的对象属性,我们利用与单个概念对应的多个图像中包含的信息。我们收集从这些图像中派生的所有嵌入,并计算它们的平均值,生成用于后续使用的明确定义的主题提示嵌入。它们与文本提示嵌入连接,并传递到单概念定制模型的 U-Net [L i et al. 2023a] 进行图像生成。
然而,直接聚合来自多个概念的嵌入很容易导致在图像生成过程中不同对象之间的干扰,从而产生概念混淆问题。为了避免这种情况,我们利用场景布局来调节每个对象的位置,从而减轻它们之间干扰的风险。我们采用两个级别的布局控制 - 全局和局部。
如图 4 顶部所示,我们对 COCO 数据集 [Lin et al. 2014] 的背景进行掩蔽,并通过布局到图像范式训练 ControlNet [Zhang et al. 2023]。通过残差,ControlNet 被用于控制 U-Net。它在全局级别提供强大的控制,有效区分多个对象,因此很好地避免它们之间的混淆。然而,它只能进行全局控制,无法独立控制每个单独的对象的位置。
为了分别进行个体对象的局部布局控制,我们进一步建议根据场景布局编辑交叉注意力图,这是因为交叉注意力图直接影响生成图像的空间布局 [Hertz et al. 2023]。具体而言,我们收集每个对象词及其属性词的交叉注意力图。我们在与对象存在的区域添加正常数 𝛼+,同时在其余区域添加负常数 𝛼−。与 ControlNet 相比,交叉注意力编辑实现了明显较弱的布局控制,但可以独立管理每个对象的位置。因此,当与 ControlNet 协同集成时,它有效地控制整个图像的总体布局。最终,在布局的指导下,不同的对象可以互相区分,避免混淆问题,实现多概念定制。
3.3 布局到图像生成
为了保证对象之间的关系,我们直接从场景布局生成图像。虽然我们之前采用的 ControlNet 和交叉注意力编辑方法确实可以解决布局到图像的问题,但它们的特点是对布局施加了太强的约束。一旦场景布局偏离了对对象关系的精确描述,就变得难以确保对这些关系的准确表示。因此,我们通过反向传播限制框损失(box-constrained loss) [Xie et al. 2023] 的潜在更新策略进行从布局生成图像。它对布局提供相对宽松的控制,因此可以灵活地确保对象之间的关系。
3.4 局部图像编辑
为了纠正具有错误属性的对象,我们引入了我们的局部图像编辑工具,如图 5 所示。通过向我们的LLM 代理查询进行验证,我们可以确定哪些对象属性是错误的并需要修改。我们利用 Grounding DINO [Liu et al. 2023c] 和 SAM [Kirillov et al. 2023] 的组合来分割对象。生成的分割掩模用于交叉注意力编辑,为图像编辑提供位置指导。需要编辑的图像通过 DDIM 反演重新转换为潜在,作为后续图像生成过程的初始潜在。具有正确属性特征的对象的图像已经在先前生成过。这些图像与文本提示一起,以类似于先前定制模型的方式进行处理,作为 U-Net 的条件输入。图像生成的过程通常遵循先前的多概念定制,其中图像 DDIM 反演作为初始潜在。分割掩模用作交叉注意力编辑的指导,而不使用 ControlNet。通过这种方式,具有错误属性的对象可以得到有效替代和纠正。