前言
近年来,基于扩散模型的文本到图像生成技术取得了显著进步,能够生成高质量、逼真的图像。然而,大多数扩散模型仍然使用CLIP作为文本编码器,这限制了它们理解复杂提示的能力,例如包含多个物体、详细属性、复杂关系、长文本对齐等等。为了克服这一局限性,腾讯团队推出了一个名为ELLA(Efficient Large Language Model Adapter)的全新方法,它能够将强大的大型语言模型(LLM)与扩散模型无缝结合,从而提升文本对齐能力,无需重新训练扩散模型或LLM。
-
Huggingface模型下载:https://huggingface.co/QQGYLab/ELLA
-
AI快站模型免费加速下载:https://aifasthub.com/models/QQGYLab
技术特点
ELLA的关键技术特点使其在文本到图像生成领域展现出独特优势:
-
将LLM能力注入扩散模型,提升文本理解能力
ELLA的核心思想是将强大的LLM与扩散模型结合,利用LLM强大的语言理解能力来提升扩散模型的文本对齐能力。ELLA无需重新训练扩散模型或LLM,只需训练一个轻量级的语义对齐连接器,即可实现这一目标。
-
时间步感知语义连接器 (TSC),精准控制扩散过程
为了将LLM的语义信息有效地传递到扩散模型中,ELLA设计了时间步感知语义连接器 (TSC)。TSC能够根据扩散模型的不同阶段提取出相应的语义特征,并将其传递给扩散模型,从而帮助扩散模型在不同的噪声去除阶段理解和执行不同的指令。
-
无需训练,轻松集成社区模型和工具
ELLA可以轻松集成到现有的扩散模型中,例如Stable Diffusion和ControlNet,无需重新训练这些模型。这意味着用户可以轻松地将ELLA与各种社区模型和工具结合使用,以增强它们的文本对齐能力。
性能表现
ELLA在各种文本到图像生成任务中都展现出优异的性能:
-
ELLA在 Dense Prompt Graph Benchmark (DPG-Bench) 上表现出色,其准确率超过了90%。 DPG-Bench是一个专门用于评估文本到图像模型对复杂提示理解能力的基准测试,包含了1065个包含多个物体、详细属性、复杂关系的长文本提示。
-
ELLA在T2I-CompBench上的表现也优于其他SOTA模型,例如DALL-E 3和SDXL,特别是在包含多种属性和关系的多物体组合场景中。
应用场景
ELLA能够大幅提升文本到图像生成模型的文本理解能力,使其能够更好地理解和执行用户的指令,从而在多种应用场景中发挥重要作用:
-
更精准的图像生成: ELLA可以帮助用户根据复杂的文本描述生成更精准的图像,例如描述不同物体之间关系的图像、包含特定细节和风格的图像等等。
-
增强创意设计: ELLA可以为创意设计提供更多的可能性,例如根据文字描述生成各种设计稿,或根据用户的描述修改现有图像。
-
促进多模态交互: ELLA可以帮助构建更自然、更智能的多模态交互系统,例如根据用户的文字描述生成图像,或根据图像内容自动生成描述等等。
总结
ELLA的发布为文本到图像生成领域开创了新的可能性,它将强大的LLM能力与扩散模型无缝结合,显著提升了模型的文本理解能力,并使生成更符合复杂场景的图像成为可能。ELLA的应用前景十分广阔,相信它将推动文本到图像生成技术的进一步发展,并为人们的生活和工作带来更多便利和创新。
模型下载
Huggingface模型下载
https://huggingface.co/QQGYLab/ELLA
AI快站模型免费加速下载
https://aifasthub.com/models/QQGYLab