前言
近年来,扩散模型(Diffusion Model,DM)在图像生成领域取得了显著进展,展现出前所未有的图像质量和多样性。然而,扩散模型的训练和推理过程通常需要多个步骤,这限制了其在实际应用中的效率。为了克服这一挑战,字节跳动AI团队推出了全新的扩散模型加速框架——Hyper-SD,并将其开源。Hyper-SD 能够将扩散模型的推理步骤大幅压缩,甚至实现单步生成高质量图像,同时保持甚至超越原模型的生成效果。
-
Huggingface模型下载:https://huggingface.co/ByteDance/Hyper-SD
-
AI快站模型免费加速下载:https://aifasthub.com/models/ByteDance
技术特点
Hyper-SD模型拥有以下关键技术特点,使其在扩散模型加速领域独树一帜:
-
轨迹分段一致性蒸馏 (TSCD)
Hyper-SD 采用了一种名为轨迹分段一致性蒸馏(TSCD)的技术。该技术将扩散模型的整个训练过程划分为多个阶段,并在每个阶段内对模型进行一致性蒸馏,以确保模型在不同阶段都能保持一致的生成质量。TSCD 的优势在于,它能够有效地减少模型拟合的复杂度,并避免因模型拟合不足或推理过程中累积误差而导致的图像质量下降。
-
人机协同优化
Hyper-SD 将人机协同优化技术引入到模型加速中。它利用人类的审美偏好和现有的视觉感知模型,对加速后的模型进行进一步的优化,以提升图像的审美质量和结构合理性。这使得 Hyper-SD 能够生成更符合人类审美标准的图像,并在某些情况下甚至超越原模型的性能。
-
统一LoRA支持全步长推理
Hyper-SD 引入了一种统一的LoRA(低秩自适应)技术,使模型能够在所有推理步骤中都保持一致性,包括单步推理。这意味着用户可以灵活地根据不同的需求选择推理步骤,而无需重新训练模型。
性能表现
Hyper-SD 模型在多个基准测试中都取得了领先的性能:
-
Hyper-SDXL 在单步推理中,CLIP得分比 SDXL-Lightning 高出 +0.68,Aesthetic得分高出 +0.51,超越了现有的扩散模型加速方法。
-
Hyper-SD 能够在 1 到 8 个推理步骤中,为 SDXL 和 SD1.5 都实现最佳的性能。
应用场景
Hyper-SD 的高效性能和出色效果,使其在多个领域具有广泛的应用潜力:
-
加速图像生成: Hyper-SD 可以加速扩散模型的图像生成过程,大幅缩短生成时间,提高生成效率。
-
提升图像质量: Hyper-SD 能够生成更高质量的图像,尤其是在单步推理中,其效果甚至超越了原模型。
-
拓展应用场景: Hyper-SD 的低步长推理能力,使其可以应用于更多资源受限的场景,例如移动设备、嵌入式系统等等。
总结
Hyper-SD 的开源,为扩散模型的加速发展提供了新的方向。该模型能够在保持高图像质量的同时,大幅减少推理步骤,甚至实现单步生成SOTA级图像。Hyper-SD 的发布将推动扩散模型技术的发展,并为图像生成领域带来更多可能性。
模型下载
Huggingface模型下载
https://huggingface.co/ByteDance/Hyper-SD
AI快站模型免费加速下载
https://aifasthub.com/models/ByteDance