字节开源Hyper-SD模型,超越SDXL-Lightning,单步生成SOTA级图像

前言

近年来,扩散模型(Diffusion Model,DM)在图像生成领域取得了显著进展,展现出前所未有的图像质量和多样性。然而,扩散模型的训练和推理过程通常需要多个步骤,这限制了其在实际应用中的效率。为了克服这一挑战,字节跳动AI团队推出了全新的扩散模型加速框架——Hyper-SD,并将其开源。Hyper-SD 能够将扩散模型的推理步骤大幅压缩,甚至实现单步生成高质量图像,同时保持甚至超越原模型的生成效果。

  • Huggingface模型下载:https://huggingface.co/ByteDance/Hyper-SD

  • AI快站模型免费加速下载:https://aifasthub.com/models/ByteDance

技术特点

Hyper-SD模型拥有以下关键技术特点,使其在扩散模型加速领域独树一帜:

  • 轨迹分段一致性蒸馏 (TSCD)

Hyper-SD 采用了一种名为轨迹分段一致性蒸馏(TSCD)的技术。该技术将扩散模型的整个训练过程划分为多个阶段,并在每个阶段内对模型进行一致性蒸馏,以确保模型在不同阶段都能保持一致的生成质量。TSCD 的优势在于,它能够有效地减少模型拟合的复杂度,并避免因模型拟合不足或推理过程中累积误差而导致的图像质量下降。

  • 人机协同优化

Hyper-SD 将人机协同优化技术引入到模型加速中。它利用人类的审美偏好和现有的视觉感知模型,对加速后的模型进行进一步的优化,以提升图像的审美质量和结构合理性。这使得 Hyper-SD 能够生成更符合人类审美标准的图像,并在某些情况下甚至超越原模型的性能。

  • 统一LoRA支持全步长推理

Hyper-SD 引入了一种统一的LoRA(低秩自适应)技术,使模型能够在所有推理步骤中都保持一致性,包括单步推理。这意味着用户可以灵活地根据不同的需求选择推理步骤,而无需重新训练模型。

性能表现

Hyper-SD 模型在多个基准测试中都取得了领先的性能:

  • Hyper-SDXL 在单步推理中,CLIP得分比 SDXL-Lightning 高出 +0.68,Aesthetic得分高出 +0.51,超越了现有的扩散模型加速方法。

  • Hyper-SD 能够在 1 到 8 个推理步骤中,为 SDXL 和 SD1.5 都实现最佳的性能。

应用场景

Hyper-SD 的高效性能和出色效果,使其在多个领域具有广泛的应用潜力:

  • 加速图像生成: Hyper-SD 可以加速扩散模型的图像生成过程,大幅缩短生成时间,提高生成效率。

  • 提升图像质量: Hyper-SD 能够生成更高质量的图像,尤其是在单步推理中,其效果甚至超越了原模型。

  • 拓展应用场景: Hyper-SD 的低步长推理能力,使其可以应用于更多资源受限的场景,例如移动设备、嵌入式系统等等。

总结

Hyper-SD 的开源,为扩散模型的加速发展提供了新的方向。该模型能够在保持高图像质量的同时,大幅减少推理步骤,甚至实现单步生成SOTA级图像。Hyper-SD 的发布将推动扩散模型技术的发展,并为图像生成领域带来更多可能性。

模型下载

Huggingface模型下载

https://huggingface.co/ByteDance/Hyper-SD

AI快站模型免费加速下载

https://aifasthub.com/models/ByteDance

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/693081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【HarmonyOS】放大缩小手势实现

【HarmonyOS】放大缩小手势实现 一、鸿蒙中手势的类型: 对于放大缩小手势,在应用开发中使用较为常见,例如预览图片时,扫码时等。 在鸿蒙中对于常见的手势进行的封装,可以通过简单的API进行监听调用,以下是…

【STM32】ucOS-III多任务程序

【STM32】uc/OS-III多任务程序 文章目录 【STM32】uc/OS-III多任务程序STM32F103C8T6移植uC/OS-III基于HAL库超完整详细过程与相关实验实验任务实验过程一、 uC/OS-III源码下载二、 建立STM32CubeMX工程三、 复制uC/OS-III文件到工程文件夹四、 添加工程组件和头文件路径五、修…

如何在恢复出厂设置后从 Android 恢复照片

在某些情况下,您可能会考虑将 Android 设备恢复出厂设置。需要注意的是,恢复出厂设置后,所有设置、用户数据甚至应用程序数据都将被清除。因此,如果您将 Android 设备恢复出厂设置,甚至在里面留下了一些珍贵的照片&…

Java开发-面试题-0005-==和String的equals()和String的intern()方法的区别

Java开发-面试题-0005-和String的equals()和String的intern()方法的区别 更多内容欢迎关注我(持续更新中,欢迎Star✨) Github:CodeZeng1998/Java-Developer-Work-Note 技术公众号:CodeZeng1998(纯纯技术…

程序猿大战Python——运算符

常见的运算符 目标:了解Python中常见的运算符有哪些? 运算符是用于执行程序代码的操作运算。常见的运算符有: (1)算术运算符:、-、*、/、//、% 、**; (2)赋值运算符&am…

MinIO 分布式文件系统 快速入门 这篇就够了

1.MinIO简介 MinIO 是一个开源的对象存储服务,它提供了一个可扩展的分布式文件系统,用于存储和检索任意类型的数据。MinIO 旨在为云原生应用程序提供快速、可靠和成本效益高的存储服务,并支持多种数据格式和协议,如Amazon S3 API。…

Java 语言概述 -- Java 语言的介绍、现在、过去与将来

大家好,我是栗筝i,这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 001 篇文章,在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验,并希望进…

《软件定义安全》之一:SDN和NFV:下一代网络的变革

第1章 SDN和NFV:下一代网络的变革 1.什么是SDN和NFV 1.1 SDN/NFV的体系结构 SDN SDN的体系结构可以分为3层: 基础设施层由经过资源抽象的网络设备组成,仅实现网络转发等数据平面的功能,不包含或仅包含有限的控制平面的功能。…

华为防火墙 1

华为防火墙1 实验拓扑: 实验步骤: 1.完成终端基本IP信息配置 2.配置防火墙: 2.1配置IP地址 sys Enter system view, return user view with CtrlZ. [USG6000V1]undo in e Info: Saving log files… Info: Information center is disabled. […

Spark 性能调优——分布式计算

前言 分布式计算的精髓,在于如何把抽象的计算流图,转化为实实在在的分布式计算任务,然后以并行计算的方式交付执行。今天这一讲,我们就来聊一聊,Spark 是如何实现分布式计算的。分布式计算的实现,离不开两个…

详解SM3算法加密流程(SM3加密算法一)

1、SM3 算法简介 SM3是中国国家密码管理局发布的消息摘要算法,首次发布于2010年,并于2016年发布了正式的国家标准GB/T 32905-2016。类似于国际上广泛应用的SHA-256算法,但有其独特的设计和实现细节。 该算法应用于各种数据加密和验证场景&…

vs - vs2015编译gtest-v1.12.1

文章目录 vs - vs2015编译gtest-v1.12.1概述点评笔记将工程迁出到本地后,如果已经编译过工程,将工程Revert, Clean up 干净。编译用的CMake, 优先用VS2019自带的打开VS2015X64本地命令行编译gtest工程测试安装自己写个测试工程,看看编译出来的…

使用小黄鸟(HttpCanary)、VMOS Pro虚拟机对手机APP进行抓包(附带软件)

老规矩先看,效果图: 文章很详细,希望可以耐心看完,保证可以学会抓包,不再走冤枉路,小编在之前看过太多类似文章,折腾了太久才搞懂的,写这篇文章就是不想希望你们像小编一样再花时间…

谁也没想到来得如此之快,现在二三线城市就有电梯楼变成贫民窟了

独家首发 ----------------- 高层电梯楼贫民窟化,一直是业界担忧的问题,许多人以为这个问题应该还要十多年时间才会成为现实,然而有网友表示在二三线城市已出现高层电梯楼贫民窟化,时间比大家预期的早得多。 该网友说,…

easyexcel将csv转为excel处理数字问题

使用easyexcel可以将csv格式的文件转为.xlsx文件,但是csv中有很多数字,比如:"123","12.34","-111",默认情况下会将其作为字符串写入.xlsx文件,就如同下面一样,字符类型的数字…

Nginx学习笔记(九)location转发后,proxy_pass结尾带 / 和不带 / 的区别

目录 一、知识回顾二、proxy_pass 结尾带 / 和不带 / 的区别2.1 场景假设2.2 实战验证验证1:结尾带/的场景验证2:不带/的场景 2.3 结论 一、知识回顾 之前使用过 Nginx 的小伙伴或许都了解,Nginx 是一款用于请求转发的高性能中间件&#xff…

【数据结构(邓俊辉)学习笔记】图03——拓扑排序

文章目录 0. 概述1. 零入度算法1. 1 拓扑排序1. 2 算法 2. 零出度算法2.1 算法2.2 实现2.3. 复杂度 0. 概述 学习下拓扑排序 1. 零入度算法 1. 1 拓扑排序 首先理解下拓扑排序 其实老师经常干这事,如编讲义,将已经知道的知识点串起来变成讲课序列。那…

Vivado时序报告之Datasheet详解

目录 一、前言 二、Datasheet配置选项说明 2.1 Options 2.2 Groups 2.3 Timer Settings 2.4 Common Options 三、Datasheet报告 3.1 General Information 3.2 Input Ports Setup/Hold 3.3 Output Ports Clock-to-out 3.4 Setup between Clocks 3.5 Combinational…

盘点 2024 Google I/O 中的 Android 方向关键更新

这里写自定义目录标题 前言1. AI 编程助手2. 生成式AI 应用3. 不同屏幕尺寸适配4. 桌面小部件(Widget)5. 跨设备类型开发6. WearOS & 可穿戴7. Android for Car8. Android TV9. Google Home API10. Kotlin Multiplatform11. Jetpack Compose12. Andr…

HTML+CSS+JS 密码灯登录表单

效果演示 实现了一个登录页面,包括一个标题、两个输入框(用户名和密码)、一个登录按钮和一个眼睛图标。点击眼睛图标可以显示或隐藏密码。页面背景有两个圆形的半透明元素,整个页面使用了flex布局,并且在水平和垂直方向上都居中对齐。登录框使用了阴影效果和圆角边框,并且…