Stable Diffusion 3报告

报告链接:https://stability.ai/news/stable-diffusion-3-research-paper
在这里插入图片描述

文章目录

  • 要点
  • 表现
  • 架构细节
  • 通过重新加权改善整流流量
  • Scaling Rectified Flow Transformer Models
  • 灵活的文本编码器
  • RF相关论文

要点

  • 发布研究论文,深入探讨Stable Diffuison 3的底层技术
  • 基于人类偏好评估,Stable Diffusion 3 在排版和提示遵守方面优于最先进的文本到图像生成系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1
  • 新的多模态扩散Transformer (MMDiT) 架构对图像和语言表示使用单独的权重集合,与以前版本的 SD3 相比,这提高了文本理解和拼写能力

继宣布 Stable Diffusion 3 的早期预览版之后,又发布了一份研究论文,概述了即将发布的模型的技术细节。

表现

在这里插入图片描述

以 SD3 作为基线,根据人类对视觉美学、提示跟随和版式的评估,概述其与竞争模型对比情况

将 Stable Diffusion 3 的输出图像与其他各种开放模型(包括 SDXL、SDXL Turbo、Stable Cascade、Playground v2.5 和 Pixart-α)以及闭源系统(如 DALL·E 3、Midjourney v6 和 Ideogram v1)进行基于人类反馈的性能对比。在这些测试中,向人类评估者提供了每个模型的示例输出,并要求他们根据模型输出与提示上下文的紧密程度(“提示跟随”)、基于提示的文本呈现程度(“排版”)以及哪幅图像具有更高的美学质量(“视觉美学”)来选择最佳结果。

测试结果表明Stable Diffusion 3在所有上述领域都等于或优于当前最先进的文本到图像生成系统。在早期的消费者硬件上进行的未优化推理测试中,最大的SD3模型具有8B个参数,适合RTX 4090的24GB VRAM,当使用50个采样步骤时,需要34秒能生成分辨率为1024x1024的图像。此外,Stable Diffusion 3在首次发布期间将有多种变体,从800M到8B的参数模型,以进一步消除硬件障碍。

架构细节

对于文本到图像的生成,SD3模型考虑文本和图像这两种模式,这是为什么将这种新架构称为 MMDiT,指的是它处理多种模式的能力。与之前版本的稳定扩散一样,使用预训练模型来导出合适的文本和图像表示。具体来说,SD3使用三种不同的文本嵌入器(两个 CLIP 模型和 T5)来编码文本表示,并使用改进的自动编码模型来编码图像tokens。
在这里插入图片描述

MMDIT

SD3 架构建立在 DiT 的基础上。由于文本和图像嵌入在概念上完全不同,因此对这两种模式使用两组独立的权重。如上图所示,这相当于每种模态都有两个独立的Transformers,但是将两种模态的序列连接起来进行注意力操作,这样两种表示都可以在自己的空间中工作,同时考虑另一种表示。
在这里插入图片描述
训练过程中测量视觉保真度和文本对齐,MMDiT 架构优于已建立的文本到图像主干,UViT 和 DiT

通过使用这种方法,信息可以在图像和文本标记之间流动,以提高生成的输出中的整体理解和排版。正如在论文中讨论的那样,这种架构还可以轻松扩展到视频等多种模式。
在这里插入图片描述
得益于 Stable Diffusion 3 改进的提示跟随功能,模型能够创建专注于各种不同主题和质量的图像,同时对图像本身的风格保持高度灵活性。
在这里插入图片描述
在这里插入图片描述

通过重新加权改善整流流量

Stable Diffusion 3 采用整流流 (RF) 公式(相关论文),其中数据和噪声在训练期间以线性轨迹连接。这会产生更直的推理路径,从而允许用更少的步骤进行采样。此外,在训练过程中引入了一种新颖的轨迹采样计划。这个schedule给予轨迹的中间部分更多的权重,因为假设这些部分会导致更具挑战性的预测任务。使用多个数据集、指标和采样器设置进行比较,针对 60 个其他扩散轨迹(例如 LDM、EDM 和 ADM)对比测试。结果表明,虽然以前的 RF 公式在少步采样方案中表现出改进的性能,但它们的相对性能随着步数的增加而下降。相比之下,重新加权的 RF 变体不断提高性能。

Scaling Rectified Flow Transformer Models

在这里插入图片描述
使用重新加权的整流流公式和 MMDiT 主干对文本到图像的合成进行了缩放研究。训练模型范围从具有 15 个blocks的450M 参数到具体 38 个blocks的 8B 参数,并观察到验证损失随着模型大小和训练步骤的函数而平滑下降(上行)。为了测试这是否转化为模型输出的有意义的改进,还评估了自动图像对齐指标 (GenEval) 以及人类偏好评分 (ELO)(下行)。结果表明这些指标与验证损失之间存在很强的相关性,表明后者是整体模型性能的有力预测因子。此外,扩展趋势没有显示出饱和的迹象,可乐观地认为未来可以继续提高模型的性能。

灵活的文本编码器

通过移除用于推理的内存密集型 4.7B 参数 T5 文本编码器,SD3 的内存需求可以显着降低,而性能损失很小。删除此文本编码器不会影响视觉美感(无 T5 的胜率:50%),只会导致文本依从性略有下降(胜率 46%),如上图“性能”部分下所示。然而,建议包括 T5,以充分利用 SD3 生成书面文本的能力,因为观察到,如果没有 T5,版式生成的性能会大幅下降(胜率 38%),如下例所示:
在这里插入图片描述

RF相关论文

  • Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow
  • Building Normalizing Flows with Stochastic Interpolants
  • Flow Matching for Generative Modeling

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/431840.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Sora到底有多强?

北京时间2月16日凌晨,OpenAI发布文本生成视频的AI模型Sora,瞬时刷屏科技圈,成为2024年开年“顶流”。 官方称,Sora只需文本就能自动生成高度逼真和高质量的视频,且时长突破1分钟。这是继文本模型ChatGPT和图片模型Dal…

三整数排序问题的解题逻辑

【题目描述】 输入3个整数,从小到大排序后输出。 【样例输入】 20 7 33 【样例输出】 7 20 33 【解析】 本题解法大概有3种: 1、穷举条件法。 此方法先判断a、b、c大小的所有可能,再根据各种可能性输出不同的排序。 思路是先判断a、…

3Dmax最全快捷键大全,赶紧收藏起来练习起来吧

3Dmax做为一款专业的建模软件,有很多快捷键能帮助我们更好地学习,提升自己的能力。 废话不多说,我们一起来看看。 以上就是3dmax最全快捷键大全,看着容易,但是想要掌握好还需要我们多多练习。 本地max跑图太慢的朋友可…

数据链路层----滑动窗口协议的相关计算

目录 1.窗口大小的相关计算 •停等协议: •后退N帧协议: •选择重传协议: 2.信道利用率相关计算 •停等协议的信道利用率: •连续ARQ(后退N帧协议,选择重传协议)的信道利用率:…

SAP PP学习笔记04 - BOM2 -通过Serial来做简单的BOM变式配置,副明细,BOM状态,BOM明细状态,项目种类,递归BOM

本章继续讲BOM。 本章讲通过Serial来做简单的BOM变式配置。还讲了BOM的相关概念:副明细,BOM状态,BOM明细状态,项目种类,递归BOM 等。 1,通过Serial(序列号)来做简单的 VC&#xff0…

软考信息系统项目管理师零基础怎么学习?

软考考信息系统项目管理师,零基础怎么入手高项? 要我说对于没有基础的人群来说零基础考信息系统项目管理师还是有一定的难度的,难就难在需要时间去了解基础,而相对于系统分析师、系统构架设计师、网络规划设计师、系统规划与管理…

C++多态详解

文章目录 多态概念定义及实现构成条件虚函数虚函数的重写override 和 final重载、覆盖、隐藏 抽象类纯虚函数接口继承与实现继承 多态的原理虚函数表原理动态绑定与静态绑定 多继承的虚函数表多继承中的虚函数表 多态 概念 多态是面向对象三大特性中相对复杂的一个&#xff0…

c语言网络编程学习整理 网络编程结构框架 一些常见协议的介绍

1.网络分层:osi体系结构 重点:网络层,传输层。 口诀:物数网传会表应。 可是osi体系过于理想,不过其为原型依旧通用: TCP/IP协议 是Internet事实上的工业标准 2.TCP/IP 4层模型 1)网络接口与…

Java生成 word报告

Java生成 word报告 一、方案比较二、Apache POI 生成三、FreeMarker 生成 在网上找了好多天将数据库信息导出到 word 中的解决方案,现在将这几天的总结分享一下。总的来说,Java 导出 word 大致有 5 种。 一、方案比较 1. Jacob Jacob 是 Java-COM Bri…

7款炫酷的前端动画特效分享(三)(附效果图及在线演示)

分享7款好玩的前端动画特效 其中有CSS动画、SVG动画、js小游戏等等 下方效果图可能不是特别的生动 那么你可以点击在线预览进行查看相应的动画特效 同时也是可以下载该资源的 CSS3模仿四季交替动画 基于HTML5CSS3实现的卡通风格一年四季交替动画特效 以下效果图只能体现框架的…

ThreadPoolExecutor 学习

ThreadPoolExecutor 是开发中最常用的线程池,今天来简单学习一下它的用法以及内部构造。 1、线程池存在的意义? 一般在jvm上,用户线程和操作系统内核线程是1:1的关系,也就是说,每次创建、销毁线程的时候&am…

10.WEB渗透测试-Linux基础知识-Linux用户权限管理(下)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:9.WEB渗透测试-Linux基础知识-Linux用户权限管理(上)-CSDN博客 ch…

Linux进程详细介绍

文章目录 Linux进程1、计算机体系结构和操作系统管理1.1、计算机体系结构 -- 硬件1.2、操作系统(Operator System) -- 软件 2、进程2.1、进程基本概念2.2、进程标识符2.2.1、获取当前进程标识符和当前进程的父进程标识符2.2.2、通过系统调用创建进程 -- …

微信小程序开发学习笔记《19》uni-app框架-配置小程序分包与轮播图跳转

微信小程序开发学习笔记《19》uni-app框架-配置小程序分包与轮播图跳转 博主正在学习微信小程序开发,希望记录自己学习过程同时与广大网友共同学习讨论。建议仔细阅读uni-app对应官方文档 一、配置小程序分包 分包可以减少小程序首次启动时的加载时间 为此&#…

Google Play上架:自查封号政策解析(高风险行为之不允许破坏Google Play生态系统中用户信任度的应用或应用内容)

本文章提供给近期被封号的开发者们,希望能带来帮助,有其他的自查方向后续也会发布出来。 ——————————————————————————————————————— 用户数据设备和网络滥用 用户数据 设备和网络滥用

前端学习之HTML(第二天)--多媒体标签和表格标签

注&#xff1a;里面的注释是对各个标签的解释 多媒体标签 <!DOCTYPE html> <html> <head><meta charset"utf-8"><title></title> </head> <body> <!-- audio是音频可以填写绝对路径也可填写相对路径 --> &l…

解决微软活动目录管理工作中常见问题

微软活动目录&#xff08;AD域&#xff09;是一种由微软的用于管理网络中用户、计算机、资源等的目录服务。活动目录被广泛应用于企业内部的网络管理中&#xff0c;尤其是对于使用微软产品的企业来说&#xff0c;活动目录是至关重要的基础设施之一。 因此&#xff0c;以微软为…

索引下推 INDEX CONDITION PUSHDOWN

索引下推 (INDEX CONDITION PUSHDOWN&#xff0c;简称ICP)是在 MySQL5.6 针对扫描索引下推二级索引的一项优化改进。 用来在范围查询时减少回表的次数。ICP适用于 MYISAM和INNODB.

ref和reactive用哪个?

ref和reactive用哪个? 1.&#x1f916;GPT&#x1f916;:ref和reactive用哪个根据数据类型而定 ref 用于将基本类型的数据&#xff08;如字符串、数字&#xff0c;布尔值等&#xff09;转换为响应式数据。使用 ref 定义的数据可以通过 .value 属性访问和修改。 reactive 用于…

JavaScript 学习笔记(7)

一模板字符串 1.用途 允许在字符串中嵌入表达式和变量&#xff0c;是一种方便的字符串语法 2.用法 模板字符串使用反引号 作为字符串的定界符分隔的字面量&#xff1b;模板字面量是用反引号&#xff08;&#xff09;分隔的字面量&#xff0c;允许多行字符串、带嵌入表达式…