基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了

这个模型和 Sora 一样采用了 DiT 框架。

众所周知,开发顶级的文生图(T2I)模型需要大量资源,因此资源有限的个人研究者基本都不可能承担得起,这也成为了 AIGC(人工智能内容生成)社区创新的一大阻碍。同时随着时间的推移,AIGC 社区又能获得持续更新的、更高质量的数据集和更先进的算法。

于是关键的问题来了:我们能以怎样的方式将这些新元素高效地整合进现有模型,依托有限的资源让模型变得更强大?

为了探索这个问题,华为诺亚方舟实验室等研究机构的一个研究团队提出一种新的训练方法:由弱到强式训练(weak-to-strong training)。

图片

论文标题:PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

论文地址:arxiv.org/pdf/2403.04…

项目页面:pixart-alpha.github.io/PixArt-sigm…

他们的研究基于他们去年十月提出的一种高效的文生图训练方法 PixArt-α,参阅机器之心报道《超低训练成本文生图模型 PixArt 来了,效果媲美 MJ,只需 SD 10% 训练时间》。PixArt-α 是 DiT(扩散 Transformer)框架的一种早期尝试。而现在,随着 Sora 登上热搜以及 Stable Diffusion 层出不穷的应用,DiT 架构的有效性得到了研究社区越来越多工作的验证,例如 PixArt, Dit-3D, GenTron 等「1」。

该团队使用 PixArt-α 的预训练基础模型,通过整合高级元素以促进其持续提升,最终得到了一个更加强大的模型 PixArt-Σ。图 1 展示了一些生成结果示例。

图片

PixArt-Σ 如何炼成?

具体来说,为了实现由弱到强式训练,造出 PixArt-Σ,该团队采用了以下改进措施。

更高质量的训练数据

该团队收集了一个高质量数据集 Internal-Σ,其主要关注两个方面:

(1) 高质量图像:该数据集包含 3300 万张来自互联网的高分辨率图像,全都超过 1K 分辨率,包括 230 万张分辨率大约为 4K 的图像。这些图像的主要特点是美观度高并且涵盖广泛的艺术风格。

(2) 密集且准确的描述:为了给上述图像提供更精准和详细的描述,该团队将 PixArt-α 中使用的 LLaVA 替换成了一种更强大的图像描述器 Share-Captioner。

不仅如此,为了提升模型对齐文本概念和视觉概念的能力,该团队将文本编码器(即 Flan-T5)的 token 长度扩展到了大约 300 词。他们观察到,这些改进可以有效消除模型产生幻觉的倾向,实现更高质量的文本 - 图像对齐。

下表 1 展示了不同数据集的统计数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

高效的 token 压缩

为了增强 PixArt-α,该团队将其生成分辨率从 1K 提升到了 4K。为了生成超高分辨率(如 2K/4K)的图像,token 数量会大幅增长,这就会导致计算需求大幅增长。

为了解决这一难题,他们引入了一种专门针对 DiT 框架调整过的自注意力模块,其中使用了键和值 token 压缩。具体来说,他们使用了步长为 2 的分组卷积来执行键和值的局部聚合,如下图 7 所示。

图片

此外,该团队还采用了一种专门设计的权重初始化方案,可在不使用 KV(键 - 值)压缩的前提下从预训练模型实现平滑适应。这一设计可有效将高分辨率图像生成的训练和推理时间降低大约 34%。

由弱到强式训练策略

该团队提出了多种微调技术,可快速高效地将弱模型调整为强模型。其中包括:

(1) 替换使用了一种更强大的变分自动编码器(VAE):将 PixArt-α 的 VAE 替换成了 SDXL 的 VAE。

(2) 从低分辨率到高分辨率扩展,这个过程为了应对性能下降的问题,他们使用了位置嵌入(PE)插值方法。

(3) 从不使用 KV 压缩的模型演进为使用 KV 压缩的模型。

实验结果验证了由弱到强式训练方法的可行性和有效性。

通过上述改进,PixArt-Σ 能以尽可能低的训练成本和尽可能少的模型参数生成高质量的 4K 分辨率图像。

具体来说,通过从一个已经预训练的模型开始微调,该团队仅额外使用 PixArt-α 所需的 9% 的 GPU 时间,就得到了能生成 1K 高分辨率图像的模型。如此表现非常出色,因为其中还替换使用了新的训练数据和更强大的 VAE。

此外,PixArt-Σ 的参数量也只有 0.6B,相较之下,SDXL 和 SD Cascade 的参数量分别为 2.6B 和 5.1B。

PixArt-Σ 生成的图像的美观程度足以比肩当前最顶级的文生图产品,比如 DALL・E 3 和 MJV6。此外,PixArt-Σ 还展现出了与文本 prompt 细粒度对齐的卓越能力。

图 2 展示了一张 PixArt-Σ 生成 4K 高分辨率图像的结果,可以看到生成结果很好地遵从了复杂且信息密集的文本指令。

图片

实验

实现细节

训练细节:对于执行条件特征提取的文本编码器,该团队按照 Imagen 和 PixArt-α 的做法使用了 T5 的编码器(即 Flan-T5-XXL)。基础扩散模型就是 PixArt-α。不同于大多数研究提取固定的 77 个文本 token 的做法,这里将文本 token 的长度从 PixArt-α 的 120 提升到了 300,因为 Internal-Σ 中整理的描述信息更加密集,可以提供高细粒度的细节。另外 VAE 使用了来自 SDXL 的已预训练的冻结版 VAE。其它实现细节与 PixArt-α 一样。

模型是基于 PixArt-α 的 256px 预训练检查点开始微调的,并使用了位置嵌入插值技术。

最终的模型(包括 1K 分辨率)是在 32 块 V100 GPU 上训练的。他们还额外使用了 16 块 A100 GPU 来训练 2K 和 4K 图像生成模型。

评估指标:为了更好地展示美观度和语义能力,该团队收集了 3 万对高质量文本 - 图像,以对最强大的文生图模型进行基准评估。这里主要是通过人类和 AI 偏好来评估 PixArt-Σ,因为 FID 指标可能无法适当地反映生成质量。

性能比较

图像质量评估:该团队定性地比较了 PixArt-Σ 与闭源文生图(T2I)产品和开源模型的生成质量。如图 3 所示,相比于开源模型 SDXL 和该团队之前的 PixArt-α,PixArt-Σ 生成的人像的真实感更高,并且也有更好的语义分析能力。与 SDXL 相比,PixArt-Σ 能更好地遵从用户指令。

图片

PixArt-Σ 不仅优于开源模型,而且与当前的闭源产品相比也颇具竞争力,如图 4 所示。

图片

生成高分辨率图像:新方法可以直接生成 4K 分辨率的图像,而无需任何后处理。此外,PixArt-Σ 也能准确遵从用户提供的复杂和详细的长文本。因此,用户无需费心去设计 prompt 也能得到让人满意的结果。

人类 / AI(GPT-4V)偏好研究:该团队也研究了人类和 AI 对生成结果的偏好。他们收集了 6 个开源模型的生成结果,包括 PixArt-α、PixArt-Σ、SD1.5、Stable Turbo、Stable XL、Stable Cascade 和 Playground-V2.0。他们开发了一个网站,可通过展现 prompt 和对应的图像来收集人类偏好反馈。

人类评估者可根据生成质量以及与 prompt 的匹配程度来给图像排名。结果见图 9 的蓝色条形图。

可以看出人类评估者对 PixArt-Σ 的喜爱胜过其它 6 个生成器。相比于之前的文生图扩散模型,如 SDXL(2.6B 参数)和 SD Cascade(5.1B 参数),PixArt-Σ 能以少得多的参数(0.6B)生成质量更高且更符合用户 prompt 的图像。

图片

此外,该团队还使用了先进的多模态模型 GPT-4 Vision 来执行 AI 偏好研究。他们的做法是给 GPT-4 Vision 提供两张图像,让它基于图像质量和图像 - 文本对齐程度进行投票。结果见图 9 中的橙色和绿色条形图,可以看到情况与人类评估基本一致。

作者:机器之心
链接:https://juejin.cn/post/7344970205892018187
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/450063.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++的学习

代码练习 输入一个字符串&#xff0c;统计其中大写字母、小写字母、数字、空格以及其他字符的个数 #include <iostream>using namespace std;int main() {cout << "请输入一个字符串" << endl;string str;getline(cin,str);int capital 0;int l…

蜂窝物联:智慧水产养殖解决方案

一、系统介绍 集约化水产养殖水质在线监控系统是面向水产养殖集约、高产、高效、生态、安全的发展需求&#xff0c;基于智能传感、无线传感网、通信、智能处理与智能控制等物联网技术开发的&#xff0c;集水质环境参数在线采集、无线传输、智能处理、预警信息发布、决策支持、…

功能测试转自动化测试好不好转型?

手工测试做了好多年&#xff0c;点点点成了每天必须做的事情。但是随着自动化测试趋势的日渐明显&#xff0c;以及受到薪资、技能的双重考验&#xff0c;掌握自动化测试成为了必备技能。 手工转自动化测试&#xff0c;不是一蹴而就的。“预先善其事&#xff0c;必先利其器”&a…

如何看待Linux桌面操作系统的火速增长

文章目录 1. 使用过Linux桌面操作系统吗&#xff1f;Linux系统有什么优势&#xff1f;对于Linux桌面操作系统份额的火速增长怎么看呢认为未来Linux会主导桌面操作系统吗&#xff1f; #如何看待Linux桌面操作系统的火速增长&#xff1f; 1. 使用过Linux桌面操作系统吗&#xff…

LeetCode 707. 设计链表 (JAVA)

1.题目 2. 思路分析 1.我们要设置一个虚拟头节点&#xff0c;因为这个虚拟头节点对于增加节点操作和删除节点操作都很方便。 2.仔细读题&#xff0c;题目中说链表中的节点下标是从0开始的。也就是说第一个节点下标为0。 3.增加节点和删除节点的操作我们都要获取到它前一个的节…

AI交互数字人助力传统景区数字化升级

AI交互数字人在游客体验提升方面具有重要作用。传统景区可以将AI交互数字人以一体机、小程序等形式&#xff0c;与景区游客进行面对面实时交流&#xff0c;为游客提供导览讲解、景区路线指引、文创产品推荐等智能服务&#xff0c;AI交互数字人针对性的为游客提供“吃住行游购娱…

【LeetCode: 289. 生命游戏 + BFS】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

神经科常用的5个脑卒中风险评估量表,医生必备!

脑卒中俗称中风&#xff0c;包括缺血性脑卒中和出血性脑卒中。脑卒中风险评估的相关量表&#xff0c;是神经科医生临床常用的量表类型。 常笑医学整理了神经科常用的5个脑卒中风险评估量表&#xff0c;包括Essen脑卒中风险评分量表(ESRS评分)、卒中预测工具-Ⅱ&#xff08;SPI…

Jmeter-使用http proxy代理录制脚本

Jmeter-使用http proxy代理录制脚本 第1步&#xff1a;打卡jmeter工具新增1个线程组 第2步&#xff1a;给线程组添加1个HTTP请求默认值 第3步&#xff1a;设置下HTTP请求默认值第4步&#xff1a;在工作台中新增1个----HTTP代理服务器 第5步&#xff1a;设置HTTP代理服务器 …

一款好用的AI工具——边界AICHAT

目录 一、简介二、注册及登录三、主要功能介绍3.1、模型介绍3.2、对话模型历史记录3.3、创作中心3.4、AI绘画SD3.5、文生图3.6、图生图3.7、线稿生图3.8、艺术二维码3.9、秀图广场3.10、AI绘画创作人像辅助器 一、简介 人工智能&#xff08;AI&#xff09;是一门研究、开发用于…

Linux查看磁盘命令df-h详解

df -h 是一个常用的 Linux 命令&#xff0c;用于查看文件系统的磁盘使用情况并以易于阅读的方式显示。以下是 df -h 命令的详细解释&#xff1a; -h&#xff1a;以人类可读的格式显示磁盘空间大小。例如&#xff0c;使用 GB、MB、KB 等单位代替字节。 执行 df -h 命令后&…

Oracle增量更新备份(更快的备份策略)

正常的备份策略包括&#xff1a;全库备份&#xff0c;full备份&#xff0c;创建镜像备份&#xff0c;累积增量备份以及差异增量备份&#xff1a; 全库备份&#xff1a;如名&#xff0c;对oracle整个数据库进行备份&#xff0c;包括archivedlog&#xff0c;数据文件&#xff0c;…

Altair® Flux® 仿真软件加速电机、传感器和执行器设计

Altair Flux 仿真软件加速电机、传感器和执行器设计 Flux 着眼于机电设备的复杂性&#xff0c;旨在精确优化其性能、效率、尺寸、成本或重量&#xff0c;为终端用户带来更优质的创新的以及高价值的产品。Flux 可对静磁、交流稳态和瞬态条件&#xff0c;以及电热特性进行仿真。…

伪分布式Spark集群搭建

一、软件环境 软 件 版 本 安 装 包 VMware虚拟机 16 VMware-workstation-full-16.2.2-19200509.exe SSH连接工具 FinalShell Linux OS CentOS7.5 CentOS-7.5-x86_64-DVD-1804.iso JDK 1.8 jdk-8u161-linux-x64.tar.gz Spark 3.2.1 spark-3.2.1-bin-…

【Python使用】python高级进阶知识md总结第3篇:静态Web服务器-返回指定页面数据,静态Web服务器-多任务版【附代码文档】

python高级进阶全知识知识笔记总结完整教程&#xff08;附代码资料&#xff09;主要内容讲述&#xff1a;操作系统&#xff0c;虚拟机软件&#xff0c;Ubuntu操作系统&#xff0c;Linux内核及发行版&#xff0c;查看目录命令&#xff0c;切换目录命令&#xff0c;绝对路径和相对…

ubuntu 18.04安装教程(详细有效)

文章目录 一、下载ubuntu 18.04镜像二、安装ubuntu1. 点击下载好的Vmware Workstation&#xff0c;点击新建虚拟机&#xff0c;选择 “自定义(高级)”&#xff0c;之后下一步。2. 默认配置&#xff0c;不需要更改&#xff0c;点击下一步。3. 选择 “安装程序光盘映像文件(iso)(…

Midjourney从入门到实战:图像生成命令及参数详解

目录 0 专栏介绍1 Midjourney Bot常用命令2 Midjourney绘图指令格式3 Midjourney绘图指令参数3.1 模型及版本3.2 画面比例3.3 风格化3.4 图片质量3.5 混乱值3.6 随机数种子3.7 重复贴图3.8 停止3.8 垫图权重3.9 提示词权重分割 0 专栏介绍 &#x1f525;Midjourney是目前主流的…

C#与WPF通用类库

个人集成封装&#xff0c;仓库已公开 NetHelper 集成了一些常用的方法&#xff1b; 如通用的缓存静态操作类、常用的Wpf的ValueConverters、内置的委托类型、通用的反射加载dll操作类、Wpf的ViewModel、Command、Navigation、Messenger、部分常用UserControls(可绑定的Passwo…

iTOP-3588开发板快速启动手册Windows安装串口终端软件创建串口会话

双击上图中红框的应用程序后&#xff0c;软件会启动&#xff0c;界面启动后如下图所示&#xff1a; 下面来创建第一个SSH 会话。点击菜单栏 「会话」 --> 「新建会话」&#xff0c;即可弹出 「会话设置」 对话框&#xff0c;如下图所示&#xff1a; 在会话设置框里面选择串口…

MySQL安装使用(mac、windows)

目录 macOS环境 一、下载MySQL 二、环境变量 三、启动 MySql 四、初始化密码设置 windows环境 一、下载 二、 环境配置 三、安装mysql 1.初始化mysql 2.安装Mysql服务 3.更改密码 四、检验 1.查看默认安装的数据库 2.其他操作 macOS环境 一、下载MySQL 打开 MyS…