Lumina-T2X 一个使用 DiT 架构的内容生成模型,可通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

Lumina-T2X 是一个新的内容生成系列模型,统一使用 DiT 架构。通过文本生成图像、视频、多视角 3D 对象和音频剪辑。

可以在大幅提高生成质量的前提下大幅减少训练成本,而且同一个架构支持不同的内容生成。图像质量相当不错。

由 50 亿参数的 Flag-DiT 驱动的 Lumina-T2I,其训练计算成本仅为同类 6 亿参数模型的 35%。

目前放出了 Lumina-T2I 图像生成模型,模型主干是Large-DiT、文本编码模型是 Llama2-7B 、VAE 用的 SDXL的。

相关链接

论文链接:https://arxiv.org/pdf/2405.05945 模型下载:https://huggingface.co/Alpha-VLLM/Lumina-T2I

论文阅读

摘要

Sora揭示了缩放扩散变压器(DIT)的潜力 以任意分辨率,宽高比和持续时间为单位的影像图像和视频,但仍然缺乏足够的实施细节。

在这份技术报告中,我们介绍了Lumina-T2X家族 - 一系列配备零定位注意的基于流动的大扩散变压器(FLAG-DIT),作为一个统一的框架,旨在将噪声转换为图像,视频,多视图 3D对象和音频剪辑以文本说明为条件。

通过对潜在的时空空间进行象征,并结合了[Nextline]和[NextFrame]令牌等可学习的占位符,Lumina-T2X无缝地统一了各种时空分辨率的不同方式的表示。这种统一的方法可以在单个框架内培训不同方式,并可以在任何分辨率,宽高比和推理期间的长度下灵活地生成多模式数据。诸如绳索,rmsnorm和流匹配之类的高级技术增强了旗帜dit的稳定性,灵活性和可扩展性,使Lumina-T2X的模型可扩展到高达70亿个参数,并将上下文窗口扩展到128K tokens。

带有Lumina-T2I型号和Lumina-T2V型号的长720p视频的图像对于创建超高定义特别有益。值得注意的是,由50亿参数的旗帜驱动的Lumina-T2i仅需要6亿参数NAIVE DIT(PIXART-α)的训练计算成本的35%,这表明参数数量显着增加 加速生成模型的收敛性而不损害视觉质量。我们进一步的全面分析强调了Lumina-T2X在分辨率外推,高分辨率编辑,生成一致的3D视图以及具有无缝过渡的综合视频方面的初步能力。

方法

Flag-dit与标签和文本条件的比较。(左)Flag-dit与标签调节。(右)具有零初始化注意机制的文本条件反射。

我们的Lumina-T2X框架由四个组件组成:逐帧编码,输入和基于Flag-DiT的目标构建、文本编码和预测。

Lumina-T2I是一个统一的和免训练的框架,支持文本到图像的生成,分辨率外推,风格一致生成,合成生成和高分辨率编辑。

实验

Lumina-T2I能够生成任意宽高比的图像,提供优越的分辨率视觉质量和保真度,同时严格遵守给定的文本说明。

Lumina-T2I的分辨率外推样本。无需任何额外的训练,LuminaT2I能够直接生成从512512到17921792的各种分辨率的图像。

由Lumina-T2I生成的风格一致的图像生成样本。给定一个共享样式描述,Lumina-T2I可以生成一批具有不同风格一致内容的图像。

Lumina-T2I的成分生成样本。我们的Lumina-T2I框架可以生成高质量的图像与复杂区域组成基于提示和指定的组合。

演示高分辨率图像的样式编辑和主题编辑教练免费的方式。

Lumina-T2I与PixArt-α在图像生成中的定性比较 多个决议。来自Lumina-T2I的样本显示了与给定文本更好的对齐与PixArt-α相比,在所有分辨率下都具有卓越的视觉质量。

结论

在本文中,我们提出了Lumina-T2X,这是一个统一的框架,旨在将文本说明转换为任意分辨率和持续时间的任何模式,包括图像,视频,3D对象的多视图以及语音。 Lumina-T2X的核心是一系列基于流动的大扩散变压器(FLAG-DIT),精心设计用于可扩展的条件生成。配备了关键修改,包括绳索,RNSNORM,KQ-NORM和零定位的注意体系结构,[NextLine]和[NextFrame]令牌用于数据表示形式,以及与原点扩散变压器相比,我们的旗帜位从扩散到流匹配公式的转换为稳定性,灵活性和可扩展性的大大提高。我们首先验证了Imagenet基准上标志dit的生成能力,该功能表现出卓越的性能和 与扩展模型参数一致的更快收敛。

鉴于这些有前途的发现,我们以各种方式实例化旗杆,并为文本对图像,视频,视频提供统一的食谱 多文章和语音产生。我们证明,该框架不仅可以在任意分辨率下生成逼真的图像或视频任务,例如以无训练的方式推断出外推,高分辨率编辑和组成生成。

总体而言,我们希望我们的尝试,发现和开源的Lumina-T2X可以帮助阐明生成AI的路线图,并成为进一步研究开发有效大型多模式生成模型的新起点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625308.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

零样本身份保持:ID-Animator引领个性化视频生成技术新前沿

在最新的研究进展中,由Xuanhua He及其团队提出的ID-Animator技术,为个性化视频生成领域带来了突破性的创新。这项技术的核心在于其零样本(zero-shot)人物视频生成方法,它允许研究者和开发者根据单一的参考面部图像生成…

人工神经网络(科普)

人工神经网络(Artificial Neural Network,即ANN ),是20世纪80 年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象, 建立某种简单模型,按不同的连接方式组成不同的网络。在工程…

Python 全栈体系【四阶】(四十二)

第五章 深度学习 九、图像分割 3. 常用模型 3.2 U-Net(2015) 生物医学分割是图像分割重要的应用领域。U-Net是2015年发表的用于生物医学图像分割的模型,该模型简单、高效、容易理解、容易定制,能在相对较小的数据集上实现学习…

利用KMeans进行遥感NDWI进行聚类分割

(1)解释 KMeans算法是一种非监督式的聚类算法,于1967年由J. MacQueen提出,聚类的依靠是欧式距离,其核心思想就是将样本划分为几个类别,类里面的数据与类中心的距离最小。类的标签采用类里面样本的均值。 这…

第16节 实战:文件转shellcode

我最近做了一个关于shellcode入门和开发的专题课👩🏻‍💻,主要面向对网络安全技术感兴趣的小伙伴。这是视频版内容对应的文字版材料,内容里面的每一个环境我都亲自测试实操过的记录,有需要的小伙伴可以参考…

《告别重复:Spring AOP让你的代码花园绽放》

厌倦了在代码花园中重复种植相同的植物(代码)吗?Spring AOP将是你的园艺师,帮助你修剪和优化代码,让花园更加丰富多彩! 文章目录 面向切面编程(AOP)主题文章一. 引言1.1 引入面向切面…

添砖Java之路(其八)——继承,final关键字

继承: 意义:让类于类之间产生父类于子类的关系,子类可以直接使用父类中的非私有成员(包括方法与成员变量) 。 extends关键字就是定义声明父类。 格式:public class 子类 extends 父类。 对于基础的我就不赘述了,我…

汇舟问卷:做小生意也依然可以取得成功

冷门小生意之所以能够成功发财,主要是因为竞争相对较少。相较于那些已被大家知晓且看似热门的生意,冷门小生意的利润空间更多且风险更低。 冷门小生意常常具备低成本和高回报的特点。举个例子,与开设一家餐厅或者服装店相比,成立…

【源码】Spring Data JPA原理解析之Repository的自动注入(一)

Spring Data JPA系列 1、SpringBoot集成JPA及基本使用 2、Spring Data JPA Criteria查询、部分字段查询 3、Spring Data JPA数据批量插入、批量更新真的用对了吗 4、Spring Data JPA的一对一、LazyInitializationException异常、一对多、多对多操作 5、Spring Data JPA自定…

电脑没有网络连接怎么办?4招轻松完成网络连接!

“我的电脑开机后发现连接不上网络,尝试了很多次也不行,这是因为什么呢?有什么比较好的解决方法吗?” 当电脑无法连接到网络时,可能会给我们的工作和生活带来诸多不便。然而,大多数网络连接问题都可以通过一…

C#实现长方体棱锥圆柱棱柱圆锥展开折叠旋转缩放

C#实现长方体棱锥圆柱棱柱圆锥展开折叠旋转缩放 C#实现 模型边数 长方体 棱锥 圆柱 棱柱 圆锥 实现功能 展开 折叠 颜色 边框颜色 旋转 缩放 大小 视图方向 项目获取: 项目获取:typora: typora/img (gitee.com) 备用项目获取链接1:yife…

Linux的进程间通信 管道 进程池

目录 前言 进程间通信的基本概念 管道 匿名管道 pipe函数 cfc 管道的四种情况 管道的五种特征 进程池 ProcessPool.cpp: Task.cpp: 前言 ubuntu系统的默认用户名不为root的解决方案(但是不建议):轻量应用服…

安卓悬浮窗----可移动的悬浮窗

目录 前言一、添加对悬浮窗功能的支持二、通过service实现悬浮窗2.1 窗口属性和标志2.2 窗口移动 三、完整代码 前言 记录一下基础的悬浮窗实现,分为几个重要的点进行阐述。 一、添加对悬浮窗功能的支持 app要实现悬浮窗功能,首先app要添加对悬浮窗功…

【瑞萨RA6M3】2. UART 实验

https://blog.csdn.net/qq_35181236/article/details/132789258 使用 uart9 配置 打印 void hal_entry(void) {/* TODO: add your own code here */fsp_err_t err;uint8_t c;/* 配置串口 */err g_uart9.p_api->open(g_uart9.p_ctrl, g_uart9.p_cfg);while (1){g_uart9.…

扫码枪与Input的火花

文章目录 前言一、需求:交互细节二、具体实现两个核心的函数:自动聚焦 三,扩展知识input 与 change的区别 前言 在浏览器扫描条形码获取条形的值,再操作对应的逻辑。这是比较常见的业务,这里记录实际操作。 其中PC端…

spacy NER 位置信息不考虑空格!!!

texts ["疫情期间,俄罗斯 联邦军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。","疫情期间,俄罗斯 联 邦 军队医疗机构的负责人Saanvi Alia在方城县启动了远程医疗服务。","疫情期间,俄罗 斯 联 邦 …

PR对比模板|手机竖屏分辨率视频效果前后对比模板剪辑素材

Premiere Pro前后对比效果模板,适用于化妆前后对比、视频调色效果前后对比、同一地方人物活场景变化等视频制作剪辑使用。 主要特点: 只需将图像或视频导入占位符,编辑前后文本,并使用控件微调动画计时。 可以打开或关闭前后屏幕…

LeetCode2095删除链表的中间节点

题目描述 给你一个链表的头节点 head 。删除 链表的 中间节点 ,并返回修改后的链表的头节点 head 。长度为 n 链表的中间节点是从头数起第 ⌊n / 2⌋ 个节点(下标从 0 开始),其中 ⌊x⌋ 表示小于或等于 x 的最大整数。对于 n 1、…

Linux防火墙iptalbes

1 iptalbes 1.1 概念 防火墙(Firewall)是一种隔离技术,用于安全管理与筛选的软件和硬件设备,使计算机内网和外网分开,可以防止外部网络用户以非法手段通过外部网络进入内部网络,保护内网免受外部非法用户的侵入。 1.2 SELinux …

Linux文件相关

权限: 超级用户root 可以做任何事情不受限制 普通用户[用户名]做有限的事情 超级用户的命令提示符是“#”,普通用户的命令提示符是“$” 拓展: 用户的切换 su [用户名] 只是简单的换了一个账号,环境没变 su - 改变…