无需扩散,下一个token预测直达AGI!

目录

  • 简单概括
  • 1 背景知识
  • 方法
    • 数据
    • 视觉 Tokenizer
    • 架构
    • 预训练
  • 实验结果
    • 视频生成
    • 未来预测

简单概括

虽然,下一token预测已在大语言模型领域实现了ChatGPT等突破,但是在多模态模型中的适用性仍不明确,多模态任务仍然由扩散模型(如Stable Diffusion)和组合方法(如结合CLIP视觉编码器和LLM)所主导。

2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。该模型只基于下一个token预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。

Emu3在图像生成、视频生成、视觉语言理解等任务中超过了SDXL、LLaVA、OpenSora等知名开源模型,但是无需扩散模型、CLIP视觉编码器、预训练的LLM等技术,只需要预测下一个token。

在这里插入图片描述

图1:Emu3被训练为使用混合视频、图像和文本标记的单个Transformer来预测下一个标记。在生成和感知任务中,与成熟的特定任务模型相比,Emu3实现了最先进的性能。

论文:Emu3: Next-Token Prediction is All You Need
作者:Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, etc.
单位:BAAI
代码:https://github.com/baaivision/Emu3
项目:https://emu.baai.ac.cn/
模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

关注微信公众号,获取更多资讯
在这里插入图片描述

1 背景知识

在这里插入图片描述

图2:与开源旗舰模型在视觉生成和感知方面的比较。仅基于下一个令牌预测,Emu3分别击败了SDXL[66]、LLaVA-1.6-7B[56]、openora -1.2[107],完全不需要扩散和CLIP。对于图像生成任务,我们给出了基于英语提示的人类评价分数的比较结果。对于视觉语言理解任务,我们评估了12个基准的平均得分:SEEDBench-Img[45]、OCRBench[59](具有归一化结果)、MMVet[98]、POPE[51]、VQAv2[27]、GQA[34]、TextVQA[78]、ChartQA[61]、AI2D[36]、RealWorldQA[91]、MMMU[99]和MMbench[58]。对于视频生成任务,我们给出了VBench的比较结果。

我们将关键技术和模型开源,以促进这一方向的未来研究。值得注意的是,我们提供了一个强大的视觉标记器,可以将视频和图像转换为离散的标记,这在以前是公开不可用的。我们还展示了下一个令牌预测框架的多功能性,表明直接偏好优化(DPO)[68]可以无缝地应用于自回归视觉生成,使模型与人类偏好保持一致。

我们的研究结果提供了强有力的证据,表明下一个令牌预测可以作为多模态模型的强大范例,超越语言模型,并在多模态任务中提供最先进的性能。通过简化复杂的模型设计并只关注令牌,它在训练和推理期间释放了巨大的扩展潜力。我们相信下一个代币预测为构建通用多模态智能提供了一条有希望的道路。

在这里插入图片描述

Emu3文本到图像生成的定性结果。

方法

数据

Emu3是在语言、图像和视频数据的混合基础上从零开始训练的。
1. 语言数据。我们使用与Aquila[101]相同的语言数据,Aquila是一个由中英文数据组成的高质量语料库。
2. 图像数据。我们策划了一个大规模的图像文本数据集,包括开源网络数据、人工生成数据和高质量的内部数据。滤波过程包括几个关键步骤:

  • 1)我们应用分辨率滤波器,丢弃分辨率低于512 × 512像素的样本。
  • 2)我们使用LAION-AI美学预测器2评估每张图像的美学质量,排除得分低于5.5的图像,以确保整体美学质量。
  • 3)对于未通过美学滤波的图像,我们采用文本检测3和颜色滤波来保留非单色图像和文本最少的图像,提高了开放世界图像的滤波召回率。
  • 4)此外,我们为图像理解准备补充数据。通过遵循DenseFusion中的数据处理管道[50],我们提取了数百万张具有代表性的图像,这些图像涵盖了广泛的类别,包括图表、表格、文本丰富的内容等,这些图像来自不同的开源web数据。

为了对过滤后的数据集进行标注,我们开发了一个基于Emu2[81]的图像字幕模型来构建密集的合成字幕。我们利用GPT-4V[64]与详细的提示来生成大约100万图像标题对。然后使用这个带注释的数据集微调Emu2-17B[81]模型作为我们的图像捕获器。此外,我们利用开源的vLLM库[40]来加速标注过程。

在这里插入图片描述
视频数据。我们收集的视频涵盖了广泛的类别,如风景,动物,植物,游戏和动作。这些视频预先拥有一个复杂的管道[6],具有以下四个阶段:1)我们使用PySceneDectect4将视频拆分为场景,分别使用ContentDetector和ThresholdDetector来识别内容变化和渐入/渐出事件。2)使用PaddleOCR3进行文本检测,去除文本覆盖过多的片段。为了减少计算成本,我们以2帧/秒的速度对视频帧进行采样,并将较短的边缘调整为256。3)我们进一步计算光流[84],以消除最小或极端运动的剪辑。与前一步一样,我们采样和调整视频帧的大小以提高效率。流量分数定义为所有像素的平均流量大小与较短边缘的比值。我们排除流分数超出可接受范围的剪辑。4)最后,我们使用LAION-AI美学预测器评估每个片段的美学质量1。我们对三帧进行采样,每个片段得到三个分数,最低分数小于5的片段被丢弃。

我们使用基于我们的图像字幕器训练的视频字幕器对过滤后的视频剪辑进行字幕。训练数据最初使用GPT-4V进行标记[64]。对于每个视频剪辑,我们采样8帧,并为GPT-4V创建一个详细的提示,以描述这些帧内的内容和运动。一些标记的数据需要手工修改。然后,我们对这些标记数据的图像标题进行微调,以开发我们的视频标题。对于大规模部署,我们使用vLLM加速字幕[40]。短于20秒的片段使用12个均匀采样帧进行字幕,而较长的片段则分成10-20秒的子片段,每个子片段独立字幕。

视觉 Tokenizer

我们训练了基于SBER-MoVQGAN5的视觉标记器,该标记器可以将4 × 512 × 512的视频片段或512 × 512的图像编码为4096个离散的标记,这些标记来自大小为32,768的码本。我们的标记器在时间维度上实现4倍压缩,在空间维度上实现8×8压缩,适用于任何时间和空间分辨率。在MoVQGAN架构[106]的基础上,我们将两个具有3D卷积核的时间残差层合并到编码器和解码器模块中,以增强视频标记化能力。使用L2损失、LPIPS感知损失[104]、GAN损失和承诺损失[23]的组合目标函数,在LAION-High-Resolution6图像数据集和InternVid[89]视频数据集上对标记器进行端到端训练。

定性结果如图3所示。我们使用来自Pexels7的3,172个视频的评估数据集报告了表2中的LPIPS(由AlexNet特征计算),PSNR和SSIM分数。在保持长宽比的情况下,视频在5秒内被重建。在评估过程中,原始视频和重构视频根据短边进行调整和裁剪,并以12 FPS的8帧速率均匀采样。

架构

Emu3模型保留了已建立的大型语言模型(llm)的架构框架,如Llama-2[85],主要的修改是扩展嵌入层以适应离散视觉标记。我们使用RMSNorm[100]进行规范化,使用GQA[1]进行注意力机制,同时使用SwiGLU[76]激活函数和旋转位置嵌入(RoPE)[79]。消除了qkv和线性投影层中的偏差。此外,实现了0.1的辍学率,以提高训练的稳定性。我们使用QwenTokenizer8来标记多语言文本。详细配置如表3所示。
在这里插入图片描述

预训练

数据准备。在预训练过程中,我们首先定义了多模态数据格式。与依赖外部文本编码器的扩散模型不同,Emu3集成了用于图像/视频生成的文本条件信息。我们重新缩放图像/视频,同时将其宽高比保持为接近512 × 512的面积,然后使用我们的视觉标记器生成视觉标记。然后,我们合并五个特殊的标记来合并文本和视觉数据,为训练过程创建类似文档的输入。得到的训练数据结构如下:在这里插入图片描述
其中[BOS]和[EOS]是文本标记器中的原始特殊标记,[SOV]标记视觉输入的开始,[SOT]标记视觉标记的开始,[EOV]表示视觉输入的结束。此外,[EOL]和[EOF]被插入到视觉标记中,分别表示换行和帧断行。“元文本”包含有关图像分辨率的信息,而对于视频,它包括分辨率、帧率和持续时间,所有这些都以纯文本格式呈现。我们还将数据集的一部分中的“标题文本”字段移动到[EOV]令牌后面,从而构建针对视觉理解任务的数据。

培训目标。由于Emu3中的视觉信号完全转换为离散的标记,我们只需要使用标准交叉熵损失来训练下一个标记预测任务。为了防止视觉标记在学习过程中占主导地位,我们对与视觉标记相关的损失应用0.5的权重。

训练细节。Emu3模型在预训练期间利用广泛的上下文长度来处理视频数据。为了便于训练,我们采用了张量并行(TP)、上下文并行(CP)和数据并行(DP)的组合。我们同时将文本-图像数据打包成最大上下文长度,以充分利用计算资源,同时确保在打包过程中不分割完整的图像。预训练过程分为两个阶段。在第一阶段,不使用视频数据,从头开始训练,文本和图像数据的上下文长度为5120。在第二阶段,引入视频数据,上下文长度为131072。两个阶段都使用5 × 10−5的学习率,并将学习率进行余弦退火至零。

实验结果

在使用重写器扩展短提示后,我们报告了GenEval和twi - compbench的结果。由于Emu3在训练过程中使用了相当大比例的合成标签,因此与较短的提示相比,它在密集字幕方面表现出优越的性能。然而,GenEval和tt2i - compbench中的评估提示过于简短,无法准确反映模型的真实性能。在DALL-E 3之后,我们还报告了使用GPT-4V作为重写器的评估结果。GenEval总分结果表明,Emu3显著优于多模态自回归模型Chameleon,以及最新的自回归扩散方法Show-O和Transfusion。此外,Emu3超过SDXL,并与最先进的扩散模型(包括dall - e3)的性能相匹配。
在这里插入图片描述

表4:在文本到图像的基准测试上与最先进的模型的比较。我们在MSCOCO-30K上进行评估[15];GenEval [26];T2I-CompBench[32]和DPG-Bench[31]。†结果是改写。

视频生成

与训练阶段一致,Emu3原生支持24秒生成5秒视频并且可以通过自回归方法无限扩展。图7给出了视频生成的定性示例,从前3秒中提取了6帧用于展示。我们对Emu3和13个性能最好的开源和专有文本到视频模型进行了定量比较。使用的基准是VBench[33],这是一个用于评估视频生成性能的综合工具包,它在16个维度上评估每个模型的质量和语义能力。除了Emu3,这是一个自回归模型,所有其他公开可比较的方法是扩散模型。然而,如表5所示。, Emu3证明与其他最先进的模型相比,在整体得分方面具有很强的竞争力。具体地说,虽然它不如最先进的专有模型,如Kling[39]和Gen-3[75],但它优于大多数开源文本到视频模型。这些结果突出了强者Emu3视频生成能力。

在这里插入图片描述

表5:与最先进的文本到视频模型在VBench[33]基准上的比较。我们从VBench的16个评估维度中选择了11个,以及最终分数,用于演示。除了Emu3是自回归(AR)模型外,所有其他公开可比较的方法都是扩散(Diff)模型。度量越高,结果越好。

未来预测

Emu3可以通过预测未来的帧来扩展视频。在图8中,我们举例说明了视频扩展的定性例子,其中以24 FPS的2秒视频被标记为离散的视觉标记作为上下文。Emu3以相同的离散视觉令牌形式预测随后的2秒内容,可以将其去令牌化以生成未来预测的视频。这些例子表明,仅使用下一个令牌预测有助于视频的时间扩展,包括预测人类和动物的行为、与现实世界的交互以及三维动画的变化。此外,通过以这种方式延长视频持续时间,我们的方法能够迭代地生成超过其上下文长度的视频。我们已经观察到,使用2秒的视频数据作为背景,成功地将未来的视频帧扩展8秒是可行的。
在这里插入图片描述

表6:视觉语言基准的比较。我们收集的评价包括:SEEDB: SEEDBench-Img [45];OCRB: OCRBench
[59];MMV: MMVet [98];教皇[51];VQAv2 [27];GQA [34];SQA: science - qaimg [60];TextVQA [78];CQA: ChartQA [61];DVQA: DocVQA [63];IVQA: InfoVQA [62];AI2D [36];RWQA: RealWorldQA [91];MMMU [99];MMB: MMBench[58]。*在训练过程中观察相关训练数据集的图像。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/896998.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大规模创新类竞赛评审方案的建模与研究

随着科技的发展和教育制度的改革,近年来涌现出一批以“创新”为主题的竞赛项目。这类竞赛的运行模式为,参赛队伍提交文档、视频或幻灯片等文本形式的作品,专家对参赛队伍提交的作品评阅判分,一份作品将由多位专家独立进行评阅打分…

19.面试算法-树的深度优先遍历(一)

1. 深入理解前中后序遍历 深度优先遍历有前中后三种情况,大部分人看过之后就能写出来,很遗憾大部分只是背下来的,稍微变换一下就废了。 我们再从二叉树的角度看递归,每次遇到递归,都按照前面说的四步来写&#xff0c…

从壹开始解读Yolov11【源码研读系列】——cfg:模型配置加载功能

目录 一、模型配置操作:cfg.__init__.py 1.cfg.cfg2dict:yaml转字典 2.cfg.get_cfg:读取覆盖配置 3.cfg全局配置参数查询表 ①*基础参数配置: ②*训练参数配置: ③验证测试参数配置: ④*预测参数配置&…

element plus中menu菜单技巧

我在使用element plus的menu(侧边栏)组件的过程中遇到了一些问题,就是menu编写样式和路由跳转,下面给大家分享以下,我是怎么解决的。 1.页面效果 我要实现的网站布局是这样的: 侧边栏折叠以后的效果&#…

使用 Spring 框架构建 MVC 应用程序:初学者教程

Spring Framework 是一个功能强大、功能丰富且设计精良的 Java 平台框架。它提供了一系列编程和配置模型,旨在简化和精简 Java 中健壮且可测试的应用程序的开发过程。 人们常说 Java 太复杂了,构建简单的应用程序需要很长时间。尽管如此,Jav…

PHP露营地管理小程序系统源码

🏕️露营新风尚!露营地管理小程序系统,打造完美露营体验✨ 📍营地预订,轻松搞定📅 想要逃离城市的喧嚣,享受大自然的宁静?露营地管理小程序系统让你的露营计划轻松实现&#xff01…

Vulnhub打靶-Empire-LupinOne

基本信息 靶机下载:https://download.vulnhub.com/empire/01-Empire-Lupin-One.zip 攻击机器:192.168.20.128(Windows操作系统)& 192.168.20.138(kali) 提示信息: 这个盒子被创建为中等…

FineReport 填报简介vs控件vs页面设置

填报简介 填报功能可以将页面数据写入到数据库,包括数据的增加、删除和修改操作。同时也支持对填写数据的自定义校验,Excel 导入数据,根据填写值智能联动等功能。 填报控件 设计填报报表时,如果需要修改和新增数据,则…

vue3使用element-plus手动更改url后is-active和菜单的focus颜色不同步问题

在实习,给了个需求做个新的ui界面,遇到了一个非常烦人的问题 如下,手动修改url时,is-active和focus颜色不同步 虽然可以直接让el-menu-item:focus为白色能解决这个问题,但是我就是想要有颜色哈哈哈,有些执…

【JAVA面试题】什么是Springboot的自动配置以及注意事项

文章目录 强烈推荐核心概念:自动配置的关键特点:示例: 需要注意的点1.默认配置可能不适合所有场景2.Bean 冲突与覆盖3.应用启动慢的问题4.过度依赖自动配置5.安全性问题6.依赖冲突与版本兼容7.过多不必要的自动配置8.调试困难 专栏集锦 强烈推…

python实战项目43:采集汽车之家数据

python采集汽车之家数据 一、寻找数据接口二、发送请求获取响应三、解析数据四、完整代码一、寻找数据接口 如下图所示,在汽车之家首页点击报价图标: 在下图中选择价位,例如选择15-20万: 打开浏览器开发者工具,刷新页面,找到数据接口。接下来,通过翻页寻找接口url的变…

如果你不幸成为家里第一个GIS专业的学生

家里无法给我很多建设性意见,大学四年到工作都是自己一个人跌跌撞撞走过来的,期间因为信息差走了不少弯路。对于GIS专业而言,没有家里人的指路,信息差就成了同学之间拉开差距的重要因素。现在我们要做的就是打破专业信息差&#x…

Vue+ECharts+iView实现大数据可视化大屏模板

Vue数据可视化 三个大屏模板 样式还是比较全的 包括世界地图、中国地图、canvas转盘等 项目演示: 视频: vue大数据可视化大屏模板

uiautomatorviewer安卓9以上正常使用及问题处理

一、安卓9以上使用uiautomatorviewer问题现象 打开Unexpected error while obtaining UI hierarchy 问题详情 Unexpected error while obtaining UI hierarchy java.lang.reflect.InvocationTargetException 二、问题处理 需要的是替换对应D:\software\android-sdk-windows…

这种V带的无极变速能用在新能源汽车上吧?

CVT的无极变速器的结构能用在电动汽车上吗?

Python 将网页保存为图片(Chrome内核)

一、背景介绍 之前写过一篇将网页保存为图片的文章 C# 将网页保存为图片(利用WebBrowser)_c# webbrowser 把网页内容转换成图片-CSDN博客​​​​​​ 这里有个弊端,C# WebBrowser使用的是IE内核,目前很多网站都不支持IE了&…

深度学习(二)框架与工具:开启智能未来之门(2/10)

一、深度学习框架:引领智能变革的利器 深度学习框架在人工智能领域中扮演着至关重要的角色,堪称引领智能变革的利器。随着人工智能技术的飞速发展,深度学习框架不断崛起并迅速壮大。 主流的深度学习框架如 TensorFlow、PyTorch、Keras 等&a…

社招高频面试题

1.单例模式 面试突击50:单例模式有几种写法? 2.Mybatis缓存机制 MyBatis的一、二级缓存查询关系 一级缓存是SqlSession级别,不能跨SqlSession共享,默认开启。 二级缓存是基于mapper namespace级别的,可以跨SqlSessi…

第J6周:ResNeXt-50实战解析(pytorch版)

>- **🍨 本文为[🔗365天深度学习训练营]中的学习记录博客** >- **🍖 原作者:[K同学啊]** 任务: ●阅读ResNeXt论文,了解作者的构建思路 ●对比我们之前介绍的ResNet50V2、DenseNet算法 ●使用ResNeX…

基于Java+SpringBoot+Vue的古典舞在线交流平台的设计与实现

基于JavaSpringBootVue的古典舞在线交流平台的设计与实现 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接&a…