Muse论文精读

Muse

Abstract

我们介绍了Muse,一个文本到图像的Transformer模型,它实现了最先进的图像生成性能,同时比扩散或自回归模型更有效。Muse是在离散标记空间中的掩码建模任务上进行训练的:给定从预训练的大型语言模型(LLM)中提取的文本嵌入,Muse被训练来预测随机掩码图像标记。与Imagen和dall - e2等像素空间扩散模型相比,Muse由于使用离散令牌和需要更少的采样迭代而显着提高了效率;与自回归模型(如Parti)相比,Muse由于使用并行解码而效率更高。使用预训练的LLM可以实现细粒度的语言理解,转化为高保真的图像生成和对视觉概念的理解,如物体,它们的空间关系,姿势,基数等。我们的900M参数模型在CC3M上实现了新的SOTA, FID评分为6.06。Muse 3B参数模型在零射击COCO评估中实现了7.88的FID,以及0.32的CLIP评分。Muse还直接启用了许多图像编辑应用程序,而无需对模型进行微调或反转:内涂,外涂和无蒙版编辑。更多的结果可以在http://muse-model.github.io上找到。

在这里插入图片描述

我们的基本模型是一个masked transformer,其中输入是投影的T5嵌入和图像标记。我们保留所有的文本嵌入,并随机屏蔽不同比例的图像标记,并用一个特殊的[mask]标记替换它们。然后,我们将图像标记线性映射到所需Transformer输入/隐藏大小的图像输入嵌入以及学习的2D位置嵌入。根据之前的变压器架构,我们使用多个变压器层,包括自注意块、交叉注意块和MLP块来提取特征。在输出层,使用MLP将每个掩膜图像嵌入转换为一组logits,并以ground truth令牌标签为目标应用交叉熵损失。在训练时,训练基本模型在每一步预测所有掩码令牌。然而,对于推理,掩码预测以迭代的方式执行,这大大提高了质量。

Contribution

1.性能表现

图7显示了Muse、Dall-E2和Imagen在一些选择提示上的比较,表明Muse与Imagen相当,并且在许多提示上的质量优于Dall-E2。

在这里插入图片描述
“灰色”和“吃花生”),可能的单词和短语的虚拟连续体要求模型以不同的方式学习。相反,它必须学习对短语、单词和字母的分层理解。图6的左下角展示了Muse在呈现时使用整个文本提示符,而不是聚焦

图7显示了Muse、Dall-E2 (Ramesh等人,2022)和Imagen(撒哈拉等人,2022)在一些选择提示上的比较,表明Muse与Imagen相当,并且在许多提示上的质量优于Dall-E2。

2.量化性能(Quantitative Performance)

在表1和表2中

结果表明,两个Muse模型都在CC3M数据集上进行了训练。COCO结果是zero-shot,使用与Imagen相同的数据集训练的模型。

我们的632M模型在CC3M上达到了SOTA结果,显著提高了FID评分的水平,也达到了CLIP评分的水平。

我们的3B模型的FID得分为7.88,略好于参数数量相似的part -3B模型的8:1得分。我们的CLIP得分为0.32,高于Imagen的CLIP得分0.29。对于FID为7.27,Imagen的CLIP得分约为0.27。

我们的采样算法有许多超参数,如制导尺度、采样温度、是否在采样过程中线性增加制导等。我们对这些参数执行求值扫描。我们发现采样参数的子集是帕累托有效的,在某种意义上,我们不能在不损害CLIP的情况下改进FID。

这允许我们研究多样性和图像/文本对齐之间的权衡,如图8所示。

在这里插入图片描述

FID分数是生成图片和原始图片距离分数,越小越好。CLIP分数是衡量图片和图片描述的匹配分数,越高

在这里插入图片描述

side-by-side evaluations对比试验

在这里插入图片描述

向人类评分者提供一个文本提示和两个图像,每个图像由使用该提示的不同文本到图像模型生成。评分者被要求通过“哪张图片与标题更匹配?”这个问题来评估即时图像的一致性。

inference speed

在表3中,我们将Muse的推理时间与其他几个流行模型进行了比较。我们在TPUv4加速器上对part - 3b、Imagen和Muse-3B进行了内部基准测试。

对于Stable Diffusion/LDM,我们使用了最快的基准测试(Lambda Labs, 2022),该测试是在A100 gpu上完成的。对于Stable Diffusion,我们测试的TPU实现并不比A100实现快。我们还报告了具有250次迭代的LDM的推断时间,这是用于实现表2中FID的配置。Muse的速度明显快于与之竞争的扩散模型或自回归模型,尽管参数数量相当(比Stable diffusion /LDM多3倍左右)。Muse相对于Imagen的速度优势是由于使用离散令牌和需要更少的采样迭代。Muse相对于Parti的速度优势是由于使用了并行解码。Muse相对于Stable Diffusion的速度优势主要是由于需要更少的采样迭代。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/627232.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【保姆级介绍下运维】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

nginx反向代理使用(详细版)

1. 下载nginx,解压;(随便放在哪里) 2. 在nginx-1.26.0文件夹下创建web文件夹,继续在web文件夹下创建abcd.test.cn文件夹(文件夹的名字就叫abcd.test.cn); 3. 配置前端代理&#xff…

【现代C++】三路比较运算符

C20引入了三路比较运算符&#xff08;也称为太空船运算符&#xff0c;<>&#xff09;&#xff0c;它允许同时比较两个值&#xff0c;并返回它们的相对顺序。这个运算符简化了需要定义多个比较运算符&#xff08;如、!、<、<、>、>&#xff09;的类的代码&…

吞吐量 和 延时的关系

关于吞吐量/吞吐率、延时&#xff0c;你可以通过 Jmeter中的”聚合报告“和”用表格查看报告“来获取。 Throughput 越大&#xff0c;Latency 越差&#xff1a;因为请求过多&#xff0c;系统繁忙导致响应速度降低。Latency 的值越小说明能支持的 Throughput 越高&#xff1a;L…

全像宇宙投影第三部时间与空间(全文)下载

当这个人向空中凝视时&#xff0c;他所在的房间渐渐变得透明而朦胧&#xff0c;空中渐渐浮现一个久远前景像。突然他觉得自己在皇宫中庭内&#xff0c;他面前站著一位年轻女士非常美丽&#xff0c;有著橄榄色的皮肤。他可以见到她的颈项、手腕、脚踝上都挂著金饰&#xff0c;还…

如何使用AzurEnum快速枚举Microsoft Entra ID(Azure AD)

AzurEnum是一款针对Azure的安全工具&#xff0c;在该工具的帮助下&#xff0c;广大研究人员可以轻松快速地枚举Microsoft Entra ID&#xff08;Azure AD&#xff09;。 该工具基于纯Python 3开发&#xff0c;可以在Windows和Linux系统上运行&#xff0c;但考虑到性能和稳定性&a…

windows下mysql5.6下载安装(多实例安装)

目录 1、下载 2、安装步骤 3、mysql多实例安装 1、下载 http://dev.mysql.com/downloads/windows/installer/5.6.html 2、安装步骤 我们采用自定义安装模式&#xff1a;选择32位或64位 默认即可&#xff1a; 说明&#xff0c;如果没有该页面就上一步&#xff0c;选择高级选…

类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定

内容概述 虽然没有带来备受期待的人工智能&#xff08;AI&#xff09;搜索引擎&#xff0c;但OpenAI在主打产品AI模型上花了更多心思&#xff0c;拓展多模态功能&#xff0c;让用户可以免费玩转文字、图片和语音输入。 美东时间5月13日周一&#xff0c;OpenAI首席技术官Mira …

三星将采用铁电材料实现1000层3D NAND

在2022年的技术日上&#xff0c;三星公布了一项宏伟目标&#xff0c;即到2030年推出层数超过1000层的先进NAND芯片。据Wccftech报道&#xff0c;这家韩国存储巨头似乎正逐步接近这一目标&#xff0c;计划在NAND芯片制造中应用新型“铁电”材料。 最近美国火奴鲁鲁举行的VLSI技术…

学习Uni-app开发小程序Day11

今天是学习的第11天&#xff0c;今天学习了组件的生命周期&#xff0c;这里的生命周期&#xff0c;主要是学习uni-app的组件生命周期&#xff0c;虽然vue也有&#xff0c;但主要还是学习uni-app的。1. onLoad 监听页面加载&#xff0c;该钩子被调用时&#xff0c;响应式数据、计…

2024 年第一季度全球互联网中断事件

2024 年第一季度伊始&#xff0c;互联网发生了多起中断事件。陆地和海底电缆的损坏在多个地方造成了问题&#xff0c;而与持续中地缘政治冲突相关的军事行动影响了其他地区的连接。 几个非洲国家以及巴基斯坦的政府下令关闭互联网&#xff0c;主要针对移动网络连接。 被称为Ano…

Taylor Francis科技期刊数据库文献去哪里获取

一、Taylor & Francis科技期刊数据库简介&#xff1a; Taylor & Francis 科技期刊数据库&#xff08;T&F ST Library&#xff09;提供超过520种经专家评审的高质量科学与技术类期刊, 其中超过85%的期刊被Web of Science收录&#xff0c;内容最早至1997年。该科技期…

011.理解事件(events)和流(streams)

在软件系统中&#xff0c;事件是一种用于指示发生了什么事情的消息。该事件可能代表一个技术事件——例如&#xff0c;在GUI应用程序中&#xff0c;您可能会在按下的每个键或每次鼠标移动上看到事件。该事件还可以表示业务发生&#xff0c;例如在金融系统中完成的货币交易。 事…

【启程Golang之旅】环境设置、工具安装与代码实践

欢迎来到Golang的世界&#xff01;在当今快节奏的软件开发领域&#xff0c;选择一种高效、简洁的编程语言至关重要。而在这方面&#xff0c;Golang&#xff08;又称Go&#xff09;无疑是一个备受瞩目的选择。在本文中&#xff0c;带领您探索Golang的世界&#xff0c;一步步地了…

LearnOpenGL(十七)之混合

一、丢弃片段 有些图片并不需要半透明&#xff0c;只需要根据纹理颜色值&#xff0c;显示一部分&#xff08;alpha值为1.0&#xff09;&#xff0c;或者不显示一部分&#xff08;alpha值为0.0&#xff09;&#xff0c;没有中间情况。我们需要丢弃(Discard)显示纹理中透明部分的…

嵌入式学习71-(内核定时器和传感器)

缺少内核配置文件.config 解决&#xff1a;cp config_mini2440_td35 .config 1.make 编译一下 生成timer.ko文件 2. cp timer.ko ~/nfs/rootfs 为什么要拷贝到rootfs中&#xff0c;这是挂载的根文件系统 &#xff0c;使用nfs作为根文件系统 实际上内核启动的时候并不知道…

【问题实操】银河高级服务器操作系统实例分享,网卡drop问题分析

1.服务器环境以及配置 系统环境 物理机/虚拟机/云/容器 物理机 网络环境 外网/私有网络/无网络 私有网络 硬件环境 机型 华鲲振宇 TG225B1 处理器 kunpeng 920 内存 1024GB 主板型号 TG225B1 HZKY 整机类型/架构 aarch64 固件版本 6.57 软件环境 具体操作系…

基于梯度流的扩散映射卡尔曼滤波算法的信号预处理matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 4.1 扩散映射&#xff08;Diffusion Maps&#xff09; 4.2 卡尔曼滤波 4.3 基于梯度流的扩散映射卡尔曼滤波&#xff08;GFDMKF&#xff09; 5.完整程序 1.程序功能描述 基于梯度流的扩散…

Golang | Leetcode Golang题解之第89题格雷编码

题目&#xff1a; 题解&#xff1a; func grayCode(n int) []int {ans : make([]int, 1<<n)for i : range ans {ans[i] i>>1 ^ i}return ans }

vue3使用el-radio-group获取表格数据无法选中问题

这里是引用 今天写项目发现使用el-radio-group无法获取表格中的数据&#xff0c;于是去官网查看了一下&#xff0c;发现写的没啥问题&#xff0c;就是 <el-radio value"1" size"large"> 未知</el-radio>这样的写法&#xff0c;又在网上看了一些…