9款最新文生图模型汇总!含华为、谷歌、Stability AI等大厂创新模型(附论文和代码)

2023年真是文生图大放异彩的一年,给数字艺术界和创意圈注入了新鲜血液。从起初的基础图像创作跃进到现在的超逼真效果,这些先进的模型彻底变革了我们制作和享受数字作品的途径。

最近,一些大公司比如华为、谷歌、还有Stability AI等人工智能巨头也没闲着,纷纷推出了自己的最新文生图模型。

今天就给大家盘点一下近期新推出的文生图模型,为了让各位更全面地理解这些技术,我还特别准备了相关的研究论文和代码分享!

1、PanGu-Draw(华为)

论文:PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

PanGu-Draw:通过时间解耦训练和可重用 Coop-Diffusion 推进资源节约型文本到图像合成

简述:本文提出了PanGu-Draw,一种高效的文本到图像潜在扩散模型,能适应多控制信号。该模型采用时间解耦训练策略,分为结构器和纹理器,大幅提升数据和计算效率。同时,研究人员引入Coop-Diffusion算法,允许不同潜在空间和分辨率的模型协同工作,无需额外数据或重新训练。PanGu-Draw在文本到图像和多控制图像生成上表现出色,指向了训练效率和生成多功能性的新方向。

图片

2、Imagen & Imagen 2(谷歌)

论文:Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

具有深度语言理解的逼真文本到图像扩散模型

简述:本文提出了Imagen,一款新型的文本到图像扩散模型,实现了极高的真实感和深度语言理解。该模型结合了大型Transformer语言模型和扩散模型的技术,优化了语言模型的大小以提高图像质量和文本对齐。在COCO数据集上,Imagen取得了领先的FID分数,且其样本的图像-文本对齐得到了人类评分者的好评。研究人员还引入了DrawBench基准测试,比较了Imagen与其他最新方法,发现其在样本质量和图像文本对齐方面更优秀。

图片

3、SDXL Turbo(Stability AI

论文:Adversarial Diffusion Distillation

对抗性扩散蒸馏

简述:本文提出了SDXL Turbo,它在 SDXL 1.0 的基础上进行迭代,并为文本到图像模型实现了一种新的蒸馏技术:对抗扩散蒸馏(ADD),能够高效地从大规模基础图像扩散模型中采样,同时保持高质量图像。该模型在一步中明显优于现有几步方法,并在四步内达到最先进扩散模型的性能。ADD 是首个使用基础模型实现单步实时图像合成的方法。

图片

4、CM3Leon(Meta)

论文:Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning

扩展自回归多模态模型:预训练和指令调优

简述:本文提出了CM3Leon,一种多模态语言模型,擅长生成和填充文本和图像。它是首个采用纯文本语言模型训练方法的多模态模型,包括大规模检索增强预训练和多任务监督微调阶段。CM3Leon在文本到图像生成上实现了领先性能,计算量比同类方法少5倍。此外,CM3Leon在图像编辑和控制生成等任务中展现出前所未有的可控性。

图片

5、PixArt-α(华为诺亚方舟实验室联合大连理工大学、香港大学、香港科技大学等机构)

论文:PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

PixArt-α:快速训练扩散变压器,实现逼真的文本到图像合成

简述:本文提出了PixArt-α,一种高效的基于Transformer的文本转图像模型,它能以较少的训练资源生成与最先进模型相媲美的商业级图像。PixArt-α采用三种策略:优化的训练步骤、高效的Transformer架构和增强的数据处理,实现了快速、低成本且环保的训练过程。实验结果显示,PixArt-α在多个方面表现出色,为AIGC领域提供了新的创新方向。

图片

6、Kandinsky 3.0(俄罗斯AI Forever研究团队

论文:Kandinsky 3.0 Technical Report

Kandinsky 3.0 技术报告

简述:本文提出了Kandinsky 3.0,一个基于潜在扩散的大规模文本到图像生成模型,旨在提高图像生成的质量和真实性。该模型通过使用更大的U-Net主干网和文本编码器以及去除扩散映射进行改进。文中详细介绍了模型的架构、训练过程和生产系统,并强调了关键组件对提升模型质量的重要性。实验表明,Kandinsky 3.0在文本理解和特定领域表现上有所提升。

图片

7、DreamBooth(谷歌)

论文:DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth:微调文本到图像扩散模型,用于主题驱动的生成

简述:本文提出了DreamBooth,一种个性化文生图模型,它通过微调预训练的文生图模型,如Imagen,将一个独特的标识符与某个物体绑定,这样模型就可以在含有该标识符的prompt下,在不同场景中生成包含该物体的新颖图片。这种技术利用模型的语义先验和新的特定类先验保留损失,实现了在多样化条件下合成主体的能力。研究人员将此技术应用于多种任务,并提出了新的数据集和评估标准,以推动主题驱动的图像生成的发展。

图片

8、GigaGAN(POSTECH、卡内基梅隆大学和 Adobe 研究院的研究人员)

论文:Scaling up GANs for Text-to-Image Synthesis

扩展 GAN 以进行文本到图像合成

简述:本文提出了GigaGAN,一种改进的 GAN 架构,它被设计用于提高文本到图像合成的效率和质量,它具有三大优势:首先,它在推理时间快几个数量级,合成 512px 的图像只需 0.13 秒;其次,它可以合成高分辨率图像,例如,在 16 秒内合成 3.66 像素的图像;最后,GigaGAN支持各种潜在空间编辑应用,如潜在插值、样式混合和向量算术运算。

图片

9、LCM (清华大学交叉信息研究院的研究者们)

论文:Latent Consistency Models: Synthesizing High-Resolution Images with Few-Step Inference

潜在一致性模型:通过少步推理合成高分辨率图像

简述:本文提出了LCM,一种在预训练LDM上快速推理的新模型,通过预测常微分方程的解减少迭代,实现快速、高保真的图像采样。LCM在预训练的无分类器引导扩散模型上表现出色,只需少量步骤即可生成高质量的图像,训练仅需少量计算资源。研究人员还提出了LCF,用于在自定义图像数据集上微调LCM。在LAION-5B-Aesthetics数据集上的评估显示,LCM实现了最先进的文本到图像生成性能。

图片

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【文生图模型】获取完整论文和代码

👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/342431.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

信用评价研究MATLAB仿真代码

信用评价是各种店铺卖家分析买家信用行为的重要内容, 本文给出随机仿真代码模拟实际交易过程的信用评价. 主要研究内容有: (1)研究最大交易额和信用度的关系 (2)研究买家不评价率对信用度影响 (3)研究交易次数对信用度影响 MATLAB程序如下: 主程序main.m %% clc;close a…

宝塔FTP文件传输服务结合cpolar内网穿透实现远程连接本地服务

⛳️ 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。 文章目录 ⛳️ 推荐1. Linux安装Cpolar2. 创建FTP公网地址3. 宝塔FTP服务设置4. FTP服务远程连接小结 5. 固定FTP公网地址6. 固…

NVMe TCG安全数据存储简介

NVMe(非易失性内存主机控制器接口规范)与TCG(可信计算组)的集成主要体现在数据安全、固件验证和硬件信任根等方面,以确保存储设备的数据保护能力和安全性。 TCG Opal定义了一套针对自加密硬盘(SED, Self-En…

人工智能原理实验4(2)——贝叶斯、决策求解汽车评估数据集

🧡🧡实验内容🧡🧡 汽车数据集 车子具有 buying,maint,doors,persons,lug_boot and safety六种属性,而车子的好坏分为uncc,ucc,good and vgood四种。 🧡🧡贝叶斯求解🧡🧡…

gmpy2与一些python库在vscode下没有自动补全的一种缓解方案

经过一定的研究,该问题的原因初步判断是gmpy2这个库天生没有把补全的函数doc说明附在pip包中。且因gmpy2是由C编译而来,以dll或so的形式作为动态链接库给python调用,这意味着无法从源码薅到可用的源码注释。 接下来先讲解决方案,再…

vue3路由报错解决方法

报错: 解决办法: createWebHashHistory是否为 createWebHashHistory()方法 //指定路由模式为哈希模式 修改:改为方法就行了

春节声量高涨213%!如何撬动过年市场?小红书数据洞察入场玩家

春节将临,网上讨论声量渐起。近来关于新年的讨论层出不穷,春运、春晚、放假回家的大学生“德华”……人们开始为新春做准备。前两天,小红书牵手春晚,登上热门。可以预见的是,今年小红书与春节话题将深度绑定&#xff0…

JUC并发编程-集合不安全情况以及Callable线程创建方式

6. 集合不安全 1&#xff09;List 不安全 //java.util.ConcurrentModificationException 并发修改异常&#xff01; public class ListTest {public static void main(String[] args) {List<Object> arrayList new ArrayList<>();for(int i1;i<30;i){new Thr…

【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记

《OpenCompass 大模型评测》 文档&#xff1a;OpenCompass大模型评测教程 1、主观评测 2、提示词工程 李华每周给2个不同的朋友写一封3页的信&#xff0c;一周写两次。他一年总共写了多少页的信? 李华每周给2个不同的朋友写一封3页的信&#xff0c; 一周写两次。他一年总共…

[代码随想录2]51单片机1T/12T到底怎么选?

为什么说51单片机怎么选&#xff1f; 时至今日&#xff0c;44年来51单片机自强不息&#xff0c;怎么描述它&#xff0c;堪称控制芯片中的王者&#xff01;&#xff01;&#xff01; 假设你21岁大学毕业进入社会&#xff0c;交社保交到今天恭喜你成功退休了214465 传统即标准5…

【docker】安装 CentOS

查看可用的 CentOS版本 docker search centOS拉取 CentOS最新镜像 docker pull centos:latest 查看本地镜像 docker images运行容器 docker run -itd --name centos-demo centos查看进程 docker ps进入centos容器 docker exec -it centos-demo /bin/bash停止容器 docker …

w23靶场安装

一、实验环境 服务器&#xff1a;phpstudyv8.1.13 靶场&#xff1a;Bees二、实验目的 提供一个靶场环境 三、实验步骤 bees靶场安装 1.启动小皮的apache和mysql 2.在小皮V8.1.1.3版本上创建bees网站&#xff0c;选择的php版本最好在5.x&#xff0c;不然会有php解析错误。…

ubuntu 安装protobuf

apt 安装 sudo apt install protobuf-compiler 编译安装 – 方式1 资料链接&#xff1a;ubuntu环境 安装ncnn_ubuntu ncnn_jbyyy、的博客-CSDN博客 git clone https://github.com/google/protobuf.git cd protobuf git submodule update --init --recursive ./autogen.sh …

性能优化-OpenCL kernel 开发

「发表于知乎专栏《移动端算法优化》」 本文主要介绍OpenCL的 Kernel&#xff0c;包括代码的实例以及使用注意的详解。 &#x1f3ac;个人简介&#xff1a;一个全栈工程师的升级之路&#xff01; &#x1f4cb;个人专栏&#xff1a;高性能&#xff08;HPC&#xff09;开发基础教…

Leetcode刷题笔记题解(C++):670. 最大交换

思路&#xff1a; 假设数字 9923676 从右边找最大的数字的下标maxindex&#xff0c;然后向左边寻找小于最大数字的数的下标&#xff0c;直到找到最左边&#xff0c;交换两者得出新的数字&#xff0c;比如从左到右递减的数字如9621则不需要变化&#xff0c;在寻找中记录这种数…

如何查看Linux CPU占有率

目录 1、top 2、htop 3、vmstat 4、mpstat 5、iostat 查看嵌入式设备CPU占有率是评估系统资源使用情况的重要方式。 在Linux系统中&#xff0c;有多种方法可以查看CPU占有率&#xff0c;这里介绍几种常用的命令行工具。 1、top 这是最常用的命令之一&#xff0c;它提供了…

语义分割常用评价指标

在图像处理领域中&#xff0c;语义分割是很重要的一个任务。在实际项目开发中,评估模型预测效果以及各指标的含义对于优化模型极为重要。 本文将主要评价指标的计算算法进行了详细说明,并加上注释解释每个指标的含义。这对理解各指标背后的数学原理以及能否在实践中应用或许有…

​​快速排序(四)——挖坑法,前后指针法与非递归

目录 ​一.前言 二.挖坑法 三.前后指针法 四.递归优化 五.非递归 六.结语 一.前言 本文我们接着上篇文章的重点快排&#xff0c;现在继续讲解对快排优化的挖坑法&#xff0c;前后指针法以及非递归方法&#xff0c;下面是上篇文章快排链接&#xff1a;https://mp.csdn.net…

小程序系列--9.生命周期

1. 什么是生命周期&#xff1f; 2. 生命周期的分类 3. 什么是生命周期函数 4. 生命周期函数的分类 5. 应用的生命周期函数 6. 页面的生命周期函数

Android反编译第一神器JADX,超40k star

Android反编译第一神器JADX&#xff0c;超40k star 引言 jadx是一个非常强大的工具&#xff0c;可以将Android应用程序反编译为可读的Java代码。它可以帮助开发人员和安全专家分析应用程序&#xff0c;并了解其中的工作原理和实现细节。 jadx主要包含2款工具jadx及jadx-gui&a…