AIGC 009-DaLLE2遇见达利!文生图过程中另外一种思路。

AIGC 009-DaLLE2遇见达利!文生图过程中另外一种思路。


0 论文工作

首先,遇见达利是我很喜欢的名字,达利是跟毕加索同等优秀的画家。这个名字就很有意思。
这篇论文提出了一种新颖的分层文本条件图像生成方法,该方法利用 CLIP(对比语言-图像预训练)的潜变量。核心思想是利用 CLIP 强大的图像-文本对齐能力来指导分层生成过程。该方法利用分层生成器结构,其中第一阶段根据文本提示生成低分辨率图像。后续阶段基于文本条件上采样模块逐步细化图像,最终生成与输入文本对齐的具有详细特征的高分辨率图像。
像CLIP这样的对比模型已经被证明可以学习同时捕获语义和风格的图像的鲁棒表示。为了利用这些表示方式进行图像生成,论文提出了一个两个-阶段模型:根据给定的文本标题生成CLIP图像嵌入的先验,以及根据图像嵌入生成有条件的图像的解码器。作者展示了它显式地生成图像repr插图提高了图像多样性,最小的损失在摄影真实性和标题相似性。以图像表示为条件的解码器也可以产生图像的变化,同时保留其语义和风格,但改变图像中缺少的非必要细节。此外,CLIP的联合嵌入空间使语言引导的图像操作零射击的方式。
Openai的论文特点万物皆可自回归 对标sd.
论文链接
github

1 论文方法

论文中的方法包含以下关键部分:
CLIP 潜变量引导: 使用 CLIP 的文本编码器对文本提示进行编码,获得文本嵌入。此嵌入指导生成过程,确保生成的图像与输入文本的语义内容一致。
分层生成器: 生成过程是分层的,从低分辨率图像开始,并在后续阶段逐步上采样。每个阶段都使用文本条件上采样模块,根据文本嵌入和上一阶段的输出来细化图像。
多阶段细化: 分层结构允许模型逐步细化细节,捕捉输入文本的细微差别,最终产生更准确、更具视觉吸引力的结果。
这早第二行文本特征生成图像特征的过程中有两种方式,一种就是自回归,另外一种是扩散模型。现在通常认为扩散模型在图像这块给出的答案暂时比自回归好。
在这里插入图片描述

实现:
论文通过对各种图像生成任务进行广泛的实验来证明所提出方法的有效性。实现中利用了预训练的 CLIP 模型进行文本编码,以及自定义设计的分层生成器。
优点:
高质量图像生成: 分层结构和 CLIP 引导有助于生成高质量的图像,准确地反映输入文本。
文本保真度: 该方法确保了对输入文本提示的高保真度,捕捉语义和风格特征。
可控性: 分层结构提供了对生成过程的更大控制,可以对图像细节进行微调。
缺点:
计算成本: 由于多个上采样阶段,分层生成过程的计算量可能很大。
对细节的控制有限: 该方法虽然可以有效地捕捉一般的文本特征,但可能难以精确控制特定的视觉元素。
对 CLIP 的依赖: 该方法的性能高度依赖于预训练的 CLIP 模型的质量。

2 效果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/656109.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Llama模型家族之使用 Supervised Fine-Tuning(SFT)微调预训练Llama 3 语言模型(十) 使用 LoRA 微调常见问题答疑

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 LangGraph 在windows本地部署大模型 (三) 基于 LlaMA…

[SWPUCTF 2022 新生赛]奇妙的MD5... ...

目录 [SWPUCTF 2022 新生赛]奇妙的MD5 [GDOUCTF 2023]受不了一点 [LitCTF 2023]作业管理系统 注入点一:文件上传 注入点二:创建文件直接写一句话木马 注入点三:获取数据库备份文件 [LitCTF 2023]1zjs [SWPUCTF 2022 新生赛]奇妙的MD5 …

【高校科研前沿】湖北工业大学为第一署名单位在《Science》发表Letters文章:应对青藏高原河流泥沙激增

文章简介 论文名称:Combating sediment surge in Tibetan rivers(应对青藏高原河流泥沙激增) 相关作者及单位:杨洪教授(英国雷丁大学)&刘德富教授(湖北工业大学)&Julian R…

代码随想录算法训练营第十四天(py)| 二叉树 | 递归遍历、迭代遍历、统一迭代

1 理论基础 1.1 二叉树的种类 满二叉树 只有度为0和2的节点,且度为0的节点在同一层。 深度为k,有2^k-1个节点 完全二叉树 除了最底层可能没填满,其余每层节点数都达到最大。并且最底层节点全部集中在左边。 二叉搜索树 是一个有数值…

【JVM精通之路】垃圾回收-三色标记算法

首先预期你已经基本了解垃圾回收的相关知识,包括新生代垃圾回收器,老年代垃圾回收器,以及他们的算法,可达性分析等等。 先想象一个场景 最开始黑色节点是GC-Roots的根节点,这些对象有这样的特点因此被选为垃圾回收的根…

Window VScode配置Conda教程(成功版)

VScode配置Conda 参考博文:https://blog.csdn.net/qq_51831335/article/details/126757014Anaconda安装(注意勾选自动配置环境变量!) 官网:https://www.anaconda.com/download/success VScode配置 python插件安装安装 …

Gin与OpenAPI(Swagger)的使用

一、背景 1、swagger与openapi Swagger: 一种用于描述RESTFUL API的规范,它提供了一种简单的来描述API的请求和相应参数、错误码、返回数据类型等信息,是开发者可以方便了解API使用方式。 官网: https://swagger.io/ OpenAPI : 始于 …

京东二面:Sychronized的锁升级过程是怎样的

引言 Java作为主流的面向对象编程语言,提供了丰富的并发工具来帮助开发者解决多线程环境下的数据一致性问题。其中,内置的关键字"Synchronized"扮演了至关重要的角色,它能够确保在同一时刻只有一个线程访问特定代码块或方法&#…

Redis常用命令——Hash篇

前面我们讲述了String的相关操作命令。本篇文章主要讲解Redis中数据结构Hash的相关操作命令。希望会对你有所帮助。 目录 一、Hash哈希 二、命令 HSET HGET HEXISTS HDEL HKEYS HVALS HGETALL HMGET HLEN HSETNX HINCRBY 和 HINCRBYFLOAT 三、小结 🙋‍♂️ 作者&a…

SpringBoot整合RabbitMQ的快速使用教程

目录 一、引入依赖 二、配置rabbitmq的连接信息等 1、生产者配置 2、消费者配置 三、设置消息转换器 四、生产者代码示例 1、配置交换机和队列信息 2、生产消息代码 五、消费者代码示例 1、消费层代码 2、业务层代码 在分布式系统中,消息队列是一种重要…

【老王最佳实践-6】Spring 如何给静态变量注入值

有些时候,我们可能需要给静态变量注入 spring bean,尝试过使用 Autowired 给静态变量做注入的同学应该都能发现注入是失败的。 Autowired 给静态变量注入bean 失败的原因 spring 底层已经限制了,不能给静态属性注入值: 如果我…

【AI算法岗面试八股面经【超全整理】——机器学习】

AI算法岗面试八股面经【超全整理】 概率论信息论机器学习深度学习CVNLP 目录 1、回归损失函数2、分类损失函数3、误差(Error)、偏差(Bias)、方差(Variance)4、PCA(Principle Component Analysi…

数据库语法树优化

目录 一、σ、π、⋈ 1.选择σ 2.投影π 3.连接⋈ 二、 构建语法树 ① 解读sql语句 ② 写出关系代数表达式 ③ 画出语法树 三、优化语法树 四、练习 语法树优化方法 一、σ、π、⋈ 1.选择σ 选择就是在关系R中选择满足给定条件的诸元组。 通过条件SdeptIS选择出系别…

5,串口编程---实现简单的用串口发送接收数据

单片机通过串口向PC机发送数据 PC机通过串口接收单片机发过来的数据 1.UART和USART的区别: USART支持同步通信方式,可以通过外部时钟信号进行同步传输,而UART仅支持异步通信方式 本开发板STM32F103ZET6有5个串口,用串口1作调试串口,因为串…

【算法实战】每日一题:设计一个算法,用最少数量的矩形覆盖一系列宽度为d、高度为w的矩形,且使用矩形不能超出边界

题目 设计一个算法,用最少数量的矩形覆盖一系列宽度为d、高度为w的矩形建筑物侧墙,且矩形不能超出边界。 核心思路 考虑这种结构 前面递增后面一个与前面的某个高度一致,这时候考虑最下面的覆盖(即都是从最下面向上覆盖&#…

进程互斥经典问题(读写者问题、理发店问题)

目录 读写者问题 问题描述 问题分析 进程互斥问题三部曲 读者写者算法实现 一、找进程——确定进程关系 二、找主营业务 三、找同步约束 a.互斥 b.资源 c.配额 理发店问题 问题描述 问题分析 进程互斥问题三部曲 理发店问题算法实现 一、找进程——确定进程…

特朗普竞选带火PoliFi,以Bitget为例

以特朗普系列Meme币为代表的政治金融(PoliFi)概念币市场正在掀起热潮,前美国总统特朗普(Donald Trump)在本月稍早公开力挺加密货币,接着又在周二宣布接受比特币、以太币、SOL、USDC、DOGE…等政治献金,让相关通证高涨。 据CoinGecko数据&…

鲜花门店小程序开发流程:详细教程,让你轻松掌握

想要开发一款专属于自己鲜花门店的小程序吗?不知道从何开始?别担心,本文将为你提供详细的开发流程,帮助你轻松掌握。 1. 注册登录乔拓云网并进入操作后台 首先,你需要注册并登录乔拓云网,然后进入操作后台…

简单随机数据算法

文章目录 一,需求概述二,实现代码三、测试代码四、测试结果五、源码传送六、效果演示 一,需求概述 系统启动时,读取一组图片数据,通过接口返回给前台,要求: 图片随机相邻图片不重复 二&#…

AcWing 2568:树链剖分 ← 线段树+DFS

【题目来源】https://www.acwing.com/problem/content/2570/【题目描述】 给定一棵树,树中包含 n 个节点(编号 1∼n),其中第 i 个节点的权值为 ai。 初始时,1 号节点为树的根节点。 现在要对该树进行 m 次操作&#xf…