AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 效果

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法,专注于微调一个轻量级编码器,将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型,EDT 避免了训练整个模型,从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理,并将它们嵌入到自然语言提示引导下的新场景中。然而,目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制,论文提出了一种基于编码器的域调优方法。该方法的关键见解是,通过对来自给定领域的大量概念进行欠拟合,用以改进泛化,并创建一个更易于快速添加新概念的模型相同的域。具体来说,使用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单一图像作为输入,一个特定的面孔,并学习将其映射到一个表示该概念的单词嵌入中。第二,一组针对文本到图像模型的规则化的权重偏移量,用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习,允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒,同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好,在3090系显卡上就能玩转。虽然作者说他们的速度快了,但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分:
领域特定编码器: 这是一个轻量级的神经网络,经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念,捕捉目标领域的独特特征。
冻结的文本到图像模型: 使用一个预训练的文本到图像模型(例如 Stable Diffusion),不做任何修改。编码器的输出被用作冻结模型的输入,允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器,以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。
在这里插入图片描述
该方法有效地适应了预先训练好的扩散模型(中间)来处理新的概念。训练了两个组件,一个单词嵌入编码器(左)和权重偏移量(右)。编码器的预测是扩散模型嵌入空间中的一种新代码,它最好地描述了输入概念。此外,优化学习的权重偏移,使文本到图像模型专门化到目标领域(例如,猫)。偏移量是学习到的常数,通过一个神经网络进行正则化。在培训期间,使用𝑥0=𝐼𝑐。其中𝑥𝑇是从高斯先验,𝑥𝑡不再是𝐼𝑐的一个嘈杂版本。
实现:
论文展示了 E4T 的实际实现,并展示了其在各种领域(包括特定艺术风格、物体类别和视觉效果)上的有效性。该实现使用基于 Transformer 的编码器,并通过对比学习目标进行训练。
优点:
快速个性化: 与传统微调方法相比,E4T 显著减少了训练时间,允许快速适应新领域。
资源高效: 通过冻结文本到图像模型,E4T 需要更少的计算资源和数据。
领域特定适应性: 领域特定编码器使模型能够捕捉目标领域的独特特征,从而实现更准确和相关的图像生成。
泛化性: 编码器可以应用于各种领域和图像生成任务。
缺点:
控制有限: 冻结的文本到图像模型限制了对生成过程的控制能力,只能捕捉到领域特定的词汇。

2 效果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/654034.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

不怕YOLOv10高歌猛进,我有YOLOv8稳扎稳打

YOLOv10 出来有几天时间了,这次我没有选择第一时间出文章解析,如此频繁的发布数字版本的 YOLO 着实让人头疼,虽然数字的更新并非旧版技术的过时, 但是这肯定会让很多在校同学增加很多焦虑情绪。这里还是请大家辩证看待。 v10 这次…

C语言编译链接

翻译环境和运行环境 翻译环境 翻译环境就是在这将源代码转换成可执行的二进制指令(机器指令)。 进行编译和链接过程。 .c源程序先单独经过编译器生成对应的目标文件.obj(在windows环境下).o(在Linux环境下&#xff…

CRMEB开源商城系统:全开源、高灵活性的电商解决方案

一、引言 随着电子商务的飞速发展,越来越多的企业和个人开始关注如何快速搭建一个稳定、高效且功能丰富的在线商城系统。在这样的背景下,CRMEB开源商城系统应运而生,凭借其前后端分离的架构、丰富的功能模块以及易用性,成为了众多…

C++模板——非类型模板参数、模板的特化以及模板的分离编译

目录 非类型模板参数 模板的特化 概念 函数模板特化 类模板特化 全特化 偏特化 模板的分离编译 什么是分离编译 模板的分离编译 解决方法 模板总结 非类型模板参数 模板参数可分为类型形参和非类型形参。类型形参: 出现在模板参数列表中,跟…

【python】删除一个列表中的所有的1

删除所有的1 x [1, 1, 6, 3, 9, 4, 5, 1, 1, 2, 1, 9, 6, 4] 使用lambda函数和filter来过滤掉x中的1 filtered_x list(filter(lambda n: n ! 1, x)) 不是1的数字,存进x列表,filter用于插入元素到第二个位置 print(filtered_x) # 输出: [6, 3, 9, …

第13章 层次式架构设计理论与实践

层次式架构的核心思想是将系统组成为一种层次结构,每一层为上层服务,并作为下层客户。其实不管是分层还是其他的架构都是为了解耦,更好的复用,只要秉承着这种思想去理解一切都迎刃而解了。 13.1 层次上体系结构概述 回顾一下软件…

【docker】安装harbor出现问题: Running 1/1 ✘ Network harbor_harbor Error

安装harbor出现问题: [] Running 1/1 ✘ Network harbor_harbor Error 0.2s failed to create network harbor_harbor: Error response from daemon: Fa…

节水“云”科普丨北京昌平VR节水云展馆精彩上线

2024年5月15日上午,由北京昌平区水务局主办的“推进城市节水,建设美丽昌平——2024年全国城市节约用水宣传周暨‘坚持节水优先 树立节水标杆’昌平节水在行动主题实践活动”隆重举办,活动期间,昌平区水务局应用VR虚拟现实技术创新…

目标检测数据集 - 工地工人安全设备佩戴检测数据集下载「包含VOC、COCO、YOLO三种格式」

数据集介绍:工地工人安全设备佩戴检测数据集,真实场景数据生成增强后高质量图片数据,涉及场景丰富,比如楼宇建筑工地工人作业数据、道路建筑工地工人作业数据、室内工地工人作业数据、露天挖掘场景工人作业数据、工地工人自拍摆拍…

【数据分析】Numpy和Pandas库基本用法及实例--基于Japyter notebook实现

各位大佬好 ,这里是阿川的博客 , 祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 承接上篇的博客 数据分析—技术栈和开发环境搭…

使用Java 读取PDF表格数据并保存到TXT或Excel

目录 导入相关Java库 Java读取PDF表格数据并保存到TXT Java读取PDF表格数据并保存到Excel 在日常工作中,我们经常需要处理来自各种来源的数据。其中,PDF 文件是常见的数据来源之一。这类文件通常包含丰富的信息,其中可能包含重要的表格数据…

大数据面试题 —— Hive

目录 Hive 是什么为什么要使用 HiveHive 的优缺点Hive的实现逻辑,为什么处理小表延迟比较高你可以说一下 HQL 转换为 MR 的任务流程吗 ***你可以说一下 hive 的元数据保存在哪里吗 ***Hive与传统数据库之间的区别Hive内部表和外部表的区别 ***hive 动态分区与静态分…

28 Debian如何配置PXE网络装机(全自动无人值守)

作者:网络傅老师 特别提示:未经作者允许,不得转载任何内容。违者必究! Debian如何配置PXE网络装机(全自动无人值守) 《傅老师Debian小知识库系列之28》——原创 ==前言== 傅老师Debian小知识库特点: 1、最小化拆解Debian实用技能; 2、所有操作在VMware虚拟机实测完成…

Rocky Linux 9.4 正式版发布 - RHEL 100% 1:1 兼容免费发行版

Rocky Linux 9.4 正式版发布 - RHEL 100% 1:1 兼容免费发行版 Rocky Linux 由 CentOS 项目的创始人 Gregory Kurtzer 领导 请访问原文链接:Rocky Linux 9.4 正式版发布 - RHEL 100% 1:1 兼容免费发行版,查看最新版。原创作品,转载请保留出处…

登录记住密码背景颜色修改

1,在login.vue中&:-webkit-autofill里面的css替换成如下 &:-webkit-autofill {box-shadow: 0 0 0px 1000px $bg inset !important;-webkit-text-fill-color: $cursor !important;}

Postman实现批量发送json请求

最近有一个场景,需要本地批量调用某个接口,从文件中读取每次请求的请求体,实现方法记录一下。 1.读取请求体 在 Postman 中,如果你想在 Pre-request Script 阶段读取文件内容,比如为了将文件内容作为请求的一部分发送…

易查分小程序 学生成绩管理小程序

亲爱的老师们,是不是每次成绩公布后,家长们的连环夺命call让你头大?担心孩子们的成绩信息安全,又想快速分享给家长,这可咋整?别急,易查分小程序来帮忙啦! 安全有保障 智能验证码&a…

老板:2个亿的销售额,利润只有55万!电商这个生意真的到头了?

近来,一段对话轰动了半个电商圈的老板,干拼多多,2亿的销售额,利润只有55万! 其实造成这一现象的原因就是“内卷” 说一句电商行业真实的现状,电商发展了十几年,网友对网购已经完全熟悉&#x…

airtest做web端UI自动化实战

安装 官网下载客户端 airtest库安装 pip install airtest pip install pocoui脚本录制 利用airtest客户端录制脚本 web端辅助插件-selenium windows打开: 设置chrome路径 开始调式录制 脚本运行 # -*- coding: utf-8 -*- """ Time : 2024/5/…

C/C++连接MySQL

本章Gitee仓库地址:mysql连接基本操作 文章目录 1. mysql connect库2. mysql相关接口2.1 mysql_init()2.2 mysql_real_connect()2.3 mysql_query()2.4 mysql_store_result()2.41 mysql_num_rows2.42 mysql_num_fields2.43 mysql_fetch_row2.44 mysql_fetch_fields 2…