北交字节联合提出ClassDiffusion: 使用显式类别引导的一致性个性化生成。

在个性化生成领域, 微调可能会引起过拟合导致模型无法生成与提示词一致的结果。针对这个问题,北交&字节联合提出ClassDiffusion,来提升个性化生成的一致性。

通过两个重要观察及理论分析提出了新的观点:一致性的损失是个性化概念语义偏移导致的, 还引入了BLIP2-T 来为个性化生成领域提供更公平有效的指标。

一只狗和太阳镜的故事,展示了一只狗是如何获得诺贝尔文学奖的,以及一副太阳镜的命运。

相关链接

项目主页: https://classdiffusion.github.io/

论文地址: https://arxiv.org/abs/2405.17532v1

代码地址:https://github.com/Rbrq03/ClassDiffusion

论文阅读

ClassDiffusion:使用明确的类指导进行更一致的个性化调优

摘要

最近的文本到图像定制工作已被证明能够成功生成给定概念的图像,方法是通过对一些示例微调扩散模型。然而,这些方法往往会过度拟合概念,导致在多种条件下无法创建概念(例如,在生成“戴耳机的狗”时缺少耳机)。

有趣的是,我们注意到微调之前的基础模型表现出将基础概念与其他元素组合的能力(例如,戴耳机的狗),这意味着只有在个性化调整后,组合能力才会消失。

受此观察的启发,我们提出了 ClassDiffusion,这是一种简单的技术,它利用语义保存损失在学习新概念时明确调节概念空间。尽管它很简单,但这有助于避免在对目标概念进行微调时出现语义漂移。

大量的定性和定量实验表明,使用语义保存损失可以有效提高微调模型的组合能力。为了应对 CLIP-T 指标的无效评估,我们引入了 BLIP2-T 指标,这是针对该特定领域的更公平、更有效的评估指标。我们还提供了深入的实证研究和理论分析,以更好地理解所提出的损失的作用。最后,我们还将 ClassDiffusion 扩展到个性化视频生成,展示了其灵活性。

方法概述

ClassDiffusion 概述。我们的语义保存损失 (SPL) 是通过测量从同一文本转换器(使用 EOS 标记作为 CLIP 之后的文本特征)中提取的具有个性化标记的短语和仅具有超类的短语之间的余弦距离来计算的。

实验

单一概念比较

ClassDiffusion方法与具有单一给定概念的基线进行定性比较。

多个概念比较

ClassDiffusion方法与具有多个给定概念的自定义扩散(CD)进行定性比较。

个性化视频

实验分析

(a)每个点代表由形容词和“狗”组合而成的短语的 CLIP 文本嵌入(例如,一只可爱的狗)。经过微调后,定制概念(蓝点代表微调前的概念,红点代表微调后的概念)远离文本特征空间中“狗”分布的中心。

(b)使用提示“一张在游泳池里游泳的狗的照片”时,与狗 token 对应的交叉注意图的可视化结果。

理论分析

在个性化调整过程中,随着狗的分布缩小,狗和耳机的条件分布也会缩小。这逐渐增加了在此分布中采样的难度,导致组合生成能力减弱。我们的 ClassDiffusion 通过结合语义保留损失 (SPL) 来缓解这种情况,以最大限度地减少个性化概念与其超类的语义漂移。

待做事项

  • ClassDiffusion的训练代码

  • ClassDiffusion的推理代码

  • BLIP2-T评分管道

  • 用ClassDiffusion生成视频的推理代码

结论

在这项工作中,我们强调了由于个性化而削弱了构图能力的问题并从实验观察微调和信息理论观点中分析了这一问题的原因。 然后,我们引入一种称为ClassDiffusion的新方法,通过还原原始语义空间,减轻了合成能力的弱化。 最后,我们提出了全面的实验结果,展示了ClassDiffusion和它为相互关联的领域提供了新的视角。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/703099.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[ue5]建模场景学习笔记(5)——必修内容可交互的地形,交互沙(2)

1需求分析: 继续制作可交互沙子内容,前面我们已经让角色在指定区域留下痕迹,那么能否让区域移动起来,这样才能逐步满足角色走到哪里都能产生交互痕迹,满足更大的地图。 2.操作实现: 1.首先建立角色能产生…

【Qt 学习笔记】Qt窗口 | 标准对话框 | 输入对话框QInputDialog

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt窗口 | 标准对话框 | 输入对话框QInputDialog 文章编号:…

AOSP12隐藏首页搜索框----隐藏google 搜索栏

目录 第一步:修改文件 第二步:修改文件 第三步:重新编译源码,启动模拟器 第四步、运行效果 第一步:修改文件 源码文件路径: packages/apps/Launcher3/res/layout/search_container_workspace.xml,将…

rv1126-rv1109-串口显示路径不变化

串口只有#, 后来看了教程改成如下 但是没有变化,那个路径都只显示rootLonbon# 于是最后改成了这样 因为:

ADS基础教程19 - 电磁仿真(EM)基本概念和实操

EM介绍 一、引言二、基本概念1.EM介绍2.Momentum介绍3.FEM介绍4.Substrate介绍 三、创建Layout并进行Momentum仿真1.创建Layout2.添加Microtrip(微带线)3.添加Substrate4.Momentum仿真 四、总结 一、引言 本章节开始介绍EM的基本概念、内容以及实现具体…

JavaWeb6 Tomcat+postman请求、响应

Web服务器 对HTTP协议操作进行封装,简化web程序开发 部署web项目,对外提供网上信息浏览服务 Tomcat 轻量级web服务器,支持servlet,jsp等少量javaEE规范 也被称为web容器,servlet容器 Springboot有内置Tomcat nginx…

使用AlphaCodium进行代码生成,从提示工程到流程工程

AlphaCodium 的代码生成方法 论文地址:https://arxiv.org/pdf/2401.08500.pdf 源码地址:https://github.com/codium-ai/alphacodium 研究要点包括 **挑战:**现有的自然语言优化方法无法扩展 LLM 的代码生成能力**解决方案:**使…

二刷算法训练营Day29 | 回溯算法(5/6)

目录 详细布置: 1. 491. 非递减子序列 2. 46. 全排列 3. 47. 全排列 II 详细布置: 1. 491. 非递减子序列 给你一个整数数组 nums ,找出并返回所有该数组中不同的递增子序列,递增子序列中 至少有两个元素 。你可以按 任意顺序…

用教育邮箱在官网安装origin2024中文版教程

打开origin官网,点击learning Edition,教育版只能维持六个月,但是过期之后可以在官网更新,能够免费使用六次,也就是三年。 OriginLab - Origin and OriginPro - Data Analysis and Graphing Software 填写学校信息&…

一文讲清:生产报工系统的功能、报价以及如何选择

最近这几年,企业越来越注重生产的速度和成本,尤其是“性价比”,生产报工系统已经变成了制造业里不可或缺的一部分。不过,市场上生产报工系统的选择太多,价格也都不一样,这就给很多企业出了个难题&#xff1…

LVS+Keepalived高可用负载均衡群集

目录 一.高可用群集相关概述 1.高可用(HA)群集与普通群集的比较 普通群集 高可用群集(HA) 两者比较 2.Keepalived高可用方案 3.Keepalived的体系模块及其作用 4.Keepalived实现原理 二.LVSKeepAlived高可用负载均衡集群的…

RERCS系统开发实战案例-Part03 创建Web Dynpro对应的FPM Application

1、通过事务码SE80 资源浏览器创建 2、通过事务码FPM_WB在WEB端创建 3、创建FPM Application步骤 1)选择:在业务实体上创建FPM应用程序的向导; 2)配置:输入平面布置对象; 3)单击 下一个&#…

朴素贝叶斯分类器 #数据挖掘 #Python

朴素贝叶斯分类器是一种基于概率统计的简单但强大的机器学习算法。它假设特征之间是相互独立的(“朴素”),尽管在现实世界中这通常不成立,但在许多情况下这种简化假设仍能提供良好的性能。 基本原理:朴素贝叶斯分类器…

[CUDA 学习笔记] 稀疏矩阵向量乘法(SpMV) CUDA 实现与优化

稀疏矩阵向量乘法(SpMV) CUDA 实现与优化 本文主要围绕基于 CUDA 的 SpMV 实现进行介绍, 包括几种典型稀疏矩阵存储格式下 SpMV 的朴素实现, 以及 CSR 格式下的几种优化实现. 稀疏矩阵存储格式 稀疏矩阵即含有大量零元的矩阵. 对于稀疏矩阵, 像稠密矩阵一样使用二维数组来存…

Python学习打卡:day04

day4 笔记来源于:黑马程序员python教程,8天python从入门到精通,学python看这套就够了 目录 day428、while 循环的嵌套应用29、while 循环案例 — 九九乘法表补充知识示例:九九乘法表 30、for 循环基本语法while 和 for 循环对比f…

Java SE LTS版本商用收费,有那些开源的替代方案?

🚀 Java SE LTS版本商用收费,有那些开源的替代方案? 摘要 Java 对于云服务、大数据、电子商务、支付、欺诈和身份、交易等许多应用程序来说都是至关重要的语言。然而,Oracle 对 Java SE LTS 版本的商用收费政策引发了广泛关注和…

免费学习通刷课(免费高分)Pro版

文章目录 概要整体架构流程小结 概要 关于上一版的免费高分的学习通刷课,有很多人觉得还得登录太复杂了,然后我又发现了个神脚本,操作简单,可以后台挂着,但是还是建议调整速度到2倍速,然后找到你该刷的课&…

⌈ 传知代码 ⌋ ERA-CoT: 实体关系推理

💛前情提要💛 本文是传知代码平台中的相关前沿知识与技术的分享~ 接下来我们即将进入一个全新的空间,对技术有一个全新的视角~ 本文所涉及所有资源均在传知代码平台可获取 以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦&#x…

LLVM Cpu0 新后端8 尾调用优化 Stack Overflow Exception异常

想好好熟悉一下llvm开发一个新后端都要干什么,于是参考了老师的系列文章: LLVM 后端实践笔记 代码在这里(还没来得及准备,先用网盘暂存一下): 链接: https://pan.baidu.com/s/1yLAtXs9XwtyEzYSlDCSlqw?…

推荐这两款AI工具,真的很好用

巨日禄 巨日禄是一款由杭州巨日禄科技有限公司开发的AI工具,主要功能是将文本内容转换为视频。该工具通过分析大量的剧本数据和影视作品,为用户提供各种类型的故事情节和角色设置,帮助用户快速找到灵感,减少构思剧本的困难和犹豫。…