ICLR 2023#Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

组合零样本学习(CZSL)中Soft Prompt相关工作汇总(一)

文章目录

    • 组合零样本学习(CZSL)中Soft Prompt相关工作汇总(一)
      • ICLR 2023#Learning to Compose Soft Prompts for Compositional Zero-Shot Learning
        • Introduction
        • Related work
          • prompt
          • Parameter-efficient learning
        • Preliminaries
        • Compositional Soft Prompting

ICLR 2023#Learning to Compose Soft Prompts for Compositional Zero-Shot Learning

补充:https://zhuanlan.zhihu.com/p/532153343
————提示学习soft prompt浅尝
https://zhuanlan.zhihu.com/p/493489688
————神器CLIP:连接文本和图像,打造可迁移的视觉模型

Introduction

背景:VLMs有一个灵活的文本编码器,可以将任意类表示为自然语言提示,但它们(例如CLIP)在zero-shot基准测试数据集上的性能常常低于特定于任务的体系结构→因为CLIP对从网络上抓取的数据进行的预训练没有足够的对属性的监督以及如何将它们和不同的对象进行组合。
为了提升组合零样本学习能力(即“预测unseen属性-对象组合的任务”),本文提出了一种参数高效的学习技术——CSP(Compositional Soft Promting,组合软提示)。CSP将定义类的属性和对象视为词汇表中的可学习标记。在训练过程中,词汇表被调优以识别以多种方式组成符号的类(例如,老猫和白猫);在测试时,将学习到的属性对象词汇重新组合,以识别新的类(即“组合现有的分类器来构建新的分类器”)
现有czsl方法:将属性和对象映射到预训练的词嵌入,并使用预训练的图像编码器backbone来联合对齐图像和 属性-对象文本表示,以学习组合性;
存在的问题:1.单词嵌入和图像编码器的预训练是彼此分离的,即这些方法从头开始学习对齐图像和文本表示;
2.这些特定于任务的体系结构在灵活性方面也受到限制。在让这些方法适应具有多属性和对象(如小毛猫或老白虎)的高阶组合时,就需要修改原始架构→说明超出原始长度的泛化能力是“组合性”的关键

Related work
prompt

prompt是语言和视觉领域的焦点,在大范围的任务重有助于zero-shot和few-shot学习;discrete prompt通常是手写文本输入,为大型预训练模型(如CLIP、GPT-3)等提供指导方针,无需更新模型参数进行推理(?),但是耗时严重;
提出soft prompt作为替代,可以在反向传播过程中学习部分的prompt而不用微调整个模型,在效果比手工要好的soft prompt工作中,它是单个输入连接到整个任务的所有输入;我们从多个组合中学习每个基本概念的标记,并以新的方式重新组合它们,以表示unseen的类
其他工作应用:few-shot目标分类;VQA;视频理解,但都是整个数据集只有单个prompt;
参考和22年Ge的工作类似,区别:1.我们的将类标签分解成多个部分,而不是将提示分割成与领域相关的粒度,比如与领域无关的上下文、领域特定的上下文和类标签;2.关注zero-shot学习,不能访问测试集中不可见类的标记示例,而它们在训练期间可以访问所有的测试类

Parameter-efficient learning

(补充:Parameter-efficient fine-tuning的三个特性:
1.在微调过程中预训练参数是固定的,只需微调少量额外的参数,可以达到与全量微调相当接近的性能,不同任务只需要切换任务相关的那少部分参数;
2.PEFT在训练数据量小的场景下,有时性能可以超过全量微调,预训练知识不容易遗忘,泛化能力强;
3.PEFT在方法上是模型无关的,可以广泛应用于多种模态和模型(另外的图像识别、生成任务))
https://zhuanlan.zhihu.com/p/636326003
————大模型的领域适配 —— Parameter-Efficient Fine-Tuning (PEFT)
https://zhuanlan.zhihu.com/p/620618701
————预训练大语言模型的三种微调技术总结:fine-tuning、parameter-efficient fine-tuning和prompt-tuning的介绍和对比
在这里插入图片描述图一.fine-tuning技术应用(图源上述链接)

Preliminaries

属性集A、对象集O,样本标签Y=A×O;
训练阶段:已知Sseen={(x1,y1),…,(xn,yn)}来学习有区分性的模型f:X → Yseen;
推理阶段:想要模型可以预测测试集中seen+unseen的组合,f:X → Ytest 1).封闭世界中,Ytest = Yseen ∪ Yunseen;2).开放世界中,考虑属性、对象的所有组合:Ytest = Y,Yunseen = Y - Yseen

CSP训练设置
CSP的训练设置:带有属性和对象词汇的prompts(A photo of [ATTRIBUTE][OBJECT])通过文本编码器来获得文本的表征(representation),图像通过图像编码器获得图像表征;之后计算所有prompts和图像之间的余弦相似度后计算交叉损失熵;最后重传损失并更新属性-对象词汇权重(weights)

Compositional Soft Prompting

Motivation:改进vlm(如CLIP)在组合概化方面的表现,因为它们似乎不如当前最先进的方法。这可能是因为CLIP对从网络爬来的数据进行的预训练没有提供足够的属性监督以及它们如何与不同对象结合→目标是教vlm(如CLIP)如何更好地组合原始概念
把它看做一个词汇学习问题,因为它是参数有效(parameter-efficient)的,并提供了一种自然的方法来组成新类
Prompt construction
CSP把用来定义类的属性和对象视为可学习的词汇表标记,并根据多个prompt组合对它们进行调优;我们把每个原语概念都表示成VLM词汇表中一个新的、辅助性的token,每表示一类就用"a photo of [attribute][object]"
Training:直接贴汇报用的ppt图了
在这里插入图片描述
Inference
在推理过程中,在提示中重新组合经过调整的属性和对象词汇表;
以在训练过程中相同的方式将经过调整的θ与(属性、对象)对组合在候选提示中‘’在封闭世界和开放世界设置中,我们只使用提示符中经过调整的参数替换属性和对象。最后,计算最可能的属性和对象对:
在这里插入图片描述
后续实验部分分析了csp在开放世界和封闭世界中的效果,在不同衡量标准下的效果,还有baseline和benchmark结果的对比等等,本文是组合零样本学习czsl中soft prompt相关工作的基础工作,提出的创新点主要是将提高下游任务效果的方向转移到文本端来,因此提出了对clip的prompt工程进行改进而提出了soft-prompt,故在实验效果不做赘述。之后的几篇文章讲解都以csp为基础进行后续的工作,见专栏文章…
**因为博主(hdu研一在读)也刚开始接触多模态学习领域的工作不久,因此有相关科研领域和方向的读者大大有兴趣可以和我相互交流学习(菜鸡互啄),qq:1297995979

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/388159.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android之Android.bp文件格式语法(一百八十六)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

力扣hot3--并查集+哈希

第一想法是排个序然后遍历一遍,but时间复杂度就超啦 并查集居然与哈希结合了() 已经好久没用过并查集了,,,我们用哈希表f_node中来记录原结点的父节点,其中key是原结点,value是父节点…

Github项目推荐-Tiny-Rdm

项目地址 GitHub - tiny-craft/tiny-rdm: A Modern Redis GUI Client 项目简述 一个开源的Redis管理工具,有漂亮的界面和丰富的功能。使用的编程语言如下 项目截图

【Qt】环境安装与初识

目录 一、Qt背景介绍 二、搭建Qt开发环境 三、新建工程 四、Qt中的命名规范 五、Qt Creator中的快捷键 六、QWidget基础项目文件详解 6.1 .pro文件解析 6.2 widget.h文件解析 6.3 widget.cpp文件解析 6.4 widget.ui文件解析 6.5 main.cpp文件解析 七、对象树 八、…

对什么都不感兴趣,怎么办?

这大概是现代社会,最为常见的都市病。 很多人大抵都明白:好的生活是什么样的呢?要有一个大目标,再分拆成一个个小目标,每天朝着目标前进,看着自己的进步和成长,转化为成就感和动力 —— 对不对&…

揭秘Angular世界的奥秘:全面提升你的前端开发技能!

介绍:Angular是一个由Google维护的开源JavaScript框架,专为构建Web应用程序而设计,特别适合开发大型单页应用(SPA)。以下是对Angular的详细介绍: 技术栈:Angular使用HTML作为模板语言&#xff0…

C++集群聊天服务器 nginx+redis安装 笔记 (中)

一、nginx安装 nginx: download 下载nginx安装包 hehedalinux:~/package$ tar -zvxf nginx-1.24.0.tar.gz nginx-1.24.0/ nginx-1.24.0/auto/ nginx-1.24.0/conf/ nginx-1.24.0/contrib/ nginx-1.24.0/src/ nginx-1.24.0/configure nginx-1.24.0/LICENSE nginx-1.24.0/README…

言语残疾和言语残疾分级

言语残疾和言语残疾分级 言语残疾,指各种原因导致的不同程度的言语障碍,经治疗一年以上不愈或病程超过两年,而不能或难以进行正常的言语交流活动,以致影响其日常生活和社会参与。包括:失语、运动性构音障碍、器质性构音…

黑马程序员——移动Web——day02

目录 空间转换 空间转换简介平移视距旋转左手法则rotate3d-了解立体呈现案例-3d导航缩放动画 动画实现步骤animation复合属性animation拆分写法案例-走马灯精灵动画多组动画综合案例-全名出游 背景云彩位置和动画文字动画 1.空间转换 空间转换简介 空间:是从坐标…

ITK 图像分割(一):阈值ThresholdImageFilter

效果: Video: 区域增加分割 1、itkThresholdImageFilter 该类的主要功能是通过设置低阈值、高阈值或介于高低阈值之间,则将图像值输出为用户指定的值。 如果图像值低于、高于或介于设置的阈值之间,该类就将图像值设置为用户指定的“外部”值…

山西电力市场日前价格预测【2024-02-10】

日前价格预测 预测说明: 如上图所示,预测明日(2024-02-10)山西电力市场全天平均日前电价为126.73元/MWh。其中,最高日前电价为302.95元/MWh,预计出现在08:15。最低日前电价为0.00元/MWh,预计出…

Stable Diffusion之最全详解图解

Stable Diffusion之最全详解图解 1. Stable Diffusion介绍1.1 研究背景1.2 学术名词 2.Stable Diffusion原理解析2.1 技术架构2.2 原理介绍扩散过程 3.1 Diffusion前向过程3.2 Diffusion逆向(推断)过程 1. Stable Diffusion介绍 Stable Diffusion是2022…

分布式文件系统 SpringBoot+FastDFS+Vue.js【一】

分布式文件系统 SpringBootFastDFSVue.js【一】 一、分布式文件系统1.1.文件系统1.2.什么是分布式文件系统1.3.分布式文件系统的出现1.3.主流的分布式文件系统1.4.分布式文件服务提供商1.4.1.阿里OSS1.4.2.七牛云存储1.4.3.百度云存储 二、fastDFS2.1.fastDSF介绍2.2.为什么要使…

跟着pink老师前端入门教程-day26

一、计算机编程基础 (一)编程语言 1、编程 编程:就是让计算机为解决某个问题而使用某种程序设计语言编写程序代码,并最终得到结果的过程。 计算机程序:就是计算机所执行的一系列的指令集合,而程序全部…

MySQL 基础知识(三)之数据库操作

目录 1 显示当前时间、用户名、数据库版本 2 查看已有数据库 3 创建数据库 4 使用数据库 5 查看当前使用的数据库 6 查看当前数据库信息 7 查看数据库编码 8 修改数据库信息 9 删除数据库 10 查看最大连接数 11 查看数据库当前连接数,并发数 12 查看数据…

2022年12月电子学会青少年软件编程 中小学生Python编程等级考试二级真题解析(判断题)

2022年12月Python编程等级考试二级真题解析 判断题(共10题,每题2分,共20分) 26、字典的元素可以通过键来访问,也可以通过索引(下标)来访问 答案:错 考点分析:考查字典相关知识,字…

c语言操作符(上)

目录 ​编辑 原码、反码、补码 1、正数 2、负数 3、二进制计算1-1 移位操作符 1、<<左移操作符 2、>>右移操作符 位操作符&、|、^、~ 1、&按位与 2、|按位或 3、^按位异或 特点 4、~按位取反 原码、反码、补码 1、正数 原码 反码 补码相同…

属性/成员变量

一、属性/成员变量 二、注意事项 三、创建对象

预算紧缩下创新创业者应采取哪3个策略来保持创新?

在今天越来越饱和的消费市场中&#xff0c;品牌零售通过复杂、过度的的促销、折扣、优惠券和忠诚度奖励来吸引消费者&#xff0c;但这种做法可能削弱消费者的忠诚度&#xff0c;损害品牌声誉&#xff0c;并抑制新的收入机会。相反&#xff0c;零售商应采取更简化、以客户为中心…

thinkphp6入门(20)-- 如何上传图片、文件

1. 配置文件 设置上传的路径 对应文件夹 2. 前端 <div class"card-body"><h1 class"card-title">用户头像</h1><img src"../../../uploads/{$user.avatar_photo_path}" alt"avatar" height"100"/&g…