探索多模态预训练:MAnTiS、ActionCLIP、CPT与CoOp的Prompt技巧

上一篇博文整理了
预训练新范式(Prompt-tuning,Prefix-tuning,P-tuning)
,主要是围绕NLP上的成果,具体的概念本文也不做过多赘述。本篇文章将主要整理几篇有代表性的Prompt方法在多模态领域中的应用。

Multimodal Conditionality for Natural Language Generation

Prompt用于Natural Language Generation多模态NLG任务。

先从NLG任务过渡到Vision-language的应用吧,这篇文章主要是利用图片信息来增强文本的生成。如上图,在生成商品介绍文案时,如果能结合商品的图片,必然能够得到更贴切的文案。然后本文使用了一个十分直观的Prompt方法,将多模态序列作为前缀Prompt放到decoder输入序列的前面,进而中解码过程中分享多模态信息即可。具体操作如下图:

输入由multimodal conditioning data和generation组成。左边的multimodal的输入是image和text(即商品title),分别用ResNet-152和embedding映射到语言模型的同一个空间中。同时作为条件的文本输入和生成序列一同进行编码。最后再经过Transformer Decoder得到输出的描述。

paper:https://arxiv.org/pdf/2109.01229.pdf

ActionCLIP: A New Paradigm for Video Action Recognition

Prompt用于Action Recognition动作识别问题。

  • 动作识别问题是一个很CV的任务了,一般的方式是采用上图(a)所示的单模态框架,即先理解视频内容,再预测一组固定的预定义类别。但但但其完全忽略了标签label所包含的语义信息(人类做识别的时候会很自然的对比脑海中的相关语言概念),只将标签映射到一个固定维数的空间中,无迁移/预测能力。
  • 因此作者提出图(b)所示的Prompt新框架,即在输入端就纳入label信息,将其与对应的视频特征进行关联。这样做不仅可以增强视频表征的语义性,同时能够具备很强的zero-shot的迁移能力。另一个优势是,这种多模态输入完全可以利用现在已经做了大量工作的多模态预训练模型。关于
    多模态预训练
    模型博主过往文章做过整理,不再赘述。

作者提出的新范式的具体做法大概可以分为 “pre-train, prompt, and fine-tune”,模型图如下。pre-train指利用现有的多模态预训练模型,然后改装我们的任务适应模型,最后再在自己的数据集上进行fine-tune。这样的做法,通过prompt保持住pre-trained模型的强大表征性能,又节省了很多的计算资源。

具体的框架图不太容易看,主要先看图a是主框架部分。主框架分别对视频和文本做两种Prompt。分别是textual prompt和visual prompt。

  • textual prompt。这是我们比较熟悉的模式,不过作者提供了三种模式:prefix prompt, cloze prompt and suffix prompt。这个在之前的
    综述博文
    中都有提到过了。比如label是“watering plants”,那么输入的句子将被改装成“play a human action of [watering planrts]”。具体可以看图b的示意。然后通过encoder得到表示。
  • visual prompt。为了充分理解视频,它分为三个大部分:pre-network prompt, in-network prompt and post-network prompt。pre-network(图c)主要对输入部分进行改动,对所有的输入帧的所有patch都进行时间+空间的位置编码,进行attention计算。in-network(图d)在相邻层间插入temporal shift模块便于相邻帧间的特征交换。post-network(图e-g)是四种对不同时间片段的tokens进行交互建模的模块,MeanP指时间维度上的Mean pooling,Conv1D/LSTM是应用于时间维度上的一维卷积或LSTM,Transf是vision transformer encoder。

然后拿到这两部分的特征之后,再做相似度的计算得到最后的动作识别结果。

paper:https://arxiv.org/abs/2109.08472

code:https://arxiv.org/abs/2109.08472

CPT:Colorful Prompt Tuning for Pre-Training Vision-Language Models

Prompt用于Visual Grounding视觉定位问题。

这篇文章提出的Prompt方法是Colorful Prompt Tuning(彩色提示调优),它主要的思路是在图像和文本中使用共同的颜色来标识,以将视觉定位问题变成填空问题来解决跨模态差异。与以往路线的不同如上图所示:

  • 图a和图b是传统的视觉定位方法。a是指先用大量的数据来预训练,即使用[mask]机制来盖住token,然后还原信息以提升表示的质量。
  • 图b是fnetune,图中画的路线是使用[CLS]做二分类来判断定位的问题。
  • 图c是本文的CPT方法咯。很直观的可以看到它用不同颜色来区分不同的实体模块,然后构建一个Prompt模版为: xxx is in [mask] color,然后在[mask]上预测对应的该是哪个颜色即可。

同时由于Prompt这种范式自身拥有的生成能力,使得CPT改装一下也可以在其他视觉任务上进行应用,如下图所示。如果做目标检测是 xxx is a [mask]等等。

paper:https://arxiv.org/pdf/2109.11797.pdf

CLIP

在整理CoOp前还是放一下经典的CLIP,更完整的整理在
传送门
,CLIP中用到Prompt的地方也是它处理句子-图像对的方式,如下图所示,dog 这一label会被改造成 “A photo of a dog”,然后被mask,再尝试通过模型算内积相似度来预测出这个词,也就能做好分类了,由于是生成句子的感觉,所以其实CLIP是十分适合做zero-shot 的分类的。

Learning to Prompt for Vision-Language Models

CLIP实际上就是prompt在visual-language model中的一个应用,所以CoOp实际是在CLIP的基础上进一步进行的改进。不过它受到了AutoPrompt的启发会更多一些,前面的一些工作的Prompt方式都是基于人工模版(如xxx is [label]),连续型自动模版的Prompt会是更加不错的选择。所以CoOp的结构可以如下图所示,前面是一个learnable context,而不是人工模版。

然后这个[class]信息(即label)可以放到生成的虚拟模板的中间,前面和后面都可以,因为后续的一些连续型自动模版Prompt的研究都证明了模型是不一定需要符合自然语言的连贯性的。learnable context将和不同类别的word embedding拼接之后再进行后面的过程。然后其他地方,image encoder和text encoder和CLIP都比较类似,优化的目标也是使得和图片对应的prompt预测分数最大。

另外还有两种有意思的变体:

  • 在class的前后都插入learnable context,以增加prompt的灵活性。
  • 设计class-specific context(CSC),让所有类别的prompt参数独立(目前是所有参数都是共享的),实验结果证明这种做法在一些细粒度分类任务中效果更好。

下一篇继续更新其他文章:

  • 多模态预训练中的Prompt(ALPRO,Frozen)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/789380.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

unity使用 MQTT复现plant simulate仿真

unity使用 MQTT复现plant simulate仿真 一、plant simulate端配置 1、plant simulate MQTT组件配置,该组件在类库的信息流类目下,端口不变,填写ip即可; 2、设备配置界面,在控件入口和出口处各挂一个脚本,当物料出入该设备时会分别触发执行这两个脚本,粘贴如下代码; E…

视频怎么压缩变小?最佳视频压缩器

即使在云存储和廉价硬盘空间时代,大视频文件使用起来仍然不方便。无论是存储、发送到电子邮件帐户还是刻录到 DVD,拥有最好的免费压缩软件可以确保您快速缩小文件大小,而不必担心视频质量下降。继续阅读以探索一些顶级最佳 免费视频压缩器选项…

小红书矩阵管理系统:多账号运营的智能解决方案

随着社交媒体的多元化发展,内容创作者和品牌商越来越需要一个能够高效管理多个账号的系统。小红书作为国内领先的生活分享平台,其矩阵管理系统应运而生,为用户带来了多账号发布、批量剪辑视频以及一键分发的便捷功能。本文将详细介绍小红书矩…

必看!微信小程序必备证书!

微信小程序必备SSL证书。在日益增长的数字经济中,微信小程序已成为商家与消费者之间重要的交互平台。由于其便捷性和广泛的用户基础,越来越多的企业选择通过小程序来提供服务。然而,在开发和部署微信小程序时,确保数据安全是一个不…

数据结构笔记之树常考性质6

总结: 具有n个结点的m叉树的最小高度可以通过计算并向下取整得到。高度最小时的情况是所有结点都有m个孩子。

计算机前端面试题总结-暑期实习(答案补充2)

目录 技术方面 二、js 1.js数据类型 1)值类型(基本类型) 2)引用数据类型(对象类型) ​编辑 2.判断数据类型是否为数组类型 1)Array.isArray() 2)instanceof操作符 3) Object.prototyp…

飞猪惹怒12306,一张火车票让第三方平台耍尽手段……

小柴已经记不清铁路12306是多少次发出提醒,似乎每一次出行高峰,都会提醒一次。 比如一再强调,购买加速包、付费成为会员就能优先出票,找朋友助力砍一刀,就能获得更高的出票概率……都是假的。‍‍ 因为,铁…

PostgreSQL 中如何处理数据的并发更新冲突解决?

文章目录 一、并发更新冲突的场景二、PostgreSQL 中的并发控制机制(一) 封锁机制(二) 事务隔离级别 三、并发更新冲突的解决方法(一) 重试机制(二) 使用乐观并发控制(三&…

使用机器学习 最近邻算法(Nearest Neighbors)进行点云分析

使用 NearestNeighbors 进行点云分析 在数据分析和机器学习领域,最近邻算法(Nearest Neighbors)是一种常用的非参数方法。它广泛应用于分类、回归和聚类分析等任务。下面将介绍如何使用 scikit-learn 库中的 NearestNeighbors 类来进行点云数…

打开excel时弹出stdole32.tlb

问题描述 打开excel时弹出stdole32.tlb 如下图: 解决方法 打开 Microsoft Excel 并收到关于 stdole32.tlb 的错误提示时,通常意味着与 Excel 相关的某个组件或类型库可能已损坏或不兼容。 stdole32.tlb 是一个用于存储自动化对象定义的类型库&#x…

【解读大模型(LLM)的token】

文末有福利! 当人们谈论大型语言模型的大小时,参数会让我们了解神经网络的结构有多复杂,而token的大小会让我们知道有多少数据用于训练参数。 正像陆奇博士所说的那样,大型语言模型为从文本生成到问题回答的各种任务提供了令人印象…

2024年的设计理念革新:快速获取设计趋势的资源集合!

随着2024年第三季度开始,今年的设计趋势也逐渐出现。与2023 年设计相比,趋势变化空间不大,大部分是在 2023 年度设计趋势的延伸和发展。即使趋势不会一直改变,了解趋势对设计师来说仍然非常重要。接下来,本文将与你分享…

拥抱应用创新,拒绝无谓的模型竞争

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

如何查询并下载韩国签证

登录大韩民国签证门户网站(https://www.visa.go.kr),点击“查询/签发”- “办理进度查询及打印”。 2) 输入护照号码、英文姓名及出生日期后点击查询。 3) 若签证通过,办理状态信息栏下面会显示签证信息。 4)点击“签证…

大数据信用评分太低,是什么原因引起的?

在大数据时代,个人的大数据信用评分变得尤为重要。它不仅影响着我们能否顺利地获得贷款、信用卡等金融服务,还在很多方面影响着我们的日常生活。那么,哪些原因可能会导致我们的大数据信用评分降低呢?本文将对此进行详细的总结,一…

防火墙安全策略用户认证综合实验

实验拓扑: 实验要求: 1:DMz区内的服务器,办公区仅能在办公时间内(9:00-18:00)可以访问,生产区的设备全天可以访问 2:生产区不允许访问互联网,办公区和游客区允许访问互联网 3:办公…

ARM_Linux驱动开发——字符设备驱动开发(上)

目录 一、Linux驱动开发思维 二、Linux驱动开发分类 三、“ ARM_Linux驱动开发——字符设备驱动开发 ” 字符设备驱动简介 前言 在分享Linux驱动开发之前,我想带大家首先回顾一下裸机驱动开发和Linux驱动开发的区别。 1、运行环境和操作系统: 裸机驱…

【无需公网IP】在树莓派上搭建Web站点

目录 1.概述 2.使用 Raspberry Pi Imager 安装 Raspberry Pi OS 3.设置 Apache Web 服务器 3.1测试 web 站点 3.2安装静态样例站点 3.3将web站点发布到公网 3.4安装 Cpolar 3.5cpolar进行token认证 3.6生成cpolar随机域名网址 3.7生成cpolar二级子域名 3.8将参数保存…

边框插画:成都亚恒丰创教育科技有限公司

边框插画:艺术与生活的精致边界 在视觉艺术的广阔天地里,边框插画以其独特的魅力和细腻的表达方式,成为连接艺术与生活的一道精致边界。成都亚恒丰创教育科技有限公司它不仅仅是图像的外框装饰,更是情感、故事与创意的延伸&#…

基于Matlab和Python泰勒图的绘制

一、泰勒图介绍 泰勒图:泰勒图1常用于评价模型的精度,常用的精度指标有相关系数,标准差以及均方根误差(RMSE)。一般而言,泰勒图中的散点代表模型,辐射线代表相关系数,横纵轴代表标准差,而虚线代表均方根误差。泰勒图一改以往用散点图这种只能呈现两个指标来表示模型精度…