Vision-Language Models for Vision Tasks: A Survey阅读笔记

虽然LLM的文章还没都看完,但是终究是开始看起来了VLM,首当其冲,当然是做一片文献综述啦。这篇文章比较早了,2024年2月份出的last version。

文章链接:https://arxiv.org/abs/2304.00685

GitHub链接:GitHub - jingyi0000/VLM_survey: Collection of AWESOME vision-language models for vision tasks

这篇文章是南洋理工的研究员们做的综述。主要包括以下内容:

(1)介绍视觉识别范式发展的背景;

(2)VLM 的基础,总结广泛采用的网络架构、预训练目标和下游任务;

(3)VLM 预训练和评估中广泛采用的数据集;

(4)现有 VLM 预训练方法、VLM 迁移学习方法和 VLM 知识提炼方法的回顾和分类;

(5)对所回顾方法的基准测试、分析和讨论;

(6)未来视觉识别 VLM 研究中可以关注的几个研究挑战和潜在研究方向。

然后咱们就来进入正文啦!

visual recognition/视觉识别这个大任务是计算机视觉研究里的基础且重要的任务,涉及到图片分类、物体检测和分割之类的。传统的方法需要大量的带标签的数据,来提供给机器学习。最近由于LLM的盛行,模型微调的技术感动人心,vision language model pre-training应运而生,zero-shot prediction露出马脚。

首先,vision language model pre-training是啥呢,就是根据大量的图像-文本对来去学习其中的关系,比如CLIP模型比如一上来我有5对图像文本对,这5个pair就是我的正样本,另外,我继续两两配对出的其他图像文本对就是我的负样本了,not match。接着我们可以通过计算文本和图像之间的相似度来得到文本和图像之间的对应关系。鉴于vision language model pre-training这种训练出来模型的优秀表现,后面延伸出来两类研究,一类是VLMs with transfer learning,比如加入prompt tuning或者在网络结构中加入adapter。一类是VLMs with knowledge distillation,即尝试将有用的信息比如更多的语义知识加入到VLM的训练过程中,让下游任务表现更出色。在不同研究主题发展的过程中,贴心作者列出了你不得不知道的那些VLM工作:

以及本篇文章讲到的VLM相关工作的拓扑结构:

首先,在VLM模型的训练过程中,必要的步骤就是要把图片和文本的feature分别去做表示,在学习图片的特征时,主要的网络结构有两种:CNN-based(比如ConvNet, VGG, ResNet等)和transformer-based(比如Vit)。学习文本的feature一般就是上Transformer及其变形了。

然后,在学习文本和图像关系的时候,其实是要搞一些任务/目标去学习,主要有三类:contrastive objectives, generative objectives和alignment objectives。 contrastive objectives涉及到image contrastive learning,image-text contrastive learning以及image-text-label contrastive learning。generative objectives涉及到不同类似数据的生成,图像、文本又或是cross-modal两者都有,因此在做masked的时候可以分成masked image modeling,masked language modeling,masked cross-modal modeling和image-to-text generation。大概就是我掩盖一部分信息来预测或者reconstruct。Alignment objectives就是做对齐,image-text matching,region-word matching。

最后,作者给出了VLM pre-training的几种框架,即得到文本和图像的feature后,怎么过layer:two-tower, two-leg and one-tower pre-training frameworks.

在文章的最后,作者总结了VLM现有的dataset,具体模型的工作。这里给两幅图:

  • 不同任务的数据集:

  • Summary of vision-language model pre-training methods

具体大家还是看文章啦,业余的感觉能感受到大概框架了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/905407.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Oracle OCP认证考试考点详解082系列07

题记: 本系列主要讲解Oracle OCP认证考试考点(题目),适用于19C/21C,跟着学OCP考试必过。 31. 第31题: 题目 解析及答案: 关于 “SET VERIFY ON” 命令,以下哪两个陈述是正确的? A…

网络搜索引擎Shodan(7)完结

声明:学习视频来自b站up主 泷羽sec,如涉及侵权马上删除文章 声明:本文主要用作技术分享,所有内容仅供参考。任何使用或依赖于本文信息所造成的法律后果均与本人无关。请读者自行判断风险,并遵循相关法律法规。 感谢泷…

【C++ 算法进阶】算法提升八

复杂计算 (括号问题相关递归套路 重要) 题目 给定一个字符串str str表示一个公式 公式里面可能有整数 - * / 符号以及左右括号 返回最终计算的结果 题目分析 本题的难点主要在于可能会有很多的括号 而我们直接模拟现实中的算法的话code会难写 要考虑…

​IOT NTN 与 NR NTN​

NTN(Non-Terrestrial Network)),即非地面网络通信,通过不同轨道高度的卫星对地面上的终端提供网络连接的服务。利用卫星通信网络与地面蜂窝网络的融合,可以在不受地形地貌的限制和影响下,连通空、天、地、海…

44-RK3588s调试 camera-engine-rkaiq(rkaiq_3A_server)

在RK3588s平台上调试imx415 camera sensor 过程中,已经识别到了camera sensor ID,并且可以拿到raw图和isp处理后的图像,但是isp处理后的图像偏绿,来看查看后台服务发现rkaiq_3A_server没有运行,然后单独运行rkaiq_3A_s…

【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper+代码——交叉注意力(Cross-Attention)

【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper代码——交叉注意力(Cross-Attention) 【深度学习中的注意力机制10】11种主流注意力机制112个创新研究paper代码——交叉注意力(Cross-Attention) 文章目录 【…

springboot响应文件流文件给浏览器+前端下载

springboot响应文件流文件给浏览器前端下载 1.controller: Api(tags {"【样本提取系统】-api"}) RestController("YbtqYstbtqController") RequiredArgsConstructor RequestMapping("/ybtq-ystbtq") Slf4j public class YbtqYstbtqController …

DAY67WEB 攻防-Java 安全JNDIRMILDAP五大不安全组件RCE 执行不出网

知识点: 1、Java安全-RCE执行-5大类函数调用 2、Java安全-JNDI注入-RMI&LDAP&高版本 3、Java安全-不安全组件-Shiro&FastJson&JackJson&XStream&Log4j Java安全-RCE执行-5大类函数调用 Java中代码执行的类: Groovy Runti…

vue下载安装

目录 vue工具前置要求:安装node.js并配置好国内镜像源下载安装 vue 工具 系统:Windows 11 前置要求:安装node.js并配置好国内镜像源 参考:本人写的《node.js下载、安装、设置国内镜像源(永久)&#xff…

书生实战营第四期-第四关 玩转HF/魔搭/魔乐社区

一、任务1:模型下载 使用魔搭社区平台下载文档中提到的模型 1.创建开发机 2.环境配置 # 激活环境 conda activate /root/share/pre_envs/pytorch2.1.2cu12.1# 安装 modelscope pip install modelscope -t /root/env/maas pip install numpy1.26.0 -t /root/env/m…

【Blender】 学习笔记(一)

文章目录 参考概念原点 Origin游标 轴心点坐标操作默认快捷键两个比较好用的功能渲染器元素不可选(防止误选)关联材质 参考 参考b站视频:【Kurt】Blender零基础入门教程 | Blender中文区新手必刷教程(已完结) 概念 模型、灯光、摄像机 原点…

Java中的反射(Reflection)

先上两张图来系统的看一下反射的作用和具体的实现方法 接下来详细说一下反射的步骤以及之中使用的方法: 获取Class对象: 要使用反射,首先需要获得一个Class对象,该对象是反射的入口点。可以通过以下几种方式获取Class对象&#x…

号码认证是什么意思?有什么用?

随着通信环境越来越复杂,各种骚扰、推销电话层出不穷。许多企业为了取信于客户,提高电话的接听率,纷纷选择了申请号码认证,试图通过这种方法来与客户建立更加高效的沟通。 不可否认,这种方法是极其有效的。号码认证可…

Android 圆形进度条CircleProgressView 基础版

一个最基础的自定义View 圆形进度条,可设置背景色、进度条颜色(渐变色)下载进度控制;可二次定制度高; 核心代码: Overrideprotected void onDraw(NonNull Canvas canvas) {super.onDraw(canvas);int mW g…

Java基础0-Java概览

Java概览 一、Java的主要特性 Java 语言是简单的: Java 丢弃了 C 中很少使用的、很难理解的、令人迷惑的那些特性,如操作符重载、多继承、自动的强制类型转换。特别地,Java 语言不使用指针,而是引用。并提供了自动分配和回收内存…

信号(四)【信号处理与捕捉】

目录 1. 信号的处理1.1 内核态 && 用户态1.2 进程地址空间第三弹1.1 内核态 && 用户态 (续) 2. 信号捕捉 1. 信号的处理 我们一直在说,进程收到信号了,可能会因为各种原因无法即使处理信号,而后选择一个合适的时机去处理。所…

Kafka 与传统 MQ 消息系统之间有三个关键区别?

大家好,我是锋哥。今天分享关于【Kafka 与传统 MQ 消息系统之间有三个关键区别?】面试题?希望对大家有帮助; Kafka 与传统 MQ 消息系统之间有三个关键区别? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 …

基于局部近似的模型解释方法

在机器学习领域中,模型解释性是一个越来越重要的议题,尤其是在复杂的深度学习模型和非线性模型广泛应用的今天。解释性不仅帮助我们理解模型的决策逻辑,还能提高模型在敏感领域(如医疗诊断、金融分析)中的可信度。基于…

img 标签的 object-fit 属性

设置图片固定尺寸后,可以通过 object-fit 属性调整图片展示的形式 object-fit: contain; 图片的长宽比不变,相应调整大小。 object-fit: cover; 当图片的长宽比与容器的长宽比不一致时,会被裁切。 object-fit: fill; 图片不再锁定长宽…

推荐一款功能强大的文字处理工具:Atlantis Word Processor

Atlantis word proCEssor是一款功能强大的文字处理工具。该软件可以让用户放心的去设计文档,并且软件的界面能够按用户的意愿去自定义,比如工具栏、字体选择、排版、打印栏等等,当然还有更多的功能,比如你还可以吧软件界面中的任何…