【LLM多模态】综述Visual Instruction Tuning towards General-Purpose Multimodal Model

note

文章目录

  • note
  • 论文
  • 1. 论文试图解决什么问题
  • 2. 这是否是一个新的问题
  • 3. 这篇文章要验证一个什么科学假设
  • 4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
  • 5. 论文中提到的解决方案之关键是什么?
  • 6. 论文中的实验是如何设计的?
  • 7. 用于定量评估的数据集是什么?代码有没有开源?
  • 8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?
  • 9. 这篇论文到底有什么贡献?
  • 10. 下一步呢?有什么工作可以持续深入?
  • Reference

论文

在这里插入图片描述
新加坡-南洋理工大学发的paper,2023年12月
我们还是从十大问题分析这篇论文,但由于是综述,可能没有实验环节详细的部分。

1. 论文试图解决什么问题

  • 一篇关于Visual Instruction Tuning 视觉指令微调任务的综述,Visual Instruction Tuning是为了让多模态LLM拥有指令遵循能力
  • 文章介绍传统CV局限性(需要针对不同任务训练不同模型,缺乏交互能力),如下图左侧

在这里插入图片描述

  • 文章从三方面介绍Visual Instruction Tuning的发展过程:单语言(英语)到多语言、图片输入从单一到多元(从图片到视频/3D图像等)、任务复杂化(从基本的图片分类到VQA视觉问答、图像生成等难任务)

在这里插入图片描述

2. 这是否是一个新的问题

去年年底到今年,类似的综述还是不少的。

3. 这篇文章要验证一个什么科学假设

4. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?

相关的视觉微调 公开数据集如下,大部分是GPT3.5或者GPT4构造的,而且多轮对话的visual SFT数据还不少:
在这里插入图片描述

5. 论文中提到的解决方案之关键是什么?

在这里插入图片描述
跟进一步,视觉微调的主流过程,基于预训练的LLM,将视觉特征token化冰对齐到语言空间中,利用语言模型得到多模态LLM的输出:
在这里插入图片描述

6. 论文中的实验是如何设计的?

是综述,没实验。

7. 用于定量评估的数据集是什么?代码有没有开源?

用于多模态视觉微调的评估数据集:

  • VQAv2:Visual Question Answering(视觉问答)数据集,广泛用于评估模型在理解图像内容并回答问题方面的能力。
  • GQA:Graphic Question Answering数据集,包含复杂的视觉问答任务,测试模型的视觉推理能力。
  • OKVQA:Open-ended Knowledge Visual Question Answering数据集,需要外部知识来回答视觉问题,评估模型结合视觉和知识推理的能力。
  • OCR-VQA:Optical Character Recognition Visual Question Answering数据集,测试模型在图像中识别和理解文本的能力。
  • A-OKVQA:Augmented OKVQA数据集,扩展了OKVQA,包含更多样的问答对,测试模型在多种情境下的知识推理能力。
  • MSCOCO:Microsoft Common Objects in Context数据集,包含丰富的图像标注信息,广泛用于图像识别和分割任务。
  • TextCaps:数据集专注于图像字幕生成,测试模型在理解图像内容并生成自然语言描述方面的能力。
  • RefCOCO、RefCOCO+、RefCOCOg:ReferIt Game数据集的变体,用于评估模型在图像中定位指定对象的能力。
  • Visual Genome:包含图像、区域标注和关系描述的数据集,广泛用于视觉问答和图像理解任务。
  • Flickr30K:包含丰富的图像及其描述的数据集,用于评估图像字幕生成和图像理解。
  • VizWiz:数据集包含盲人用户拍摄的图像和相关问题,用于评估模型在处理实际场景和用户生成内容方面的能力。
  • ScienceQA:针对科学领域的问答数据集,测试模型在结合视觉和科学知识回答问题方面的能力。

8. 论文中的实验及结果有没有很好地支持需要验证的科学假设?

略,综述没实验。

9. 这篇论文到底有什么贡献?

这篇综述对Visual Instruction Tuning进行了任务分类:

(1)Discriminative判别式任务:
在这里插入图片描述

  • 图像分类(Image Classification):利用可学习的[CLS]token表示全局图像特征,计算[CLS] token和提示tokens之间的相似性,如下图
    在这里插入图片描述

  • 语义分割(Image Segmentation):常规的语义分割是像素级别的分类任务,LISA模型是根据复杂的query生成分割掩码,理解query并在图像中找到对应的区域(比如找到下面的维C最多的食物并标记),所以这里模型最终生成一张图。
    在这里插入图片描述

  • 目标检测(Object Detection):下图是visionLLM的做法,提出一个指令感知图像分词器(Instruction-Aware Image Tokenizer)有效理解和解析视觉输入,总之是让LLM最终回答出query指向目标的上下左右坐标。VisionLLM 在 COCO 数据集上的目标检测任务中实现了超过 60% 的平均精度(mAP),这与特定于检测的模型相当。

在这里插入图片描述

  • 视觉定位(Visual Grounding)

(2)生成式任务:

  • 图像生成
  • 图像编辑

(3)复杂推理任务:

  • Image Captioning:图像描述,可以用如MiniGPT-4、Clever Flamingo等模型
  • Visual Question Answering:即VQA视觉问答,可以用如MiniGPT-v2、instructBLIP等模型
  • Visual Assistant:视觉助手,可以用如LLaVA、Qwen-VL(多任务预训练数据很好)等模型

在这里插入图片描述

(4)视频学习的微调:视频理解、视频生成、视频字幕生成等
在这里插入图片描述
如video-chatgpt模型(如下),视频具有时序特性,Video-ChatGPT使用预训练的视频编码器将视频分割成多个帧,并提取每一帧的视觉特征。这些视觉特征再经过时序编码,生成包含时序信息的特征向量。用户可以对视频进行提问:
在这里插入图片描述

(5)文档学习的视觉微调:
在这里插入图片描述
如mPLUG-DocOwl模型:
在这里插入图片描述

(6)3D Vision Learning的视觉微调:包括depth estimation, 3D reconstruction(3D重建), object recognition, and scene comprehension(场景理解)等具体任务。

10. 下一步呢?有什么工作可以持续深入?

  • 增强模型在视觉和语言之间的对齐能力
  • 动态场景理解:比如视频、实时流媒体的多模态输入
  • 用于帮助艺术家、设计师进行图像、视频编辑;用于教育领域等

Reference

[1] Visual Instruction Tuning towards General-Purpose Multimodal Model: A Survey

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/645355.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

民宿bug

前端 后端 1 订单管理 订单日期已过,状态没有变成已完成

Scikit-Learn朴素贝叶斯

Scikit-Learn朴素贝叶斯 1、朴素贝叶斯1.1、贝叶斯分类1.2、贝叶斯定理1.3、贝叶斯定理的推导1.4、朴素贝叶斯及原理1.5、朴素贝叶斯的优缺点2、Scikit-Learn朴素贝叶斯2.1、Sklearn中的贝叶斯分类器2.2、Scikit-Learn朴素贝叶斯API2.3、Scikit-Learn朴素贝叶斯实践(新闻分类与…

..堆..

堆 堆是完全二叉树,即除了最后一列之外,上面的每一层都是满的(左右严格对称且每个节点都满子节点) 最后一列从左向右排序。 默认大根堆:每一个节点都大于其左右儿子,根节点就是整个数据结构的最大值 pr…

解决Vue3+TS+vite,VSCode 高亮语法错误

一般像这种提示,有可能就是TypeScript语法的识别问题, 一般我们重装一下Vue - Official插件 或者将tcconfig.json中的moduleResolution改为node模式, 基本都是TypeScript无法识别vue文件中的TypeScript语句导致的

一行代码实现UI拖拽的效果

演示 先来看效果吧! 实现方式 1.首先创建一个你想拖动的UI图片 2.创建一个C#的脚本 3.编写控制脚本(代码按我的敲就行) 付上代码片段 public void OnDrag(PointerEventData eventData){transform.position eventData.position;} 4.添加脚…

21.2zabbix低级自动发现-mysql多实例

配置mysql多实例 注释:自动发现:创建监控主机;低级自动发现:创建监控项 mysql单实例是直接yum安装,开启mysql多实例 准备配置文件 #mysql3307实例 cp /etc/my.cnf /etc/my3307.cnf vim /etc/my3307.cnf [mysqld] dat…

FPGA实现多路并行dds

目录 基本原理 verilog代码 仿真结果​ 基本原理 多路并行dds,传统DDS的局限性在于输出频率有限。根据奈奎斯特采样定理,单路DDS的输出频率应小于系统时钟频率的一半。但是在很多地方,要使采样率保持一致,所以,为了…

蓝桥杯备赛——DP【python】

一、小明的背包1 试题链接:https://www.lanqiao.cn/problems/1174/learning/ 问题描述 输入实例 5 20 1 6 2 5 3 8 5 15 3 3 输出示例 37 问题分析 这里我们要创建一个DP表,DP(i,j)表示处理到第i个物品时消耗j体…

Java8Stream

目录 什么是Stream? IO流: Java8Stream: 什么是流? stream图解 获取流 集合类,使用 Collection 接口下的 stream() 代码 数组类,使用 Arrays 中的 stream() 方法 代码 stream,使用 Stream 中的…

牛客网刷题 | BC100 直角三角形图案

目前主要分为三个专栏,后续还会添加: 专栏如下: C语言刷题解析 C语言系列文章 我的成长经历 感谢阅读! 初来乍到,如有错误请指出,感谢! 描述 KiKi学习了循环&am…

注意力机制篇 | YOLOv8改进之引入用于目标检测的混合局部通道注意力MLCA

前言:Hello大家好,我是小哥谈。注意力机制是可以帮助神经网络突出重要元素,抑制无关元素。然而,绝大多数通道注意力机制只包含通道特征信息,忽略了空间特征信息,导致模型表示效果或目标检测性能较差,且空间注意模块往往较为复杂。为了在性能和复杂性之间取得平衡,本文提…

AI遇上遥感,未来会怎样?

随着航空、航天、近地空间等多个遥感平台的不断发展,近年来遥感技术突飞猛进。由此,遥感数据的空间、时间、光谱分辨率不断提高,数据量也大幅增长,使其越来越具有大数据特征。对于相关研究而言,遥感大数据的出现为其提…

C++基础与深度解析 | 泛型算法 | bind | Lambda表达式

文章目录 一、泛型算法1.泛型算法的分类2.迭代器分类 二、bind与lambda表达式1.bind2.lambda表达式 三、泛型算法的改进--ranges(c20) 一、泛型算法 C中的泛型算法是标准模板库(STL)的一部分(这里重点讨论 C 标准库中定义的算法,而…

5.25机器人基础-空间描述和变换1

参考资料:《机器人学导论》John.J.Craig 彻底搞懂“旋转矩阵/欧拉角/四元数”,让你体会三维旋转之美_欧拉角判断动作-CSDN博客 机器人操作的定义是指通过某种机构使零件和工具在空间运动。因此,对于坐标系的定义显得尤为重要,相…

模型评价指标笔记:混淆矩阵+F1+PR曲线+mAP

评价指标 二分类评价指标 混淆矩阵 TP: 正确预测为了正样本,原来也是正样本 FN: 错误的预测为负样本,原来是正样本 (漏报,没有找到正确匹配的数目) FP: 错误的预测为正样本,原来是负样本 (误报,没有的匹配不正确) TN…

Rust腐蚀怎么用服务器一键开服联机教程

1、进入控制面板 首次登陆需要点击下方重置密码,如何再点击登录面板,点击后会跳转到登录页面,输入用户名和密码登录即可 2、设置游戏端口 由于腐蚀的设置需要三个端口,它们用于游戏端口(必须为首选端口)&a…

springboot3微服务下结合springsecurity的认证授权实现

1. 简介 在微服务架构中,系统被拆分成许多小型、独立的服务,每个服务负责一个功能模块。这种架构风格带来了一系列的优势,如服务的独立性、弹性、可伸缩性等。然而,它也带来了一些挑战,特别是在安全性方面。这时候就体…

HTML跳动的爱心

目录 写在前面 HTML简介 跳动的爱心 代码分析 运行结果 推荐文章 写在后面 写在前面 哎呀,这是谁的小心心?跳得好快吖! HTML简介 老生常谈啦,咱们还是从HTML开始吧! HTML是超文本标记语言(Hyper…

数据结构--二叉搜索树

目录 二叉搜索树的概念 二叉树的实现 结点类 函数接口总览 实现二叉树 二叉搜索树的应用 K模型 KV模型 二叉搜索树的性能分析 二叉搜索树的概念 二叉搜索树(Binary Search Tree,简称BST)是一种特殊的二叉树,其具有以下几…

Installing Tinyproxy on CentOS 7 测试可用

Installing Tinyproxy on CentOS 7 For RHEL/CentOS 7 systems, Tinyproxy is part of EPEL (Extra Packages for Enterprise Linux). Install EPEL on CentOS 7 yum install epel-release -y yum update -y Install Tinyproxy on CentOS 7 yum install tinyproxy -y 编辑…