基于CLIP特征的多模态大模型中的视觉短板问题

【论文极速读】 基于CLIP特征的多模态大模型中的视觉短板问题
FesianXu 20240706 at Tencent WeChat search team

前言

今天读到篇CVPR 24’的论文 [1],讨论了常见的多模态大模型(大多都基于CLIP语义特征,以下简称为MLLM)中的视觉短板问题,笔者感觉挺有意思的就简单笔记下,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢

∇ \nabla 联系方式:

  • e-mail: FesianXu@gmail.com

  • github: https://github.com/FesianXu

  • 知乎专栏: 计算机视觉/计算机图形理论与应用

  • 微信公众号:机器学习杂货铺3号店

请访问github page以获得最佳阅读效果:
https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/


如今的大多数多模态大模型,其视觉输入侧采用的视觉编码器,都是依照CLIP的训练方式,采用大规模对比学习进行训练的。在论文 [1] 中,作者发现CLIP特征具有某些视觉短板,从而导致基于此的MLLM也受到了影响。作者观察到,在一些简单直接(不需要复杂推理)的问题上,MLLM似乎并不能很好解决,如Fig 1所示,一些光从图片中就能很容易判断的问题,如头的朝向、眼睛数量、车门的状态等,强大的mllm反而不能很好地理解,经常会出现“睁眼说瞎话”的情况。这不禁让人好奇,是因为视觉侧没有对图片内容进行完备准确的描述(也就是“眼睛出问题了”)?还是作为底座的大语言模型没有理解好视觉侧提供的信息呢(也就是“大脑出问题了”)? 本文就尝试在探索这个问题。

fig_1_mllm_cases

Fig 1. 一些简单直接的视觉问题,mllm并不能很好的解决,这不禁让人好奇是为什么?“大脑”还是“眼睛”的问题?

作者认为是CLIP视觉特征的问题,也就是MLLM的“眼睛”有“视觉问题”,导致其“睁眼说瞎话”。考虑到在Fig 1中是一些明显直接的视觉问题,作者假设CLIP在视觉问题上可能存在固有的缺陷,这个缺陷通过扩大模型规模和数据尺度可能都无法弥补。 为了验证这个观点,作者想出了这样一个招儿。

CLIP是弱监督模型,建模了图片的语义信息,而描述图片本身的视觉信息,则可以考虑视觉自监督模型(SSL),比如MAE、MoCo或者DINOv2等,如果一个图片对 < I i , I j > <I_i, I_j> <Ii,Ij>,其CLIP打分 s C L I P ( I i , I j ) s_{CLIP}(I_i,I_j) sCLIP(Ii,Ij)很小,但是其自监督模型打分 s S S L ( I i , I j ) s_{SSL}(I_i, I_j) sSSL(Ii,Ij)却很大,如Fig 2 step 1所示,这意味着这个图片对在语义上接近,但是视觉上却有比较大的差异。注意到,通过CLIP训练出来的语义,通常是比较偏向于实体的,如Fig 2.所示,两张图中如果都是出现同一个实例(instance),CLIP特征就可能没有区分度。因此作者在ImageNet和LAION-Aesthetics 数据集中,采集了很多被称之为CLIP-blind(笔者译为,CLIP视盲)的图片对,其采集规则为:
s C L I P ( I i , I j ) > 0.95   &   s D I N O v 2 ( I i , I j ) < 0.6 (1) s_{CLIP}(I_i, I_j) > 0.95 \ \& \ s_{DINOv2}(I_i, I_j) < 0.6 \tag{1} sCLIP(Ii,Ij)>0.95 & sDINOv2(Ii,Ij)<0.6(1)
对于采集得到的CLIP视盲样本,人工去确认其视觉差异的来源,并且给出一个选择题,这个选择题后续可以交给待评测的MLLM,从而评测不同MLLM的CLIP视盲程度。这里的选择题,通常如Fig 2. step 2所示,就是让MLLM去判断这两张图片之间的细微视觉差别,如图中动物头的朝向等,都是可以直接从图片中获取的视觉信息,不需要模型进行复杂推理。待评测的MLLM只有在CLIP视盲样本对中,对两张图片的结果都正确了,才能算为是对这个case的一个有效解。最终作者收集了150个CLIP视盲样本对,并且提供了300个选择题,作者将这个测试集称之为MMVP(Multimodal Visual Patterns)基准。

fig_2_mmvp_dataset

Fig 2. 采集MMVP数据集,用于验证CLIP是否在基础视觉问题上存在缺陷。

作者首先去评估了MMVP基准的可靠性,考虑先拿市面上可用的MLLM(都是采用的CLIP视觉编码)在这个基准上进行测试。同时,作者请评估者对这300个选择题进行了标注,发现人工的准确率是95.7%,这是一个很高的基线,也说明了MMVP中的视觉问题的确是一些基础的视觉问题。然而,作者发现大部分模型的结果甚至还不如随机猜测(25%),即便是表现最好的Gemini(40.7%),也和人工表现差了一大坨。

在这里插入图片描述

Fig 3. 拿市面上可用的MLLM在MMVP基准上进行测试,发现大部分MLLM的准度甚至不如随机猜测的结果。

看起来,MLLM确实在这些简单的视觉问题上无能为力,究竟这些视觉问题有什么样本的固有模式能困倒“万能”的大模型呢?作者将MMVP样本交给GPT-4v进行判断其带有的视觉模式,发现了如Fig 4.所示的9种视觉模式。上面的试验说明了MLLM在这些视觉模式上存在固有缺陷,但是这个问题是否是从CLIP带来的呢?这个问题仍未得到解答。

fig_4_visual_pattern

Fig 4. 采用GPT4v,对mmvp基准数据中的视觉模式进行挖掘。

作者采用不同规模的类CLIP模型,将MMVP基准(每个样本都进行了视觉模式的归属)的图片对和其文本进行匹配,如Fig 5所示,只有完全能匹配上的CLIP视盲对样本才认为是有效的一次验证。从结果上看,不难发现在大多数的视觉模式下,增大CLIP的模型规模和图片分辨率都没有帮助,并且ImageNet-1k ZeroShot上的指标和MMVP指标并没有太大相关性。这意味着

  • 当前CLIP在这些视觉问题上准确率很低,MMVP平均值最高的都不超过40%。
  • 即便增加CLIP的模型规模,数据规模,图片分辨率等,都无法有本质上的提升。

这意味着,CLIP特征在这些视觉问题上是存在固有缺陷的。

fig_5_vit_scaling_for_vp

Fig 5. 采用不同的类CLIP模型对MMVP中的CLIP视盲对样本进行文本-图片的匹配,统计在不同视觉模式问题上的准度。

当然了,CLIP存在固有缺陷,并不代表着其结合LLM后就表现一定糟糕(因为LLM可能会弥补CLIP的缺陷),是否能找到这两者的相关性呢?如Fig 6.所示,CLIP在不同视觉模式下的表现曲线,和MLLM的性能曲线变化是相当一致的。据作者统计,LLava和InstructBLIP和CLIP特征的性能表现之间的相关系数超过了0.7,这意味着存在着很大的相关性。当然,在文本问题上,GPT4和Gemini的表现存在异常的高,笔者不负责任地猜测是因为商业LLM,系统继承了某些OCR能力。

fig_6_vit_emb_llm_perf

Fig 6. CLIP特征的表现和集成了CLIP的MLLM的表现,在各个视觉模式问题下具有相似的性能趋势,间接地说明了CLIP特征就是导致MLLM在这些视觉模式下出现缺陷的主要原因。

那么怎么解决这个问题呢? 一种合理的想法是,既然CLIP特征存在缺陷,那么我们就在MLLM中引入另外的视觉特征呗,考虑到这些CLIP视盲样本是采用DINOv2特征采集的,那么我们将引入DINOv2特征就好咯,这个想法称之为特征混合(Mixture of Feature,MoF)。也就是说,MLLM的视觉侧特征,应该同时具有语义能力视觉自身的能力。作者基于这个想法,进行了两种模型设计,如Fig 7所示,分别是加性的特征混合、交织的特征混合。

作者发现加性的特征混合方法,的确能大幅度提升MMVP指标(5.5 -> 18.7, +13.2),但是其指令跟随能力也会极度地下降(81.8 -> 75.8, -6.0),要牺牲指令跟随能力还是不舍得的。作者又继续尝试了基于拼接的方法,不过作者不是将两个特征直接相拼,而是将其中的视觉特征交织地拼接。笔者猜测,是因为CLIP编码器和DINO编码器都是采用的Visual Transformer模型,因此对图片进行了分块,将语义特征和视觉特征相邻拼接在一起,其存在“彼此之间的能力增强”,不过这是笔者脑补的哈哈哈嗝。不管怎么说,这样搞了后,在不牺牲指令跟随能力的情况下(81.8->82.8, +1.0),还能得到MMVP能力的提升哦(5.5 -> 16.7, +10.7)。

fig_7_mof

Fig 7. 两种不同的MoF模型,加性和交织。

笔者看完后呢,还是比较认同这篇论文的结论的。不同的是,笔者之前虽然不是大模型的应用场景,而主要是站在视频搜索业务落地多模态能力过程中的经验去看待这个工作。如博文 [4] 所说的,笔者在规划多模态基础算子能力的时候,就认为CLIP语义特征虽然很强大,但是描述的问题大多是基于语义的,在一些需要考虑视频本身视觉结构问题上(如质量、后验应用),应该基于自监督的方法进行建模。这篇文章算是提供了一个很不错的参考,嘿嘿嘿。

Reference

[1]. Tong, Shengbang, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, and Saining Xie. “Eyes wide shut? exploring the visual shortcomings of multimodal llms.” In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 9568-9578. 2024.

[2]. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. Learning transferable visual models from natural language supervision. In ICML, 2021. aka CLIP

[3]. Maxime Oquab, Timothee Darcet, Theo Moutakanni, Huy Vo, Marc Szafraniec, Vasil Khalidov, Pierre Fernandez, Daniel Haziza, Francisco Massa, Alaaeldin El-Nouby, et al. DINOv2: Learning robust visual features without supervision. arXiv preprint arXiv:2304.07193, 2023 aka DINO v2

[4]. https://fesianxu.github.io/2024/06/30/video-retrieval-multimodal-20240630/, 《万字浅析视频搜索系统中的多模态能力建设》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/777924.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Git错误分析

错误案例1&#xff1a; 原因&#xff1a;TortoiseGit多次安装导致&#xff0c;会记录首次安装路径&#xff0c;若安装路径改变&#xff0c;需要配置最后安装的路径。

HTML5使用<details>标签:展开/收缩信息

details 标签提供了一种替代 JavaScript 的方法&#xff0c;它主要是提供了一个展开/收缩区域。details 标签中可以使用 summary 标签从属于 details 标签&#xff0c;单击 summary 标签中的内容文字时&#xff0c;details 标签中的其他所有从属元素将会展开或收缩。语法如下&a…

Redies基础篇(一)

Redis 是一个高性能的key-value数据库。Redies支持存储的value类型相对更多&#xff0c;包括string(字符串)、list(链表)、set(集合)和zset(有序集合)。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作&#xff0c;而且这些操作都是原子性的&#xff…

小白必看!推荐三本高质量python书籍,让你直接原地起飞

Python是一种多功能语言。它经常用作Web应用程序的脚本语言&#xff0c;嵌入到软件产品中&#xff0c;以及人工智能和系统任务管理。它既简单又强大&#xff0c;非常适合初学者和专业程序员。 python的自学书籍非常多&#xff0c;涉及基础入门、web开发、机器学习、数据分析、…

印度第二大移动提供商 3.75 亿数据待售

一个名为“xenZen”的威胁行为者已在 BreachForums 上出售 Airtel 的数据库。 该列表包含来自 3.75 亿客户的数据。 数据详情&#xff1a; 手机号码 名 出生日期 父亲的名字 地址 电子邮件ID 类型 国籍 阿达尔 带照片的身份证明详细信息 地址详细信息证明等 鉴于…

003-基于Sklearn的机器学习入门:回归分析(上)

本节及后续章节将介绍机器学习中的几种经典回归算法&#xff0c;所选方法都在Sklearn库中聚类模块有具体实现。本节为上篇&#xff0c;将介绍基础的线性回归方法&#xff0c;包括线性回归、逻辑回归、多项式回归和岭回归等。 2.1 回归分析概述 回归&#xff08;Regression&…

3-3 超参数

3-3 超参数 什么是超参数 超参数也是一种参数&#xff0c;它具有参数的特性&#xff0c;比如未知&#xff0c;也就是它不是一个已知常量。是一种手工可配置的设置&#xff0c;需要为它根据已有或现有的经验&#xff0c;指定“正确”的值&#xff0c;也就是人为为它设定一个值&…

SAP PS学习笔记01 - PS概述,创建Project和WBS

本章开始学习PS&#xff08;Project System&#xff09;。 1&#xff0c;PS的概述 PS&#xff08;Project System&#xff09;是SAP企业资源规划系统中的一个关键模块&#xff0c;主要用于项目管理。 它提供了一个全面的框架来规划、控制和执行项目&#xff0c;涵盖了从项目启…

AttackGen:一款基于LLM的网络安全事件响应测试工具

关于AttackGen AttackGen是一款功能强大的网络安全事件响应测试工具&#xff0c;该工具利用了大语言模型和MITRE ATT&CK框架的强大功能&#xff0c;并且能够根据研究人员选择的威胁行为组织以及自己组织的详细信息生成定制化的事件响应场景。 功能介绍 1、根据所选的威胁行…

03:Spring MVC

文章目录 一&#xff1a;Spring MVC简介1&#xff1a;说说自己对于Spring MVC的了解&#xff1f;1.1&#xff1a;流程说明&#xff1a; 一&#xff1a;Spring MVC简介 Spring MVC就是一个MVC框架&#xff0c;Spring MVC annotation式的开发比Struts2方便&#xff0c;可以直接代…

【TB作品】脉搏测量,ATMEGA8单片机,Proteus仿真,ATmega8控制脉搏测量与显示系统

硬件组成&#xff1a; LCD1602脉搏测量电路&#xff08;带灯&#xff09;蜂鸣器报警按键设置AT24C02 功能&#xff1a; &#xff08;1&#xff09;LCD1602主页显示脉搏、报警上限、报警下限&#xff1b; &#xff08;2&#xff09;五个按键&#xff1a;按键1&#xff1a;切换设…

数据库测试|Elasticsearch和ClickHouse的对决

前言 数据库作为产品架构的重要组成部分&#xff0c;一直是技术人员做产品选型的考虑因素之一。 ClkLog会经常遇到小伙伴问支持兼容哪几种数据库&#xff1f;为什么是选择ClickHouse而不是这个或那个。 由于目前市场上主流的数据库有许多&#xff0c;这次我们选择其中一个比较典…

(软件06)串口屏的应用,让你的产品显得高级一点(下篇)

本文目录 学习前言 单片机代码实现 学习前言 目前市面上我记得好像有IIC的屏幕、SPI的屏幕、并口屏幕、还有就是今天我们介绍的这个串口屏了&#xff0c;串口屏&#xff0c;就是用串口进行通讯的&#xff0c;上篇我们已经介绍了屏幕供应商提供的上位机软件进行配置好了&#…

2000-2019年各省市资源错配指数

资源错配指数&#xff08;Misallocation Index&#xff09;是衡量一个地区或国家资源配置效率的重要经济指标。以下是对资源错配指数相关数据的介绍&#xff1a; 数据简介 定义&#xff1a;资源错配指数是一个反映生产要素配置合理性的指标&#xff0c;高指数意味着资源配置效…

Science期刊政策反转:允许生成式AI用于论文写作,意味着什么?

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 关于各大top期刊和出版社对于生成式AI用于论文写作中的规定&#xff0c;娜姐之前写过一篇文章&#xff1a; 如何合理使用AI写论文&#xff1f;来看Top 100学术期刊和出版社的…

Go 中的类型推断

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

昇思25天学习打卡营第08天 | 模型训练

昇思25天学习打卡营第08天 | 模型训练 文章目录 昇思25天学习打卡营第08天 | 模型训练超参数损失函数优化器优化过程 训练与评估总结打卡 模型训练一般遵循四个步骤&#xff1a; 构建数据集定义神经网络模型定义超参数、损失函数和优化器输入数据集进行训练和评估 构建数据集和…

东芝TB6560AHQ/AFG步进电机驱动IC:解锁卓越的电机控制性能

作为一名工程师&#xff0c;一直在寻找可靠且高效的组件来应用于你的项目中。东芝的TB6560AHQ/AFG步进电机驱动IC能够提供精准且多功能的电机控制&#xff0c;完全符合现代应用的高要求&#xff0c;保证高性能和易用性。在这篇文章中&#xff0c;我们将探讨TB6560AHQ/AFG的主要…

CentOS 7.9 停止维护(2024-6-30)后可用在线yum源 —— 筑梦之路

众所周知&#xff0c;centos 7 在2024年6月30日&#xff0c;生命周期结束&#xff0c;官方不再进行支持维护&#xff0c;而很多环境一时之间无法完全更新替换操作系统&#xff0c;因此对于yum源还是需要的&#xff0c;特别是对于互联网环境来说&#xff0c;在线yum源使用方便很…

直播预告 | VMware大规模迁移实战,HyperMotion助力业务高效迁移

2006年核高基专项启动&#xff0c;2022年国家79号文件要求2027年央国企100%完成信创改造……国家一系列信创改造政策的推动&#xff0c;让服务器虚拟化软件巨头VMware在中国的市场份额迅速缩水。 加之VMware永久授权的取消和部分软件组件销售策略的变更&#xff0c;导致VMware…