文章目录
- CLIP
- ViLT
- CLIP 改进工作串讲
- Lseg(Language -driven semantic segmentation)
- Group ViT(Semantic Segmentation Emerges from Text Supervision)
- ViLD
- GLIP_V1/V2(Ground Language-Image Pre-train)
- CLIP Passo
- CLIP4Clip
- Action CLIIP
- CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?
- Audio CLIP:Extend CLIP to Image,Text and Audio(语音)
- point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021
- Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022
- CLIP改动总结:
本文章总结于李沐&&bryanyzhu的精讲论文 视频
CLIP
CLIP 论文逐段精读【论文精读】
CLIP的贡献:打破了之前这种固定种类标签的范式。无论在收集数据集的时候,还是在训练模型的时候,不需要像imageNet那样做1000类,直接搜集这种图片文本的配对,用无监督的方式预测他的相似性。处理数据更方便,训练模型也更方便,在推理的时候更方便
可以在zero shot做各种各样的分类任务
ViLT
ViLT 论文精读
主要创新点: 把目标检测从多模态学习的框架中给移除了
VLP任务需要将图片像素转化成离散性,语义性的特征。而目标检测天然就是离散化过程,目标检测将图片返回成多个bounding box,bounding box就是一个又一个物体,具有明确语义信息,且又是离散化,直接用ROI(Region of Interest:感兴趣区域)抽特征即可。且下游任务与目标检测相似
但目标检测抽图像特征太贵
CLIP 改进工作串讲
CLIP串讲
Lseg(Language -driven semantic segmentation)
Group ViT(Semantic Segmentation Emerges from Text Supervision)
ViLD
ViLD:超越Supervised的Zero-Shot检测器
GLIP_V1/V2(Ground Language-Image Pre-train)
CLIP Passo
利用CLIP绘画
Semantically-Aware Object Sketching图像生成抽象的简笔画
CLIP4Clip
视频检索,CLIP4clip中CLIP指OpenAI的CLIP模型,clip指的是视频中的clip。CLIP模型很适合做Retrieval(检索)任务
CLIP4clip:An Empirical Study of CLIP for End to End Video Clip R
Action CLIIP
任务:动作识别,加了时序信息的分类任务。
Action CLIIP:A New Paradigm for Video Action Recognition(动作识别)
研究动机:
对于有监督学习来说需要标签,但是对于视频理解尤其动作识别,怎么定义这些标签是很困难的事情。因为对于物体来说,标记标签是很容易的,用单词打标签,但是对于动作识别来说,是用一个短语来描述动作,例如open xxx,有很多含义,潜在的label space是接近无穷的,首先标记很多类别的话费用很高,当类别很多的时候softmax无法工作,常见的分类算法就不够用了。如果只标大类的话,遇到子类,细粒度的类依旧没法识别
如果能摆脱这种带标签的数据,如果真的能够从很多很多这种海量的视频数据里先去学一个比较好的特征,然后再去zero shot或者few shot的做下游任务,那其实是最理想的,由此想到clip,因为clip本身就能做很好的zero shot
CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?
CLIP 扩展到其他领域
主要贡献:拿预训练好的CLIP模型当做这个视觉编码器的初始化参数,然后在下游的各种各样的Vision Language下游任务上去做Fine-tune,看看CLIP的这个初始化参数是否好用
Audio CLIP:Extend CLIP to Image,Text and Audio(语音)
point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021
把CLIP中已经学到的这么好的2D表征迁移到3D领域来
建立2D与3D的桥梁:将3D点云投射到2D平面上,得到2D深度图
文本明确告诉模型这是一个点云:Point Cloud Depth Map of a [CLASS]
Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022
与其把深度估计看成一个回归问题,不如将其看成一个分类问题。强制性的把深度距离(抽象概念)分成几个大类(giant 、close、…、 far、unseen七个类)
感觉这个很巧妙就是把深度估计变成基于文本的visual grounding,连续的变成离散化的了
把一个深度估计问题转化成文本理解的问题
CLIP改动总结:
CLIP模型改动的三点
1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。
2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。
3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。然后用在自己的任务中,定义自己的正负样本对,然后去算多模态对比学习loss。
在尽量不改变原来大模型的参数,只是加一些可调的模块去训练一点点(按百分之一甚至万分之一的参数),然后就能在下游任务中工作的很好