CLIP论文CLIP 改进工作串讲

文章目录

    • CLIP
    • ViLT
    • CLIP 改进工作串讲
      • Lseg(Language -driven semantic segmentation)
      • Group ViT(Semantic Segmentation Emerges from Text Supervision)
      • ViLD
      • GLIP_V1/V2(Ground Language-Image Pre-train)
      • CLIP Passo
      • CLIP4Clip
      • Action CLIIP
      • CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?
      • Audio CLIP:Extend CLIP to Image,Text and Audio(语音)
      • point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021
      • Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022
      • CLIP改动总结:

本文章总结于李沐&&bryanyzhu的精讲论文 视频

CLIP

CLIP 论文逐段精读【论文精读】
CLIP的贡献:打破了之前这种固定种类标签的范式。无论在收集数据集的时候,还是在训练模型的时候,不需要像imageNet那样做1000类,直接搜集这种图片文本的配对,用无监督的方式预测他的相似性。处理数据更方便,训练模型也更方便,在推理的时候更方便
可以在zero shot做各种各样的分类任务

ViLT

ViLT 论文精读
主要创新点: 把目标检测从多模态学习的框架中给移除了
VLP任务需要将图片像素转化成离散性,语义性的特征。而目标检测天然就是离散化过程,目标检测将图片返回成多个bounding box,bounding box就是一个又一个物体,具有明确语义信息,且又是离散化,直接用ROI(Region of Interest:感兴趣区域)抽特征即可。且下游任务与目标检测相似
但目标检测抽图像特征太贵

CLIP 改进工作串讲

CLIP串讲

Lseg(Language -driven semantic segmentation)

Group ViT(Semantic Segmentation Emerges from Text Supervision)

ViLD

ViLD:超越Supervised的Zero-Shot检测器

GLIP_V1/V2(Ground Language-Image Pre-train)

CLIP Passo

利用CLIP绘画
Semantically-Aware Object Sketching图像生成抽象的简笔画

CLIP4Clip

视频检索,CLIP4clip中CLIP指OpenAI的CLIP模型,clip指的是视频中的clip。CLIP模型很适合做Retrieval(检索)任务
CLIP4clip:An Empirical Study of CLIP for End to End Video Clip R

Action CLIIP

任务:动作识别,加了时序信息的分类任务。
Action CLIIP:A New Paradigm for Video Action Recognition(动作识别)
研究动机:
对于有监督学习来说需要标签,但是对于视频理解尤其动作识别,怎么定义这些标签是很困难的事情。因为对于物体来说,标记标签是很容易的,用单词打标签,但是对于动作识别来说,是用一个短语来描述动作,例如open xxx,有很多含义,潜在的label space是接近无穷的,首先标记很多类别的话费用很高,当类别很多的时候softmax无法工作,常见的分类算法就不够用了。如果只标大类的话,遇到子类,细粒度的类依旧没法识别
如果能摆脱这种带标签的数据,如果真的能够从很多很多这种海量的视频数据里先去学一个比较好的特征,然后再去zero shot或者few shot的做下游任务,那其实是最理想的,由此想到clip,因为clip本身就能做很好的zero shot
在这里插入图片描述

CLIP VIL:How Much Can CLIP Benefit Vision and Language Tasks?

CLIP 扩展到其他领域
主要贡献:拿预训练好的CLIP模型当做这个视觉编码器的初始化参数,然后在下游的各种各样的Vision Language下游任务上去做Fine-tune,看看CLIP的这个初始化参数是否好用

Audio CLIP:Extend CLIP to Image,Text and Audio(语音)

在这里插入图片描述

point CLIP:Point Cloud Understanding by CLIP(3D)CVPR2021

把CLIP中已经学到的这么好的2D表征迁移到3D领域来
建立2D与3D的桥梁:将3D点云投射到2D平面上,得到2D深度图
文本明确告诉模型这是一个点云:Point Cloud Depth Map of a [CLASS]
在这里插入图片描述

Depth CLIP:Can Language Understand Depth ?(深度信息)CVPR2022

与其把深度估计看成一个回归问题,不如将其看成一个分类问题。强制性的把深度距离(抽象概念)分成几个大类(giant 、close、…、 far、unseen七个类)
感觉这个很巧妙就是把深度估计变成基于文本的visual grounding,连续的变成离散化的了
把一个深度估计问题转化成文本理解的问题
在这里插入图片描述

CLIP改动总结:

CLIP模型改动的三点

1.改动最小,目前的图像和文本经过CLIP的预训练模型(CLIP预训练数据集比较大,直接使用预训练的参数非常好),得到一个特别好的特征。然后用这个特征做一下点乘或拼接(融合),之前的模型不动,用一个更好的特征加强之前模型的训练。

2.知识蒸馏,将CLIP模型作为teacher网络,生成伪标签。帮助现有的模型收敛更快。

3.不借鉴CLIP的预训练参数,而是借用CLIP这种多模态的对比学习思想(图像文本对,对角线GT)。然后用在自己的任务中,定义自己的正负样本对,然后去算多模态对比学习loss。
在尽量不改变原来大模型的参数,只是加一些可调的模块去训练一点点(按百分之一甚至万分之一的参数),然后就能在下游任务中工作的很好

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/910510.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C++:set详解

文章目录 前言一、set概念介绍二、set的使用1. 插入删除相关2. 查找相关1)find2)count3)lower_bound与upper_bound4)equal_range 三、set的值是不能修改的原理四、基于哈希表的set总结 前言 根据应用场景的不同,STL总…

【静态页面】尚品汇 1、设计稿分析及资源准备

目录 1. 准备工作2. 理解设计3. 规划项目结构 1. 准备工作 安装必要的工具:确保你的开发环境已经准备好,包括文本编辑器(如 VSCode)、浏览器等。获取设计文件:获取UI设计稿或者设计文件链接,并确保可以访问…

小时收入:衡量工作效率与个人自由的标准

小时收入,就是按照小时来计算一个人的收入。比如,一个月一共工作200小时,获得的总收入是20000元,那么小时收入就是100元/小时。 小时收入可以反应一个人的赚钱效率。 可能两个人的月收入一样,但是付出的总工作时间不…

RFID文件柜在文件管理中的作用

一、RFID文件柜系统概述 1.1 RFID技术简介 RFID(Radio Frequency Identification,无线射频识别)技术是一种非接触式的自动识别技术,它通过无线电讯号识别特定目标并读写相关数据,无需识别系统与特定目标之间建立机械…

mysql代码生成器

项目 pom 文件内容 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/…

域控操作二十四:主域故障辅域接替

模拟环境&#xff1a;上海DC1故障无法开机&#xff0c;导致只有一个DNS的电脑无法上网&#xff08;实际可以添加DC2但是为了实验就不说了&#xff09; FSMO还在DC1上 使用powershell把角色迁移到DC2 ntdsutil roles connections connect to server DC2SHA.whbk.cn quitSeize …

Redis(2):内存模型

一、Redis内存统计 工欲善其事必先利其器&#xff0c;在说明Redis内存之前首先说明如何统计Redis使用内存的情况。 在客户端通过redis-cli连接服务器后&#xff08;后面如无特殊说明&#xff0c;客户端一律使用redis-cli&#xff09;&#xff0c;通过info命令可以查看内存使用情…

数据分析:宏基因组DESeq2差异分析筛选差异物种

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍原理:计算步骤:结果:加载R包准备画图主题数据链接导入数据Differential abundance (No BP vs 2BP TA)构建`countData`矩阵过滤低丰度物种构建DESeq数据对象DESeq2差异分析画图Di…

泷羽sec学习打卡-shodan扫描4

声明 学习视频来自B站UP主 泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 关于shodan的那些事儿-4 一、shodan4如何查看公网ip&#xff1f;如何查看自己的ip&#xff1f;如何查看出…

abap 可配置通用报表字段级日志监控

文章目录 1.功能需求描述1.1 功能1.2 效果展示2.数据库表解释2.1 表介绍3.数据库表及字段3.1.应用日志数据库抬头表:ZLOG_TAB_H3.2.应用日志数据库明细表:ZLOG_TAB_P3.3.应用日志维护字段配置表:ZLOG_TAB_F4.日志封装类5.代码6.调用方式代码7.调用案例程序demo1.功能需求描述 …

Spark中的shuffle

Shuffle的本质基于磁盘划分来解决分布式大数据量的全局分组、全局排序、重新分区【增大】的问题。 1、Spark的Shuffle设计 Spark Shuffle过程也叫作宽依赖过程&#xff0c;Spark不完全依赖于内存计算&#xff0c;面临以上问题时&#xff0c;也需要Shuffle过程。 2、Spark中哪…

golang安装,常用框架安装,记忆点

0.安装 虚拟机扩容 【Linux干货分享】LVM快速扩容虚拟机磁盘_哔哩哔哩_bilibili newvim 安装 sudo add-apt-repository ppa:neovim-ppa/stable sudo apt-get update sudo apt-get install -y neovim 最强Vim新手指南&#xff0c;手把手教你打造只属于自己的代码编辑器&am…

亚马逊旺季爆品攻略:如何利用旺季打造爆品?

随着假日季的脚步日益临近&#xff0c;亚马逊卖家们正摩拳擦掌&#xff0c;准备迎接这一年度的销售高峰。本文将为您揭示如何在旺季中抓住机遇&#xff0c;通过精心策划和执行一系列策略&#xff0c;让您的产品在众多竞争对手中脱颖而出&#xff0c;成为真正的爆品&#xff01;…

别卷Transformer了!时序卷积这么做,一样发顶会!

Transformer爆火之后&#xff0c;时间序列领域基本上算是被占领了&#xff0c;围绕此类相关的研究也是非常之卷。这种情况下&#xff0c;我们不妨了解一下时序卷积。 在大规模时间序列数据处理任务中&#xff0c;时序卷积是一种非常重要的方法&#xff0c;它结合了传统CNN的特…

【C++】STL中的list容器详解及常用函数用法

个人主页: 起名字真南的CSDN博客 个人专栏: 【数据结构初阶】 &#x1f4d8; 基础数据结构【C语言】 &#x1f4bb; C语言编程技巧【C】 &#x1f680; 进阶C【OJ题解】 &#x1f4dd; 题解精讲 目录 &#x1f4cc; 1 引言&#x1f4cc;2 list容器✨2.1 list容器简介✨2.2 li…

使用kalibr_calibration标定相机(realsense)和imu(h7min)

vslam-evaluation/VINS/Installation documentation/4.IMU和相机联合标定kalibr_calibration.md at master DroidAITech/vslam-evaluation GitHub 目录 1.kalibr安装 1.1安装依赖项 1.2创建工作空间 1.3下载kalibr并编译 1.4设置环境变量 2.准备标定板 3.配置驱动和打…

论文阅读:基于语义分割的非结构化田间道路场景识别

论文地址&#xff1a;DOI: 10.11975/j.issn.1002-6819.2021.22.017 概要 环境信息感知是智能农业装备系统自主导航作业的关键技术之一。农业田间道路复杂多变&#xff0c;快速准确地识别可通行区域&#xff0c;辨析障碍物类别&#xff0c;可为农业装备系统高效安全地进行路径规…

能识别黑烟的摄像头

能识别黑烟的摄像头主要应用于监测车辆尾气排放情况&#xff0c;特别是针对排放黑烟的车辆进行抓拍和识别。以下是朗观视觉对这类摄像头的详细介绍&#xff1a; 一、主要特点 智能识别&#xff1a;摄像头内置视频识别功能&#xff0c;能够实时分析视频中的车辆尾气排放情况&am…

Docker镜像分成

1. 镜像分层原理 1.1 镜像分层的定义与结构 Docker 镜像的分层存储机制是其核心特性之一&#xff0c;它允许 Docker 镜像由多个只读层组成&#xff0c;这些层叠加在一起形成一个完整的文件系统。每个层代表 Dockerfile 中的一个指令&#xff0c;并且每一层都是不可变的&#…