开头部分
1. 要点一
从文章题目来看-目的是:使用文本监督得到一个可以迁移的 视觉系统
2.要点二
之前是 fix-ed 的class 有诸多局限性,所以现在用大量不是精细标注的数据来学将更好,利用的语言多样性。——这个方法在 nlp其实广泛的存在,但是视觉还是在imagenet上pretrain所以有诸多限制。
3.要点三
clip模型做的是迁移学习和泛化学习。
效果特别好:比imagenet好很多,不同域数据都能很好分类
方法部分
1.制作了数据集——webimagetext
2.how to train a large model on GPUs?
3.对比学习效率最高
4. zero-shot transfer:
自监督-弱监督: 很好的特征。但是下游任务还是得微调(distribute shift、下游数据不好收集)。clip就是为了不微调,用文本进行微调。
5.Prompt 提示模板:
适合研究,因为不需要预训练(太费时间)。很有用,在推理的时候用
6.效果
局限性部分:
1.数据减少:
自训练、自监督方法
2.ood 数据还是不行
下游应用
1.adapter、efficient finetuning:
已有的模型参数更好能应用到下游任务中
2.三种方式进行应用clip:
1)最小的 方式:直接使用特征,加进已有设计好原来的模型里面
2)蒸馏方法:利用clip的知识帮助我的模型收敛更快
3)不借鉴参数:自己定义自己的对比学习,设计正负样本来训练模型。
总结
不改变大模型的参数,只是训练万分之一的参数来进行。更好