《Learning Transferable Visual Models From Natural Language Supervision》
从自然语言监督中学习可迁移的视觉模型
贡献:利用自然语言信号监督,打破了固定类别的范式。
方法简单,效果好。从文本中得到监督信号,引导视觉分类的任务。
它是一个 zero-shot 的视觉分类模型,预训练的模型在没有微调的情况下在下游任务上取得了很好的迁移效果。
右图:预训练网络输入:句子与图片对。图中对角线上都是对应的文字-图片对正样本N个,其他为负样本N^2-N个。有了正负样本,模型即可进行对比学习训练。
左图:推理。prompt template 把单词(类别标签)转化为一个句子(因为训练的时候使用的是句子),再经过encoder抽取特征。最终图片经过encoder得到特征与每个单词对应的文本特征做余弦相似度cos similarity,与那个最相似,就挑选出对应的文