1、BLIP 模型可以「看图说话」
2、clip
1、4亿对来自网络的图文数据集
2、CLIP是从头开始训练它的Text Encoder和lmage Encoder的,
CLIP的模型是比较简单的,它的贡献点在于采用了海量图文对数据和超大batch size进行预训练,并不在于其模型结构。
计算模态之间的cosine similarity,让N个匹配的图文对相似度最大,N2-N不匹配的图文对相似度最
3、ResNets和3个 Vision Transformers 比较用于image encoder
对于ResNets,训练一个ResNet-50,一个ResNet-101,然后再训练模型缩放,使用大约是ResNet-50计算量的4x、16x和64倍。分别记为RN50x4、RN50x16和RN50x64。
对于 Vision Transformers,训练了ViT-B/32(表示patch size为32的ViT-Base模型)、ViT-B/16和ViT-L/14(ViT-Large)。
4、text-encoder ,最后一层[EOS]位置的向量
对于Text Encoder, CLIP借鉴的是GPT2 (Radfordet al.2019)的架构。对于每
条prompt,在进入Text Encoder前,都会添加表示开始和结束的符号|[SOS]与[EOS]
最终将最后一层[EOS]位置的向量作为该prompt的特征表示向量
5、损失:
计算两个方向上的交叉熵损失:loss_i 是以图像为查询,文本为正样本的损失;loss_t 是以文本为查询,图像为正样本的损失。