在多模态的视觉编码主干中,若采用分类的backbone效果很差,经过语义对齐的backbone,比如clip的vit,效果则好很多。
1.Cogvlm中的EVA2-CLIP-E,VIT中最后一层被移除,4.4B,支持分辨率为334/490.
2.QWEN-VL中openclip的ViT-bigG,1.9B,支持分辨率448x448。
3.llava中CLIP-VIT-L-336px, 支持分辨率336。
4.visualglm中为VIT,分辨率224.
5.minigptv2中的EVA VIT,分辨率为448.
6.minigpt中预训练的VIT,分辨率是448.
7.monkey中Vit-BigHuge,编码器1.9B,支持分辨率是896.