摘要
EVA-CLIP,这是一种基于对比语言图像预训练(CLIP)技术改进的模型,通过引入新的表示学习、优化和增强技术,显著提高了CLIP的训练效率和效果。EVA-CLIP系列模型在保持较低训练成本的同时,实现了与先前具有相似参数数量的CLIP模型相比更高的性能。特别地,文中提到的EVA-02-CLIP-E/14+模型,使用90亿数据样本和5.0B(50亿)参数,在ImageNet-1K的val数据集上取得了82.0%的零样例一级准确率。而较小的EVA-02-CLIP-L/14+模型,尽管仅使用了4.3亿参数和60亿数据样本,也达到了80.4%的零样例一级准确率。这些结果表明,EVA-CLIP在图像分类任务中,特别是在零次学习(zero-shot learning)场景下,展现出了卓越的性能。
代码链接:https://github.com/baaivision/EVA?tab=readme-ov-file
论文:https://arxiv.org/abs/2303.15389
环境搭建
基础环境
环境:Ubuntu+CUDA12.1+pytorch 2.3.1+python 11。 主要是CUDA,尽量版本高一点,xFormers 的版本不同,对CUDA的版本要求也不同。最新版本已经要求pytorch2.3.0了。