1. 摘要
本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型(MLLM),并同时提出了MM1模型,包括30B dense版本和64B的MoE版本。
具体贡献:
- 模型层面:影响效果的重要性排序为:image resolution,visual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型:image caption,interleaved image-text和text-only。
- 在few-shot和text-only上的表现:interleaved image-text和text-only两种数据最为重要。
- 在zero-shot上的表现:image caption数据最为重要。
以上两种特性,在SFT阶段也有体现。
- 通过扩大LLM大小的方式进行scale up。模型大小分别有3B,7B,30B等。
2. 方法和实验
2.1 简介
这部分主要探索三个(结构,数据和训练步骤)对多模态大模型效果的影响,
- 模型基础配置:
- Image Encoder:ViT-L/14模型,训练loss为clip loss,训练数据DFN-5B和VeCap-300M,image size为336*336
- Vision-Language Connector:C-Abstractor,最大输出144 image token。
- Pre-training Data:45% image caption数据,45% interleaved image-text数据和10% text-only数据。
- Language Model: 1.2B transformer decoder-only模型。
2.2 模型结构影响
2.2.1 Image Encoder Pre-training
Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。
- contrastive loss:能让image encoder学习到语义知识。示例模型:CLIP
- Reconstructive loss:在一些dense prediction上,clip类模型很难达到很好的效果,比如说VQA和caption,这类任务需要对image有很好的理解。示例模型:AIM
- 小结:
- Image resoluton最为重要,其次是model size和训练数据组成。从上图中可以看出,增加image resolution效果最为明显,而增加model size和数据效果提升在1%左右。
- 模型类型:对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定,因为AIM模型训练数据较少。
2.2.2 Vision-Language Connector and Image Resolution
-
配置
- 使用64或144个token代表每个image,
- 有两个不同的resolution:224和336.
- 结构选择:
- average pooling:对ViT输出结果使用n*n average pooling,然后接上linear projection。(n=[8, 12])
- attention pooling:使用k learnable queries,通过改变k来改变输出到LLM的image token数。k=[64, 144]
- Convolutional mapping:C-Abstractor module:ResNet block,through adaptive pooling can change the number of image tokens。
-
小结:visual token数和image resolution最为重要,VL connector有少量影响。在instruction tuning阶段,这三种结构在不同的分辨率和image token时有着相似的结果。
2.3 预训练数据影响
-
小结:
- Interleaved data对few-shot和text-only的表现最为重要,captioning data对zero-shot表现比较重要。
- Text-only数据对few-shot和text-only表现有帮助。
- 细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为caption:interleaved:text=5:5:1。
- 合成数据对few-shot有帮助。
2.4 训练步骤
- 模型参数和学习率关系:
具体关系如下:
3. 结论
- MM1模型预训练参数:
- Image Encoder:ViT-H,分辨率378*378,训练数据DFN-5B,CLIP objective
- Vision-Language Connector:VL connection with 144 tokens,选择用C-Abstractor
- Data:45% interleaved image-text documents, 45% image-text pair documents, and 10% text-only documents.
- 超参:batch size=512,max sequence lenght=4096,
- LR schedule:在初始的2000步,linear warmup,然后在2e5训练步数中降到10%。
- 使用AdamW优化器,在30B模型训练中,加上z-loss。
- pretrain 效果如下:
- SFT数据配比:
参考文献
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training