多模态大模型

多模态大模型 - MM1

1. 摘要

本文主要通过分析模型结构和数据选择讨论如何构建一个好的多模态大模型（MLLM），并同时提出了MM1模型，包括30B dense版本和64B的MoE版本。
具体贡献：

模型层面：影响效果的重要性排序为：image resolution，visual encoder loss和capacity和visual encoder预训练数据。multimodal预训练数据类型：image caption，interleaved image-text和text-only。
- 在few-shot和text-only上的表现：interleaved image-text和text-only两种数据最为重要。
- 在zero-shot上的表现：image caption数据最为重要。

以上两种特性，在SFT阶段也有体现。

在这里插入图片描述
这部分主要探索三个（结构，数据和训练步骤）对多模态大模型效果的影响，

模型基础配置：
- Image Encoder：ViT-L/14模型，训练loss为clip loss，训练数据DFN-5B和VeCap-300M，image size为336*336
- Vision-Language Connector：C-Abstractor，最大输出144 image token。
- Pre-training Data：45% image caption数据，45% interleaved image-text数据和10% text-only数据。
- Language Model： 1.2B transformer decoder-only模型。

Image Encoder的选择对多模态大模型的预训练和微调都有很大的影响。
在这里插入图片描述

contrastive loss：能让image encoder学习到语义知识。示例模型：CLIP
Reconstructive loss：在一些dense prediction上，clip类模型很难达到很好的效果，比如说VQA和caption，这类任务需要对image有很好的理解。示例模型：AIM
小结：
- Image resoluton最为重要，其次是model size和训练数据组成。从上图中可以看出，增加image resolution效果最为明显，而增加model size和数据效果提升在1%左右。
- 模型类型：对比学习loss训练的模型比reconstructive loss训练的模型效果要好。但这个结论并不确定，因为AIM模型训练数据较少。

配置
- 使用64或144个token代表每个image，
- 有两个不同的resolution：224和336.
- 结构选择：
  - average pooling：对ViT输出结果使用n*n average pooling，然后接上linear projection。（n=[8, 12]）
  - attention pooling：使用k learnable queries，通过改变k来改变输出到LLM的image token数。k=[64, 144]
  - Convolutional mapping：C-Abstractor module：ResNet block，through adaptive pooling can change the number of image tokens。
小结：visual token数和image resolution最为重要，VL connector有少量影响。在instruction tuning阶段，这三种结构在不同的分辨率和image token时有着相似的结果。

在这里插入图片描述

小结：
- Interleaved data对few-shot和text-only的表现最为重要，captioning data对zero-shot表现比较重要。
- Text-only数据对few-shot和text-only表现有帮助。
- 细致的混合image和text数据能够得到最优的多模态性能和好的文本性能。最好的比例为caption：interleaved：text=5:5:1。
- 合成数据对few-shot有帮助。