1.5版本是llava作者在23年10月提交的。
作者对原始的llava进行了四个很小的改进,之后就刷了11个数据集的sota。而且可以看到llava用于训练的数据量很小,与instructBLIP和通义千问比少多了。
然后这里就是llava1.5进行的四个小改进。
第一点是prompt明确短回答的格式,由于instructBlip无法在短格式vqa和长格式vqa中取得平衡,作者分析了两点原因,首先是它的prompt太模糊了,没有明确表明输出的格式是什么样的。然后就是它没有让LLM参与微调,这会加剧第一个问题。作者提出的解决方案就是在需要简短回答的场景下,将明确需要短回答的要求拼在问题后面,然后再去微调LLM。
第二点是使用双层MLP。
第三点是添加学术型数据集参与微调。具体添加的数据集就是右图中蓝色部分。
第四点是扩大输入图像分辨率和LLM规模。作者使用了336x336的图像,使LLM能更清楚的看到图像细节。LLM使用13b的vicuna,相比7b版本也有很大提升。
右图中蓝色代表添加数据集,红色代表模型结构变化,黄色代表输入图像分辨率变化。