大模型的发展已经到了一个瓶颈期,包括被业内所诟病的罔顾事实而产生的“幻觉”问题、深层次的逻辑理解能力、数学推理能力等,想要解决这些问题就不得不继续增加模型的复杂度。随着不同应用场景的实际需求,大模型的参数会变得越来越大,复杂性和规模不断的增加,尤其是在多模态大模型的开发中,每个数据集可能完全不同,有来自文本的数据、图像的数据、语音的数据等,包含不同的模式,特征和标注之间的关系可能也大有不同,这不但增加了训练的难度,也提高了推理的成本,如何将大模型的训练难度和推理成本降低已经是各大研究机构和大厂都在攻克的任务。
为了实现大模型的高效训练和推理,有的是从模型底层下手,比如直接改变底层模型架构,将原来的Transformer架构改成近期新出的基于状态空间模型(SSM)的mamba架构;有的是在预训练微调方法上下手,比如我们在上一篇文章《