1.Introduction
级联方法使用ASR将语音输入转化为文本输入,语音到文本会导致信息损失,本文提出LLaSM,一个具有跨模态对话能力的大型语音与语言模型,能够理解和遵循语音与语言指令,借鉴LLaVA,利用预训练的语音模态编码器和大语言模型,使用Whisper作为语音编码器,将语音信号转化为嵌入,然后,一个模态适配器学习将语音嵌入与大模型的输入文本嵌入对齐,将语音嵌入和文本嵌入串联起来形成交错序列输入到大语言模型中微调。
训练过程分为两阶段,第一阶段,使用公开的ASR数据集进行模态适应预训练,语音编码器和大语言模型冻结,仅训练模态适配器以对齐语音和文本嵌入。在这个阶段,由于大部分模型参数保持冻结,仅模态适配器的少量参数被训练。第二阶段,使用跨模态指令数据训练,语音编码器被冻结,而模态适配器和语言模型的参数进行更新,进行跨模态指令微调,LLaSM-Audio-Instructions指令数据集。从GPT-LLM,ShareGPT,WizardLM中挑选,通过文本转语音技术生成大量对话音频数据,总计包含199000个对话,其中包含80000个中文音频样本和428000个英文音频样本。
2.Approach