论文链接:[2310.14747] MCC-KD: Multi-CoT Consistent Knowledge Distillation (arxiv.org)
背景
近年来,大型语言模型(LLMs)如GPT-3、BERT等在自然语言处理(NLP)领域取得了显著的进展。这些模型通过大规模数据训练,能够执行包括文本生成、推理、翻译等多种复杂任务。大型语言模型在复杂推理任务中表现出色,尤其是当使用链式思维(CoT)提示进行推理时。CoT方法是指模型在给出答案前,先生成一系列的中间步骤或理由,这有助于模型更好地处理复杂的推理任务。
挑战
尽管大型模型在性能上表现出色,但它们通常需要大量的计算资源,这限制了它们在资源受限的环境中的应用。因此,有一个持续的需求是将这些模型的能力转移到更小、更高效的模型上,这个过程被称为知识蒸馏。在知识蒸馏的过程中也存在着一些挑战,其中之一是保持推理的多样性和一致性。这意味着在蒸馏过程中,需要保持不仅是最终答案的一致性,还有推理步骤的多样性和一致性。而MCC-KD就是来应对这些挑战的。
方法
多思维链一致性知识蒸馏(MCC-KD)是一种提高知识蒸馏过程中学生模型的泛化和鲁棒性的方法。特别是,MCC-KD通过三个关键步骤加强了教师模型产生的不同思维链之间的一致性。
具体步骤:
理由提取:利用教师模型为每个问题生成多个基本推理
理由过滤:利用N-gram过滤策略把相似推理过滤掉,从而保证理由的多样性
多CoT一致性蒸馏:通过最小化不同理由的答案分布间的双向KL散度来保持一致性
结果
整体性能:
MCC-KD在所有数学推理任务(如GSM8K、ASDiv、SVAMP)中超过了当前的基线方法,并在相似规模的模型中表现出显著的改进。在常识推理任务上,MCC-KD不仅超过了基线方法,甚至超过了教师模型在CommonsenseQA数据集上的性能。这表明MCC-KD在处理常识推理任务方面的有效性。重要的是,经过MCC-KD处理的模型能够直接生成推理路径,无需任何CoT提示
理由的多样性对实验的影响
通过在ASDiv和SVAMP两个数据集上的测试均可以看出随着理由多样性的增加,Accuracy均在稳步增加
理由数量对实验的影响
随着理由数量的增多,前期性能有较大的提升,当理由数量超过5,提升效果就不明显了,因此综合计算效率考虑将实验中使用的理由数量设置为5
理由的正确性对实验的影响
当理由的正确率超过90%时,性能差异不大,但是如果正确率低于80%,那么模型性能会显著下降
总结
思维链的多样性和一致性一直是需要改进的方向,文章提出了MCC-KD方法,致力于为每个问题生成多个理由,强调理由需要在对应的预测中保持一致性,并通过实验验证了方法的有效性,也提到了一些潜在的局限性,如依赖于大型语言模型生成理由的成本,以及学生模型与教师模型在数学推理任务中的性能差距等。文章为知识蒸馏领域提供了一个新颖的视角,特别是在利用大型语言模型进行推理训练方面。通过多样性和一致性的双重关注,MCC-KD能够有效地将复杂推理能力转移到规模较小的模型上。