(模型蒸馏)MCC-KD: Multi-CoT Consistent Knowledge Distillation

论文链接：[2310.14747] MCC-KD: Multi-CoT Consistent Knowledge Distillation (arxiv.org)

背景

近年来，大型语言模型（LLMs）如GPT-3、BERT等在自然语言处理（NLP）领域取得了显著的进展。这些模型通过大规模数据训练，能够执行包括文本生成、推理、翻译等多种复杂任务。大型语言模型在复杂推理任务中表现出色，尤其是当使用链式思维（CoT）提示进行推理时。CoT方法是指模型在给出答案前，先生成一系列的中间步骤或理由，这有助于模型更好地处理复杂的推理任务。

挑战

尽管大型模型在性能上表现出色，但它们通常需要大量的计算资源，这限制了它们在资源受限的环境中的应用。因此，有一个持续的需求是将这些模型的能力转移到更小、更高效的模型上，这个过程被称为知识蒸馏。在知识蒸馏的过程中也存在着一些挑战，其中之一是保持推理的多样性和一致性。这意味着在蒸馏过程中，需要保持不仅是最终答案的一致性，还有推理步骤的多样性和一致性。而MCC-KD就是来应对这些挑战的。

方法

多思维链一致性知识蒸馏（MCC-KD）是一种提高知识蒸馏过程中学生模型的泛化和鲁棒性的方法。特别是，MCC-KD通过三个关键步骤加强了教师模型产生的不同思维链之间的一致性。

具体步骤：

理由提取：利用教师模型为每个问题生成多个基本推理

理由过滤：利用N-gram过滤策略把相似推理过滤掉，从而保证理由的多样性

多CoT一致性蒸馏：通过最小化不同理由的答案分布间的双向KL散度来保持一致性

结果

整体性能：

MCC-KD在所有数学推理任务（如GSM8K、ASDiv、SVAMP）中超过了当前的基线方法，并在相似规模的模型中表现出显著的改进。在常识推理任务上，MCC-KD不仅超过了基线方法，甚至超过了教师模型在CommonsenseQA数据集上的性能。这表明MCC-KD在处理常识推理任务方面的有效性。重要的是，经过MCC-KD处理的模型能够直接生成推理路径，无需任何CoT提示

理由的多样性对实验的影响

通过在ASDiv和SVAMP两个数据集上的测试均可以看出随着理由多样性的增加，Accuracy均在稳步增加

理由数量对实验的影响

随着理由数量的增多，前期性能有较大的提升，当理由数量超过5，提升效果就不明显了，因此综合计算效率考虑将实验中使用的理由数量设置为5

理由的正确性对实验的影响

当理由的正确率超过90%时，性能差异不大，但是如果正确率低于80%，那么模型性能会显著下降

总结

思维链的多样性和一致性一直是需要改进的方向，文章提出了MCC-KD方法，致力于为每个问题生成多个理由，强调理由需要在对应的预测中保持一致性，并通过实验验证了方法的有效性，也提到了一些潜在的局限性，如依赖于大型语言模型生成理由的成本，以及学生模型与教师模型在数学推理任务中的性能差距等。文章为知识蒸馏领域提供了一个新颖的视角，特别是在利用大型语言模型进行推理训练方面。通过多样性和一致性的双重关注，MCC-KD能够有效地将复杂推理能力转移到规模较小的模型上。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/512766.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！