一、概述
title:LARGER LANGUAGE MODELS DO IN-CONTEXT LEARNING DIFFERENTLY
论文地址:https://arxiv.org/abs/2303.03846
参考:https://www.xiaohongshu.com/user/profile/5f01057f0000000001003c91/640aa237000000001303d871
1.1 Motivation
- 背景知识:in-context learning,不需要训练模型,而只是给几个样例(任务的题目和相应答案答案)。
- 研究in-context learning (ICL)如何受到先验语义信息和输入标签映射的影响的,以及通过比较一系列不同大小的模型,发现in-context learning只在大模型里面有用。
1.2 Methods
- 利用两个实验来验证(ICL with flipped labels + ICL with semantically- unrelated label)
- ICL with flipped labels(input–label mappings that contradict prior knowledge,输入与模型先验知识矛盾):利用翻转的label信息作为输入,评估大小模型的输出受输入信息的影响程度(模型会有先验知识,看是否正的能理解当前输入的信息,覆盖原始先验知识)。
- ICL with semantically-unrelated label:将模型的label设置成与语义不相关的,例如将boo/bar之类的答案变成negative/positive,迫使模型学习输入和label的映射关系,来验证是否真正的学到了语义中的信息。
1.3 Conclusion
- flipped labels实验结论【大模型可以通过in-context learning覆盖原始模型中的先验知识,小模型不能】:虽然小型语言模型忽略上下文中呈现的翻转标签,并因此主要依赖于来自预训练的语义先验,但是当呈现与先验相矛盾的上下文中样本时,大型模型可以覆盖语义先验,尽管大型模型可能拥有更强的语义先验。
- ICL with semantically-unrelated label【大语言模型能学习输入和label的映射关系,小的也不行】:大语言生孩子能学习线性分类任务。
- ICL 加强了语义先验(模型内部)的使用和学习输入-标签映射的能力,但更多的是前者。
- 大模型还能做高纬度的线性分类任务,小模型不行。
二、详细内容
2.1 如何设置实验来验证模型是否理解上下文中的真正含义?
Regular ICL:正常的ICL,给几个Negtive, Positive的例子,要你输出新的样本的结果。
Flipped-label ICL:将示例的label翻转过来,看对于新的例子,能否输出翻转的label。
SUL-ICL:将label设置成和语义不相关,看对于新的例子,能否按照上下文给出的例子推出新的映射关系。
2.2 尝试的模型
尝试了不同大小的模型,PaLM个模型只有大小不同,数据什么都一样。
2.3 使用不相关label映射时,小模型精度影响更大
当用不相关的label映射时,小模型精度下降的比较多,说明小模型受先验语义信息的依赖要更多一些,大模型更能学习上下文中的信息
2.4 大模型才具有相关涌现能力
大模型在上下文中学习样例的能力更强
有些任务能力只在大模型中才能看到
2.5 与仅做pretraining的语言模型相比,指令调整的语言模型更擅长学习输入-标签映射
同样大小,instruction-tuned模型遵循指令的能力更强。
2.6 翻转label实验的时候,instruction-tuned的模型比pretrain的模型表现更差,说明其更依赖模型的先验知识
- 指令调优要么增加了模型在可用时依赖语义先验的程度,要么为模型提供更多的语义先验,因为指令调谐模型在翻转label是表现更差
- 我们得出结论,尽管指令调整提高了学习输入标签映射的能力,但它同时加强了语义先验的使用,类似于Min等人(2022a)中的发现。
2.7 大模型甚至能做线性分类