论文:Self-Consistency Improves Chain of Thought Reasoning in Language Models
⭐⭐⭐⭐⭐
ICLR 2023, Google Research
文章目录
- 论文速读
论文速读
本工作提出了一种解码策略:self-consistency,并可以用于 CoT prompting 中。
该策略提出的直观感觉是:人类在解决复杂问题时,往往会慎重考虑,并可能会尝试使用多种推理路径来解决从而保证得到的答案的正确性。self-consistency 就是基于这种思想,让 LLM 在解决复杂推理问题时,让他尝试多个推理路径,每个推理路径就是一次 CoT 的解决过程,每个可以得到一个答案,最终的答案就是其中出现次数最多的答案。
self-consistency 用李宏毅老师的 PPT 来解释的话,也就是如下的方式:
普通的 CoT 与使用了 self-consistency 解码策略的对比如下:
self-consistency 的解码过程主要就是“sample-and-marginalize”:
- 让 LLM 的 decoder 去产生多个推理路径,每个推理路径会导致一个 final answer(区别于普通 CoT 的 greedy decode)
- marginalize out 这些推理路径,在 final answer set 中找出 the most consistent answer
同时论文指出,有时候 CoT 的使用让 LLM 的表现可能还不如标准的 prompt,这时候引入 Self-consistency 可以提升 CoT 的表现。如下是实验证明:
self-consistency 可以与目前的采样算法兼容,比如 temperature sampling、top-k sampling、nucleus sampling
有些工作是额外训练一个 verifier 来验证答案的正确性,self-consistency 的优点在于:
- 更加简单,self-consistency 是完全无监督的
- 只使用了一个 language model,而其他方法会集成多个 model
并且最终的表现比 sample-and-rank、beam search、ensemble-based 等方法要表现更好。