原文地址:Beyond Chain-of-Thought LLM Reasoning
2024 年 2 月 13 日
介绍
最近的一项研究解决了需要增强大型语言模型 (LLM) 的推理能力,超越直接推理 (Direct Reasoning,DR) 框架,例如思想链和自我一致性,这些框架可能难以完成需要间接推理 (Indirect Reasoning,IR)的现实世界任务。
该研究提出了一种利用矛盾逻辑来完成事实推理和数学证明等任务的IR方法。
该方法涉及使用对立逻辑等价来扩充数据和规则,并根据反证法设计 IR 提示模板。
IR方法简单而有效
- 事实推理的整体准确性提高27.33 %
- 与传统DR方法相比,数学证明提高了31.43% 。
- IR 和 DR方法的结合进一步提高了性能,凸显了所提出策略的有效性。
LLMs擅长语言理解、内容生成、对话管理和逻辑推理。
IR 提示结构
该图显示了零样本和少样本学习场景中使用大型语言模型 (LLM) 的间接推理(IR) 。它是针对涉及数学证明和事实推理的复杂问题而提出的。
传统的直接推理方法在应对这些挑战时可能会举步维艰。
相比之下,这种方法指导LLMs运用反证逻辑和矛盾,从而进行精确的推理并成功推导出准确的答案。
来源
目标是引入采用间接推理 (IR) 的新颖策略来解决直接推理的限制。这种方法为解决实际问题提供了一种替代且有效的方法。
该研究还提供了许多提示模板,可以有效地刺激LLMs遵循间接推理。
基于提示
该研究的目的是保持实施轻便、及时,不依赖外部数据。因此,避免了微调、基于 RAG 的实现或工具库(类似代理)等方法。
规则增强
LLMs常常难以掌握复杂的规则,从而影响了他们有效使用这些规则的能力。
考虑以下:
事实:Bob does not drive to work
规则:If the weather is fine, Bob drives to work
人类可以应用逆证的等价来推断该规则相当于:If Bob does not drive to work, the weather is not fine
因此人类可以推断。
这使得人类可以根据规则得出结论,即The weather is not fine
。
LLMs可能会发现这种推理方法具有挑战性,因此为了解决这个问题,该研究建议将规则的反证添加到规则集中。
因此,适用于情境学习类型,即小样本学习。
来源
这是一个提示模板:
# <Instruction>The contrapositive is equivalent to the original rule,
and now we need to convert the following rules into their contrapositives.
</Instruction>
# Example 1
# Rule: [rule1]
# Contrapositive: [contrapositive1]
...
# Rules: [rules]
# Contrapositives:
表现
考虑下图,GPT 3.5 Turbo 和 Gemini-pro 之间的比较。
我对性能的飞跃感到惊讶,这是一项有趣的研究,旨在了解哪些模型在有或没有 RA 的情况下对 IR 反应最好。
很明显,下面显示的两个模型在性能上都有显着的提高;但 GPT.3.5 Turbo 在 IR/RA 场景中的改进激增。
来源
综上所述
间接推理有效地解决了使用已知条件和规则无法直接解决的挑战。
该研究证明了该方法在事实推理和数学证明任务中的有效性,证实了其实用性。
虽然目前的研究侧重于简单的反证和矛盾逻辑,但未来的研究可以探索整合更复杂的逻辑原理,以进一步提高LLMs的推理能力。