为了探讨大型语言模型(LLM)在处理自然语言描述的图结构问题上的能力,提出了NLGraph基准测试集,包含29,370个涉及不同复杂度的图推理任务。这些任务从简单的连通性和最短路径到复杂的最大流和图神经网络模拟。评估结果显示,LLM具备初步的图推理能力,但其高级提示和上下文学习在复杂问题上的优势减弱,且模型容易受问题设置中虚假相关性的影响。为改进LLM解决自然语言图问题的能力,研究者提出了图形提示和算法提示两种指令导向的方法,这些方法在多个任务上显著提升了性能,不过对于更复杂的图推理任务,LLM的表现仍有待提升,这仍然是一个开放的研究问题。
1 NLGraph数据集
NLGraph是一个专门为评估大型语言模型(LLM)在解决基于图结构的问题方面能力而设计的基准测试集。NLGraph包含了总共29,370个问题,覆盖了八个不同复杂度的图推理任务,从直观的简单任务如连通性、环路检测和最短路径,到更为复杂的任务,如拓扑排序、最大流、二分图匹配、哈密顿路径以及模拟图神经网络。为了控制问题难度,NLGraph中的图大小、网络稀疏性、数值范围等因素都被考虑在内,并且每个不同的图推理任务都设计了易、中、难三个子集,以支持更精细的分析。
通过NLGraph评估大语言模型
(1)LLM确实具有初步的图推理能力,在简单的图推理任务上,如连通性、环路和最短路径,LLM的表现比随机基线高出37.33%至57.82%,并且在CoT提示下,它们能生成合理且准确的中间步骤,进一步提高任务性能。
(2)高级提示方法在复杂问题上的益处会减少。CoT、least-to-most和self-consistency等方法虽然在简单任务上提高了LLM的图推理能力,但在像拓扑排序和哈密顿路径这样的复杂问题上,这些方法的效果有限,有时甚至适得其反。
2 两种新的提示方法
(1)图形提示(Build-a-Graph Prompting)
目的:该方法鼓励LLM在解决特定问题之前,将文本描述的图映射到概念化的空间中,即在心理上构建出图的结构。
实施方式:在给定图形的文字描述后,附加一句引导语:“让我们先构建一个包含节点和边的图。”这种提示为LLM提供了消化图形信息的机会,帮助它们将信息映射到概念空间,为即将到来的问题查询做准备。
效果:实验显示,Build-a-Graph提示能够显著提升LLM在处理较简单图推理任务时的表现,如环路检测和最短路径,提升了3.07%到16.85%的性能。
(2)算法提示(Algorithmic Prompting)
目的:为了生成合理和准确的解决方案,此方法促使LLM回顾并复述与给定任务相关的算法,以便在实际解决问题前对算法有总体理解。
实施方式:在上下文示例前添加算法细节,例如对于最短路径任务,会加上“我们可以使用深度优先搜索(DFS)算法…”这样的开头。对于其他图推理任务,同样在提示中提供了相应的算法描述。
效果:算法提示同样在相对容易的图推理任务上提高了LLM的表现,但面对更复杂的任务,如哈密顿路径,这两种基于自然语言的指令效果有限。
3 结语
论文提出了一种名为NLGraph的自然语言图解题基准,旨在评估大型语言模型在解决图形结构问题上的能力,并通过引入构建图和算法提示的方法,显著提高了模型在多种图推理任务上的表现,但复杂的图问题推理仍待进一步研究。
论文题目:Can Language Models Solve Graph Problems in Natural Language?
论文链接:https://arxiv.org/abs/2305.10037
PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!