📖标题:LLMs Can Plan Only If We Tell Them
🌐来源:arXiv, 2501.13545
🌟摘要
🔸大型语言模型(LLM)在自然语言处理和推理方面表现出了显著的能力,但它们在自主规划方面的有效性一直存在争议。虽然现有的研究已经利用具有外部反馈机制的LLM或在受控环境中进行规划,但由于需要仔细设计和迭代反算,这些方法通常涉及大量的计算和开发资源。此外,即使是像GPT-4这样最先进的LLM,在没有额外支持的情况下,也很难在Blocksworld等标准规划基准上与人类的表现相匹配。
🔸本文研究了LLM是否可以独立生成与人类基线相媲美的长毛计划。我们对Algorithmof Thoughts(AoT)的新颖增强,我们称之为AoT+,有助于在规划基准方面取得最先进的成果,超越竞争性的先前方法和人类基线。
🛎️文章简介
🔸研究问题:大语言模型(LLM)在长时程规划任务中存在局限性,能否通过改进的提示技术来激活和提升LLM的规划能力?
🔸主要贡献:论文提出了AoT+提示技术,显著提升了LLM在复杂规划任务中的表现,并在多个基准测试中超越了现有的最先进方法,包括使用外部验证工具的方法。
📝重点思路
🔸CoT局限性分析:包括①线性思维,无法探索多条路径或回溯的问题 ②缺乏自我纠正 ,难以应对推理过程早期的错误 ③过度依赖示例结构,LLM倾向于模仿而导致僵化的思维模式
🔸AoT的提示技术:包括 ①显式搜索过程,包含了解决问题的探索步骤详细描述 ②回溯示例,教导LLM识别错误末端过程 ③启发式指导,包含了人类直觉来模拟专家
🔸AoT+的状态记忆化:在搜索过程中实施了一种定期再生和重述当前问题状态的机制,有助于减少参加整个上下文历史的需求。
🔸AoT+的随机轨迹增强:为了进一步简化提示过程和提高词化性,引入了随机搜索轨迹增强,允许更有效的示例生成,以涉及人类创造的思维过程。
🔎分析总结
🔸性能提升:AoT+在多个基准测试中显著优于现有的最先进方法,包括使用外部验证工具的方法。
🔸状态管理:通过状态记忆化机制,AoT+有效减少了状态幻觉,提高了规划任务的准确性。
🔸通用性:AoT+在不同规模的LLMs上均表现出色,显示出其广泛的适用性。
🔸效率:AoT+在减少计算资源和时间消耗方面表现出色,特别是在需要快速响应的实时应用中。
💡个人观点
论文的核心在于控制历史轨迹信息,并强化显示搜索,来提高思考路径的准确性。
🧩附录