文章目录
- Abstract
- 1 Introduction
Abstract
介绍了一种名为 Neural k-Opt(NeuOpt)的新型学习搜索(L2S)求解器,用于解决路径问题。它学习执行基于定制的动作分解方法和定制的循环双流(Recurrent Dual-Stream)解码器的灵活 k-opt 交换。
作为一项开创性的工作,我们绕过了纯可行性掩码方案,实现了对可行和不可行区域的自主探索,我们提出了一种名为 Guided Infeasible Region Exploration(GIRE)的方案。GIRE 通过补充可行性相关特征并利用奖励塑造来增强 NeuOpt 策略网络,使其更有效地指导强化学习。
此外,我们为 NeuOpt 配备了动态数据增强(D2A),以便在推理过程中进行更多样化的搜索。在旅行商问题(TSP)和有容量限制的车辆路径问题(CVRP)上的广泛实验表明,我们的 NeuOpt 不仅显著超越了现有的(基于掩码的)L2S 求解器,而且还展示了其优越性,超越了学习构建(L2C)和学习预测(