2025_NIPS_Ensemble-based Deep Reinforcement Learning for Vehicle Routing Problems under Distribut...
文章总结与翻译一、主要内容本文针对车辆路径问题(VRP)中现有深度强化学习(DRL)方法在分布偏移场景下泛化能力不足的问题,提出了一种基于集成的深度强化学习方法(EL-DRL)。该方法通过训练一组多样化的子策略,协同应对不同分布的VRP实例,核心思路包括:问题背景:VRP作为NP难组合优化问题,在物流等领域应用广泛。现有DRL方法在独立同分布(i.i.d.)实例上表现优异,但实际场景中客户位置分布会因时间、天气等因素变化,导致分布偏移,现有方法泛化性能大幅下降。方法设计:扩展REINFORCE算法和策略梯度到集成场景,采用“共享编码器+多个独立解码器”的架构,降低计算开销;利用带随机初始化的Bootstrap技术,为每个子策略分配不同的损失信号,避免参数收敛到一致;引入基于泰尔指数(Theil index)和参数差异的正则化项,明确追求子策略间的差异性,增强多样性。实验验证:在TSP(旅行商问题)和CVRP(容量受限车辆路径问题)的合成实例(含爆炸、压缩、聚类等5种分布)及TSPLib、CVRPLib真实基准实例上进行测试,EL-DRL在分布偏移场景下的泛化性能优于AM、POMO、DROP等主流基线方法,且保持了高效的推理速度。局限性与未来方向:当前方法在大规模实例上的性能依赖子模型(如POMO)的可扩展性,且训练需更多计算资