Heterogeneous Vehicle Routing Problem Based on Multi-Feature Fusion
The heterogeneous vehicle routing problem (HCVRP) is a core challenge in the field of logistics optimization, due to the differentiated constraints of vehicle capacity and speed, dynamic distribution of customer demand, and inherent conflicts in multi-objective optimization. In response to the limitations of existing methods in feature fusion efficiency, computational complexity, and multi-objective coordination ability, this paper proposes a multi-feature fusion framework based on deep reinforcement learning (MFF-HVPP). By modeling the dynamic routing problem using a Markov Decision Process (MDP), we construct a composite state space that includes vehicle and node states, and design a dual-modal reward function to accommodate the min-max and min-sum objectives. At the same time, a multi-feature fusion encoder is developed, which extracts local node features and spatial dependencies through position embeddings. We also propose a Transformer channel feature extension module (TransCFE), which enhances features along the channel dimension and uses residual connections to address the issues of gradient vanishing and overfitting found in traditional attention mechanisms. In the hierarchical decoding strategy, MFF-HVPP decouples the routing decision process into vehicle selection and node selection as a sequential decision process, achieving a balance between global optimization and local search through probabilistic sampling. Experiments show that in a min-max scenario with 120 customer nodes, the MFF-HVPP achieves a maximum travel time gap of just 1.31%, with computational efficiency improved by 98% compared to traditional methods. In the min-sum task, the total travel time optimization gap is only 1.07%, and it supports real-time responses in scenarios with up to 100 nodes. This research provides a scalable theoretical framework for multi-objective routing under complex constraints and lays the technical foundation for dynamic scheduling in intelligent logistics systems.
Vehicle Routing
车辆路径规划问题(Vehicle Routing Problem, VRP)作为物流优化领域的核心优化目标,其目标是通过合理设计车辆行驶路径,在满足客户需求与资源约束的前提下,最小化运输成本并提升服务效率。随着电子商务与即时配送需求的快速增长,传统同构车队(Homogeneous Fleet)
近年来,深度强化学习(DRL)为路径规划提供了新思路,但其在异构车队场景中的应用仍存在相应的瓶颈:现有模型对车辆状态、节点位置以及用户需求等特征的融合能力有限,且缺乏对复杂约束的适应性。针对这些问题,本文提出一种基于多特征融合的异构车辆路径规划框架。通过构建马尔可夫决策过程(MDP),模型将车辆路径规划分解为动态的状态更新与序列决策问题,并设计多特征融合编码器(Multi-Feature Fusion Encoder)与Transformer通道特征扩展模块(TransCFE),实现节点位置、客户需求及车辆容量等特征的深度交互与增强表达。此外,分层解码器结构(车辆选择解码器与节点选择解码器)通过概率化抽样策略,兼顾求解效率与全局优化能力。
实验结果表明,MFF-HVPP在两类典型HCVRP任务(min-max与min-sum)中均显著优于现有方法。在120客户节点的min-max场景中,MFF-Sample1280方案将最大行程时间的相对误差率(Gap)降至1.31%,较传统启发式算法(如SISR、ACO)优化幅度超10%,且计算效率提升两个数量级(8.66 s vs. 1378 s)。对于min-sum目标,在V5车队配置下,MFF方法总行程时间误差率仅为1.07%,同时保持13.77 s的实时响应能力,验证了其在大规模物流调度中的实用价值。同时,本文首次将通道扩展机制引入路径规划领域,通过TransCFE模块实现多模态特征的深度融合,为复杂约束下的多目标路径优化研究提供了新的技术路径。
随着物流配送、共享出行以及自动驾驶等领域的快速发展,车辆路径规划(Vehicle Routing Problem, VRP)的应用场景变得更加广泛和复杂。传统的解决方法主要依赖于数学建模和启发式算法,这些方法虽然在早期研究中取得了显著成果,但在面对真实场景中的动态环境、复杂约束和大规模问题时,存在一定的局限性。近年来,随着机器学习和深度学习技术的快速发展,车辆路径规划问题得到了全新的解决思路,不仅能够从历史数据中学习复杂的路径规划策略,还能在贴近真实动态环境中实时调整路径方案,极大地提升了路径规划的效率和适应性。在实际日常应用中,车辆路径规划问题往往涉及多种异构特征,包含不同类型的车辆车队、多样化的客户需求、动态的时间窗约束以及复杂的路网结构等。这些异构特征的存在使得传统的单一特征建模方法难以全面获取问题的复杂性,导致最终的路径规划方案较差。因此,如何有效融合多特征信息,构建更加贴近实际场景的路径规划模型,成为当前研究的重要方向。
传统的车辆路径规划方法通常可分为精确算法、启发式算法和元启发式算法三类,每类方法适用于不同规模和复杂度的VRP问题。这些方法在早期的研究中占据主导地位,并为后续的智能优化算法奠定了基础。精确算法
随着机器学习技术的迅速发展,基于数据驱动的车辆路径规划方法逐渐成为研究热点。这些方法通过从历史数据中学习规律,从而生成相应的路径方案,并在动态环境和复杂约束下表现优异。当前,基于机器学习的方法可分为监督学习和无监督学习,适用于不同应用场景。监督学习方法利用历史数据训练模型预测路径,能够从大量标注数据中学习复杂的路径规划策略。Kool
与传统的机器学习方法相比,深度学习能够从高维数据中学习复杂的路径规划策略,并在动态环境和复杂约束条件下表现出色。基于深度学习的方法主要分为图神经网络(GNN)和序列到序列模型(Seq2Seq),分别适用于不同的应用场景。图神经网络(GNN)能够有效处理图结构数据,在VRP中得到了广泛应用。Khalil
综上所述,异构车辆路径规划问题在实际应用中面临诸多挑战,尤其是在多种车辆类型、复杂路况和动态需求下,如何实现高效的路径规划。现有的路径规划方法如基于经典调度算法的方案,虽然能够在一定程度上优化路径,但通常未能充分考虑不同车辆的特性与实时变化的环境因素,导致优化效果有限。机器学习和深度学习方法通过数据驱动的方式提高了路径规划的性能,但其忽视了车辆的载重、速度、能耗等多重特征,同时在面对不确定性因素时,常常缺乏应对能力。针对这一问题,本文提出了一种基于多特征融合的异构车辆路径规划算法。该算法通过结合不同类型车辆的特性,能够更有效地适应动态变化的物流需求,提高路径规划的精度和效率。实验结果表明,本文提出的路径规划算法在实际场景下,尤其是在涉及不同类型异构车辆的复杂配送任务中,展现了优秀的处理性能。该算法能够平衡不同车辆的特性,实现车辆调度的最优化,进一步提升了物流系统的运作效率,并有效降低了运输成本。
异构车队的车辆路径规划问题描述了一个过程,即所有满载车辆从仓库出发,依次访问客户的位置以满足他们的需求,限制每个客户只能访问一次,以及单次行程的车辆装载量永远不能超过它的能力。本节主要介绍具有min-max和min-sum目标的异构车队的车辆路径规划问题的数学模型。 个节点(客户和仓库)表示为 ,节点 表示仓库,客户可以表示 。每个客户节点 定义为 ,其中前者包含节点 的二维位置坐标,后者指其需求。具体来说,仓库 被定义为包含位置坐标的 。考虑了具有不同容量的异构车辆,这尊重了现实世界的情况。因此,设 表示车辆的异构车队,其中每个元素 定义为 ,即车辆 的容量。
数学模型中使用的变量定义如下:
为简化起见,假设所有车辆都具有相同的速度 ,可以很容易地将其扩展为采用不同的值。MM-HCVRP目标公式可以定义如下:
(1)
模型受以下六个约束:
(2)
(3)
(4)
(5)
(6)
(7)
目标是最小化所有车辆的最大行程时间。确保车辆进入节点的次数等于它们离开节点的次数,其中可以多次访问仓库节点。同时,确保每个客户只被访问一次,消除了次级行程,并保证任何车辆的累计需求不能超过其容量。
MS-HCVRP与MM-HCVRP共享相同的约束,而目标如下:
(8)
其中 代表车辆 的速度,它可能因车辆不同而不同。因此,它实际上是在最小化整个异构车队的总行程时间。
HCVRP问题可以描述为所有车辆从仓库出发,逐一访问各客户,满足所有客户其需求,并确保每个客户仅且只能被访问一次,且每辆车在任何时刻的载货总量不得超过其容量上限的限制。
在 个节点中,节点 和 之间的欧氏距离表示为 。定义一个二值 ,当车辆 从客户 直接前往客户 时, 取值为1,反之 则取值,同时变量 则表示车辆 在从客户 前往客户 后剩余的载货量。为了简化模型,假设所有车辆的行驶速度为常数 ,但该假设可根据实际情况扩展为不同车辆具有不同的速度。基于此假设,MM-HCVRP问题可以通过以下数学模型进行描述:
(9)
该目标函数是求解车辆路径规划中,最小化所有车辆的最大行驶距离,以避免某些车辆的过度负荷,从而均衡每辆车的行驶距离。其中, 表示从节点 到节点 的欧氏距离,而 表示车辆的速度,通过距离除以速度以实现最小化每辆车的行驶距离,来找到每辆车的最优路径,最终达到最小化最大行驶距离的目的。
(10)
这一约束确保每个客户的访问是连续的,即如果车辆 到达了节点 ,它必须从该节点离开去访问下一个节点 。该约束确保每条路径是封闭的,当车辆访问一个客户后会继续访问下一个客户,防止出现车辆仅访问某个客户但不离开的问题。
(11)
这一约束条件要求每个客户 只能被一个车辆访问一次。无论有多少车辆,所有的客户只能由某辆车访问一次,这保证了客户的唯一访问性。
(12)
这个公式确保每个车辆在访问客户 时,可以满足该客户的需求 。它通过约束车辆的进出流量,保证每个客户的需求被精确满足。
(13)
这条约束用于保证车辆在到达下一个客户 时,所携带的货物不会超过车辆的容量。 是车辆 的最大容量, 是客户 的需求量。这个公式确保车辆在访问每个客户时,其剩余的载重满足车辆容量的限制。
(14)
该约束规定 为二值变量,即当车辆 从节点 直接前往节点 时,变量值为1,表示选择了这条路径;否则为0,表示未选择这条路径。
由于HCVRP的路径规划问题本质上也是一个序列决策问题,因此本文将其构建成为一个马尔可夫决策过程(MDP)。在此框架中,明确定义了状态空间、动作空间、状态转移函数以及奖励函数,以系统化解决车辆路径规划问题。
在构建的MDP模型中,状态 包含两个部分:车辆状态 和节点状态 。其中,车辆状态 描述了每辆车的当前状态,包括其剩余容量 、已累积的行驶时间 以及已行驶的路径 。其中,车辆的容量反映其剩余的承载能力,行驶时间则记录车辆自出发以来的总耗时,行驶路径包含了车辆已经访问过的节点序列。节点状态 则反映每个客户节点的位置信息 以及其需求量 。在路径规划中,车辆的任务是在考虑容量约束的情况下满足所有客户的需求。
车辆状态根据动作 进行更新,更新具体流程为
1) 如果车辆 选择了节点 ,其容量将减少该客户的需求量 ,否则容量保持不变。剩余容量 更新公式:
(15)
2) 表示车辆从最后访问的节点 到节点 的欧式距离, 为车辆速度,记录了车辆累积的行驶时间,行驶时间 的更新为:
(16)
3) 当车辆 访问节点 时,节点 将被加入车辆 的访问路径中。行驶路径 的更新为:
(17)
同时,节点状态 的更新则涉及客户需求的变化。每个节点的需求将在被访问后更新为0:
(18)
奖励函数:
为了最小化所有车辆的最大行驶时间,奖励函数 被定义为该最大值的负值,即:
(19)
其中, 是每一步操作对应的增量行驶时间。
该图展示了本文的策略网络的结构。首先,将节点特征、车辆特征和位置特征输入到相应的嵌入模块中进行处理。节点特征通过卷积神经网络(CNN Embedding)进行嵌入,车辆特征直接输入,位置特征则通过位置嵌入(Positional Embedding)模块进行处理。然后,这些特征被整合到多特征融合编码器(Multi-Feature Fusion Encoder)中,形成统一的特征表示。
在路径构建过程中,策略网络首先通过车辆选择解码器(Vehicle Selection Decoder)选择一个合适的车辆 ,然后通过节点选择解码器(Node Selection Decoder)选择一个节点 ,即车辆在当前时间步 应访问的客户节点。每个时间步 的操作 由选择的车辆 和节点 组成,即 。这一步骤完成后,部分解(Partial Solution)和状态 将根据选择的操作进行更新。
在这个策略网络中,编码器负责对节点特征、车辆特征和位置特征进行一次性处理,而车辆选择解码器和节点选择解码器则在路径构建过程中多次执行,直至构建出完整的路径解决方案。每一步的选择都基于当前的部分解和全局的路径规划状态进行优化调整。
这种架构的设计目的是实现复杂路径规划问题的高效求解。通过独立的车辆选择解码器和节点选择解码器,网络能够灵活应对异构车辆和多样化客户需求的场景。车辆选择解码器根据车辆的状态(如剩余载重、行驶路径等)来优化车辆的调度,避免车辆过载或未充分利用的情况。同时,节点选择解码器专注于客户节点的选择,考虑因素包括节点的需求、位置等,确保每一步的路径选择能够最大化满足需求(
此外,这种设计通过将路径构建问题分解为车辆选择和节点选择两个独立但相互关联的子问题,减少了决策复杂度,提升了策略网络的泛化能力。在这个框架中,编码器可以看作是全局信息的提取模块,而解码器则根据不同的状态信息做出针对性的局部决策。这种分层决策机制使得该方法在处理复杂路径规划问题时能够保持较高泛化能力。
编码器将问题实例的原始特征(即客户位置、客户需求和车辆容量)嵌入到更高维空间中,然后通过注意力层对其进行处理,以更好地进行特征提取(
对于网络输入的位置特征(Positional Feature) 通过位置编码器(Positional Embedding)进行处理,将位置特征映射到高维特征空间,生成每个节点的位置特征嵌入。如公式(20)所示,其中 , 为位置特征嵌入后的特征维度。
(20)
然后,位置嵌入特征 经过线性层 ,转换为适合后续处理的特征 ,具体表现为公式(21),其中,线性变换的权重矩阵为 ,偏置项设为 。
(21)
节点特征(Node Feature)则通过卷积神经网络(CNN Embedding)进行编码处理。对于每一个节点的特征 ,通过卷积网络提取节点特征的局部信息,特征提取后得到节点特征的高维表示 。
(22)
然后,节点嵌入特征 经过线性层 ,转换为适合后续处理的特征 ,具体实现细节见表征式(23),其中,线性变换的权重矩阵为 ,偏置项设为 。
(23)
位置特征和节点特征分别经过各自的编码器处理后,输出的位置嵌入特征 和节点嵌入特征 通过 拼接操作整合在一起得到特征 ,以便后续阶段的特征融合和路径决策。拼接后的特征表示为:
(24)
位置嵌入特征 和节点嵌入特征 通过线性层得到特征 和 ,以确保特征能够在同一维度上进行交互和计算。传统的车辆路径规划方法在处理异构车队和复杂路径时,通常面临两个主要缺点:局部依赖性和顺序处理效率低下。这些方法难以捕捉节点之间的全局依赖关系,无法同时高效处理车辆和节点的多维度特征,尤其是在节点数量庞大或路径复杂时,容易导致计算效率低且结果不佳。因此本文基于transformer架构基础上提出了一种Transformer通道特征扩展模块(Transformer channel feature extension),该模块采用偏移注意力机制,针对车辆路径规划过程中局部特征学习时可能出现的特征丢失、梯度消失及过拟合问题,通过设计通道特征扩展结构,在通道维度上实现特征增强,同时可以并行处理所有节点,捕捉全局的节点间关系,从而在异构车队路径规划问题中提供更灵活、更准确的决策。具体实现细节见表征式(24)。
为了进一步优化特征的提取与融合,设计并应用了TransCFE模块,用于在不同特征维度上进行通道扩充和优化。具体来说,TransCFE模块分别作用于位置特征、节点特征以及连接特征,确保在各个特征层次上都能够充分利用通道维度的表达能力,具体公式如下(
位置特征的通道特征扩充:
(25)
其中, 表示第 个位置特征的初始编码。通过TransCFE模块对其进行通道维度的扩展和聚合操作,生成增强后的位置特征 。这一过程能够在位置特征层次上聚合更多的空间信息,有效提升模型对位置信息的表达能力。
节点特征的通道特征扩充:
(26)
对于路径规划任务中的每个节点特征 ,本文通过TransCFE模块进行通道扩展和特征优化,从而生成优化后的节点特征 。这一过程通过对节点特征的通道维度进行深度融合,提升了模型对不同节点之间复杂关系的理解能力,有助于提高路径规划的精度。
特征融合后的通道特征扩充:
(27)
是多种特征(如位置特征与节点特征)进行融合后的结果。通过将融合特征输入到TransCFE模块中,本文能够在通道维度上进一步提升特征的表达能力,得到优化后的融合特征 。此过程使得多源信息能够在统一的特征空间中进行有效融合与调整,进而提升模型的整体性能。
通过对位置特征、节点特征和融合特征分别进行TransCFE处理,本文确保了特征在不同层次上的表达能力得以充分发挥。在路径规划过程中,TransCFE模块的引入不仅改善了特征丢失问题,还显著提高了模型对复杂场景的适应能力。该模块应用于MFF-HVPP中的特征提取与融合阶段,分别集成到特征的聚合和更新过程中。其目的是通过通道维度的优化提升特征表达的多样性,从而提高模型的泛化能力和路径规划的精度。TransCFE模块的详细实现过程如下:
(1) 在车辆路径规划中,由于数据特征的多样性、复杂性,以及在不同道路和环境下的高度变化性,直接采用全局注意力机制会带来计算负担。为此,本文设计了Transformer通道注意力机制,旨在降低计算成本的同时提升特征聚合效果。具体而言,该机制通过在输入特征的通道维度上进行局部邻域特征聚合,获得增强的特征表示。其主要步骤包括:
对输入特征 进行通道维度的聚合,应用线性层 和归一化层Batchnorm,以逐点的方式进行特征变换和归一化处理,从而得到增强后的特征 。相关计算公式见公式(28)和(29):
(28)
(29)
这种方式不仅保留了局部特征的完整性,同时避免了全局注意力的高计算成本。
(2) 特征变换。为了进一步降低梯度消失的风险,并提升特征学习的效果,采用了残差连接机制。具体做法是将学习到的特征 与输入特征 进行残差连接,以确保梯度的稳定性。然后,通过线性层Linear2对特征进行逐点变换,生成新的特征 ,具体实现细节见表征式(30)。
(30)
在此基础上,使用层感知机MLP对特征进行进一步的几何和局部信息聚合,从而得到特征 。MLP的输入和输出维度均为4C,具体实现细节见表征式(31)。
(31)
(3) 通道维度特征扩充与调整。在车辆路径规划的特征聚合过程中,引入通道维度上的特征扩充。具体做法是通过Reduction模块对特征进行扩充,将特征 复制4次,得到扩展后的特征 。然后,通过MLP对这些扩展后的特征进行逐点变换,丰富特征的表达能力,具体实现细节见表征式(32)。此时,多层感知机MLP输入输出设置为N*4C。
(32)
特征 再次通过多层感知机MLP聚合几何信息实现通道维度上的调整,得到特征 ,具体实现细节见表征式(33)。通过上述操作后,其输出被调整为N*C。
(33)
这一过程显著增强了逐点特征提取的能力,并改善了特征在不同采样阶段的传递效果。
(4) 残差连接与激活。为了缓解网络深度增加所带来的梯度消失问题,本文在输入和输出之间加入了残差连接,并通过ReLU激活函数对输出特征进行非线性变换,生成最终的特征 。这种设计既能保持特征的原始信息,又能提升网络的非线性拟合能力具体实现细节见表征式(34)。
(34)
通过上述TransCFE模块的设计与应用,本文在通道维度上实现了特征的高效扩充,显著提升了异构车辆路径规划问题中特征提取与融合的效果。该模块不仅能缓解梯度消失问题,还能增强特征的表达能力,使得模型在大规模调度任务中表现更加出色。此外,通过通道特征的逐点变换与扩展操作,TransCFE模块在优化模型的泛化能力与稳定性方面发挥了重要作用。
为了进一步增强空间位置信息在整体特征中的重要性,通过FutrueFussion模块融合位置特征和融合特征。初步的特征融合可以捕捉节点特征与位置信息的基本关联,但再次通过与位置特征融合可以增强空间信息的影响力,确保模型能够更准确地理解节点在不同位置上的表现,从而提高空间节点特征的学习效果。
(35)
同时,为了进一步增强节点特征和位置两者之间的互补关系,通过FutrueFussion模块融合节点特征和融合特征。通过初步的特征融合,模型可以捕捉到节点的空间位置信息与其特性之间的关联性,而再次与节点特征融合可以使模型更好地整合这些信息,提升节点本身的表示能力。具体实现细节见表征式(36)
(36)
当网络更深时,为了缓解梯度消失的问题,在输入和输出之间添加一个残差 网络连接以弥补特征聚合过程中的损失以及防止过拟合。具体实现细节见表征式(37)。
(37)
为了减少不同模态特征之间数值尺度的差异,首先对融合后的特征进行LayerNorm归一化处理。特征 和 的特征归一化的具体实现细节见表征式(38)。归一化操作能够平衡特征的数值差异,使得后续的训练过程更加稳定。
(38)
归一化后的特征经过前馈神经网络(Feed Forward Network, FFN)处理,以进一步提取深层次的特征。前馈神经网络通常包含Linear全连接层和Relu非线性激活函数。对于不同的特征 和 分别进行处理,具体实现细节见表征式(39)。这种网络结构能够对特征进行更深层次的特征提取,确保网络模型能够捕获到更高层次的特性信息。
(39)
对于经过前馈神经网络处理后的特征通过加一个残差网络连接以弥补特征提取过程中的损失以及防止过拟合,同时通过LayerNorm归一化进行处理,平衡特征的数值差异,得到特征 和 ,具体实现细节见表征式(40)。
(40)
节点特征和位置特征经过多层特征提取后通过FutrueFussion模块进行再融合,其目的是为了在各自的特征空间中充分提取出有用的高层次信息,并增强节点和位置信息的表达能力。同时,确保节点特征和位置特征在融合之前,两类特征能够保持各自的独立性,同时能够更好地捕捉更复杂的交互关系,
(41)
同时,对于多特征融合处理的特征 通过LayerNorm归一化进行处理,平衡特征的数值差异,同时通过一个残差网络连接以弥补特征提取过程中的损失,得到特征 ,具体实现细节见表征式(42)。
(42)
(43)
在经过若干层的归一化和前馈神经网络处理后,所有节点的特征会进行池化操作。均值池化(Mean Pooling)通过对所有节点特征求平均,生成整个图的全局特征表示:
(44)
其中, 是节点的数量,均值池化可以有效地整合整个图中节点的信息,整合为一个全局特征向量,生成一个全局的特征 。
最后,池化后的全局特征 经过线性变换,得到适用于下游任务的特征表示:
(45)
全局特征 可以用于后续的路径规划、节点分类等任务,作为整个编码器的输出。
不同的车辆在不同的状态、路径、任务目标下可能有不同的优先级,因此车辆选择解码器通过综合分析车辆和路径的特征,选择出最适合当前任务的车辆
车辆特征嵌入(Vehicle Feature Embedding)
车辆特征通过嵌入层来表示每辆车的状态,输入的特征包括车辆的当前位置信息、累计行驶时间等。其中,第 辆车的状态特征为 ,通过线性变换将其映射到新的特征空间,得到特征 ,具体实现细节见表征式(46),其中 为权重矩阵, 为偏置项。
(46)
路径特征嵌入(Route Feature Embedding)
路径特征通过嵌入层表示当前车辆路径的信息。其中,每辆车已经访问的路径特征为 ,路径特征通过最大池化层MaxPooling进行操作提取主要特征最终得到特征 ,通过线性变换将其映射到新的特征空间,得到特征 ,具体实现细节见表征式(47)和(48)。
(47)
(48)
车辆与路径特征的前馈网络处理
处理完成后的车辆特征 和路径特征 分别经过独立的前馈神经网络(Feed Forward Network, FFN)进行处理,前馈网络包括线性变换和激活函数:
(49)
特征拼接(Concat)
经过前馈网络处理后的车辆特征和路径特征通过拼接操作整合在一起,以便后续的特征融合和决策。拼接后的特征表示为:
(50)
该表示将车辆状态与路径状态结合,提供更丰富的信息用于车辆选择。
线性层
拼接后的特征向量 会通过线性层进行投影,生成一个表示该车辆是否适合被选择的分数:
(51)
该分数通过线性层计算后,反映了当前状态下选择该车辆的优先级。
最终,所有车辆的分数会通过Softmax操作转化为概率分布,表示每辆车被选择的概率:
(52)
其中mmm是车辆的数量,Softmax确保所有车辆的选择概率总和为1。
根据Softmax输出的概率分布,通过最大化选择概率值的方法选出最优的车辆 。
(53)
该车辆将被选中执行当前的任务,后续的节点选择解码器会进一步为该车辆选择要访问的节点。
节点选择解码器的核心作用是基于车辆选择结果和全局特征,从一组候选节点中选出最优节点,作为下一步车辆将访问的目标节点。在路径规划和任务分配等复杂任务中,节点的选择对车辆的行驶路径和任务的完成起着至关重要的作用。因此,节点选择解码器的设计考虑了多种特征输入,通过多层特征处理和概率化输出,最终选择最合适的节点(
车辆选择结果(Vehicle Selection Result)
车辆选择结果来自于上一步的车辆选择解码器,表示当前被选中的车辆。车辆解码器中车辆选择结果表示为 ,通过线性变换 将其映射到一个新的特征空间:
(54)
这里, 是线性变换的权重矩阵, 是偏置项。
全局特征(Global Feature)
全局特征 是从整个网络中提取出的综合特征,经过线性层处理后,与车辆选择结果进行融合
(55)
该操作将全局特征映射到与车辆特征相同的维度,便于后续的特征融合。
特征融合
车辆选择结果和全局特征经过各自的线性变换后,进行特征拼接操作,整合车辆选择和全局信息:
(56)
融合后的特征包含了当前选择车辆的状态信息以及全局网络的特征。
扩展转换(EXP-Trans)
(57)
兼容性评分
在经过扩展转换后,模型需要计算每个候选节点与当前车辆和全局状态的兼容性。假设有 个候选节点,扩展转换后的特征与每个节点的嵌入 进行兼容性计算。兼容性评分可以使用内积或其他相似性度量来计算:
(58)
兼容性评分 反映了当前特征与候选节点 之间的相似性或匹配程度。
Softmax归一化
对所有候选节点的兼容性评分 进行Softmax操作,转换为每个节点被选中的概率:
(59)
Softmax操作确保所有候选节点的选择概率总和为1。
节点选择
根据Softmax输出的概率 ,可以通过最大化概率的方式选择最优节点 :
(60)
最优节点 是与当前车辆最匹配的节点,表示模型选择的下一步行动目标。
为了验证本文所提出的基于多特征融合的异构车辆路径规划算法的有效性,本文设计了一系列实验,以针对不同规模的车辆路径规划问题场景进行了不同的测试。这些实验的核心目标是评估算法在异构车辆路径规划问题(HCVRP)中的求解性能,包括在解决复杂问题时的计算效率、结果精度和求解时间。此外,本文还通过与其他经典算法进行对比,分析各类算法在不同场景下的优势以及不足。在本节的实验中,异构车辆具有不同的容量和速度,所有车辆从仓库出发,访问客户节点,完成路径规划任务。
为了模拟真实世界场景中的物流运输场景,本文对客户的节点和车辆的配置进行了详细设计。客户需求设置中,客户的需求值从集合{1, 2, 3, 4, 5, 6, 7, 8, 9}中随机抽取,代表了客户的不同配送需求,仓库的需求设置为0。客户节点位置和仓库节点位置的设置中,所有车辆的起始点为仓库,客户节点和仓库节点均匀分布在单位平方为 的二维平面内,采用了均匀分布随机抽样。同时,本文为实验设置了两种不同规模的车辆队伍,分为V3车队和V5车队。V3车队由3辆异构车辆组成,车辆的容量分别设定为20、25和30,客户节点数量为40、60、80、100和120。V5车队由5辆异构车辆组成,车辆的容量分别设定为20、30、35、40和50,客户节点数量设为80、100、120、140和160。通过这种设计,本文可以测试所提出的多特征融合的异构车辆路径规划算法在不同规模问题上的适应性,确保算法在面对不同数量的客户节点和车辆配置时,能够提供高效率和高精度的路径规划。
车辆速度的不同会对路径规划产生显著影响,特别是在异构车队的路径规划问题当中,如何合理分配车辆任务成为算法的关键挑战之一。因此,本文在实验中针对不同的车队配置了不同的速度组合。Min-Max HCVRP最小化最大行驶距离的异构车辆路径规划问题中将速度 简化为1。对于Min-Sum HCVRP
最小化总行驶距离的异构车辆路径规划问题,在V3车队中,每辆车的速度分别为 , 和 。在V5车队中,每辆车的速度分别为 , , , 和 。
这种速度配置可以模拟现实中不同车辆性能的差异,进一步验证算法的负载均衡性和调度灵活性。
本文提出的车辆路径规划算法采用了深度强化学习(DRL)框架进行训练。为保证模型能够适应复杂场景,训练数据均为随机生成,涵盖了不同规模的客户节点和车辆配置。训练Batch批次为2500,训练总规模达到128万个实例,以确保本文所提出的算法在足够多的样本下学习路径规划策略。同时,在训练过程中,模型通过策略网络不断优化,学习在不同场景中如何有效调度异构车辆,找到最优的行驶路径。本文还引入了学习率衰减机制,以确保模型在迭代过程中逐步收敛,避免过拟合问题的出现。每个场景的训练均在最大时间限制内完成,最终选择表现最优的模型进行测试和评估。
本文在实验中采用了三个核心指标来系统评估算法的性能,分别为:obj、gap和time。以下是这些指标的详细解释:
obj (目标函数值):这是评估车辆路径规划问题的核心目标函数值,表示所有车辆完成配送任务的总行驶距离。该值越小,表示算法规划的路径越优,路径规划的效率越高。本文记录了各个场景下算法找到的最优obj值,并将其与已知的基准解进行对比。
(61)
其中, 是车辆的总数, 代表客户节点的总数, 表示车辆从节点 到节点 的距离, 则表示第 辆车是否经过节点 。
gap (相对误差率):用于评估算法的求解精度,通过计算求解结果与已知最优解之间的相对误差。其公式定义为:
(62)
obj为算法求解得到的目标函数值, 是已知的全局最优解。同时,求得的gap值越小,表示算法的求解精度越高,越接近全局最优解。在实验中,本文对不同规模的问题实例计算gap,以验证算法在大规模问题中的性能表现。
time (计算时间):该指标用于评估算法从开始运行到结束的总计算时间,time越短说明算法在处理复杂场景时的计算效率越高。
本文所采用的所有实验均在一台配置为两张NVIDIA RTX 3090 GPU、Intel Core I9 CPU和64 GB内存的高性能工作站上进行。本文提出的多特征融合算法基于PyTorch框架,并在CUDA环境下进行并行加速计算。为了提高算法的收敛速度和稳定性,本文采用了Adam优化器,并在训练过程中逐步衰减学习率,以确保模型能够高效收敛。
在现代物流系统中,车辆路径优化问题(HCVRP)是提高物流运营效率的关键因素,尤其在面对大规模客户需求、多种运输工具和复杂的配送路线时。为了应对这一挑战,本研究通过两种典型的HCVRP问题(Min-Max HCVRP和Min-Sum HCVRP)进行实验,针对物流运输中的不同需求设置了两种车辆配置(V3和V5),并生成了大量解方案(1280和12800),评估了多种经典算法和本文提出方法在不同物流场景下的表现。
在实际物流系统中,目标是通过优化车辆行驶路线,降低运营成本,提高客户响应速度,并确保运输资源的合理配置。因此,实验不仅关注目标函数值(Obj)和相对误差率(Gap),还特别注重计算时间(Time),因为在物流系统中,快速求解高效路径对于实时调度至关重要。
在物流调度中,Min-Max HCVRP的优化目标是通过均衡各车辆的最大行驶距离,确保运输任务的均衡分配,避免车辆过度负载或闲置,从而提高整个物流系统的运营效率。在Min-Max HCVRP中,优化目标是最小化所有车辆中的最大行驶距离,以确保车辆负载的均衡性。通过V3和V5配置的不同车辆组合,本文分析了SISR、VNS、ACO、FA等经典算法与本文提出方法(MFF-Greedy和MFF-Sample1280)在各个场景中的性能。
目标函数值(Obj):在V3配置下(如V3-C100和V3-C120),MFF-Sample1280方法在优化最大行驶距离方面表现优异。在V3-C120场景中,MFF-Sample1280的Obj值为10.52,相比SISR的10.81和ACO的11.79,优化幅度达到10.8%。在V5配置下(如V5-C100和V5-C120),MFF方法同样展现了显著的优势,尤其在复杂问题中,MFF-Sample1280的Obj值为15.66,显著优于传统算法的表现。
相对误差率(Gap):在Min-Max HCVRP中,MFF方法的Gap值显著低于其他算法,表明其在接近最优解方面的能力更强。例如,在V3-C120场景中,MFF-Sample1280的Gap值为1.34%,而ACO和FA的误差率分别为4.13%和9.47%。在V5-C120场景中,MFF-Sample1280的Gap为1.07%,相比于VNS的2.96%和ACO的8.85%,显示出更强的求解精度。
计算时间(Time):在计算时间方面,MFF方法通过概率抽样生成的多解策略(如Sample1280和Sample12800),显著减少了在高维度输入下的求解时间。例如,在V3-C120场景中,MFF-Sample1280的求解时间为8.66 s,相比于SISR的13,785 s,大幅缩短了求解时间。这种时间优势使得MFF方法在需要实时响应的物流场景中具有较强的竞争力(
Method |
V3-C40 |
V3-C60 |
V3-C80 |
V3-C100 |
V3-C120 |
|||||||||||
Obj |
Gap |
Time |
Obj |
Gap |
Time |
Obj |
Gap |
Time |
Obj |
Gap |
Time |
Obj |
Gap |
Time |
||
Min-max |
SISR |
4.00 |
0% |
245 s |
5.58 |
0% |
468 s |
7.27 |
0% |
752 s |
8.89 |
0% |
1135 s |
10.42 |
0% |
1657 s |
VNS |
4.17 |
4.25% |
115 s |
5.80 |
3.94% |
294 s |
7.57 |
4.13% |
612 s |
9.20 |
3.49% |
927 s |
10.81 |
3.74% |
1378 s |
|
ACO |
4.31 |
7.75% |
209 s |
6.18 |
10.75% |
317 s |
8.14 |
11.97% |
601 s |
10.05 |
13.05% |
878 s |
11.79 |
13.15% |
1242 s |
|
FA |
4.49 |
12.25% |
168 s |
6.30 |
12.90% |
285 s |
8.32 |
14.44% |
397 s |
10.11 |
13.72% |
522 s |
11.98 |
14.97% |
667 s |
|
AM (Greedy) |
4.85 |
21.25% |
0.37 s |
6.57 |
17.74% |
0.54 s |
8.32 |
14.44% |
0.82 s |
9.98 |
12.26% |
1.07 s |
11.63 |
11.61% |
1.28 s |
|
AM (Sample1280) |
4.36 |
9.00% |
0.88 s |
5.99 |
7.39% |
1.19 s |
7.73 |
6.33% |
1.81 s |
9.36 |
5.29% |
2.51 s |
10.94 |
4.99% |
3.37 s |
|
AM (Sample12800) |
4.31 |
7.75% |
1.35 s |
5.92 |
6.09% |
2.46 s |
7.66 |
5.36% |
3.67 s |
9.28 |
4.39% |
5.17 s |
10.85 |
4.13% |
6.93 s |
|
MFF (Greedy) |
4.45 |
11.03% |
0.69 s |
6.01 |
8.77% |
0.80 s |
7.81 |
7.51% |
1.10 s |
9.53 |
6.00% |
1.42 s |
10.92 |
5.22% |
1.87 s |
|
MFF (Sample1280) |
4.17 |
4.17% |
1.19 s |
5.57 |
3.36% |
1.41 s |
7.38 |
2.85% |
2.26 s |
9.05 |
2.11% |
3.22 s |
10.60 |
1.91% |
4.48 s |
|
MFF (Sample12800) |
4.14 |
3.34% |
1.61 s |
5.23 |
2.64% |
2.92 s |
7.44 |
2.32% |
4.61 s |
9.01 |
1.34% |
6.70 s |
10.52 |
1.31% |
8.66 s |
|
Min-sum |
Exact-solver |
55.43* |
0% |
71 s |
78.47* |
0% |
214 s |
102.42* |
0% |
793 s |
124.61* |
0% |
2512 s |
- |
- |
- |
SISR |
55.79 |
0.65% |
(254 s) |
79.12 |
0.83% |
−478 |
103.41 |
0.97% |
763 s |
126.19 |
1.27% |
(1140 s) |
149.1 |
0% |
1667 s |
|
VNS |
57.54 |
3.81% |
109 s |
81.44 |
3.78% |
291 s |
106.18 |
3.67% |
547 s |
129.32 |
3.78% |
828 s |
152.56 |
2.32% |
1217 s |
|
ACO |
60.11 |
8.44% |
196 s |
86.05 |
9.66% |
302 s |
113.75 |
11.06% |
593 s |
140.61 |
12.84% |
859 s |
166.5 |
11.67% |
1189 s |
|
FA |
59.94 |
8.14% |
164 s |
85.36 |
8.78% |
272 s |
112.81 |
10.14% |
388 s |
138.92 |
11.48% |
518 s |
164.53 |
10.35% |
653 s |
|
AM (Greedy) |
66.54 |
20.04% |
0.49 s |
91.19 |
16.21% |
0.83 s |
117.22 |
14.45% |
1.01 s |
141.14 |
13.27% |
1.23 s |
164.57 |
10.38% |
1.41 s |
|
AM (Sample1280) |
60.95 |
9.96% |
0.92 s |
85.74 |
9.26% |
1.17 s |
111.78 |
9.14% |
1.79 s |
135.61 |
8.83% |
2.49 s |
159.11 |
6.71% |
3.30 s |
|
AM (Sample12800) |
60.26 |
8.71% |
1.35 s |
84.96 |
8.27% |
2.31 s |
110.94 |
8.32% |
3.61 s |
134.72 |
8.11% |
5.19 s |
158.11 |
6.10% |
6.86 s |
|
MFF (Greedy) |
58.77 |
6.39% |
0.59 s |
82.98 |
5.77% |
0.99 s |
108.39 |
5.81% |
1.03 s |
131.72 |
5.73% |
1.53 s |
54.51 |
3.65% |
1.84 s |
Method |
V5-C40 |
V5-C60 |
V5-C80 |
V5-C100 |
V5-C120 |
|||||||||||
Obj |
Gap |
Time |
Obj |
Gap |
Time |
Obj |
Gap |
Time |
Obj |
Gap |
Time |
Obj |
Gap |
Time |
||
Min-max |
SISR |
3.90 |
0% |
727 s |
4.72 |
0% |
1091 s |
5.48 |
0% |
1572 s |
6.33 |
0% |
1863 s |
7.16 |
0% |
2521 s |
VNS |
4.15 |
6.41% |
725 s |
4.98 |
7.19% |
1046 s |
5.81 |
6.02% |
1454 s |
6.67 |
5.37% |
2213 s |
7.53 |
5.17% |
3321 s |
|
ACO |
4.50 |
15.38% |
612 s |
5.56 |
17.80% |
890 s |
6.47 |
18.07% |
1285 s |
7.52 |
18.80% |
2081 s |
8.51 |
18.85% |
2898 s |
|
FA |
4.61 |
18.21% |
412 s |
5.62 |
19.07% |
541 s |
6.58 |
20.07% |
682 s |
7.60 |
20.06% |
822 s |
8.64 |
20.67% |
964 s |
|
AM (Greedy) |
4.84 |
24.10% |
1.08 s |
5.70 |
20.76% |
1.31 s |
6.57 |
19.89% |
1.74 s |
7.49 |
18.33% |
1.93 s |
8.34 |
16.48% |
2.15 s |
|
AM (Sample1280) |
4.32 |
10.77% |
1.88 s |
5.18 |
8.75% |
2.64 s |
6.03 |
10.04% |
3.38 s |
6.93 |
9.48% |
4.47 s |
7.75 |
8.24% |
5.73 s |
|
AM (Sample12800) |
4.25 |
8.97% |
3.71 s |
5.11 |
8.26% |
5.19 s |
5.95 |
8.58% |
6.94 s |
6.86 |
8.37% |
8.73 s |
7.69 |
7.40% |
10.69 s |
|
MFF (Greedy) |
4.36 |
11.79% |
1.29 s |
5.20 |
10.17% |
1.64 s |
5.94 |
8.39% |
2.38 s |
6.78 |
7.11% |
2.43 s |
7.61 |
6.28% |
3.02 s |
|
MFF (Sample1280) |
4.08 |
4.62% |
2.66 s |
4.91 |
4.03% |
3.66 s |
5.66 |
3.28% |
5.08 s |
6.51 |
2.84% |
6.48 s |
7.34 |
2.51% |
8.52 s |
|
MFF (Sample12800) |
4.04 |
3.59% |
5.06 s |
4.87 |
3.18% |
7.20 s |
5.62 |
2.55% |
9.65 s |
6.47 |
2.21% |
10.93 s |
7.30 |
1.96% |
13.76 s |
|
Min-sum |
Exact-solver |
102.42* |
0% |
1787 s |
124.63* |
0% |
6085 s |
- |
- |
- |
- |
- |
- |
- |
- |
- |
SISR |
103.49 |
1.04% |
(735 s) |
126.35 |
1.38% |
(1107 s) |
149.18 |
0% |
(1580 s) |
172.88 |
0% |
(1881 s) |
196.51 |
0% |
(2539 s) |
|
VNS |
109.91 |
7.31% |
538 s |
133.28 |
6.94% |
811 s |
156.37 |
4.82% |
1386 s |
180.08 |
4.16% |
2080 s |
203.95 |
3.79% |
2896 s |
|
ACO |
118.58 |
15.78% |
608 s |
146.51 |
17.56% |
865 s |
171.82 |
15.18% |
1269 s |
200.73 |
16.11% |
1922 s |
229.64 |
16.86% |
2803 s |
|
FA |
116.13 |
13.39% |
401 s |
142.39 |
14.25% |
532 s |
167.87 |
12.53% |
677 s |
196.48 |
13.65% |
801 s |
223.49 |
13.73% |
955 s |
|
AM (Greedy) |
128.31 |
25.28% |
0.82 s |
152.91 |
22.69% |
1.28 s |
177.39 |
18.91% |
1.45 s |
201.85 |
16.76% |
1.69 s |
227.10 |
15.57% |
1.81 s |
|
AM (Sample1280) |
119.41 |
16.59% |
1.83 s |
144.23 |
15.73% |
2.66 s |
168.95 |
13.25% |
3.63 s |
193.65 |
12.01% |
4.68 s |
218.67 |
11.28% |
5.49 s |
|
AM (Sample12800) |
118.04 |
15.25% |
3.74 s |
142.79 |
14.57% |
5.20 s |
167.45 |
12.25% |
7.02 s |
192.13 |
11.13% |
8.93 s |
217.14 |
10.50% |
11.01 s |
|
MFF (Greedy) |
108.23 |
5.76% |
1.22 s |
131.83 |
5.86% |
1.66 s |
154.67 |
3.67% |
2.02 s |
178.65 |
3.29% |
3.01 s |
202.76 |
3.21% |
3.52 s |
|
MFF (Sample1280) |
105.44 |
2.97% |
2.67 s |
128.54 |
3.33% |
4.09 s |
151.23 |
1.39% |
5.25 s |
175.12 |
1.21% |
6.65 s |
199.02 |
1.32% |
8.64 s |
|
MFF (Sample12800) |
104.49 |
2.32% |
5.34 s |
128.15 |
2.79% |
7.57 s |
150.75 |
1.24% |
9.38 s |
174.55 |
1.04% |
11.21 s |
198.54 |
1.07% |
13.77 s |
在Min-Sum HCVRP中,目标是最小化所有车辆的总行驶距离,从而提升整体运输效率。实验结果表明,MFF方法在V3和V5两种车辆配置下均展现出卓越的性能(
目标函数值(Obj):在Min-Sum HCVRP问题中,MFF-Sample1280方法在优化总行驶距离上具有显著优势。在V5-C120场景中,MFF-Sample1280的Obj值为198.54,相比于VNS的207.36和ACO的223.49,优化了约11.1%。这种优势在大规模客户节点场景中尤为突出,表明MFF方法在复杂路径优化问题中,能够更高效地减少整体运输成本。
相对误差率(Gap):MFF方法的误差率在多个实验场景中显著低于其他方法,特别是在大规模问题中。在V5-C120场景下,MFF-Sample1280的Gap为1.96%,相比ACO的8.85%和FA的11.28%,展现出更高的求解精度。低误差率意味着MFF方法能够更准确地找到接近最优的路径规划方案,为物流调度提供更可靠的决策支持。
计算时间(Time):在计算时间方面,MFF方法利用概率抽样生成的多解策略显著提高了求解效率。例如,在V5-C120场景中,MFF-Sample1280的求解时间为13.75 s,相比ACO的28,985 s和FA的955 s,时间效率提升了多个数量级。即使在最复杂的场景中,MFF方法依然能够在较短时间内完成求解,体现了其在大规模物流问题中的应用价值。
经典启发式算法的表现:SISR、VNS和ACO等经典启发式算法在小规模场景中求解质量较高,但随着客户节点数量的增加,求解时间和误差率显著增加,表现出较大的计算瓶颈。相比之下,MFF方法通过深度学习与概率抽样相结合的策略,能够更高效地应对大规模复杂输入,求解精度显著提高。
基于概率抽样的优势:通过生成1280或12,800个解方案,MFF方法能够在高维特征空间中更广泛地探索最优解。与AM-Greedy等强化学习方法相比,MFF的Sample1280策略在求解精度上更具优势,同时在求解速度上也保持了较高的效率。
V3与V5配置的影响:V3和V5两种车辆配置分别适用于不同规模的客户节点场景。在V5配置下,由于车辆数量和容量的增加,使得总运输任务能够更好地分配到各辆车上,MFF方法在这种场景中的优化效果尤为显著。通过调整抽样数量(如1280和12,800),进一步提升了对复杂调度任务的适应能力。
实验结果表明,本文提出的多特征融合方法在处理Min-Max HCVRP和Min-Sum HCVRP时,均展现出了卓越的性能优势。特别是通过概率抽样策略,MFF方法能够在大规模复杂场景下有效平衡计算时间和求解精度,显著提升了负载均衡性和整体运输效率。结合V3和V5的不同车辆配置,无论是均衡各车辆的负载还是最小化总运输成本,MFF方法都能在较短时间内提供接近最优的解决方案,具有重要的实际应用价值。这一研究为智能物流系统的路径规划提供了新的思路,未来在实际物流环境中的应用前景广阔。
本文针对异构车队车辆路径规划(HCVRP)中多目标协同优化与动态约束的难题,提出了一种基于深度强化学习的多特征融合框架(MFF-HVPP),在理论与实验层面取得显著提升。在理论建模方面,通过马尔可夫决策过程(MDP)对HCVRP进行动态建模,构建了包含车辆状态与节点状态的复合状态空间,并结合双模态动态奖励函数,分别实现了最小化最大行程时间(min-max)与总行程时间(min-sum)的优化目标,为解决多目标冲突提供了可扩展的数学框架。
在算法设计层面,本文提出多特征融合编码器,结合卷积神经网络(CNN)与位置嵌入技术,分别提取节点需求的局部特征与空间拓扑的全局依赖关系;通过引入Transformer通道特征扩展模块(TransCFE),实现通道维度的特征聚合与残差连接,有效缓解传统注意力机制中的梯度消失与过拟合问题,显著提升了模型对异构车辆与动态需求的建模能力。同时,为了降低高维解空间的搜索复杂度,网络采用了分层解码架构,将路径规划解耦为车辆调度与节点选择的序列决策过程:其中车辆选择解码器基于实时车辆状态与全局特征动态分配任务,节点选择解码器则通过兼容性计算筛选最优访问节点,并结合概率化抽样策略实现平衡全局优化与局部搜索效率。
实验验证表明,MFF-HVPP在两类典型HCVRP任务中均展现出显著优势。在120客户节点的min-max场景中,模型最大行程时间误差率(Gap)低至1.31%,较传统SISR算法优化幅度超10%,计算效率提升98%;在min-sum任务中,总行程时间优化误差率仅为1.07%,并且支持160个节点级场景实现13.77秒的实时响应。通过V3与V5异构车队配置的对比实验,进一步验证了模型在负载均衡与成本控制上的鲁棒性,尤其在复杂约束下仍能保持高效性与稳定性。
本研究不仅为智能物流系统的动态路径规划提供了高效、可扩展的解决方案,其方法论和模型框架还可迁移至无人机配送、多机器人协作等复杂优化问题,具有重要的工程应用价值。未来工作将聚焦于模型的实时动态需求与实时道路场景变化的适应性优化,推动智能调度技术在实际物流场景中的广泛落地,为物流行业提供技术支撑。
*通讯作者。